ICLR 2025 | 機(jī)器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了
現(xiàn)實(shí)世界的機(jī)器人距離科幻小說里的機(jī)器人世界還有多遠(yuǎn)?通用靈巧操控何時(shí)才能實(shí)現(xiàn)?朝著這一偉大的目標(biāo),研究通用靈巧操控軌跡跟蹤的 DexTrack 便應(yīng)用而生。
- 論文地址:https://arxiv.org/abs/2502.09614
- 代碼地址:https://github.com/Meowuu7/DexTrack
- 項(xiàng)目網(wǎng)站:https://meowuu7.github.io/DexTrack/
- YouTube 視頻:https://youtu.be/zru1Z-DaiWE
1. 動(dòng)機(jī)
賦予機(jī)器人像人一樣的靈巧操控技能是通往未來終極具身智能的重要一步。如何讓一個(gè)具身智能體獲得廣泛的靈巧操控技能一直是具身智能領(lǐng)域的一個(gè)重要問題。靈巧操控任務(wù)復(fù)雜且多樣,之前很多工作大多專注在特定技能的獲取(如抓取或者在手里轉(zhuǎn)動(dòng))。他們大多需要對(duì)單獨(dú)的任務(wù)進(jìn)行針對(duì)性的設(shè)計(jì),例如專門對(duì)某一種特定的任務(wù)設(shè)計(jì)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù),之后根據(jù)這樣的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練策略網(wǎng)絡(luò)來解決對(duì)應(yīng)的問題。這些難以遷移到不一樣的任務(wù)上的 reward 設(shè)計(jì)是通往通用操控技能的一個(gè)阻力。
所以為了實(shí)現(xiàn)通用的靈巧操控技能,我們首先需要任務(wù)表示層面的統(tǒng)一。此外,靈巧操控技能涉及到復(fù)雜的和隨時(shí)間變化的手 - 物接觸,復(fù)雜的物體運(yùn)動(dòng)軌跡。再考慮到對(duì)使用一個(gè)操控策略解決不同類型的操控任務(wù)的需求,得到一個(gè)通用的靈巧操控智能體對(duì)算法本身的設(shè)計(jì)也提出了很大的挑戰(zhàn)。
為了實(shí)現(xiàn)這一目標(biāo),我們將運(yùn)動(dòng)規(guī)劃以及控制的問題拆解開來,將不同種的靈巧操控技能重新統(tǒng)一到一個(gè)軌跡跟蹤控制的框架下,進(jìn)一步借助于大量的人類操控物體的數(shù)據(jù)作為跟蹤的目標(biāo),通過學(xué)習(xí)一個(gè)通用的軌跡跟蹤控制器,來一定程度上解決這個(gè)問題(圖 1)。
圖 1:?jiǎn)栴}的拆解和對(duì)通用軌跡跟蹤器的期待
2. DexTrack:通用軌跡跟蹤器的學(xué)習(xí)
2.1 統(tǒng)一的軌跡跟蹤任務(wù)表示
我們將不同類型的操控任務(wù)統(tǒng)一到一個(gè)軌跡跟蹤任務(wù)來完成任務(wù)表示層面的統(tǒng)一。在每個(gè)時(shí)刻,給定機(jī)器手和物體當(dāng)前的狀態(tài),以及下一步想要達(dá)到的狀態(tài),軌跡跟蹤控制器的任務(wù)是給出機(jī)器手當(dāng)前應(yīng)該執(zhí)行的動(dòng)作,從而通過執(zhí)行該動(dòng)作,機(jī)器手可以運(yùn)動(dòng)且和物體進(jìn)行交互,使得機(jī)器手以及物體實(shí)際達(dá)到的狀態(tài)與下一步想要達(dá)到的狀態(tài)相吻合。這樣的表示方式對(duì)不同的操控任務(wù)是比較適配的。對(duì)一個(gè)任務(wù),比如將物體轉(zhuǎn)動(dòng)一個(gè)角度,我們可以先規(guī)劃出來物體的運(yùn)動(dòng)軌跡,之后將這個(gè)任務(wù)轉(zhuǎn)化為跟蹤物體運(yùn)動(dòng)軌跡的軌跡跟蹤任務(wù)。
圖 2:軌跡跟蹤器的輸入和輸出
2.2 通用軌跡跟蹤器的學(xué)習(xí)方法
一個(gè)通用的軌跡跟蹤需要可以響應(yīng)各種各樣的軌跡跟蹤命令。這一多樣的軌跡空間對(duì)該軌跡跟蹤器的學(xué)習(xí)提出了更高的挑戰(zhàn)。我們提出了一個(gè)將 RL 和 IL 結(jié)合起來的方法,在 RL 訓(xùn)練的同時(shí)引入監(jiān)督信號(hào)來降低 policy 學(xué)習(xí)的難度。通過交替地使用高質(zhì)量的軌跡跟蹤數(shù)據(jù)輔助通用軌跡跟蹤控制器的學(xué)習(xí),以及借助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質(zhì)量,我們可以逐漸得到一個(gè)強(qiáng)大的可以跟蹤各種各樣軌跡的控制器(圖 3)。
圖 3:通用軌跡跟蹤器的訓(xùn)練方法
2.2.1 軌跡跟蹤任務(wù)獎(jiǎng)勵(lì)函數(shù)
獎(jiǎng)勵(lì)函數(shù)主要由三部分組成:1)物體軌跡跟蹤獎(jiǎng)勵(lì),2)手部軌跡跟蹤獎(jiǎng)勵(lì),3)手和物體的親密度獎(jiǎng)勵(lì)。
2.2.2 通過 RL 和高質(zhì)量跟蹤演示數(shù)據(jù)來訓(xùn)練通用軌跡跟蹤器
通過在 policy 的訓(xùn)練過程中引入額外的監(jiān)督信息來降低這一通用軌跡跟蹤器學(xué)習(xí)的難度。
2.2.3 借助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質(zhì)量
我們?cè)O(shè)計(jì)了兩個(gè)策略來提高單一軌跡跟蹤演示的質(zhì)量,1)借助通用軌跡跟蹤器來初始化單一軌跡跟蹤策略的學(xué)習(xí),2) 借助 homotopy optimization 的方式,通過解決一系列的優(yōu)化任務(wù)來降低特定軌跡跟蹤任務(wù)優(yōu)化的難度(圖 4)。
圖 4:Homotopy Optimization
3. 結(jié)果
我們的方法在極具挑戰(zhàn)性的任務(wù)上達(dá)到了令人矚目的效果。同時(shí)我們也進(jìn)行了大量的真機(jī)實(shí)驗(yàn)來驗(yàn)證它在真實(shí)世界中的可行性。我們的機(jī)器手可以轉(zhuǎn)動(dòng)并嘗試 “安裝” 一個(gè)燈泡。在 functional tool using 方面,我們也可以在手中調(diào)整一個(gè)刀使得刀可以刀刃向下來切東西,可以在手中轉(zhuǎn)動(dòng)一個(gè)錘子,并使用正確的朝向來錘東西。因?yàn)楂@得這些動(dòng)作的人手軌跡比較困難,我們通過只跟蹤物體軌跡來實(shí)現(xiàn)這些效果。這也證明了我們的方法可以拓展到稀疏物體軌跡跟蹤的應(yīng)用上。
圖 5:Real World 結(jié)果展示(Part 1)
以下是更多的真機(jī)實(shí)驗(yàn)展示。
圖 6:Real World 結(jié)果展示(Part 2)
在 simulator 中,我們對(duì)這些包含復(fù)雜的物體的運(yùn)動(dòng)軌跡,精巧的微轉(zhuǎn),以及非常細(xì)的難以抓起來的物體仍然是有效的。
圖 7:Isaac Gym 中的不同方法的比較
此外,homotopy optimization 可以有效地提高軌跡跟蹤的效果。
圖 8:Homotopy Optimization 的有效性
我們的研究對(duì)運(yùn)動(dòng)軌跡中的噪聲比較魯棒,也可以泛化到從來沒有見過的物體的種類以及運(yùn)動(dòng)的類別上。
圖 9:Robustness
更多的結(jié)果:
圖 10:更多的結(jié)果
開源代碼:https://github.com/Meowuu7/DexTrack
更多的動(dòng)畫演示和相關(guān)信息可見項(xiàng)目網(wǎng)站:https://meowuu7.github.io/DexTrack/