自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 | 機(jī)器人安燈泡、切東西都能拿捏,可操控軌跡跟蹤的DexTrack來了

人工智能 新聞
賦予機(jī)器人像人一樣的靈巧操控技能是通往未來終極具身智能的重要一步。如何讓一個(gè)具身智能體獲得廣泛的靈巧操控技能一直是具身智能領(lǐng)域的一個(gè)重要問題。

現(xiàn)實(shí)世界的機(jī)器人距離科幻小說里的機(jī)器人世界還有多遠(yuǎn)?通用靈巧操控何時(shí)才能實(shí)現(xiàn)?朝著這一偉大的目標(biāo),研究通用靈巧操控軌跡跟蹤的 DexTrack 便應(yīng)用而生。

  • 論文地址:https://arxiv.org/abs/2502.09614
  • 代碼地址:https://github.com/Meowuu7/DexTrack
  • 項(xiàng)目網(wǎng)站:https://meowuu7.github.io/DexTrack/ 
  • YouTube 視頻:https://youtu.be/zru1Z-DaiWE

1. 動(dòng)機(jī)

賦予機(jī)器人像人一樣的靈巧操控技能是通往未來終極具身智能的重要一步。如何讓一個(gè)具身智能體獲得廣泛的靈巧操控技能一直是具身智能領(lǐng)域的一個(gè)重要問題。靈巧操控任務(wù)復(fù)雜且多樣,之前很多工作大多專注在特定技能的獲取(如抓取或者在手里轉(zhuǎn)動(dòng))。他們大多需要對(duì)單獨(dú)的任務(wù)進(jìn)行針對(duì)性的設(shè)計(jì),例如專門對(duì)某一種特定的任務(wù)設(shè)計(jì)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù),之后根據(jù)這樣的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練策略網(wǎng)絡(luò)來解決對(duì)應(yīng)的問題。這些難以遷移到不一樣的任務(wù)上的 reward 設(shè)計(jì)是通往通用操控技能的一個(gè)阻力。

所以為了實(shí)現(xiàn)通用的靈巧操控技能,我們首先需要任務(wù)表示層面的統(tǒng)一。此外,靈巧操控技能涉及到復(fù)雜的和隨時(shí)間變化的手 - 物接觸,復(fù)雜的物體運(yùn)動(dòng)軌跡。再考慮到對(duì)使用一個(gè)操控策略解決不同類型的操控任務(wù)的需求,得到一個(gè)通用的靈巧操控智能體對(duì)算法本身的設(shè)計(jì)也提出了很大的挑戰(zhàn)。

為了實(shí)現(xiàn)這一目標(biāo),我們將運(yùn)動(dòng)規(guī)劃以及控制的問題拆解開來,將不同種的靈巧操控技能重新統(tǒng)一到一個(gè)軌跡跟蹤控制的框架下,進(jìn)一步借助于大量的人類操控物體的數(shù)據(jù)作為跟蹤的目標(biāo),通過學(xué)習(xí)一個(gè)通用的軌跡跟蹤控制器,來一定程度上解決這個(gè)問題(圖 1)。

圖片

圖 1:?jiǎn)栴}的拆解和對(duì)通用軌跡跟蹤器的期待

2. DexTrack:通用軌跡跟蹤器的學(xué)習(xí)

2.1 統(tǒng)一的軌跡跟蹤任務(wù)表示

我們將不同類型的操控任務(wù)統(tǒng)一到一個(gè)軌跡跟蹤任務(wù)來完成任務(wù)表示層面的統(tǒng)一。在每個(gè)時(shí)刻,給定機(jī)器手和物體當(dāng)前的狀態(tài),以及下一步想要達(dá)到的狀態(tài),軌跡跟蹤控制器的任務(wù)是給出機(jī)器手當(dāng)前應(yīng)該執(zhí)行的動(dòng)作,從而通過執(zhí)行該動(dòng)作,機(jī)器手可以運(yùn)動(dòng)且和物體進(jìn)行交互,使得機(jī)器手以及物體實(shí)際達(dá)到的狀態(tài)與下一步想要達(dá)到的狀態(tài)相吻合。這樣的表示方式對(duì)不同的操控任務(wù)是比較適配的。對(duì)一個(gè)任務(wù),比如將物體轉(zhuǎn)動(dòng)一個(gè)角度,我們可以先規(guī)劃出來物體的運(yùn)動(dòng)軌跡,之后將這個(gè)任務(wù)轉(zhuǎn)化為跟蹤物體運(yùn)動(dòng)軌跡的軌跡跟蹤任務(wù)。

圖片

圖 2:軌跡跟蹤器的輸入和輸出

2.2 通用軌跡跟蹤器的學(xué)習(xí)方法

一個(gè)通用的軌跡跟蹤需要可以響應(yīng)各種各樣的軌跡跟蹤命令。這一多樣的軌跡空間對(duì)該軌跡跟蹤器的學(xué)習(xí)提出了更高的挑戰(zhàn)。我們提出了一個(gè)將 RL 和 IL 結(jié)合起來的方法,在 RL 訓(xùn)練的同時(shí)引入監(jiān)督信號(hào)來降低 policy 學(xué)習(xí)的難度。通過交替地使用高質(zhì)量的軌跡跟蹤數(shù)據(jù)輔助通用軌跡跟蹤控制器的學(xué)習(xí),以及借助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質(zhì)量,我們可以逐漸得到一個(gè)強(qiáng)大的可以跟蹤各種各樣軌跡的控制器(圖 3)。

圖片

圖 3:通用軌跡跟蹤器的訓(xùn)練方法

2.2.1 軌跡跟蹤任務(wù)獎(jiǎng)勵(lì)函數(shù)

獎(jiǎng)勵(lì)函數(shù)主要由三部分組成:1)物體軌跡跟蹤獎(jiǎng)勵(lì),2)手部軌跡跟蹤獎(jiǎng)勵(lì),3)手和物體的親密度獎(jiǎng)勵(lì)。

2.2.2 通過 RL 和高質(zhì)量跟蹤演示數(shù)據(jù)來訓(xùn)練通用軌跡跟蹤器

通過在 policy 的訓(xùn)練過程中引入額外的監(jiān)督信息來降低這一通用軌跡跟蹤器學(xué)習(xí)的難度。

2.2.3 借助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質(zhì)量

我們?cè)O(shè)計(jì)了兩個(gè)策略來提高單一軌跡跟蹤演示的質(zhì)量,1)借助通用軌跡跟蹤器來初始化單一軌跡跟蹤策略的學(xué)習(xí),2) 借助 homotopy optimization 的方式,通過解決一系列的優(yōu)化任務(wù)來降低特定軌跡跟蹤任務(wù)優(yōu)化的難度(圖 4)。

圖片

圖 4:Homotopy Optimization

3. 結(jié)果

我們的方法在極具挑戰(zhàn)性的任務(wù)上達(dá)到了令人矚目的效果。同時(shí)我們也進(jìn)行了大量的真機(jī)實(shí)驗(yàn)來驗(yàn)證它在真實(shí)世界中的可行性。我們的機(jī)器手可以轉(zhuǎn)動(dòng)并嘗試 “安裝” 一個(gè)燈泡。在 functional tool using 方面,我們也可以在手中調(diào)整一個(gè)刀使得刀可以刀刃向下來切東西,可以在手中轉(zhuǎn)動(dòng)一個(gè)錘子,并使用正確的朝向來錘東西。因?yàn)楂@得這些動(dòng)作的人手軌跡比較困難,我們通過只跟蹤物體軌跡來實(shí)現(xiàn)這些效果。這也證明了我們的方法可以拓展到稀疏物體軌跡跟蹤的應(yīng)用上。

圖 5:Real World 結(jié)果展示(Part 1)

以下是更多的真機(jī)實(shí)驗(yàn)展示。

圖 6:Real World 結(jié)果展示(Part 2)

在 simulator 中,我們對(duì)這些包含復(fù)雜的物體的運(yùn)動(dòng)軌跡,精巧的微轉(zhuǎn),以及非常細(xì)的難以抓起來的物體仍然是有效的。

圖 7:Isaac Gym 中的不同方法的比較

此外,homotopy optimization 可以有效地提高軌跡跟蹤的效果。

圖 8:Homotopy Optimization 的有效性

我們的研究對(duì)運(yùn)動(dòng)軌跡中的噪聲比較魯棒,也可以泛化到從來沒有見過的物體的種類以及運(yùn)動(dòng)的類別上。

圖 9:Robustness

更多的結(jié)果:

圖 10:更多的結(jié)果

開源代碼:https://github.com/Meowuu7/DexTrack

更多的動(dòng)畫演示和相關(guān)信息可見項(xiàng)目網(wǎng)站:https://meowuu7.github.io/DexTrack/

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-03-05 20:37:08

工業(yè)4.0機(jī)器人工業(yè)物聯(lián)網(wǎng)

2024-11-25 19:04:21

2020-04-09 09:56:55

機(jī)器人導(dǎo)航框架

2020-07-24 14:54:17

人工智能機(jī)器學(xué)習(xí)技術(shù)

2011-06-01 11:16:25

高拍儀首測(cè)

2021-06-07 08:28:26

人工智能AI機(jī)器人

2023-12-29 09:50:51

智能機(jī)器人人工智能

2020-10-15 15:42:00

人工智能

2023-06-25 10:14:46

智能機(jī)器人人工智能

2018-09-29 16:16:43

微軟機(jī)器人Windows

2020-05-26 10:19:11

機(jī)器人人工智能系統(tǒng)

2015-12-10 21:49:32

IM機(jī)器人

2015-08-04 14:49:37

物聯(lián)網(wǎng)

2024-11-25 08:20:00

2024-09-02 10:00:00

機(jī)器人開源

2021-07-22 10:17:55

加密機(jī)器人加密貨幣機(jī)器人

2021-08-19 15:44:20

機(jī)器人人工智能機(jī)器學(xué)習(xí)

2015-07-28 09:36:11

機(jī)器人

2015-09-29 10:13:34

物聯(lián)網(wǎng)機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)