自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="vxqzz"></bdo>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

ICLR 2025 | 機(jī)器人安燈泡、切東西都能拿捏，可操控軌跡跟蹤的DexTrack來了

作者：機(jī)器之心 2025-03-03 10:02:00

人工智能新聞

賦予機(jī)器人像人一樣的靈巧操控技能是通往未來終極具身智能的重要一步。如何讓一個(gè)具身智能體獲得廣泛的靈巧操控技能一直是具身智能領(lǐng)域的一個(gè)重要問題。

現(xiàn)實(shí)世界的機(jī)器人距離科幻小說里的機(jī)器人世界還有多遠(yuǎn)？通用靈巧操控何時(shí)才能實(shí)現(xiàn)？朝著這一偉大的目標(biāo)，研究通用靈巧操控軌跡跟蹤的 DexTrack 便應(yīng)用而生。

論文地址：https://arxiv.org/abs/2502.09614
代碼地址：https://github.com/Meowuu7/DexTrack
項(xiàng)目網(wǎng)站：https://meowuu7.github.io/DexTrack/
YouTube 視頻：https://youtu.be/zru1Z-DaiWE

1. 動(dòng)機(jī)

賦予機(jī)器人像人一樣的靈巧操控技能是通往未來終極具身智能的重要一步。如何讓一個(gè)具身智能體獲得廣泛的靈巧操控技能一直是具身智能領(lǐng)域的一個(gè)重要問題。靈巧操控任務(wù)復(fù)雜且多樣，之前很多工作大多專注在特定技能的獲取（如抓取或者在手里轉(zhuǎn)動(dòng)）。他們大多需要對(duì)單獨(dú)的任務(wù)進(jìn)行針對(duì)性的設(shè)計(jì)，例如專門對(duì)某一種特定的任務(wù)設(shè)計(jì)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)，之后根據(jù)這樣的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練策略網(wǎng)絡(luò)來解決對(duì)應(yīng)的問題。這些難以遷移到不一樣的任務(wù)上的 reward 設(shè)計(jì)是通往通用操控技能的一個(gè)阻力。

所以為了實(shí)現(xiàn)通用的靈巧操控技能，我們首先需要任務(wù)表示層面的統(tǒng)一。此外，靈巧操控技能涉及到復(fù)雜的和隨時(shí)間變化的手 - 物接觸，復(fù)雜的物體運(yùn)動(dòng)軌跡。再考慮到對(duì)使用一個(gè)操控策略解決不同類型的操控任務(wù)的需求，得到一個(gè)通用的靈巧操控智能體對(duì)算法本身的設(shè)計(jì)也提出了很大的挑戰(zhàn)。

為了實(shí)現(xiàn)這一目標(biāo)，我們將運(yùn)動(dòng)規(guī)劃以及控制的問題拆解開來，將不同種的靈巧操控技能重新統(tǒng)一到一個(gè)軌跡跟蹤控制的框架下，進(jìn)一步借助于大量的人類操控物體的數(shù)據(jù)作為跟蹤的目標(biāo)，通過學(xué)習(xí)一個(gè)通用的軌跡跟蹤控制器，來一定程度上解決這個(gè)問題（圖 1）。

圖 1：?jiǎn)栴}的拆解和對(duì)通用軌跡跟蹤器的期待

2. DexTrack：通用軌跡跟蹤器的學(xué)習(xí)

2.1 統(tǒng)一的軌跡跟蹤任務(wù)表示

我們將不同類型的操控任務(wù)統(tǒng)一到一個(gè)軌跡跟蹤任務(wù)來完成任務(wù)表示層面的統(tǒng)一。在每個(gè)時(shí)刻，給定機(jī)器手和物體當(dāng)前的狀態(tài)，以及下一步想要達(dá)到的狀態(tài)，軌跡跟蹤控制器的任務(wù)是給出機(jī)器手當(dāng)前應(yīng)該執(zhí)行的動(dòng)作，從而通過執(zhí)行該動(dòng)作，機(jī)器手可以運(yùn)動(dòng)且和物體進(jìn)行交互，使得機(jī)器手以及物體實(shí)際達(dá)到的狀態(tài)與下一步想要達(dá)到的狀態(tài)相吻合。這樣的表示方式對(duì)不同的操控任務(wù)是比較適配的。對(duì)一個(gè)任務(wù)，比如將物體轉(zhuǎn)動(dòng)一個(gè)角度，我們可以先規(guī)劃出來物體的運(yùn)動(dòng)軌跡，之后將這個(gè)任務(wù)轉(zhuǎn)化為跟蹤物體運(yùn)動(dòng)軌跡的軌跡跟蹤任務(wù)。

圖 2：軌跡跟蹤器的輸入和輸出

2.2 通用軌跡跟蹤器的學(xué)習(xí)方法

一個(gè)通用的軌跡跟蹤需要可以響應(yīng)各種各樣的軌跡跟蹤命令。這一多樣的軌跡空間對(duì)該軌跡跟蹤器的學(xué)習(xí)提出了更高的挑戰(zhàn)。我們提出了一個(gè)將 RL 和 IL 結(jié)合起來的方法，在 RL 訓(xùn)練的同時(shí)引入監(jiān)督信號(hào)來降低 policy 學(xué)習(xí)的難度。通過交替地使用高質(zhì)量的軌跡跟蹤數(shù)據(jù)輔助通用軌跡跟蹤控制器的學(xué)習(xí)，以及借助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質(zhì)量，我們可以逐漸得到一個(gè)強(qiáng)大的可以跟蹤各種各樣軌跡的控制器（圖 3）。

圖 3：通用軌跡跟蹤器的訓(xùn)練方法

2.2.1 軌跡跟蹤任務(wù)獎(jiǎng)勵(lì)函數(shù)

獎(jiǎng)勵(lì)函數(shù)主要由三部分組成：1）物體軌跡跟蹤獎(jiǎng)勵(lì)，2）手部軌跡跟蹤獎(jiǎng)勵(lì)，3）手和物體的親密度獎(jiǎng)勵(lì)。

2.2.2 通過 RL 和高質(zhì)量跟蹤演示數(shù)據(jù)來訓(xùn)練通用軌跡跟蹤器

通過在 policy 的訓(xùn)練過程中引入額外的監(jiān)督信息來降低這一通用軌跡跟蹤器學(xué)習(xí)的難度。

2.2.3 借助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質(zhì)量

我們?cè)O(shè)計(jì)了兩個(gè)策略來提高單一軌跡跟蹤演示的質(zhì)量，1）借助通用軌跡跟蹤器來初始化單一軌跡跟蹤策略的學(xué)習(xí)，2）借助 homotopy optimization 的方式，通過解決一系列的優(yōu)化任務(wù)來降低特定軌跡跟蹤任務(wù)優(yōu)化的難度（圖 4）。

圖 4：Homotopy Optimization

3. 結(jié)果

我們的方法在極具挑戰(zhàn)性的任務(wù)上達(dá)到了令人矚目的效果。同時(shí)我們也進(jìn)行了大量的真機(jī)實(shí)驗(yàn)來驗(yàn)證它在真實(shí)世界中的可行性。我們的機(jī)器手可以轉(zhuǎn)動(dòng)并嘗試 “安裝” 一個(gè)燈泡。在 functional tool using 方面，我們也可以在手中調(diào)整一個(gè)刀使得刀可以刀刃向下來切東西，可以在手中轉(zhuǎn)動(dòng)一個(gè)錘子，并使用正確的朝向來錘東西。因?yàn)楂@得這些動(dòng)作的人手軌跡比較困難，我們通過只跟蹤物體軌跡來實(shí)現(xiàn)這些效果。這也證明了我們的方法可以拓展到稀疏物體軌跡跟蹤的應(yīng)用上。

圖 5：Real World 結(jié)果展示（Part 1）

以下是更多的真機(jī)實(shí)驗(yàn)展示。

圖 6：Real World 結(jié)果展示（Part 2）

在 simulator 中，我們對(duì)這些包含復(fù)雜的物體的運(yùn)動(dòng)軌跡，精巧的微轉(zhuǎn)，以及非常細(xì)的難以抓起來的物體仍然是有效的。

圖 7：Isaac Gym 中的不同方法的比較

此外，homotopy optimization 可以有效地提高軌跡跟蹤的效果。

圖 8：Homotopy Optimization 的有效性

我們的研究對(duì)運(yùn)動(dòng)軌跡中的噪聲比較魯棒，也可以泛化到從來沒有見過的物體的種類以及運(yùn)動(dòng)的類別上。

圖 9：Robustness

更多的結(jié)果：

圖 10：更多的結(jié)果

開源代碼：https://github.com/Meowuu7/DexTrack

更多的動(dòng)畫演示和相關(guān)信息可見項(xiàng)目網(wǎng)站：https://meowuu7.github.io/DexTrack/

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 機(jī)器人訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)