自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="5nxm1"></tfoot>

<blockquote id="5nxm1"></blockquote>

^{<blockquote id="5nxm1"></blockquote>}

<p id="5nxm1"></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

開源版OpenAI機器人2.5萬打造！斯坦福李飛飛團隊祭出「靈巧手」，泡茶剪紙炫技

作者：新智元 2024-03-15 15:15:15

人工智能新聞

「OpenAI機器人」一出世驚艷眾人！最近，李飛飛團隊打造了一個開源便攜式手部動捕系統(tǒng)——DexCap，成本僅3600美元，就能讓機械靈巧手完成花樣任務。

OpenAI大模型加持的機器人Figure 01，昨天火爆了全網(wǎng)。

而今天，真正「開源版」的擎天柱/Figure 01誕生了，而且背后團隊還將成本打了下來。

成本只要3605.59美元！

它擁有一雙靈巧手，就比如泡茶，先是擰開瓶蓋，再拿茶鑷將茶葉挑進杯中，并放回原位。

快看，它能一手拿著剪刀，一手拿著便利簽紙，執(zhí)行人類剪紙這一動作。（不過剪斷的這個過程好難）

它還可以將膠帶紙，放到收納的紙盒中，一手拿膠帶擺放，一手將盒子推近。

而且不管這個物體是什么，它都能照樣完成。

與前段時間爆火的炒蝦機器人不同的是，「靈巧手」并非通過遠程操控完成任務。

是因為，憑借一副特制的手套，它可以通過各種傳感器捕捉到手部精確的運動數(shù)據(jù)。

這正是由Chen Wang、李飛飛和Karen Liu等人提出的「便攜式手部動作捕捉系統(tǒng)」——DexCap。

論文地址：https://arxiv.org/abs/2403.07788

DexCap是一套基于SLAM、電磁場，以及對環(huán)境的3D觀察，便能實時追蹤手腕和手指運動的系統(tǒng)。

與傳統(tǒng)基于視覺動捕技術不同，它不會因為視線遮擋，而無法收集數(shù)據(jù)。

與此同時，他們還設計了全新的模仿算法DEXIL，才用了逆運動學和基于點云的模仿學習。

當手部動作數(shù)據(jù)收集完成，DexCap就會利用背包中的迷你PC，通過RGB-D相機重建3D場景。

然后將運動數(shù)據(jù)與之對齊，這樣，就可以得到非常精確的手部動作模型，可用于進一步的機器人訓練。

值得一提的是，在對具體6項操作任務評估中，DexCap展現(xiàn)出卓越的完成能力。

而且，它還可以從野外動捕數(shù)據(jù)中有效學習，為未來靈巧操作的數(shù)據(jù)收集方法提供了方法。

Jim Fan認為DexCap是「低配版的Optimus」，關鍵只要3600美元，一般人也能買得起。

另外，他還特意強調(diào)，數(shù)據(jù)收集和機器人的執(zhí)行是分離的。

還有網(wǎng)友稱，「DexCap絕對震撼，我們正在進入個人機器人與個人AI的下一階段」。

全新手部動捕系統(tǒng)DexCap，不怕遮擋

DexCap系統(tǒng)核心設計，就在于前向后向設備的組合。

具體來說，正面設計的胸部相機架上，配備了一個RGB-D激光雷達攝像頭和三個SLAM追蹤攝像頭。

背面的背包中，有一個迷你PC，以及電源為系統(tǒng)供電。大約可進行40分鐘的數(shù)據(jù)收集。

此外，還需要一個動捕手套，以便進行手部動作的捕捉。

追蹤攝像頭最初放置在胸前機架上，進行校準。

然后在具體數(shù)據(jù)收集過程中，將攝像頭從校準架上取下，安裝到特制的手部支架上。

這樣，系統(tǒng)就可以持續(xù)追蹤手部的位置。

可以看到，網(wǎng)球被放進框里，再倒出來，整個動作都清晰可見。

機器人更多的訓練數(shù)據(jù)，這不就來了么。

數(shù)據(jù)可視化：點云觀測中的3D手部運捕數(shù)據(jù)

再來看數(shù)據(jù)采集吞吐量，DexCap可以實現(xiàn)與人類自然運動同水平的效果，而且是遠程操作的3倍。

再看如下用固定的手勢握住杯子手柄的動作。

VR頭顯使用了基于視覺的手部追蹤方法，卻因嚴重遮擋而無法準確追蹤手部動作。

顯然，DexCap無障礙收集了手與物體交互的數(shù)據(jù)。

從人類行為模仿學習

研究人員的目標是利用DC記錄的人手動作捕捉數(shù)據(jù)，來訓練靈巧機器人策略，這個過程中會面臨3個問題：

（1）如何將人手的運動重新定位到機器人手？

（2）什么算法可以學習靈巧的策略，而且要適應雙手動作的高維空間？

（3）研究直接從人類動捕數(shù)據(jù)中學習的失敗案例以及潛在的解決方案。

為了應對這些挑戰(zhàn)，研究人員引入了DexIL，一個使用人手動作捕捉數(shù)據(jù)訓練靈巧機器人的三步框架。

第一步，將DEXCAP數(shù)據(jù)重新定位到機器人實施例的動作和觀察空間。

第二步，使用重新定位的數(shù)據(jù)訓練基于點云的擴散策略。

最后一步，可以采用人機交互來進行校正，旨在解決策略執(zhí)行期間出現(xiàn)的意外行為。

動作重定向：

LEAP手比人手大了約50%，這種尺寸差異使得很難將手指運動直接轉(zhuǎn)移到機器人硬件上。

為了解決這個問題，研究人員使用指尖逆向運動學（IK）來計算16維關節(jié)位置，并使用動捕手套跟蹤人體手指的運動，手套根據(jù)電磁場（EMF）測量手指相對于手掌的3D位置。

視覺差距：

觀察和狀態(tài)表示選擇對于訓練機器人策略至關重要。為了進一步彌合人手和機器人手之間的視覺差距，研究人員使用正向運動學生成機器人手的點云網(wǎng)格，并將其添加到點云觀察中。

使用相機參數(shù)將DCdata中LiDAR相機捕獲的RGB-D圖像轉(zhuǎn)換為點云。這種額外的轉(zhuǎn)換提供了兩個顯著的好處。

首先，由于DEXCAP允許人體軀干在數(shù)據(jù)采集過程中自然移動，因此直接使用RGB-D輸入需要考慮移動的相機幀。

而通過將點云觀測轉(zhuǎn)換為一致的世界坐標系，可以隔離并消除軀干運動，從而實現(xiàn)穩(wěn)定的機器人觀察。

其次，點云提供了與機器人操作空間對齊的靈活性。由于在野外捕獲的一些運動可能超出了機器人的運動范圍，所以需要調(diào)整點云觀測和運動軌跡的位置來確保操作范圍的可行性。

觀察重定向：

為了簡化在人和機器人之間切換相機系統(tǒng)的過程，相機機架的背面集成了一個快速釋放帶扣，可以在不到20秒的時間內(nèi)快速更換相機。

通過這種方式，保證機器人可以使用人類收集數(shù)據(jù)時的同一臺相機。

通過上述設計，DexIL可以直接從DCdata學習復雜的靈巧操作技能（比如拾取、放置、雙手協(xié)調(diào)等），而無需機器人數(shù)據(jù)。

30分鐘人類數(shù)據(jù)，機器人「學廢了」

根據(jù)上面的分析，首先通過RGB-D觀測構(gòu)建3D點云，并轉(zhuǎn)換到機器人的操作空間，將DexCap數(shù)據(jù)重定位到機器人實例中。

同時，手部動作捕捉數(shù)據(jù)也要重定位到帶有指尖IK的機械臂。

基于這些數(shù)據(jù)，學習擴散策略，將點云作為輸入，并輸出一系列未來目標位置作為機器人動作。

上圖展示了DC以3D形式捕捉詳細手部運動的能力，將人類動作與所有視圖中的對象點云對齊。

黃色列表示重定位后的機器人手部動作，我們可以看到它們與藍色列在同一3D空間中精確對齊。

上圖中，將DC與最先進的基于視覺的手部姿態(tài)估計方法HaMeR進行了比較，從相似的角度觀察它們的性能。

HaMeR在嚴重遮擋的情況下表現(xiàn)不佳，要么無法檢測到手，要么無法準確估計指尖位置。相比之下，DC在這些條件下表現(xiàn)出良好的魯棒性。

結(jié)果演示：

下圖的撿球任務，只使用30分鐘的人類動作捕捉數(shù)據(jù)來學習策略，無需任何遠程操作。

雙手操作任務：

先收集雙手的人體動捕數(shù)據(jù)，然后進行完全自主的策略部署。

用DexCap進行RLHF

DexCap系統(tǒng)在執(zhí)行任務時提供了兩種便捷的人在回路糾正，讓用戶能夠根據(jù)需要靈活調(diào)整機器人的動作：

1. 殘差糾正模式：

系統(tǒng)會實時捕捉用戶手腕的微小位移變化，并將這些變化作為額外的動作指令加入到機器人的動作中，從而實現(xiàn)精細控制。這種模式可以實現(xiàn)最小的運動，但需要用戶進行更精確地控制。

2. 遙控操作模式：

通過逆向運動學算法，用戶的手部動作會被轉(zhuǎn)化為機器人末端執(zhí)行器的相應動作，適用于需要全面控制機器人的場景，但相對而言需要用戶付出更多的努力。用戶可以通過簡單地踩下腳踏板來在這兩種模式之間自由切換。

最后，這些糾正動作會被記錄并保存在一個新的數(shù)據(jù)集中，并與原始訓練數(shù)據(jù)一起進行均勻采樣，從而更好地調(diào)整機器人的行為策略。

微調(diào)后：泡茶

通過分析1小時人類動捕數(shù)據(jù)并進行30次人在回路糾正后學到的策略：

微調(diào)后：使用剪刀

通過分析1小時人類動捕數(shù)據(jù)并進行30次人在回路糾正后學到的策略：

硬件教程

地址：https://docs.google.com/document/d/1ANxSA_PctkqFf3xqAkyktgBgDWEbrFK7b1OnJe54ltw/edit#heading=h.t3oe3oo3ujny

CAD 模型清單打印項目包括：

- 中心相機架和連接板

- 兩個手套相機支架（分別為左手和右手設計的鏡像版本）

- 兩個T265相機的后裝板（同樣需要左右鏡像）

相關的STL文件如下：

地址：https://drive.google.com/drive/folders/1pfUISMJTJU68g6HkjKkiJAOBtRBKKByx?usp=sharing

為了確保打印出的零件能夠順暢運作，建議將滑槽部分的打印角度保持在與Z軸的傾斜角度在45度以內(nèi)。

作者介紹

Chen Wang

論文一作Chen Wang是斯坦福大學CS的一名博士生，導師是李飛飛教授和C. Karen Liu。

在加入斯坦福大學之前，他曾在Machine Vision and Intelligence Group工作，導師是Cewu Lu教授。

責任編輯：張燕妮來源：新智元

數(shù)據(jù)模型開源

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<meter id="lci9f"><dfn id="lci9f"></dfn></meter>