機(jī)器人訓(xùn)練數(shù)據(jù)不缺了!英偉達(dá)團(tuán)隊(duì)推出DexMG:數(shù)據(jù)增強(qiáng)200倍
要知道,大規(guī)模、優(yōu)質(zhì)的機(jī)器人訓(xùn)練數(shù)據(jù)集的獲取往往非常有挑戰(zhàn)性。
不過(guò)最近,來(lái)自英偉達(dá)、UT Austin和UCSD的研究人員推出了一種大規(guī)模自動(dòng)化數(shù)據(jù)生成系統(tǒng)——DexMimicGen。
它可基于少量人類演示合成類人機(jī)器人的靈巧手運(yùn)動(dòng)軌跡,幫助實(shí)現(xiàn)在更少人工干預(yù)下擴(kuò)大類人數(shù)據(jù)的采集。
也就是說(shuō),機(jī)器人訓(xùn)練數(shù)據(jù)集的獲取效率得到了大幅提升!
DexMimicGen的核心思想是利用一小組人類演示,并通過(guò)在物理仿真中進(jìn)行演示轉(zhuǎn)換和重放,自動(dòng)生成大量適用于雙手靈巧操作場(chǎng)景中模仿學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。
項(xiàng)目主頁(yè):https://dexmimicgen.github.io/
從僅5個(gè)源人類演示開(kāi)始,DexMimicGen可以生成1000個(gè)雙手靈巧任務(wù)的演示。研究團(tuán)隊(duì)從60個(gè)源人類演示中總共生成了21000個(gè)演示,涵蓋了9種不同的任務(wù)。
DexMimicGen生成的大規(guī)模數(shù)據(jù)集可用于訓(xùn)練高性能的模仿學(xué)習(xí)策略,并用于不同策略的基準(zhǔn)測(cè)試。
研究團(tuán)隊(duì)發(fā)現(xiàn),隨著DexMimicGen數(shù)據(jù)量的增加,策略的性能也隨之提升。
他們還使用DexMimicGen結(jié)合real2sim2real方法生成了真實(shí)世界的演示。
他們創(chuàng)建了一個(gè)現(xiàn)實(shí)世界罐子分類任務(wù)的數(shù)字孿生模型,通過(guò)在仿真環(huán)境中重放現(xiàn)實(shí)世界的人類演示,利用DexMimicGen生成軌跡,并將這些生成的軌跡轉(zhuǎn)移回現(xiàn)實(shí)世界,從而實(shí)現(xiàn)了一個(gè)成功率高達(dá)90%的視覺(jué)運(yùn)動(dòng)策略,而單靠人類演示的成功率僅為0%!
解決機(jī)器人訓(xùn)練數(shù)據(jù)集的獲取難題
從人類演示中進(jìn)行模仿學(xué)習(xí)是一種有效的機(jī)器人操作技能教學(xué)方法。
其中一種常見(jiàn)的方法是遠(yuǎn)程操作,即人類操作員通過(guò)控制機(jī)器人手臂來(lái)收集數(shù)據(jù),這些數(shù)據(jù)用于訓(xùn)練機(jī)器人,使其能夠自主完成任務(wù)。
近期的研究通過(guò)多個(gè)操作員協(xié)作收集了大規(guī)模多樣化的數(shù)據(jù)集,結(jié)果表明,基于這些數(shù)據(jù)集訓(xùn)練的機(jī)器人表現(xiàn)出色,甚至能夠在不同環(huán)境中泛化。此外,近期的研究還關(guān)注將這一范式應(yīng)用于類人機(jī)器人。
然而,數(shù)據(jù)采集是這一方法更廣泛應(yīng)用的主要瓶頸。
在單臂機(jī)器人任務(wù)中,數(shù)據(jù)采集通常需要多個(gè)操作員、機(jī)器人以及數(shù)月的人力投入。針對(duì)類人機(jī)器人的數(shù)據(jù)采集則更具挑戰(zhàn)性,因?yàn)橥瑫r(shí)控制多只手臂和多指靈巧手的復(fù)雜性較高。
為了實(shí)現(xiàn)類人機(jī)器人的實(shí)時(shí)遠(yuǎn)程操作,研究人員開(kāi)發(fā)了專門(mén)的遠(yuǎn)程操作界面,但這些界面的成本高昂,難以實(shí)現(xiàn)規(guī)?;?。
類人機(jī)器人的任務(wù)復(fù)雜性也更高,因此數(shù)據(jù)需求更大,但由于操作員需同時(shí)控制多臂和多指手,工作負(fù)擔(dān)大幅增加,數(shù)據(jù)采集也更加困難。
相比之下,在仿真環(huán)境中利用自動(dòng)化數(shù)據(jù)生成是一種引人注目的替代方案,并已證明在單臂機(jī)器人操作中非常有效。
受這一成功的啟發(fā),DexMimicGen由此誕生,這是一個(gè)針對(duì)雙手靈巧機(jī)器人(如類人機(jī)器人)的大規(guī)模自動(dòng)數(shù)據(jù)生成系統(tǒng)。
DexMimicGen方法介紹
基于MimicGen進(jìn)行改進(jìn)
DexMimicGen所借鑒的MimicGen方法是一種適用于帶并行爪夾具的單臂機(jī)器人的流水線,而DexMimicGen克服了多個(gè)技術(shù)挑戰(zhàn),使得這些原理可以應(yīng)用于我們的雙手操作場(chǎng)景。
MimicGen將每個(gè)任務(wù)分解為一系列子任務(wù),分別軌跡后拼接在一起。而雙手靈巧操作涉及三種子任務(wù)類型,其中兩只手臂需要分別實(shí)現(xiàn)子目標(biāo)、協(xié)調(diào)配合,并按特定順序執(zhí)行。
然而,MimicGen依賴單一的子任務(wù)分割策略,難以應(yīng)對(duì)雙手任務(wù)中獨(dú)立和相互依賴的動(dòng)作需求。
為了解決這些問(wèn)題,DexMimicGen引入了一種靈活的單臂子任務(wù)分割策略,使每只手臂能夠獨(dú)立執(zhí)行其子任務(wù),同時(shí)能夠適應(yīng)必要的協(xié)調(diào)階段。
DexMimicGen采用同步策略,以確保在協(xié)調(diào)子任務(wù)期間動(dòng)作的精確對(duì)齊,并引入排序約束機(jī)制,以確保在順序子任務(wù)中動(dòng)作的正確執(zhí)行順序。
子任務(wù)的分類法
DexMimicGen生成用于雙手靈巧操作的數(shù)據(jù)——這涉及比MimicGen更具挑戰(zhàn)性的三大關(guān)鍵問(wèn)題。
首先,每個(gè)手臂必須能夠獨(dú)立于另一個(gè)手臂操作以實(shí)現(xiàn)不同的目標(biāo);其次,手臂必須能夠協(xié)調(diào)以實(shí)現(xiàn)共同的目標(biāo);最后,某些手臂目標(biāo)必須在其他目標(biāo)完成之前完成。
為了應(yīng)對(duì)這些挑戰(zhàn),DexMimicGen引入了一種子任務(wù)類型的分類法——包括并行子任務(wù)、協(xié)調(diào)子任務(wù)和順序子任務(wù),并對(duì)數(shù)據(jù)生成過(guò)程進(jìn)行了相應(yīng)調(diào)整以適應(yīng)這些任務(wù)類型。
并行子任務(wù)
在雙臂機(jī)器人設(shè)置中,每個(gè)機(jī)械臂需要具備獨(dú)立操作的能力,以便各自完成不同的任務(wù)目標(biāo)。比如,在裝配任務(wù)的初期階段,每個(gè)手臂都需要抓取不同的部件,而且這兩個(gè)抓取動(dòng)作可能不會(huì)在同一時(shí)間發(fā)生。
為此,DexMimicGen引入了一種新的子任務(wù)類型——并行子任務(wù),它允許每個(gè)臂根據(jù)自己的任務(wù)列表獨(dú)立行動(dòng)。
由于每個(gè)手臂的子任務(wù)是獨(dú)立定義的,它們的啟動(dòng)和完成時(shí)間可能會(huì)有所不同。為了適應(yīng)這種非同步性,DexMimicGen引入了異步執(zhí)行策略。
在這種策略下,每個(gè)手臂都有自己的動(dòng)作隊(duì)列,動(dòng)作會(huì)從隊(duì)列中逐一出隊(duì)并行執(zhí)行。一旦某個(gè)手臂的隊(duì)列為空,它就會(huì)加載下一個(gè)子任務(wù)的轉(zhuǎn)換后操作段,確保即使沒(méi)有嚴(yán)格的子任務(wù)對(duì)齊,也能順利執(zhí)行兩個(gè)手臂的動(dòng)作。
協(xié)調(diào)子任務(wù)
對(duì)于需要精確配合的任務(wù),如「盒子清理」中的蓋子放置,兩個(gè)末端執(zhí)行器在執(zhí)行過(guò)程中的相對(duì)位置必須與源演示保持一致。
DexMimicGen通過(guò)確保兩個(gè)手臂以同步的方式執(zhí)行軌跡,并使用相同的變換來(lái)生成軌跡,從而實(shí)現(xiàn)這一點(diǎn)。
具體來(lái)說(shuō),為了達(dá)到時(shí)間上的同步,DexMimicGen在源演示分割時(shí)強(qiáng)制所有協(xié)調(diào)子任務(wù)在同一時(shí)間點(diǎn)結(jié)束。
在實(shí)際執(zhí)行中,則采用同步策略,即每個(gè)手臂會(huì)等待另一個(gè)手臂,直至兩者在協(xié)調(diào)子任務(wù)中剩余的步驟相同,這樣就能保證子任務(wù)的執(zhí)行結(jié)束與分割時(shí)的設(shè)定一致。
此外,DexMimicGen還提供了兩種源演示變換方案:「轉(zhuǎn)換」和「重演」。
前者基于首次協(xié)調(diào)時(shí)的對(duì)象位置計(jì)算變換矩陣,后者則直接使用原始軌跡,無(wú)需額外變換。
對(duì)于類似物品傳遞等需要保持在運(yùn)動(dòng)學(xué)限制內(nèi)的協(xié)調(diào)任務(wù),「重演」方案尤為有效。
順序子任務(wù)
在某些任務(wù)中,如「傾倒」任務(wù),子任務(wù)的執(zhí)行順序至關(guān)重要。
例如,機(jī)器人首先需要用一只手將球倒入碗中,然后用另一只手將碗移到綠色墊子上。
為了解決這類順序需求,DexMimicGen實(shí)現(xiàn)了一種順序約束機(jī)制,明確規(guī)定了哪些子任務(wù)必須在其他子任務(wù)之前完成。
通過(guò)這種方式,執(zhí)行后續(xù)子任務(wù)的手臂會(huì)等待前一個(gè)子任務(wù)完成后再繼續(xù),確保了任務(wù)流程的正確性。
數(shù)據(jù)如何生成
首先,源演示通過(guò)啟發(fā)式算法或人工標(biāo)注被分解為每只手臂的子任務(wù)。
每只手臂的最終子任務(wù)需要進(jìn)行協(xié)調(diào)(必須共同抬起托盤(pán)),因此該任務(wù)被標(biāo)注為協(xié)調(diào)子任務(wù),以便在數(shù)據(jù)生成過(guò)程中實(shí)現(xiàn)同步。
在數(shù)據(jù)生成開(kāi)始時(shí),場(chǎng)景會(huì)被隨機(jī)化,并選擇一個(gè)源演示。隨后,為每只手臂的各個(gè)子任務(wù)并行地迭代生成和執(zhí)行軌跡。
在此示例中,基于參考物體(托盤(pán))的姿態(tài),計(jì)算當(dāng)前托盤(pán)姿態(tài)與源片段中的托盤(pán)姿態(tài)之間的相對(duì)變換。由于這些是協(xié)調(diào)子任務(wù),因此這里使用該變換來(lái)轉(zhuǎn)換兩只手臂的源軌跡。
接著,應(yīng)用「協(xié)調(diào)子任務(wù)」中描述的同步執(zhí)行策略來(lái)執(zhí)行生成的軌跡。
值得注意的是,這里通過(guò)重放源演示中的手指關(guān)節(jié)動(dòng)作來(lái)生成手指運(yùn)動(dòng),因?yàn)槭种高\(yùn)動(dòng)始終是相對(duì)于末端執(zhí)行器的運(yùn)動(dòng)的。
每個(gè)生成的演示僅在任務(wù)成功時(shí)才被保留,整個(gè)過(guò)程將重復(fù)進(jìn)行,直到生成了足夠數(shù)量的數(shù)據(jù)。
系統(tǒng)設(shè)計(jì)
為了構(gòu)建DexMimicGen,Zhengyu Jiang團(tuán)隊(duì)建立了大量的仿真環(huán)境,并開(kāi)發(fā)了一個(gè)遠(yuǎn)程操作系統(tǒng),支持在仿真和現(xiàn)實(shí)世界中收集源人類演示。
仿真環(huán)境
Zhengyu Jiang團(tuán)隊(duì)引入了一系列多樣化的設(shè)置和任務(wù),以展示DexMimicGen在不同機(jī)器人形態(tài)和操作行為下生成數(shù)據(jù)的能力。
他們主要專注于三種機(jī)器人形態(tài):
(1) 配備并行爪夾具的雙手Panda手臂;
(2) 配備靈巧手的雙手Panda手臂;
(3) 配備靈巧手的GR-1類人機(jī)器人。
不同的機(jī)器人形態(tài)需要應(yīng)用不同的控制器。并且,針對(duì)每種機(jī)器人形態(tài),他們分別設(shè)計(jì)了三種任務(wù),總共九個(gè)任務(wù)。
這些任務(wù)涉及高精度操作(如穿線、部件裝配、裝箱、咖啡制作)、帶有關(guān)節(jié)的物體操作(如抽屜、托盤(pán)),以及長(zhǎng)時(shí)間跨度的任務(wù)(如運(yùn)輸)。
這些任務(wù)還需要克服多臂交互中的關(guān)鍵挑戰(zhàn)。其中一些任務(wù)包含協(xié)調(diào)子任務(wù),要求兩只手臂協(xié)同完成子任務(wù)(穿線、運(yùn)輸、裝箱、托盤(pán)抬升、罐子分類)。其他任務(wù)則要求按順序執(zhí)行子任務(wù)(部件裝配、抽屜清理、倒液、咖啡)。
遠(yuǎn)程操作系統(tǒng)
為了收集任務(wù)的源演示,Zhengyu Jiang團(tuán)隊(duì)針對(duì)每種機(jī)器人形態(tài)定制了不同的遠(yuǎn)程操作方法。
對(duì)于配備并行爪夾具的雙手Panda手臂,他們使用了基于iPhone的遠(yuǎn)程操作界面,用于捕捉人類手腕和爪夾動(dòng)作。
對(duì)于配備靈巧手的機(jī)器人,他們實(shí)現(xiàn)了基于Apple Vision Pro的遠(yuǎn)程操作系統(tǒng),使用VisionProTeleop軟件收集手腕和手指姿態(tài)。
首先,他們需要將人類的姿態(tài)與機(jī)器人的姿態(tài)對(duì)齊,將人類的原始末端執(zhí)行器姿態(tài)轉(zhuǎn)換為機(jī)器人的姿態(tài)。
其中還包括一個(gè)人機(jī)校準(zhǔn)過(guò)程,要求人類遠(yuǎn)程操作員從固定姿態(tài)開(kāi)始,系統(tǒng)會(huì)自動(dòng)計(jì)算將人類姿態(tài)映射到機(jī)器人目標(biāo)的相對(duì)變換矩陣。該校準(zhǔn)過(guò)程適用于帶有靈巧手的雙手Panda手臂和GR-1類人機(jī)器人。
實(shí)驗(yàn)結(jié)果
研究人員也做了大量實(shí)驗(yàn)來(lái)證明DexMimicGen性能的優(yōu)越性。
首先,研究人員選取了5個(gè)樣本,運(yùn)用DexMimicGen為每個(gè)任務(wù)生成了1000個(gè)演示,在評(píng)估過(guò)程中,研究人員發(fā)現(xiàn)了DexMimicGen具備以下性能優(yōu)勢(shì):
提高成功率
相比于僅依賴源演示,DexMimicGen大幅提升了策略的成功率。在所有任務(wù)中,基于DexMimicGen數(shù)據(jù)集訓(xùn)練的機(jī)器人表現(xiàn)明顯優(yōu)于僅基于少量源數(shù)據(jù)訓(xùn)練的機(jī)器人。
例如,在抽屜整理任務(wù)中,成功率從0.7%躍升至76.0%;在穿線任務(wù)中,成功率從1.3%提升到69.3%;而在零部件組裝任務(wù)中,成功率則從3.3%提高到了80.7%。
適應(yīng)多樣初始狀態(tài)
DexMimicGen通過(guò)在默認(rèn)的初始狀態(tài)分布(D0)中的源演示生成具有更廣泛變化的初始狀態(tài)分布數(shù)據(jù)集(D1和D2)。D1中物體具有更大的初始重置分布,D2則對(duì)關(guān)鍵物體的位置進(jìn)行了重新設(shè)定。
如上表所示,基于這些數(shù)據(jù)集訓(xùn)練的策略在相同的擴(kuò)展初始狀態(tài)分布下的評(píng)估中表現(xiàn)優(yōu)異,這表明DexMimicGen能夠在新的初始狀態(tài)分布上生成有價(jià)值的數(shù)據(jù)集。
跨基準(zhǔn)數(shù)據(jù)生成
研究人員還將DexMimicGen應(yīng)用于BiGym——一個(gè)專注于人形機(jī)器人雙手操作任務(wù)的新模擬基準(zhǔn)。
對(duì)于翻轉(zhuǎn)杯子、洗碗機(jī)裝載盤(pán)子和關(guān)閉所有杯板這三個(gè)任務(wù),研究人員各自生成了1000個(gè)演示,分別達(dá)到了29.1%、43.6%和76.4%的數(shù)據(jù)生成成功率。
除此之外,研究人員還與替代方案進(jìn)行了對(duì)比,結(jié)果發(fā)現(xiàn)DexMimicGen生成的數(shù)據(jù)集訓(xùn)練出來(lái)的策略性能普遍高于Demo-Noise基線58%以上,且Demo-Noise基線無(wú)法生成具有不同初始狀態(tài)的數(shù)據(jù)。
針對(duì)數(shù)據(jù)集大小對(duì)策略性能的影響,研究人員也發(fā)現(xiàn)隨著數(shù)據(jù)集從小到大的增長(zhǎng),策略性能有顯著提升,特別是在100到500和1000之間。
然而,當(dāng)數(shù)據(jù)集從1000增至5000時(shí),這種提升趨于平緩,說(shuō)明不同任務(wù)的性能增益可能存在邊際效應(yīng)。