智勝模仿學(xué)習(xí):SkillMimicGen引領(lǐng)機器人技能學(xué)習(xí)新潮流 原創(chuàng)
機器人操作領(lǐng)域一直致力于讓機器人學(xué)會執(zhí)行復(fù)雜任務(wù),從模仿學(xué)習(xí)人類示范中汲取經(jīng)驗是一個重要方法。但收集大量人類示范數(shù)據(jù)成本高昂且耗時,尤其對于長周期任務(wù)而言,這一問題更為突出。為解決這一困境,NVIDIA的研究團隊提出了SkillMimicGen(SkillGen)系統(tǒng)。該系統(tǒng)能夠從少量人類示范中生成大量高質(zhì)量的演示數(shù)據(jù)集,為機器人學(xué)習(xí)提供充足的數(shù)據(jù)支持。今天我們就一起來學(xué)習(xí)一下這篇論文吧!
1. 任務(wù)分解與技能抽象
SkillGen的核心思想是將任務(wù)分解為動作和技能片段。通過學(xué)習(xí)局部操縱技能,并利用運動規(guī)劃將這些技能按順序組合,從而完成任務(wù)。技能被定義為包含待操縱對象、啟動條件、策略和終止條件的元組,這種抽象方式有助于在不同階段對任務(wù)進行建模和管理。
圖1:SkillGen概述。SkillGen以最少的人力投入訓(xùn)練出熟練的智能體。(左)首先,人類遠程操作員首先收集大約3個任務(wù)演示,并標注技能片段的開始和結(jié)束位置,即每次對象交互發(fā)生的位置。(中)然后,SkillGen自動將這些局部技能演示適配到新場景中,并通過運動規(guī)劃將它們連接起來,以增加成功演示的數(shù)量。(右)這些演示用于訓(xùn)練混合技能策略(HSP),即智能體在閉環(huán)反應(yīng)技能和由運動規(guī)劃執(zhí)行的粗略轉(zhuǎn)移運動之間交替進行。
2. 演示生成過程
在數(shù)據(jù)生成階段,SkillGen通過自動化的試錯過程,從少量源演示中采樣參考技能片段,并根據(jù)新場景的初始狀態(tài)進行調(diào)整和執(zhí)行。運動規(guī)劃在技能片段之間起著關(guān)鍵作用,確保機器人在自由空間中安全、高效地移動,減少策略學(xué)習(xí)的負擔(dān)。通過將技能片段與運動規(guī)劃相結(jié)合,SkillGen能夠生成多樣化且高質(zhì)量的演示數(shù)據(jù),大大提高了數(shù)據(jù)生成的成功率。
3. 混合技能策略框架
為了更好地利用生成的數(shù)據(jù)集,SkillGen引入了混合技能策略(HSP)框架。該框架學(xué)習(xí)技能的啟動、控制和終止組件,使技能能夠在測試時通過運動規(guī)劃進行有序組合。HSP包括多種變體,如HSP-Reg、HSP-Class和HSP-TAMP,它們在學(xué)習(xí)啟動條件等方面采用了不同的方法,以適應(yīng)不同的任務(wù)需求。
圖2:HSP部署。在測試時,SkillGen按順序執(zhí)行多個已學(xué)習(xí)的技能,使用運動規(guī)劃將上一個技能的終止狀態(tài)與下一個技能的起始狀態(tài)相連接。每個技能由起始條件、閉環(huán)控制器和終止條件組成。
實驗驗證:SkillGen的卓越表現(xiàn)
1. 與現(xiàn)有方法對比
在實驗中,SkillGen在多個方面展現(xiàn)出顯著優(yōu)勢。與MimicGen相比,SkillGen的數(shù)據(jù)生成成功率大幅提高,平均成功率從40.7%提升至75.4%。在面對場景變化和雜亂環(huán)境時,SkillGen表現(xiàn)出更強的適應(yīng)性,能夠成功生成數(shù)據(jù),而MimicGen則難以應(yīng)對。
2. 策略學(xué)習(xí)能力提升
SkillGen在策略學(xué)習(xí)方面也表現(xiàn)出色。在相同任務(wù)上,使用SkillGen數(shù)據(jù)訓(xùn)練的代理性能明顯優(yōu)于使用源演示或MimicGen數(shù)據(jù)訓(xùn)練的代理。平均而言,SkillGen訓(xùn)練的代理成功率比MimicGen高出24%,能夠在復(fù)雜任務(wù)中實現(xiàn)更高的成功率。
3. 真實世界應(yīng)用與零樣本遷移
研究團隊還將SkillGen應(yīng)用于真實世界的操作任務(wù),包括在模擬環(huán)境中生成數(shù)據(jù)并訓(xùn)練代理,然后將其零樣本遷移到真實機器人上執(zhí)行任務(wù)。實驗結(jié)果表明,SkillGen能夠在真實世界中有效地生成數(shù)據(jù)并學(xué)習(xí)到熟練的策略,為機器人在實際場景中的應(yīng)用提供了有力支持。
圖3:(左)智能體在SkillGen數(shù)據(jù)集上的性能表現(xiàn)。在源演示(使用HSP - TAMP)、MimicGen [11]數(shù)據(jù)(使用BC - RNN [1])以及SkillGen數(shù)據(jù)(使用所有HSP變體)上訓(xùn)練的智能體成功率。與源數(shù)據(jù)相比,SkillGen數(shù)據(jù)極大地提高了智能體在(D_0)上的性能,并且SkillGen智能體明顯優(yōu)于MimicGen智能體,尤其是在更具挑戰(zhàn)性的任務(wù)變體上。(右上)訓(xùn)練數(shù)據(jù)比較。盡管SkillGen僅使用10個人類演示來生成數(shù)據(jù),但HSP - TAMP智能體在200個SkillGen演示和200個人類演示上的性能相當。生成更多的SkillGen演示可顯著提高性能(另見附錄E)。(右下)真實世界操作結(jié)果。在真實世界中使用SkillGen數(shù)據(jù)生成的HSP - Class智能體非常熟練,并且明顯優(yōu)于使用MimicGen數(shù)據(jù)訓(xùn)練的智能體。它們還可以實現(xiàn)從模擬到現(xiàn)實的零樣本遷移。
未來展望與局限
盡管SkillGen取得了顯著成果,但研究團隊也指出了其當前的局限性。例如,在數(shù)據(jù)生成過程中需要預(yù)先知道技能序列,并且假設(shè)在每個技能片段開始時能夠獲取對象的位姿。未來的研究將致力于解決這些問題,進一步提高SkillGen的性能和靈活性。
SkillMimicGen為機器人技能學(xué)習(xí)提供了一種創(chuàng)新且高效的方法,通過自動化演示生成和混合技能策略框架,顯著提升了數(shù)據(jù)生成和策略學(xué)習(xí)的性能。隨著技術(shù)的不斷進步,相信SkillGen將在機器人領(lǐng)域發(fā)揮更大的作用,推動機器人操作能力的進一步發(fā)展。
本文轉(zhuǎn)載自公眾號AIGC最前線 作者:實習(xí)小畢
