自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICRA 2024:基于語義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent 原創(chuàng)

發(fā)布于 2024-5-7 06:52
瀏覽
0收藏

RoboAgent能夠高效地獲取各種復(fù)雜技能,并將其推廣到多樣化的未知場(chǎng)景中

RoboAgent是作者多個(gè)前期工作的集成,包括GenAug、CACTI、ACT,同時(shí)也是未來許多更多研究方向的起點(diǎn)。相比于以往的工作,例如Google的RT-1,以及更新的RT-2,RoboAgent研究了與大型語言模型相關(guān)的大型演示數(shù)據(jù)集的機(jī)器人學(xué)習(xí)泛化問題。與此不同的是,RoboCat使用了一個(gè)迭代學(xué)習(xí)和數(shù)據(jù)泛化管道以進(jìn)行快速適應(yīng)。最近的研究也表明,使用動(dòng)作分塊或擴(kuò)散模型等更高效的策略表示方法對(duì)多模態(tài)數(shù)據(jù)進(jìn)行建模具有優(yōu)勢(shì)。最后,最近的工作,如ROSIE、GenAug、CACTI,還使用了基于開放世界對(duì)象檢測(cè)的方法進(jìn)行語義增強(qiáng),其他相關(guān)工作(如R3M、H2R、VRB)則研究了將大部分被動(dòng)學(xué)習(xí)與一些主動(dòng)微調(diào)相結(jié)合的不同方式。

在RoboAgent中,研究人員僅僅依靠7500條軌跡的訓(xùn)練,得到了一個(gè)通用的RoboAgent,它能夠展示12種非平凡操縱技能,除了拾取/推動(dòng)外,還包括關(guān)節(jié)對(duì)象操縱和對(duì)象重新定位。跨越38個(gè)任務(wù),并將其推廣到數(shù)百個(gè)多樣化的未知場(chǎng)景,涉及未知對(duì)象、未知任務(wù),甚至完全未知的廚房。RoboAgent還可以通過新的經(jīng)驗(yàn)來發(fā)展其能力。

RoboAgent能夠在38個(gè)任務(wù)中展示12種技能

邁向通用機(jī)器人代理

因果困境:多年來,擁有一個(gè)能夠在多樣化環(huán)境中操作任意物體的單一機(jī)器人一直是一個(gè)遙不可及的目標(biāo)。這部分是由于缺乏多樣化的機(jī)器人數(shù)據(jù)集來訓(xùn)練這樣的代理,同時(shí)也缺乏能夠生成這種數(shù)據(jù)集的通用代理。

擺脫惡性循環(huán):為了擺脫這一惡性循環(huán),研究人員重點(diǎn)是開發(fā)一種能夠在實(shí)際數(shù)據(jù)預(yù)算下獲得多個(gè)技能的通用代理,并將其推廣到多樣化的未知情況下的有效范式。

RoboAgent是兩年努力的結(jié)晶,它基于以下模塊化和可重用的要素:

  • RoboPen - 一種使用通用硬件構(gòu)建的分布式機(jī)器人基礎(chǔ)設(shè)施,能夠進(jìn)行長(zhǎng)期不間斷的運(yùn)行。
  • RoboHive - 一個(gè)統(tǒng)一的框架,用于模擬和實(shí)際操作中的機(jī)器人學(xué)習(xí)。
  • RoboSet - 一個(gè)高質(zhì)量的數(shù)據(jù)集,代表了多個(gè)技能在不同場(chǎng)景中的日常對(duì)象。
  • MT-ACT - 一種有效的語言條件化多任務(wù)離線模仿學(xué)習(xí)框架,通過在現(xiàn)有機(jī)器人經(jīng)驗(yàn)上創(chuàng)建語義增強(qiáng)的多樣化集合,擴(kuò)展了離線數(shù)據(jù)集,并采用了一種新穎的策略架構(gòu),其中包括高效的動(dòng)作表示,以在數(shù)據(jù)預(yù)算下恢復(fù)高性能策略。

RoboSet:多技能多任務(wù)多模態(tài)數(shù)據(jù)集

構(gòu)建一個(gè)能夠推廣到許多不同情景的機(jī)器人代理需要一個(gè)涵蓋范圍廣泛的數(shù)據(jù)集。鑒于擴(kuò)大規(guī)模的努力通常會(huì)幫助,例如RT-1呈現(xiàn)了大約130,000個(gè)機(jī)器人軌跡的結(jié)果,目標(biāo)是在數(shù)據(jù)預(yù)算下理解學(xué)習(xí)系統(tǒng)的效率和泛化原理。低數(shù)據(jù)區(qū)域通常會(huì)導(dǎo)致過擬合。因此,主要目標(biāo)是開發(fā)一種強(qiáng)大的范式,能夠在低數(shù)據(jù)預(yù)算環(huán)境下學(xué)習(xí)可推廣的通用策略,同時(shí)避免過擬合。

ICRA 2024:基于語義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent -AI.x社區(qū)

技能與數(shù)據(jù)集在機(jī)器人學(xué)習(xí)中的表現(xiàn)

用于訓(xùn)練RoboAgent的數(shù)據(jù)集RoboSet(MT-ACT)僅包括7500條軌跡(RT1的18倍少)。該數(shù)據(jù)集提前收集,并被凍結(jié)。它包括使用人類遠(yuǎn)程操作在通用機(jī)器人硬件上收集的高質(zhì)量(大多數(shù)成功)軌跡,即Franka-Emika機(jī)器人與Robotiq夾爪,涵蓋多個(gè)任務(wù)和場(chǎng)景。RoboSet(MT-ACT)在幾個(gè)不同的上下文中稀疏地覆蓋了12種獨(dú)特的技能。它通過將日常廚房活動(dòng)(例如泡茶,烘烤)分解為不同的子任務(wù)來收集,每個(gè)子任務(wù)代表一個(gè)獨(dú)特的技能。數(shù)據(jù)集包括常見的拾取放置技能,但也包括接觸豐富的技能,例如擦拭,蓋上,以及涉及關(guān)節(jié)對(duì)象的技能。

ICRA 2024:基于語義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent -AI.x社區(qū)

機(jī)器人系統(tǒng)和數(shù)據(jù)收集中使用的對(duì)象的快照

除了用于訓(xùn)練RoboAgent的RoboSet(MT-ACT)之外,研究人員發(fā)布了RoboSet,這是在幾個(gè)相關(guān)項(xiàng)目中收集的一個(gè)規(guī)模更大的數(shù)據(jù)集,總共包含100,050個(gè)軌跡,包括非廚房場(chǎng)景。

MT-ACT:多任務(wù)動(dòng)作分塊Transformer

RoboAgent基于兩個(gè)關(guān)鍵洞見來學(xué)習(xí)在低數(shù)據(jù)環(huán)境中具有泛化能力的策略。它利用基礎(chǔ)模型的世界先驗(yàn)來避免模式崩潰,并采用一種新穎高效的策略表示方法,能夠處理高度多模態(tài)數(shù)據(jù)。

  • 語義增強(qiáng):RoboAgent通過創(chuàng)建RoboSet(MT-ACT)的語義增強(qiáng)來注入基礎(chǔ)模型的世界先驗(yàn)。由此產(chǎn)生的數(shù)據(jù)集通過SAM(Semantic Augmentation Module)將機(jī)器人的經(jīng)驗(yàn)與世界先驗(yàn)相乘,無需額外的人類/機(jī)器人成本。使用SAM來分割目標(biāo)對(duì)象,并將它們?cè)谛螤?、顏色、紋理等方面進(jìn)行語義增強(qiáng),轉(zhuǎn)變?yōu)椴煌膶?duì)象。
  • 高效策略表示:由此產(chǎn)生的數(shù)據(jù)集具有豐富的多模態(tài)性,包含各種技能、任務(wù)和情景。研究人員將動(dòng)作分塊技術(shù)應(yīng)用于多任務(wù)環(huán)境中,開發(fā)了MT-ACT——一種新穎的高效策略表示方法,能夠處理高度多模態(tài)的數(shù)據(jù)集,同時(shí)避免在低數(shù)據(jù)預(yù)算環(huán)境中的過擬合問題。

RoboAgent比現(xiàn)有方法更加樣本高效

下圖比較了MT-ACT策略表示與幾種模仿學(xué)習(xí)架構(gòu)。對(duì)于這個(gè)結(jié)果,MT-ACT僅使用包括對(duì)象姿態(tài)變化和部分光照變化的環(huán)境變化。與以往的工作類似,稱為L(zhǎng)1泛化。從結(jié)果中可以清楚地看出,使用動(dòng)作分塊來建模子軌跡明顯優(yōu)于所有基線方法,從而加強(qiáng)了所提出的策略表示方法在樣本高效學(xué)習(xí)中的有效性。

ICRA 2024:基于語義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent -AI.x社區(qū)

RoboAgent在多個(gè)泛化級(jí)別上表現(xiàn)良好

ICRA 2024:基于語義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent -AI.x社區(qū)

上圖顯示了測(cè)試方法的不同泛化級(jí)別。研究人員可視化了泛化級(jí)別,L1代表對(duì)象姿態(tài)變化,L2代表具有不同桌面背景和干擾物的多樣化,L3代表新穎的技能-對(duì)象組合。接下來展示了每種方法在這些泛化級(jí)別上的表現(xiàn)。在嚴(yán)格的評(píng)估研究中,可以觀察到MT-ACT在更難的泛化級(jí)別(L3)上明顯優(yōu)于所有其他方法。

ICRA 2024:基于語義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent -AI.x社區(qū)

RoboAgent具有很高的可擴(kuò)展性

接下來,研究人員評(píng)估了RoboAgent在語義增強(qiáng)水平增加時(shí)的表現(xiàn)。對(duì)一個(gè)活動(dòng)(5種技能)進(jìn)行了評(píng)估。下圖顯示,隨著數(shù)據(jù)的增加(即每幀的增強(qiáng)增加),性能在所有泛化級(jí)別上都有顯著提高。重要的是,對(duì)于更難的任務(wù)(L3泛化),性能增長(zhǎng)更大。

ICRA 2024:基于語義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent -AI.x社區(qū)


論文:https://arxiv.org/pdf/2309.01918

代碼:https://github.com/robopen/roboagent/

譯自(有刪改):https://robopen.github.io/


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/OqdgoTD8SHs8U83ECtBFJg??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦