CMU清華MIT引爆全球首個Agent無限流,機器人「007」加班自學停不下來!具身智能被革命
全球首個生成式機器人Agent發(fā)布了!
長久以來,相比于語言或者視覺模型可以在大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)上訓練,訓練機器人的策略模型需要帶有動態(tài)物理交互信息的數(shù)據(jù),而這些數(shù)據(jù)的匱乏一直是具身智能發(fā)展的最大瓶頸。
最近,來自CMU、清華、MIT,UMass等機構(gòu)的研究人員提出了一種全新的RoboGen智能體。
利用涵蓋在大語言模型和生成式模型中蘊含的大規(guī)模知識,配以逼真模擬世界提供的物理信息,可以「無限」生成各種任務、場景以及教學數(shù)據(jù),實現(xiàn)機器人7x24小時全自動訓練。
現(xiàn)在,我們正在迅速耗盡來自網(wǎng)絡的高質(zhì)量的真實token。全球訓練AI的數(shù)據(jù),都快不夠用了。
深度學習之父Hinton表示,「科技公司們正在未來18個月內(nèi),要使用比現(xiàn)在GPT-4多100倍的算力訓練新模型」。模型參數(shù)更大,算力需求巨大,然而數(shù)據(jù)在哪里?
面對饑渴的模型,AI合成就是答案。
論文地址:https://arxiv.org/abs/2311.01455
項目主頁:https://robogen-ai.github.io/
開源地址:https://github.com/Genesis-Embodied-AI
具體來說,由MIT-IBM首席科學家淦創(chuàng)帶領(lǐng)的研究團隊,在生成式AI和和可微分物理模擬的加持下,提出了一種「提出-生成-學習」循環(huán),讓Agent能夠自己出題自己訓練機器人。
首先,Agent提出,我們要開發(fā)這個技能。
然后,它會生成相應的環(huán)境、配置和技能學習指導,來創(chuàng)建模擬環(huán)境。
最后,Agent會將提出的上層任務分解為子任務,選擇最佳學習方法,然后學習策略、掌握所提技能。
值得注意的是,整個過程幾乎都不需要人類的監(jiān)督,而且任務的數(shù)量,竟然是——無限個!
對于這則重磅的研究,英偉達高級科學家Jim Fan也進行了轉(zhuǎn)發(fā)。
現(xiàn)在,機器人已經(jīng)學會一系列炸裂操作——
把物品放到儲物柜中:
用微波爐加熱一碗湯:
拉動杠桿沖泡咖啡:
以及后空翻等等:
模擬環(huán)境,多樣化技能學習的關(guān)鍵
機器人研究中,長期存在這樣一個難題:怎樣賦予機器人多種技能,讓它們在非工廠環(huán)境中操作,為人類執(zhí)行廣泛的任務?
近年來,我們教會了機器人各種復雜的技能,比如流體操縱、投擲物體、踢足球、跑酷等等,然而這些技能卻各自為政,視野較短,需要人工設計的任務描述和訓練監(jiān)督。
因為現(xiàn)實世界數(shù)據(jù)收集成本高昂且費力,這些技能都是在適當領(lǐng)域隨機化的模擬中訓練,然后部署到現(xiàn)實世界中的。
與現(xiàn)實世界中的探索和數(shù)據(jù)收集相比,模擬環(huán)境具有許多優(yōu)點,比如提供了低級狀態(tài)的特權(quán)訪問和無限的探索機會;支持大規(guī)模并行計算,數(shù)據(jù)收集速度顯著加快;允許機器人開發(fā)閉環(huán)策略和錯誤恢復能力。
然而,構(gòu)建模擬環(huán)境需要一系列繁瑣的任務(設計任務、選擇相關(guān)且語義上有意義的資產(chǎn)、生成合理的場景布局和配置、制定獎勵或損失函數(shù)等訓練監(jiān)督)。即使在模擬世界中,也極大限制了機器人技能學習的可擴展性。
因此,研究者提出一種「生成模擬」范式,將模擬機器人技能學習的進步與基礎(chǔ)和生成模型的最新進展結(jié)合起來。
利用最先進的基礎(chǔ)模型的生成能力,生成模擬可以為模擬中各種機器人技能學習所需的所有階段生成信息。
得益于最新基礎(chǔ)模型中全面的編碼知識,以這種方式生成的場景和任務數(shù)據(jù),可能與現(xiàn)實世界場景的分布非常相似。
此外,這些模型可以進一步提供分解的低級子任務,這些子任務可以通過特定領(lǐng)域的策略學習方法無縫處理,從而產(chǎn)生各種技能和場景的閉環(huán)演示。
RoboGen流程
RoboGen是一種全自動流程,可以7x24h地讓機器人學習各種技能,其中包括4個階段:
1. 任務建議;
2. 場景生成;
3. 訓練監(jiān)督生成;
4. 利用生成的信息進行技能學習。
利用最新基礎(chǔ)模型的嵌入式常識和生成功能,RoboGen可以自動生成任務、場景和訓練監(jiān)督,從而讓機器人的多種技能學習實現(xiàn)規(guī)模化。
任務建議
在這一階段,RoboGen能夠提出上層任務,生成相應的環(huán)境,將上層目標分解為底層子任務,然后按順序?qū)W習子技能。
首先,RoboGen會生成有意義的、多樣化的、高水平的任務,供機器人學習。
研究者使用特定的機器人類型和從池中隨機采樣的對象,來初始化系統(tǒng)。然后將提供的機器人和采樣對象信息輸入LLM。
這種采樣過程,就確保了生成任務的多樣性。
比如,四足機器人等腿式機器人能夠獲得多種運動技能,而機械臂操縱器在配對時,有可能執(zhí)行多種操縱任務與不同的采樣對象。
研究者使用GPT-4在當前的流程中進行查詢。隨后在機械的背景下解釋 RoboGen的詳細信息,以及與對象操作相關(guān)的任務。
用于初始化的對象是從預定義的列表中采樣的,包括家庭場景中常見的鉸接式和非鉸接式對象,例如烤箱、微波爐、飲水機、筆記本電腦、洗碗機等。
因為GPT-4接受過大量互聯(lián)網(wǎng)數(shù)據(jù)集的培訓,所以它對這些對象的可供性、如何與它們交互、它們可以與哪些有意義的任務相關(guān)聯(lián),都有著豐富的理解。
比如,假設采樣的鉸接物體是微波爐,其中關(guān)節(jié)0是連接門的旋轉(zhuǎn)關(guān)節(jié),關(guān)節(jié)1是控制計時器旋鈕的另一個旋轉(zhuǎn)關(guān)節(jié),GPT-4會返回一個任務——「機器人手臂將一碗湯放入微波爐內(nèi),關(guān)上門并設置微波爐計時器,適當加熱時間a」。
生成的任務所需的其他對象,有一碗湯a,以及與任務相關(guān)的關(guān)節(jié)和鏈接,包括關(guān)節(jié)0(用于打開微波爐門)、關(guān)節(jié)1(用于設置定時器)、鏈接0(門)和鏈接1(定時器旋鈕)。
對于鉸接物體,由于PartNetMobility是唯一高質(zhì)量的鉸接物體數(shù)據(jù)集,并且已經(jīng)涵蓋了各種鉸接資產(chǎn),因此將根據(jù)采樣資產(chǎn)生成任務。
通過重復查詢不同的采樣對象和示例,可以生成各種操作和運動任務。
場景生成
給定一個任務,就可以繼續(xù)生成相應的模擬場景,以學習完成該任務的技能。
如圖所示,根據(jù)任務描述生成場景組件和配置,并檢索或生成對象資產(chǎn),隨后填充模擬場景。
場景組件和配置由以下元素組成: 對要填充到場景中的相關(guān)資產(chǎn)的查詢、其物理參數(shù)(例如大小)、配置 (例如初始關(guān)節(jié)角度) 以及資產(chǎn)的整體空間配置。
除了上一步中生成的任務所需的必要對象資產(chǎn)之外,為了增加生成場景的復雜性和多樣性,同時類似于真實場景的對象分布,研究者還讓GPT-4返回與任務語義相關(guān)對象的附加查詢。
比如,對于任務「打開柜子,將玩具放入其中,然后關(guān)上它」,生成的場景還會包括客廳墊子、臺燈、一本書和一把辦公椅。
訓練監(jiān)督生成
為了獲得相關(guān)技能,就需要對技能學習進行監(jiān)督。
RoboGen會首先查詢GPT-4,來把長任務規(guī)劃和分解為較短范圍的子任務。
一個關(guān)鍵假設是,當任務被分解為足夠短的子任務時,每個子任務都可以通過強化學習、運動規(guī)劃、軌跡優(yōu)化等現(xiàn)有算法可靠地解決。
分解后,RoboGen會查詢GPT-4,選擇合適的算法來解決每個子任務。
RoboGen中集成了幾種不同類型的學習算法: 強化學習、進化策略、基于梯度的軌跡優(yōu)化、帶有運動規(guī)劃的動作初始化。
每一種都適合不同的任務,例如基于梯度的軌跡優(yōu)化更適合學習涉及軟體的細粒度操作任務,比如將面團塑造成目標形狀。
與運動規(guī)劃相結(jié)合的動作初始化在解決任務時更加可靠,例如通過無碰撞路徑接近目標對象。
強化學習和進化策略更適合接觸豐富、涉及與其他場景組件持續(xù)交互的任務,例如腿部運動,或者當所需的動作不能簡單地通過離散的末端執(zhí)行器姿勢參數(shù)化時,比如轉(zhuǎn)動一個烤箱的旋鈕。
總之,GPT-4會根據(jù)生成的子任務,在線選擇使用哪種算法。
接下來,就可以為機器人構(gòu)建模擬場景,讓它們學習技能了。
機器人學會開保險箱
舉個例子,RoboGen會讓機器人去學習調(diào)整臺燈方向這種非常精巧的任務。
有趣的是,在這個場景里,地面上竟然還放著像是電腦顯示器這樣的易碎物。
可以說,非常考驗機器人的環(huán)境識別能力了。
對此,RoboGen會生成非常詳盡的操作代碼,包括場景配置、任務分解和監(jiān)督:
此外,還會訓練一些需要執(zhí)行很多步驟才能完成的任務,比如讓機器人把保險箱里的東西取出來。
這里就涉及到開門,取物,放下,關(guān)門等操作,期間還需要盡量避免與家具產(chǎn)生碰撞。
RoboGen給出的代碼如下:
或者,諸如讓波士頓動力的人形機器人原地轉(zhuǎn)個圈,這種在狹小空間中可能會遇到情景。
代碼如下:
實驗結(jié)果
- 任務多樣性
如表1所示,與之前的所有基準相比,RoboGen實現(xiàn)了最低的Self-BLEU和嵌入相似度。也就是說,RoboGen生成任務的多樣性,比人工制作的技能學習基準和數(shù)據(jù)集還要高!
- 場景有效性
如圖4所示,取消大小驗證會導致BLIP-2分數(shù)急劇下降,這是因為Objaverse和PartNetMobility中的物體尺寸,與現(xiàn)實世界的實際尺寸之間存在著巨大差異。此外,沒有對象驗證的BLIP-2得分也較低,而且方差更大。
相比之下,RoboGen中的驗證步驟,可以顯著提高對象選擇的有效性。
- 訓練指導有效性
如圖3所示,機器人在4個長程任務中,基于RoboGen生成的訓練指導(即任務分解和獎勵函數(shù))學習到的技能。
結(jié)果表明,機器人成功學習到了完成相應任務的技能。也就是說,自動生成的訓練指導能有效衍生出有意義且有用的技能。
- 技能學習
表2的結(jié)果顯示,允許選擇學習算法有利于提高完成任務的性能。如果只使用RL,大多數(shù)任務的技能學習都會失敗。
- 系統(tǒng)
如圖1所示,RoboGen可以生成各種任務,用于技能學習,包括剛性/關(guān)節(jié)物體操作、運動和軟體操作。
而圖3進一步表明,RoboGen能夠以合理的分解方式提供長程操作技能。
作者介紹
Yufei Wang是卡內(nèi)基梅隆大學機器人研究所三年級的博士生,導師是Zackory Erickson教授和David Held教授,研究興趣是機器人學習。
此前,他于2020年12月在CMU獲得了計算機科學碩士學位,導師是David Held教授,于2019年7月在北京大學元培學院獲得了數(shù)據(jù)科學學士學位,導師是Bin Dong教授。
Zhou Xian是卡內(nèi)基梅隆大學機器人研究所的一名博士生,導師是Katerina Fragkiadaki。研究興趣是機器人、計算機視覺和世界模型學習。
在進入CMU之前,他在新加坡南洋理工大學完成了學士學位,師從Pham Quang Cuong和I-Ming Chen。并曾在Meta AI、Akshara Rai,以及MIT-IBM AI Lab實習,導師是Chuang Gan。
目前,他的研究重點是為可擴展的機器人學習構(gòu)建統(tǒng)一的神經(jīng)策略和仿真基礎(chǔ)設施。
此外,共同一作還有清華姚班的陳楓。
團隊負責人淦創(chuàng),現(xiàn)任IBM首席科學家和麻省大學助理教授,是姚期智院士的弟子。在博士期間曾獲得清華特獎,微軟學者,百度學者。他的研究同時得到了Amazon Research Award,Sony Faculty Award,Cisco Faculty Award,Microsoft Accelerate Foundation Models Research Program等資助。