機器人空間泛化也有Scaling Law!清華新國大新算法框架讓機器人操作更加魯棒
在機器人空間泛化領域,原來也有一套Scaling Law!
來自清華和新加坡國立大學的團隊,發(fā)現(xiàn)了空間智能的泛化性規(guī)律。
在此基礎上,他們提出了一套新穎的算法框架——ManiBox,讓機器人能夠在真實世界中應對多樣化的物體位置和復雜的場景布置。
在實際測試中,ManiBox實現(xiàn)了34440cm3最大操作空間范圍的高效覆蓋,抓取成功率高達90%-100%。
在具身智能和機器人操作實驗室中,往往會選擇固定的setting進行實驗,在業(yè)內(nèi)被稱為“完美擺放位置”。
但在現(xiàn)實環(huán)境中,實現(xiàn)機器人的空間泛化,以應對多樣化的物體位置和復雜的場景布置,一直是個艱難的挑戰(zhàn)。
顯然,實現(xiàn)空間智能所需要的,絕不是只在實驗室中操作一塊極小的空間范圍內(nèi)的物體。
為此,研究團隊基于發(fā)現(xiàn)的具身智能的空間泛化性Scaling Law,推出了ManiBox這項成果。
讓機器人走出實驗室
ManiBox是一個創(chuàng)新性的機器人操作算法框架,深入探索了具身智能的空間泛化性的Scaling Law,并通過大量模擬器數(shù)據(jù)和Bounding Box這樣的視覺低維特征引導,成功實現(xiàn)了空間泛化、背景泛化和物體泛化的抓取任務。
除了開頭展示的34440cm3空間泛化之外,ManiBox還實現(xiàn)了物體和背景的泛化。
物體方面,無論是蘋果、鋼杯,還是玻璃燒杯,ManiBox對各種形狀、大小的物體都能精準抓取。
同時面對各種背景挑戰(zhàn),無論是不同顏色桌布、復雜桌面,還是動態(tài)光源和視頻干擾,ManiBox始終表現(xiàn)穩(wěn)定。
除了這幾個泛化維度,ManiBox的強大適應性還讓其輕松擴展至復雜操作任務,并在真實環(huán)境中成功完成了抓取半空中物體、雜亂桌面上的物體,甚至倒水等操作。
抓取半空中物體時,ManiBox能靈活應對動態(tài)目標:
在擁擠環(huán)境中,也能夠精準抓?。?/p>
還可以精細操作復雜物體的局部,比如抓取杯子的把手:
除了抓取之外,通過修改teacher policy,還能實現(xiàn)向不同瓶子中倒水的操作,精準調(diào)整角度與力度,并實現(xiàn)平穩(wěn)且可控的液體傾倒:
另外作者的實驗還表明,即使在視覺遮擋率高達40%或Bounding Box識別噪音高達5%的情況下,ManiBox依然展現(xiàn)強大的魯棒性和操作能力。
即便在黑暗環(huán)境下,檢測模型大部分時間下沒有檢測到目標物體,純靠策略的泛化性,機械臂也能精準完成抓取任務:
通過下面的這組圖片,可以看到ManiBox確實只有少數(shù)時間檢測模型檢測到了目標物體。
可以看出,ManiBox不僅能夠完成常規(guī)抓取,還能擴展到更復雜的任務,適應不同的精細操作場景,展現(xiàn)了出色的Sim2Real能力。
并且這些動作,用戶只需輸入一個物體的prompt,ManiBox即可自動執(zhí)行對應物體的抓取、傾倒等操作,顯著提升了機器人操作任務的魯棒性與靈活性。
那么,ManiBox是如何實現(xiàn)的呢?
基于具身智能空間泛化Scaling Law
ManiBox背后的核心思想主要在于以下兩點:
- 一是利用規(guī)?;?/span>(scalable)、自動化的action數(shù)據(jù)生成方式,來在策略模塊上進行訓練,形成模型對action的認知,以緩解action模態(tài)數(shù)據(jù)稀缺的問題。(對應生成action的Policy)
- 二是充分利用互聯(lián)網(wǎng)級別的數(shù)據(jù)量(internet-scale data),在視覺、文本模態(tài)上形成通用的模型,來提供完成任務的重要指示信息。(對應Bounding Box這樣的低維視覺特征及其背后的視覺模型)
當然更基礎的,還有作者在空間泛化上取得的理論突破。
ManiBox深入探索了具身智能的空間泛化性Scaling Law,首次揭示了操作任務中的兩大關鍵關系。
一方面,團隊發(fā)現(xiàn)任務的成功率與數(shù)據(jù)量呈現(xiàn)出米氏-曼特恩(Michaelis-Menten)動力學曲線:
- 在成功率比較低的時候,增加數(shù)據(jù)量可以顯著提升成功率;
- 成功率達到80%-90%之后,數(shù)據(jù)量即使再繼續(xù)增加,模仿學習策略的成功率也逐漸趨于飽和,上升緩慢;
- 數(shù)據(jù)量趨于無窮的情況下,成功率趨于100%;
- 成功率與數(shù)據(jù)量的關系用公式表示為:success_rate= 100% * D / (K_m + D),其中D是數(shù)據(jù)量,K_m是達到50%成功率所需的數(shù)據(jù)量。
另一方面,作者還發(fā)現(xiàn)空間泛化所需數(shù)據(jù)量與空間體積呈現(xiàn)冪律關系,即更多數(shù)據(jù)可顯著提升更大空間范圍內(nèi)的泛化能力:
- 如果要擴展到x倍的空間體積,那么數(shù)據(jù)量需要擴展大約x^0.35倍;
- 在文中的setting中,34400cm^3相對于1cm^3,前者空間泛化所需的數(shù)據(jù)量是后者的34400^0.35=38倍。
在理論的基礎之上,ManiBox通過policy generalization方法來有效解決了空間泛化性問題,確保策略能夠在多樣化的環(huán)境,即便視覺模型存在較大的不確定性中,也能表現(xiàn)出強大的適應性。
借助YOLO-World這樣的開集邊界框檢測模型,ManiBox精準提取多視角的低維空間信息,將復雜的高維視覺問題轉化為簡化的狀態(tài)建模問題,從而為策略訓練提供了堅實的基礎。
最終,通過訓練一個基于狀態(tài)的策略(state-based policy),實現(xiàn)了從仿真到真實世界的高效遷移。
同時結合隨機掩碼(random mask)技術和歷史軌跡信息,ManiBox顯著提升了策略在應對視覺噪聲和檢測失敗場景下的魯棒性,進一步加強了模型的泛化能力和在真實環(huán)境中的表現(xiàn)。
在訓練上,作者還采取了高效數(shù)據(jù)生成與學生策略學習相結合的模式:
- 教師策略:通過強化學習與模仿學習相結合的框架,ManiBox可以做到2h訓練完強化學習策略,僅用一天時間 自動化采集了36,000條高質(zhì)量模擬數(shù)據(jù),涵蓋多種物體形狀、大小和空間配置;
- 學生策略:在此數(shù)據(jù)上訓練,僅需2分鐘即可完成模型學習,達成零樣本遷移,在真實場景中高效部署;
- 基于強化學習的操作策略,相比傳統(tǒng)的視覺方法可以有更強大通用性和魯棒性,比如傳統(tǒng)的視覺方法需要利用IK(逆運動學)求解joint position。
ManiBox的推出不僅為機器人操作任務提供了一種高效可靠的解決方案,更定義了一種 “數(shù)據(jù)驅動的空間智能” 方法,讓機器人在復雜真實場景的實用性成為可能。
它為機器人在復雜真實場景中的表現(xiàn)奠定了理論和技術基礎,具有廣泛的工業(yè)與家庭應用潛力。
作者預計,未來我們可以想象機器人在更多復雜任務中展現(xiàn)卓越表現(xiàn)。
作者簡介
該工作有兩位共同一作。
一位是清華大學計算機系TSAIL實驗室的二年級博士生譚恒楷(Hengkai Tan),主要研究方向是具身智能和強化學習,此前在ICML等頂級會議發(fā)表論文,還曾是全國青少年信息學奧林匹克競賽(NOI)的銀牌,全國84名,他也是RDT大模型的作者之一。
另一位是新加坡國立大學數(shù)學系大四本科生徐學舟(Xuezhou Xu),研究興趣在于具身智能和強化學習,他曾參與關于跨本體預訓練的研究項目PEAC,該研究已被NeurIPS2024接收。
PEAC提出了跨本體無監(jiān)督預訓練CEURL,在多個本體上統(tǒng)一預訓練,從而控制多個本體快速適應下游任務,實現(xiàn)了真實世界機器狗不同關節(jié)失靈的運動控制。
ManiBox延續(xù)了作者此前工作的類似思想,即利用規(guī)?;?、自動化的action數(shù)據(jù)生成方式來訓練策略,實現(xiàn)策略的泛化性。
作者發(fā)表在ICML2024上的FCNet在2023年實現(xiàn)了四足機器狗在真實世界極端地形的行走,包括過膝深的雪、結冰的河面、亂石、45度坡、樓梯等,同時有著更低的續(xù)航、更高的推理效率和更高的數(shù)據(jù)效率。
項目主頁:https://thkkk.github.io/manibox
論文地址:https://arxiv.org/abs/2411.01850
作者其他項目:
PEAC:https://yingchengyang.github.io/ceurl
FCNet:https://thkkk.github.io/fcnet
RDT-1B:https://rdt-robotics.github.io/rdt-robotics/