李飛飛全新「保姆」人形機(jī)器人,倒垃圾刷馬桶家務(wù)全包!遙操只需Switch手柄
對(duì)人類來(lái)說(shuō)輕而易舉的事,對(duì)機(jī)器人來(lái)說(shuō)很難。
機(jī)器人能做家庭管家,照顧好一家人嗎?要做「家庭管家」,機(jī)器人真正需要什么技能?
最近,來(lái)自斯坦福的李飛飛團(tuán)隊(duì),提出了一種一個(gè)面向多樣化家庭任務(wù)的全身操作綜合框架——「行為機(jī)器人套件」(???????????????? ?????????? ??????????,??????)。
從倒垃圾、整理衣物再到刷馬桶——??????讓機(jī)器人能夠應(yīng)對(duì)實(shí)際的日常任務(wù)。
論文鏈接:https://arxiv.org/abs/2503.05652
要實(shí)現(xiàn)全身操控,精心設(shè)計(jì)的機(jī)器人硬件至關(guān)重要,包括雙臂、移動(dòng)底座和靈活軀干。
然而,這種復(fù)雜的設(shè)計(jì)也給策略學(xué)習(xí)帶來(lái)了難題,尤其是在擴(kuò)大數(shù)據(jù)收集規(guī)模和精準(zhǔn)建模協(xié)調(diào)的全身動(dòng)作以適應(yīng)復(fù)雜的真實(shí)環(huán)境方面。
為此,團(tuán)隊(duì)制作了這款基于配備4自由度(DoF)軀干的雙臂輪式機(jī)器人,并通過(guò)兩大核心創(chuàng)新同時(shí)解決硬件和學(xué)習(xí)難題:
- JoyLo:一個(gè)經(jīng)濟(jì)高效的全身遙操作界面(用于數(shù)據(jù)收集)
- WB-VIMA:一個(gè)專門用于學(xué)習(xí)全身視覺(jué)運(yùn)動(dòng)策略的創(chuàng)新算法
李飛飛稱,機(jī)器人學(xué)習(xí)領(lǐng)域的「圣杯」之一,是執(zhí)行可泛化的日常家庭移動(dòng)操作任務(wù)。
借助新型雙手移動(dòng)機(jī)器人,我們最新研發(fā)的BEHAVIOR機(jī)器人套件(BRS)向這一極其困難、尚未解決的難題發(fā)起了挑戰(zhàn)!
難題:末端執(zhí)行器的可達(dá)性
大多數(shù)人認(rèn)為,機(jī)器人必須具備移動(dòng)性并配備雙臂,才能有效完成日常家務(wù)。
然而,經(jīng)常忽視另一項(xiàng)關(guān)鍵能力:末端執(zhí)行器的可達(dá)性。
- 家中的物品擺放高度和位置各不相同,機(jī)器人需要根據(jù)情況調(diào)整其可達(dá)范圍(見(jiàn)下方分布圖)。
- 具備雙臂、輪式底盤以及靈活軀干的機(jī)器人,非常有可能解決這一問(wèn)題,但也帶來(lái)了更高的復(fù)雜性。
- 這種復(fù)雜性給視覺(jué)-運(yùn)動(dòng)策略學(xué)習(xí)帶來(lái)了重大挑戰(zhàn),尤其是在擴(kuò)大數(shù)據(jù)收集規(guī)模和精準(zhǔn)建模協(xié)調(diào)的全身動(dòng)作以適應(yīng)真實(shí)場(chǎng)景時(shí)。
高度和距離對(duì)機(jī)器人的影響
數(shù)據(jù)收集
為了解決數(shù)據(jù)收集的難題,團(tuán)隊(duì)推出了JoyLo——一種利用常見(jiàn)硬件(Nintendo Switch手柄)實(shí)現(xiàn)全身控制的經(jīng)濟(jì)高效接口!
通過(guò)將Switch手柄安裝在3D打印的引導(dǎo)臂上,JoyLo讓用戶能夠直觀且精準(zhǔn)地操控機(jī)器人的全身動(dòng)作。
例如,它可以幫助用戶協(xié)調(diào)復(fù)雜的全身運(yùn)動(dòng)(比如彈吉他),提供豐富的觸覺(jué)反饋,并生成高質(zhì)量的示范數(shù)據(jù),這些對(duì)于視覺(jué)-運(yùn)動(dòng)策略學(xué)習(xí)至關(guān)重要。而且,它的成本低廉,使用門檻也很低。
模型學(xué)習(xí)
學(xué)習(xí)難題則由負(fù)責(zé)WB-VIMA解決,這是一種專門用于精準(zhǔn)建模全身協(xié)調(diào)動(dòng)作的新算法。
研究人員發(fā)現(xiàn),在人形機(jī)器人上,移動(dòng)底座或軀干的輕微誤差會(huì)被放大,最終影響機(jī)器人末端執(zhí)行器的精準(zhǔn)度。
WB-VIMA是一種模仿學(xué)習(xí)算法,專門用于建模機(jī)器人的全身動(dòng)作,并充分利用其固有的運(yùn)動(dòng)學(xué)層級(jí)結(jié)構(gòu)。
核心思路是機(jī)器人各關(guān)節(jié)之間存在強(qiáng)關(guān)聯(lián)性——上游部位(如軀干)的微小動(dòng)作,可能會(huì)導(dǎo)致下游部位(如末端執(zhí)行器)發(fā)生較大位移。
因此,為了確保所有關(guān)節(jié)的精準(zhǔn)協(xié)調(diào),WB-VIMA采用層級(jí)條件預(yù)測(cè)方式,即:下游部位的動(dòng)作預(yù)測(cè)基于上游部位的動(dòng)作,從而實(shí)現(xiàn)更同步的全身運(yùn)動(dòng)。
WB-VIMA采用自回歸方式在整個(gè)機(jī)器人結(jié)構(gòu)中依次解碼動(dòng)作:
- 首先預(yù)測(cè)移動(dòng)底座的動(dòng)作
- 再根據(jù)底座的預(yù)測(cè)動(dòng)作來(lái)調(diào)整軀干的動(dòng)作
- 最后在底座和軀干動(dòng)作的基礎(chǔ)上,預(yù)測(cè)手臂的動(dòng)作
此外,WB-VIMA通過(guò)自注意力機(jī)制,動(dòng)態(tài)整合多模態(tài)感知信息,從而提升系統(tǒng)的魯棒性和適應(yīng)性。
實(shí)驗(yàn)
受BEHAVIOR-1K中定義的日?;顒?dòng)啟發(fā),研究團(tuán)隊(duì)選擇了具有代表性的家庭任務(wù)來(lái)展示BRS的能力,包括以下五項(xiàng)家務(wù):
- 把垃圾帶到外面
- 把物品放到架子上
- 擺放衣物
- 清潔馬桶
- 在狂歡派對(duì)后打掃房間
這些任務(wù)需要3個(gè)關(guān)鍵的全身控制能力:雙手協(xié)調(diào)、穩(wěn)定精確的導(dǎo)航以及機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性。
所有任務(wù)都在真實(shí)世界的未經(jīng)改造的環(huán)境中進(jìn)行,使用人類日常接觸的物品。
這些任務(wù)都是長(zhǎng)期任務(wù),人類操作員使用JoyLo完成這些任務(wù)需要60至210秒不等。
由于這些活動(dòng)的多階段性質(zhì),每個(gè)任務(wù)都被劃分為多個(gè)子任務(wù)「ST」(SubTask)。
BRS讓機(jī)器人成功完成了這些多樣化的家務(wù)任務(wù),并且新算法WB-VIMA在所有測(cè)試中穩(wěn)定超越基準(zhǔn)方法(詳見(jiàn)下方結(jié)果)。
接下來(lái)的有策略執(zhí)行的視頻,快來(lái)看看吧!
BRS支持各種家庭活動(dòng)
任務(wù)1:倒垃圾
對(duì)機(jī)器人而言,完成倒垃圾的最關(guān)鍵的能力穩(wěn)定和精確的導(dǎo)航。
機(jī)器人首先找到客廳的垃圾袋,然后完成下列子任務(wù)(括號(hào)數(shù)字表示執(zhí)行順序):拾起(ST-1),搬運(yùn)至關(guān)閉的門前(ST-2),打開(kāi)門(ST-3),移動(dòng)至室外,并將垃圾袋放到垃圾箱(ST-4)。
任務(wù)2:將物品擺放至貨架
在儲(chǔ)物室中,機(jī)器人從地面抬起一個(gè)箱子(ST-1),找到四層貨架,并將箱子放到合適的位置(ST-2)。
機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性是完成該任務(wù)最關(guān)鍵的能力。
任務(wù)3:整理衣物
在臥室中,機(jī)器人找到衣柜,打開(kāi)衣柜(ST-1),取下衣架上的外套(ST-2),將外套平整地展開(kāi)在沙發(fā)上(ST-3),隨后返回關(guān)閉衣柜(ST-4)。
雙手協(xié)調(diào)能力是完成該任務(wù)最關(guān)鍵的能力。
任務(wù)4:刷馬桶
在衛(wèi)生間中,機(jī)器人拿起放置在已關(guān)閉馬桶上的一塊海綿(ST-1),掀開(kāi)馬桶蓋(ST-2),清潔馬桶圈(ST-3),合上馬桶蓋(ST-4),并開(kāi)始擦馬桶蓋(ST-5),隨后機(jī)器人前往沖水按鈕處按下沖水鍵(ST-6)。
這里,機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性是完成該任務(wù)最關(guān)鍵的能力。
任務(wù)5:狂歡派對(duì)后的房屋清理
從客廳出發(fā),機(jī)器人導(dǎo)航至廚房的洗碗機(jī)前(ST-1)并打開(kāi)洗碗機(jī)(ST-2)。
隨后前往娛樂(lè)桌處(ST-3)收集遺留的碗具(ST-4)。
最后,機(jī)器人返回洗碗機(jī)前(ST-5),將所有碗具放入并關(guān)閉洗碗機(jī)(ST-6)。
這里,穩(wěn)定和精確的導(dǎo)航能力是完成該任務(wù)最關(guān)鍵的能力。
JoyLo的使用反饋
JoyLo不僅高效、用戶友好,而且能為策略學(xué)習(xí)提供高質(zhì)量數(shù)據(jù)。
研究人員對(duì)10名參與者進(jìn)行了深入的用戶研究,以評(píng)估JoyLo的有效性及其所收集數(shù)據(jù)對(duì)策略學(xué)習(xí)的適用性。
研究人員將JoyLo與兩個(gè)主流的基于逆向運(yùn)動(dòng)學(xué)(Inverse kinematics,IK)的界面進(jìn)行對(duì)比:VR控制器和Apple Vision Pro。
為防止對(duì)機(jī)器人或環(huán)境造成潛在損害,研究在OmniGibson模擬器中進(jìn)行,并選用「狂歡派對(duì)后的房屋清理」作為測(cè)試任務(wù)。
研究人員通過(guò)測(cè)量成功率(↑,越高越好)和完成時(shí)間(↓,越低越好)來(lái)評(píng)估效率,同時(shí)通過(guò)重放成功率(↑)和奇異性比率(↓)來(lái)評(píng)估數(shù)據(jù)對(duì)策略學(xué)習(xí)的質(zhì)量。
其中,「成功率」指遙操作試驗(yàn)的成功比例,而「重放成功率」則衡量已收集的機(jī)器人軌跡在開(kāi)環(huán)執(zhí)行時(shí)的成功程度。
這種評(píng)估對(duì)于隨機(jī)環(huán)境中的長(zhǎng)期任務(wù)來(lái)說(shuō)尤具挑戰(zhàn)性。較高的重放成功率表明數(shù)據(jù)質(zhì)量可靠,使得模仿學(xué)習(xí)策略可以直接對(duì)收集的軌跡進(jìn)行建模,而無(wú)需考慮具身化或運(yùn)動(dòng)學(xué)不匹配問(wèn)題。研究人員同時(shí)報(bào)告了整體任務(wù)(「ET」)和各子任務(wù)(「ST」)的結(jié)果。
如上圖所示,JoyLo在所有界面中取得了最高的成功率和最短的完成時(shí)間。
使用JoyLo完成整體任務(wù)的平均成功率是VR控制器的5倍,而使用Apple Vision Pro的參與者則無(wú)一人能完成整體任務(wù)。
使用JoyLo的中位完成時(shí)間比使用VR控制器縮短了23%。
在需要精確操作的鉸接物體操作方面,JoyLo表現(xiàn)尤為突出。
此外,JoyLo始終提供最優(yōu)質(zhì)的數(shù)據(jù),這一點(diǎn)體現(xiàn)在僅有使用JoyLo收集的數(shù)據(jù)能在開(kāi)環(huán)中成功重放并完成復(fù)雜任務(wù)。這是因?yàn)镴oyLo產(chǎn)生的奇異性比率最低,比VR控制器低78%,比Apple Vision Pro低85%。
所有參與者均認(rèn)為JoyLo是最用戶友好的界面。
有趣的是,雖然70%的參與者最初認(rèn)為基于IK的界面會(huì)更直觀,但在研究結(jié)束后,他們一致選擇了JoyLo。
這種轉(zhuǎn)變凸顯了臺(tái)面操作任務(wù)與移動(dòng)全身操作在數(shù)據(jù)收集方面的關(guān)鍵差異——參與者普遍反映使用基于IK的方法難以有效控制移動(dòng)底座和軀干部分。
WB-VIMA家務(wù)水平完全超越基線
在基準(zhǔn)比較中,研究人員選取了DP3和基于RGB圖像的擴(kuò)散策略模型(「RGBDP」)作為對(duì)照。
研究人員同時(shí)將人類遙操作成功率作為參考標(biāo)準(zhǔn),并追蹤安全違規(guī)情況(包括機(jī)器人碰撞或因過(guò)度受力導(dǎo)致的電機(jī)功率損失)。
每種策略模型均對(duì)每項(xiàng)活動(dòng)進(jìn)行15次評(píng)估。在評(píng)估過(guò)程中,若某個(gè)子任務(wù)(「ST」)失敗,研究人員會(huì)將機(jī)器人和環(huán)境重置至后續(xù)子任務(wù)的初始狀態(tài)并繼續(xù)評(píng)估。
此外,研究人員還報(bào)告了整體任務(wù)(「ET」)的成功率,用以表征策略模型完成端到端活動(dòng)的能力。
如上圖所示,WB-VIMA在所有任務(wù)中的表現(xiàn)始終優(yōu)于基準(zhǔn)方法DP3和RGB-DP。
就端到端任務(wù)成功率而言,WB-VIMA比DP3高出13倍,比RGB-DP高出21倍。
基準(zhǔn)方法僅能完成部分子任務(wù)和相對(duì)簡(jiǎn)單的「將物品擺放至貨架」任務(wù),但在更復(fù)雜的任務(wù)中均告失敗。
在平均子任務(wù)表現(xiàn)方面,WB-VIMA的性能比DP3高出1.6倍,比RGB-DP高出3.4倍。
基準(zhǔn)方法失敗的根本原因在于它們無(wú)法預(yù)測(cè)準(zhǔn)確且協(xié)調(diào)的全身動(dòng)作。
DP3和RGB-DP都直接預(yù)測(cè)扁平化的21自由度(DoF)動(dòng)作,而忽視了動(dòng)作空間中的層級(jí)依賴關(guān)系。這種方法存在問(wèn)題,因?yàn)榧词故怯?xùn)練充分的策略模型,也會(huì)出現(xiàn)建模誤差。
如果這些誤差出現(xiàn)在移動(dòng)底座或軀干動(dòng)作的預(yù)測(cè)中,由于所有組件都是同時(shí)預(yù)測(cè)且相互獨(dú)立的,這些誤差就無(wú)法通過(guò)手臂動(dòng)作來(lái)修正。
全身控制涉及多個(gè)鉸接部件,這意味著不準(zhǔn)確的全身動(dòng)作會(huì)導(dǎo)致任務(wù)空間中的末端執(zhí)行器偏移被放大,使機(jī)器人進(jìn)入分布外(out-of-distribution)狀態(tài),最終導(dǎo)致操作失敗。
WB-VIMA各組件對(duì)任務(wù)性能的影響分析
研究人員對(duì)WB-VIMA的兩個(gè)變體進(jìn)行了消融實(shí)驗(yàn)(ablations tudies):
- 第一個(gè)變體移除了自回歸全身動(dòng)作去噪(autoregressive whole-body action denoising)模塊,
- 第二個(gè)變體移除了多模態(tài)觀察注意力(multi-modal observation attention)機(jī)制。
如上圖所示,移除任一組件都會(huì)導(dǎo)致系統(tǒng)整體性能顯著下降。
特別是在「將物品放置到架子上」任務(wù)和「整理衣物」中的首個(gè)子任務(wù)「打開(kāi)衣柜」中,協(xié)調(diào)的全身動(dòng)作對(duì)任務(wù)成功起著決定性作用。
具體而言,移除自回歸全身動(dòng)作去噪模塊會(huì)導(dǎo)致性能嚴(yán)重下降,降幅最高達(dá)到53%。同樣,移除多模態(tài)觀察注意力機(jī)制也會(huì)導(dǎo)致所有任務(wù)的性能下降。
總體而言,WB-VIMA 在復(fù)雜的真實(shí)家庭任務(wù)中的出色表現(xiàn),主要得益于兩個(gè)方面的協(xié)同作用:一是連貫且協(xié)調(diào)的全身動(dòng)作預(yù)測(cè)能力,二是從多模態(tài)觀察中有效提取任務(wù)相關(guān)特征的能力。
整體系統(tǒng)能力的深度分析
盡管BRS在各類家庭任務(wù)中表現(xiàn)出色,但還有哪些深入見(jiàn)解可以指導(dǎo)未來(lái)的技術(shù)進(jìn)步?
研究人員重點(diǎn)強(qiáng)調(diào)兩個(gè)關(guān)鍵發(fā)現(xiàn)。
首先,4自由度(DoF)軀干和移動(dòng)底座顯著提升了機(jī)器人的運(yùn)動(dòng)靈活性,這是固定機(jī)械臂難以具備的特性。
如下圖所示,這種優(yōu)勢(shì)在需要協(xié)調(diào)全身運(yùn)動(dòng)的鉸接物體交互任務(wù)中尤為突出,例如在「倒垃圾」任務(wù)中的「開(kāi)門」環(huán)節(jié),以及「狂歡派對(duì)后的房屋清理」任務(wù)中的「打開(kāi)洗碗機(jī)」環(huán)節(jié)。
為了開(kāi)啟未經(jīng)改裝的門,機(jī)器人習(xí)得了一種策略:在推進(jìn)移動(dòng)底座的同時(shí)前傾軀干,這樣在抓住門把手后能產(chǎn)生足夠的慣性來(lái)解鎖鉸鏈并推開(kāi)門。
同樣,在打開(kāi)洗碗機(jī)時(shí),機(jī)器人通過(guò)向后移動(dòng)底座,協(xié)調(diào)利用全身來(lái)平穩(wěn)地拉開(kāi)洗碗機(jī)門。
此外,研究人員觀察到機(jī)器人掌握了從失敗中恢復(fù)的能力。
如下方視頻所示,當(dāng)機(jī)器人在打開(kāi)衣柜門時(shí)發(fā)現(xiàn)一扇門未能完全打開(kāi),它會(huì)主動(dòng)后退一段距離,重新嘗試開(kāi)門動(dòng)作,最終成功完成任務(wù)。
類似地,當(dāng)機(jī)器人因手臂夠不著而無(wú)法關(guān)閉馬桶蓋時(shí),它會(huì)通過(guò)向前傾斜軀干來(lái)縮短與馬桶的距離。隨后,機(jī)器人重新嘗試,成功抓取馬桶蓋并平穩(wěn)地將其關(guān)閉。
失敗案例分析
研究人員展示了經(jīng)過(guò)訓(xùn)練的WB-VIMA策略模型的若干失敗案例,具體包括:
- 機(jī)器人雖已成功抓住把手,但未能完全打開(kāi)洗碗機(jī);
- 未能成功按下沖水按鈕;
- 未能從地面上成功拾取垃圾袋;
- 未能成功搬起地面上的箱子;
- 未能成功關(guān)閉衣柜門。
結(jié)論
研究人員提出了BRS全身機(jī)器人綜合性框架,致力于學(xué)習(xí)全身操作技能以應(yīng)對(duì)多樣化真實(shí)家庭任務(wù)。
研究人員識(shí)別了執(zhí)行家庭活動(dòng)所必需的全身控制三個(gè)核心能力:雙手協(xié)調(diào)能力、穩(wěn)定精確的導(dǎo)航能力以及廣泛的末端執(zhí)行器可達(dá)性。
要通過(guò)基于學(xué)習(xí)的方法使機(jī)器人成功掌握這些能力,需要同時(shí)克服數(shù)據(jù)收集和算法建模兩大領(lǐng)域的挑戰(zhàn)。
整體而言,BRS系統(tǒng)在多項(xiàng)真實(shí)家庭任務(wù)中展現(xiàn)出卓越性能,能夠在自然、非結(jié)構(gòu)化環(huán)境中與未經(jīng)改裝的物體進(jìn)行有效交互。
研究人員相信,BRS是實(shí)現(xiàn)機(jī)器人以更高自主性和可靠性執(zhí)行日常家務(wù)的重要一步。