自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛全新「保姆」人形機(jī)器人,倒垃圾刷馬桶家務(wù)全包!遙操只需Switch手柄

人工智能 新聞
斯坦福李飛飛團(tuán)隊(duì)在「保姆型」機(jī)器人上新突破!提出BRS綜合框架,以后機(jī)器人執(zhí)行日常家務(wù)更自主、更可靠。

對(duì)人類來(lái)說(shuō)輕而易舉的事,對(duì)機(jī)器人來(lái)說(shuō)很難。

機(jī)器人能做家庭管家,照顧好一家人嗎?要做「家庭管家」,機(jī)器人真正需要什么技能?

最近,來(lái)自斯坦福的李飛飛團(tuán)隊(duì),提出了一種一個(gè)面向多樣化家庭任務(wù)的全身操作綜合框架——「行為機(jī)器人套件」(???????????????? ?????????? ??????????,??????)。

從倒垃圾、整理衣物再到刷馬桶——??????讓機(jī)器人能夠應(yīng)對(duì)實(shí)際的日常任務(wù)。

圖片

論文鏈接:https://arxiv.org/abs/2503.05652

要實(shí)現(xiàn)全身操控,精心設(shè)計(jì)的機(jī)器人硬件至關(guān)重要,包括雙臂、移動(dòng)底座和靈活軀干

然而,這種復(fù)雜的設(shè)計(jì)也給策略學(xué)習(xí)帶來(lái)了難題,尤其是在擴(kuò)大數(shù)據(jù)收集規(guī)模精準(zhǔn)建模協(xié)調(diào)的全身動(dòng)作以適應(yīng)復(fù)雜的真實(shí)環(huán)境方面。

為此,團(tuán)隊(duì)制作了這款基于配備4自由度(DoF)軀干的雙臂輪式機(jī)器人,并通過(guò)兩大核心創(chuàng)新同時(shí)解決硬件和學(xué)習(xí)難題:

  1. JoyLo:一個(gè)經(jīng)濟(jì)高效的全身遙操作界面(用于數(shù)據(jù)收集)
  2. WB-VIMA:一個(gè)專門用于學(xué)習(xí)全身視覺(jué)運(yùn)動(dòng)策略的創(chuàng)新算法

圖片

李飛飛稱,機(jī)器人學(xué)習(xí)領(lǐng)域的「圣杯」之一,是執(zhí)行可泛化的日常家庭移動(dòng)操作任務(wù)。

借助新型雙手移動(dòng)機(jī)器人,我們最新研發(fā)的BEHAVIOR機(jī)器人套件(BRS)向這一極其困難、尚未解決的難題發(fā)起了挑戰(zhàn)!

圖片

難題:末端執(zhí)行器的可達(dá)性

大多數(shù)人認(rèn)為,機(jī)器人必須具備移動(dòng)性并配備雙臂,才能有效完成日常家務(wù)。

然而,經(jīng)常忽視另一項(xiàng)關(guān)鍵能力:末端執(zhí)行器的可達(dá)性。

  1. 家中的物品擺放高度和位置各不相同,機(jī)器人需要根據(jù)情況調(diào)整其可達(dá)范圍(見(jiàn)下方分布圖)。
  2. 具備雙臂、輪式底盤以及靈活軀干的機(jī)器人,非常有可能解決這一問(wèn)題,但也帶來(lái)了更高的復(fù)雜性。
  3. 這種復(fù)雜性給視覺(jué)-運(yùn)動(dòng)策略學(xué)習(xí)帶來(lái)了重大挑戰(zhàn),尤其是在擴(kuò)大數(shù)據(jù)收集規(guī)模和精準(zhǔn)建模協(xié)調(diào)的全身動(dòng)作以適應(yīng)真實(shí)場(chǎng)景時(shí)。

圖片

高度和距離對(duì)機(jī)器人的影響

數(shù)據(jù)收集

為了解決數(shù)據(jù)收集的難題,團(tuán)隊(duì)推出了JoyLo——一種利用常見(jiàn)硬件(Nintendo Switch手柄)實(shí)現(xiàn)全身控制的經(jīng)濟(jì)高效接口!

圖片

通過(guò)將Switch手柄安裝在3D打印的引導(dǎo)臂上,JoyLo讓用戶能夠直觀且精準(zhǔn)地操控機(jī)器人的全身動(dòng)作。

例如,它可以幫助用戶協(xié)調(diào)復(fù)雜的全身運(yùn)動(dòng)(比如彈吉他),提供豐富的觸覺(jué)反饋,并生成高質(zhì)量的示范數(shù)據(jù),這些對(duì)于視覺(jué)-運(yùn)動(dòng)策略學(xué)習(xí)至關(guān)重要。而且,它的成本低廉,使用門檻也很低。

模型學(xué)習(xí)

學(xué)習(xí)難題則由負(fù)責(zé)WB-VIMA解決,這是一種專門用于精準(zhǔn)建模全身協(xié)調(diào)動(dòng)作的新算法。

研究人員發(fā)現(xiàn),在人形機(jī)器人上,移動(dòng)底座或軀干的輕微誤差會(huì)被放大,最終影響機(jī)器人末端執(zhí)行器的精準(zhǔn)度。

WB-VIMA是一種模仿學(xué)習(xí)算法,專門用于建模機(jī)器人的全身動(dòng)作,并充分利用其固有的運(yùn)動(dòng)學(xué)層級(jí)結(jié)構(gòu)。

核心思路是機(jī)器人各關(guān)節(jié)之間存在強(qiáng)關(guān)聯(lián)性——上游部位(如軀干)的微小動(dòng)作,可能會(huì)導(dǎo)致下游部位(如末端執(zhí)行器)發(fā)生較大位移。

因此,為了確保所有關(guān)節(jié)的精準(zhǔn)協(xié)調(diào),WB-VIMA采用層級(jí)條件預(yù)測(cè)方式,即:下游部位的動(dòng)作預(yù)測(cè)基于上游部位的動(dòng)作,從而實(shí)現(xiàn)更同步的全身運(yùn)動(dòng)。

WB-VIMA采用自回歸方式在整個(gè)機(jī)器人結(jié)構(gòu)中依次解碼動(dòng)作:

  1. 首先預(yù)測(cè)移動(dòng)底座的動(dòng)作
  2. 再根據(jù)底座的預(yù)測(cè)動(dòng)作來(lái)調(diào)整軀干的動(dòng)作
  3. 最后在底座和軀干動(dòng)作的基礎(chǔ)上,預(yù)測(cè)手臂的動(dòng)作

此外,WB-VIMA通過(guò)自注意力機(jī)制,動(dòng)態(tài)整合多模態(tài)感知信息,從而提升系統(tǒng)的魯棒性適應(yīng)性。

圖片

實(shí)驗(yàn)

受BEHAVIOR-1K中定義的日?;顒?dòng)啟發(fā),研究團(tuán)隊(duì)選擇了具有代表性的家庭任務(wù)來(lái)展示BRS的能力,包括以下五項(xiàng)家務(wù):

  1. 把垃圾帶到外面
  2. 把物品放到架子上
  3. 擺放衣物
  4. 清潔馬桶
  5. 在狂歡派對(duì)后打掃房間

這些任務(wù)需要3個(gè)關(guān)鍵的全身控制能力:雙手協(xié)調(diào)、穩(wěn)定精確的導(dǎo)航以及機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性。

所有任務(wù)都在真實(shí)世界的未經(jīng)改造的環(huán)境中進(jìn)行,使用人類日常接觸的物品。

這些任務(wù)都是長(zhǎng)期任務(wù),人類操作員使用JoyLo完成這些任務(wù)需要60至210秒不等。

由于這些活動(dòng)的多階段性質(zhì),每個(gè)任務(wù)都被劃分為多個(gè)子任務(wù)「ST」(SubTask)。

BRS讓機(jī)器人成功完成了這些多樣化的家務(wù)任務(wù),并且新算法WB-VIMA在所有測(cè)試中穩(wěn)定超越基準(zhǔn)方法(詳見(jiàn)下方結(jié)果)。

圖片

接下來(lái)的有策略執(zhí)行的視頻,快來(lái)看看吧!

BRS支持各種家庭活動(dòng)

任務(wù)1:倒垃圾

對(duì)機(jī)器人而言,完成倒垃圾的最關(guān)鍵的能力穩(wěn)定和精確的導(dǎo)航。

機(jī)器人首先找到客廳的垃圾袋,然后完成下列子任務(wù)(括號(hào)數(shù)字表示執(zhí)行順序):拾起(ST-1),搬運(yùn)至關(guān)閉的門前(ST-2),打開(kāi)門(ST-3),移動(dòng)至室外,并將垃圾袋放到垃圾箱(ST-4)。

圖片

任務(wù)2:將物品擺放至貨架

在儲(chǔ)物室中,機(jī)器人從地面抬起一個(gè)箱子(ST-1),找到四層貨架,并將箱子放到合適的位置(ST-2)。

機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性是完成該任務(wù)最關(guān)鍵的能力。

圖片

任務(wù)3:整理衣物

在臥室中,機(jī)器人找到衣柜,打開(kāi)衣柜(ST-1),取下衣架上的外套(ST-2),將外套平整地展開(kāi)在沙發(fā)上(ST-3),隨后返回關(guān)閉衣柜(ST-4)。

雙手協(xié)調(diào)能力是完成該任務(wù)最關(guān)鍵的能力。

圖片

任務(wù)4:刷馬桶

在衛(wèi)生間中,機(jī)器人拿起放置在已關(guān)閉馬桶上的一塊海綿(ST-1),掀開(kāi)馬桶蓋(ST-2),清潔馬桶圈(ST-3),合上馬桶蓋(ST-4),并開(kāi)始擦馬桶蓋(ST-5),隨后機(jī)器人前往沖水按鈕處按下沖水鍵(ST-6)。

這里,機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性是完成該任務(wù)最關(guān)鍵的能力。

圖片

任務(wù)5:狂歡派對(duì)后的房屋清理

從客廳出發(fā),機(jī)器人導(dǎo)航至廚房的洗碗機(jī)前(ST-1)并打開(kāi)洗碗機(jī)(ST-2)。

隨后前往娛樂(lè)桌處(ST-3)收集遺留的碗具(ST-4)。

最后,機(jī)器人返回洗碗機(jī)前(ST-5),將所有碗具放入并關(guān)閉洗碗機(jī)(ST-6)。

這里,穩(wěn)定和精確的導(dǎo)航能力是完成該任務(wù)最關(guān)鍵的能力。

圖片

JoyLo的使用反饋

JoyLo不僅高效、用戶友好,而且能為策略學(xué)習(xí)提供高質(zhì)量數(shù)據(jù)。

研究人員對(duì)10名參與者進(jìn)行了深入的用戶研究,以評(píng)估JoyLo的有效性及其所收集數(shù)據(jù)對(duì)策略學(xué)習(xí)的適用性。

研究人員將JoyLo與兩個(gè)主流的基于逆向運(yùn)動(dòng)學(xué)(Inverse kinematics,IK)的界面進(jìn)行對(duì)比:VR控制器和Apple Vision Pro。

為防止對(duì)機(jī)器人或環(huán)境造成潛在損害,研究在OmniGibson模擬器中進(jìn)行,并選用「狂歡派對(duì)后的房屋清理」作為測(cè)試任務(wù)。

研究人員通過(guò)測(cè)量成功率(↑,越高越好)和完成時(shí)間(↓,越低越好)來(lái)評(píng)估效率,同時(shí)通過(guò)重放成功率(↑)和奇異性比率(↓)來(lái)評(píng)估數(shù)據(jù)對(duì)策略學(xué)習(xí)的質(zhì)量。

其中,「成功率」指遙操作試驗(yàn)的成功比例,而「重放成功率」則衡量已收集的機(jī)器人軌跡在開(kāi)環(huán)執(zhí)行時(shí)的成功程度。

這種評(píng)估對(duì)于隨機(jī)環(huán)境中的長(zhǎng)期任務(wù)來(lái)說(shuō)尤具挑戰(zhàn)性。較高的重放成功率表明數(shù)據(jù)質(zhì)量可靠,使得模仿學(xué)習(xí)策略可以直接對(duì)收集的軌跡進(jìn)行建模,而無(wú)需考慮具身化或運(yùn)動(dòng)學(xué)不匹配問(wèn)題。研究人員同時(shí)報(bào)告了整體任務(wù)(「ET」)和各子任務(wù)(「ST」)的結(jié)果。

圖片

如上圖所示,JoyLo在所有界面中取得了最高的成功率和最短的完成時(shí)間。

使用JoyLo完成整體任務(wù)的平均成功率是VR控制器的5倍,而使用Apple Vision Pro的參與者則無(wú)一人能完成整體任務(wù)。

使用JoyLo的中位完成時(shí)間比使用VR控制器縮短了23%。

在需要精確操作的鉸接物體操作方面,JoyLo表現(xiàn)尤為突出。

此外,JoyLo始終提供最優(yōu)質(zhì)的數(shù)據(jù),這一點(diǎn)體現(xiàn)在僅有使用JoyLo收集的數(shù)據(jù)能在開(kāi)環(huán)中成功重放并完成復(fù)雜任務(wù)。這是因?yàn)镴oyLo產(chǎn)生的奇異性比率最低,比VR控制器低78%,比Apple Vision Pro低85%。

圖片

所有參與者均認(rèn)為JoyLo是最用戶友好的界面。

有趣的是,雖然70%的參與者最初認(rèn)為基于IK的界面會(huì)更直觀,但在研究結(jié)束后,他們一致選擇了JoyLo。

這種轉(zhuǎn)變凸顯了臺(tái)面操作任務(wù)與移動(dòng)全身操作在數(shù)據(jù)收集方面的關(guān)鍵差異——參與者普遍反映使用基于IK的方法難以有效控制移動(dòng)底座和軀干部分。

WB-VIMA家務(wù)水平完全超越基線

在基準(zhǔn)比較中,研究人員選取了DP3和基于RGB圖像的擴(kuò)散策略模型(「RGBDP」)作為對(duì)照。

研究人員同時(shí)將人類遙操作成功率作為參考標(biāo)準(zhǔn),并追蹤安全違規(guī)情況(包括機(jī)器人碰撞或因過(guò)度受力導(dǎo)致的電機(jī)功率損失)。

每種策略模型均對(duì)每項(xiàng)活動(dòng)進(jìn)行15次評(píng)估。在評(píng)估過(guò)程中,若某個(gè)子任務(wù)(「ST」)失敗,研究人員會(huì)將機(jī)器人和環(huán)境重置至后續(xù)子任務(wù)的初始狀態(tài)并繼續(xù)評(píng)估。

此外,研究人員還報(bào)告了整體任務(wù)(「ET」)的成功率,用以表征策略模型完成端到端活動(dòng)的能力。

圖片

圖片

如上圖所示,WB-VIMA在所有任務(wù)中的表現(xiàn)始終優(yōu)于基準(zhǔn)方法DP3和RGB-DP。

就端到端任務(wù)成功率而言,WB-VIMA比DP3高出13倍,比RGB-DP高出21倍。

基準(zhǔn)方法僅能完成部分子任務(wù)和相對(duì)簡(jiǎn)單的「將物品擺放至貨架」任務(wù),但在更復(fù)雜的任務(wù)中均告失敗。

在平均子任務(wù)表現(xiàn)方面,WB-VIMA的性能比DP3高出1.6倍,比RGB-DP高出3.4倍。

基準(zhǔn)方法失敗的根本原因在于它們無(wú)法預(yù)測(cè)準(zhǔn)確且協(xié)調(diào)的全身動(dòng)作。

DP3和RGB-DP都直接預(yù)測(cè)扁平化的21自由度(DoF)動(dòng)作,而忽視了動(dòng)作空間中的層級(jí)依賴關(guān)系。這種方法存在問(wèn)題,因?yàn)榧词故怯?xùn)練充分的策略模型,也會(huì)出現(xiàn)建模誤差。

如果這些誤差出現(xiàn)在移動(dòng)底座或軀干動(dòng)作的預(yù)測(cè)中,由于所有組件都是同時(shí)預(yù)測(cè)且相互獨(dú)立的,這些誤差就無(wú)法通過(guò)手臂動(dòng)作來(lái)修正。

全身控制涉及多個(gè)鉸接部件,這意味著不準(zhǔn)確的全身動(dòng)作會(huì)導(dǎo)致任務(wù)空間中的末端執(zhí)行器偏移被放大,使機(jī)器人進(jìn)入分布外(out-of-distribution)狀態(tài),最終導(dǎo)致操作失敗。

圖片

圖片

圖片

圖片

圖片

圖片

WB-VIMA各組件對(duì)任務(wù)性能的影響分析

研究人員對(duì)WB-VIMA的兩個(gè)變體進(jìn)行了消融實(shí)驗(yàn)(ablations tudies):

  1. 第一個(gè)變體移除了自回歸全身動(dòng)作去噪(autoregressive whole-body action denoising)模塊,
  2. 第二個(gè)變體移除了多模態(tài)觀察注意力(multi-modal observation attention)機(jī)制。

圖片

如上圖所示,移除任一組件都會(huì)導(dǎo)致系統(tǒng)整體性能顯著下降。

特別是在「將物品放置到架子上」任務(wù)和「整理衣物」中的首個(gè)子任務(wù)「打開(kāi)衣柜」中,協(xié)調(diào)的全身動(dòng)作對(duì)任務(wù)成功起著決定性作用。

具體而言,移除自回歸全身動(dòng)作去噪模塊會(huì)導(dǎo)致性能嚴(yán)重下降,降幅最高達(dá)到53%。同樣,移除多模態(tài)觀察注意力機(jī)制也會(huì)導(dǎo)致所有任務(wù)的性能下降。

總體而言,WB-VIMA 在復(fù)雜的真實(shí)家庭任務(wù)中的出色表現(xiàn),主要得益于兩個(gè)方面的協(xié)同作用:一是連貫且協(xié)調(diào)的全身動(dòng)作預(yù)測(cè)能力,二是從多模態(tài)觀察中有效提取任務(wù)相關(guān)特征的能力。

整體系統(tǒng)能力的深度分析

盡管BRS在各類家庭任務(wù)中表現(xiàn)出色,但還有哪些深入見(jiàn)解可以指導(dǎo)未來(lái)的技術(shù)進(jìn)步?

研究人員重點(diǎn)強(qiáng)調(diào)兩個(gè)關(guān)鍵發(fā)現(xiàn)。

首先,4自由度(DoF)軀干和移動(dòng)底座顯著提升了機(jī)器人的運(yùn)動(dòng)靈活性,這是固定機(jī)械臂難以具備的特性。

如下圖所示,這種優(yōu)勢(shì)在需要協(xié)調(diào)全身運(yùn)動(dòng)的鉸接物體交互任務(wù)中尤為突出,例如在「倒垃圾」任務(wù)中的「開(kāi)門」環(huán)節(jié),以及「狂歡派對(duì)后的房屋清理」任務(wù)中的「打開(kāi)洗碗機(jī)」環(huán)節(jié)。

為了開(kāi)啟未經(jīng)改裝的門,機(jī)器人習(xí)得了一種策略:在推進(jìn)移動(dòng)底座的同時(shí)前傾軀干,這樣在抓住門把手后能產(chǎn)生足夠的慣性來(lái)解鎖鉸鏈并推開(kāi)門。

同樣,在打開(kāi)洗碗機(jī)時(shí),機(jī)器人通過(guò)向后移動(dòng)底座,協(xié)調(diào)利用全身來(lái)平穩(wěn)地拉開(kāi)洗碗機(jī)門。

圖片

圖片

圖片

此外,研究人員觀察到機(jī)器人掌握了從失敗中恢復(fù)的能力。

如下方視頻所示,當(dāng)機(jī)器人在打開(kāi)衣柜門時(shí)發(fā)現(xiàn)一扇門未能完全打開(kāi),它會(huì)主動(dòng)后退一段距離,重新嘗試開(kāi)門動(dòng)作,最終成功完成任務(wù)。

類似地,當(dāng)機(jī)器人因手臂夠不著而無(wú)法關(guān)閉馬桶蓋時(shí),它會(huì)通過(guò)向前傾斜軀干來(lái)縮短與馬桶的距離。隨后,機(jī)器人重新嘗試,成功抓取馬桶蓋并平穩(wěn)地將其關(guān)閉。

圖片

圖片

失敗案例分析

研究人員展示了經(jīng)過(guò)訓(xùn)練的WB-VIMA策略模型的若干失敗案例,具體包括:

  1. 機(jī)器人雖已成功抓住把手,但未能完全打開(kāi)洗碗機(jī);
  2. 未能成功按下沖水按鈕;
  3. 未能從地面上成功拾取垃圾袋;
  4. 未能成功搬起地面上的箱子;
  5. 未能成功關(guān)閉衣柜門。

圖片

圖片

圖片

圖片

圖片

結(jié)論

研究人員提出了BRS全身機(jī)器人綜合性框架,致力于學(xué)習(xí)全身操作技能以應(yīng)對(duì)多樣化真實(shí)家庭任務(wù)。

研究人員識(shí)別了執(zhí)行家庭活動(dòng)所必需的全身控制三個(gè)核心能力:雙手協(xié)調(diào)能力、穩(wěn)定精確的導(dǎo)航能力以及廣泛的末端執(zhí)行器可達(dá)性。

要通過(guò)基于學(xué)習(xí)的方法使機(jī)器人成功掌握這些能力,需要同時(shí)克服數(shù)據(jù)收集算法建模兩大領(lǐng)域的挑戰(zhàn)。

整體而言,BRS系統(tǒng)在多項(xiàng)真實(shí)家庭任務(wù)中展現(xiàn)出卓越性能,能夠在自然、非結(jié)構(gòu)化環(huán)境中與未經(jīng)改裝的物體進(jìn)行有效交互。

研究人員相信,BRS是實(shí)現(xiàn)機(jī)器人以更高自主性和可靠性執(zhí)行日常家務(wù)的重要一步。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-11-10 12:58:00

模型數(shù)據(jù)

2023-07-11 10:07:10

機(jī)器人智能

2025-02-25 10:32:10

2022-10-17 15:35:32

人形機(jī)器人機(jī)器人

2023-03-28 07:49:38

2024-04-28 09:15:22

人工智能人形機(jī)器人

2024-07-30 07:14:20

NVIDIA NIMNVIDIA

2025-02-05 10:37:27

2024-12-25 11:30:43

2025-02-21 10:14:59

2021-11-18 14:23:22

機(jī)器人人工智能AI

2025-02-05 09:02:49

2024-09-03 14:30:00

機(jī)器人模型

2023-10-05 13:04:27

騰訊機(jī)器人RoboticX

2021-04-21 14:15:08

機(jī)器人AI人工智能

2024-11-04 14:35:00

AI機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)