自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="31xzb"></blockquote>}

<sub id="31xzb"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

李飛飛全新「保姆」人形機(jī)器人，倒垃圾刷馬桶家務(wù)全包！遙操只需Switch手柄

作者：新智元 2025-03-12 08:54:46

人工智能新聞

斯坦福李飛飛團(tuán)隊(duì)在「保姆型」機(jī)器人上新突破！提出BRS綜合框架，以后機(jī)器人執(zhí)行日常家務(wù)更自主、更可靠。

對(duì)人類來(lái)說(shuō)輕而易舉的事，對(duì)機(jī)器人來(lái)說(shuō)很難。

機(jī)器人能做家庭管家，照顧好一家人嗎？要做「家庭管家」，機(jī)器人真正需要什么技能？

最近，來(lái)自斯坦福的李飛飛團(tuán)隊(duì)，提出了一種一個(gè)面向多樣化家庭任務(wù)的全身操作綜合框架——「行為機(jī)器人套件」（???????????????? ?????????? ??????????，??????）。

從倒垃圾、整理衣物再到刷馬桶——??????讓機(jī)器人能夠應(yīng)對(duì)實(shí)際的日常任務(wù)。

論文鏈接：https://arxiv.org/abs/2503.05652

要實(shí)現(xiàn)全身操控，精心設(shè)計(jì)的機(jī)器人硬件至關(guān)重要，包括雙臂、移動(dòng)底座和靈活軀干。

然而，這種復(fù)雜的設(shè)計(jì)也給策略學(xué)習(xí)帶來(lái)了難題，尤其是在擴(kuò)大數(shù)據(jù)收集規(guī)模和精準(zhǔn)建模協(xié)調(diào)的全身動(dòng)作以適應(yīng)復(fù)雜的真實(shí)環(huán)境方面。

為此，團(tuán)隊(duì)制作了這款基于配備4自由度（DoF）軀干的雙臂輪式機(jī)器人，并通過(guò)兩大核心創(chuàng)新同時(shí)解決硬件和學(xué)習(xí)難題：

JoyLo：一個(gè)經(jīng)濟(jì)高效的全身遙操作界面（用于數(shù)據(jù)收集）
WB-VIMA：一個(gè)專門用于學(xué)習(xí)全身視覺(jué)運(yùn)動(dòng)策略的創(chuàng)新算法

李飛飛稱，機(jī)器人學(xué)習(xí)領(lǐng)域的「圣杯」之一，是執(zhí)行可泛化的日常家庭移動(dòng)操作任務(wù)。

借助新型雙手移動(dòng)機(jī)器人，我們最新研發(fā)的BEHAVIOR機(jī)器人套件（BRS）向這一極其困難、尚未解決的難題發(fā)起了挑戰(zhàn)！

難題：末端執(zhí)行器的可達(dá)性

大多數(shù)人認(rèn)為，機(jī)器人必須具備移動(dòng)性并配備雙臂，才能有效完成日常家務(wù)。

然而，經(jīng)常忽視另一項(xiàng)關(guān)鍵能力：末端執(zhí)行器的可達(dá)性。

家中的物品擺放高度和位置各不相同，機(jī)器人需要根據(jù)情況調(diào)整其可達(dá)范圍（見(jiàn)下方分布圖）。
具備雙臂、輪式底盤以及靈活軀干的機(jī)器人，非常有可能解決這一問(wèn)題，但也帶來(lái)了更高的復(fù)雜性。
這種復(fù)雜性給視覺(jué)-運(yùn)動(dòng)策略學(xué)習(xí)帶來(lái)了重大挑戰(zhàn)，尤其是在擴(kuò)大數(shù)據(jù)收集規(guī)模和精準(zhǔn)建模協(xié)調(diào)的全身動(dòng)作以適應(yīng)真實(shí)場(chǎng)景時(shí)。

高度和距離對(duì)機(jī)器人的影響

數(shù)據(jù)收集

為了解決數(shù)據(jù)收集的難題，團(tuán)隊(duì)推出了JoyLo——一種利用常見(jiàn)硬件（Nintendo Switch手柄）實(shí)現(xiàn)全身控制的經(jīng)濟(jì)高效接口！

通過(guò)將Switch手柄安裝在3D打印的引導(dǎo)臂上，JoyLo讓用戶能夠直觀且精準(zhǔn)地操控機(jī)器人的全身動(dòng)作。

例如，它可以幫助用戶協(xié)調(diào)復(fù)雜的全身運(yùn)動(dòng)（比如彈吉他），提供豐富的觸覺(jué)反饋，并生成高質(zhì)量的示范數(shù)據(jù)，這些對(duì)于視覺(jué)-運(yùn)動(dòng)策略學(xué)習(xí)至關(guān)重要。而且，它的成本低廉，使用門檻也很低。

模型學(xué)習(xí)

學(xué)習(xí)難題則由負(fù)責(zé)WB-VIMA解決，這是一種專門用于精準(zhǔn)建模全身協(xié)調(diào)動(dòng)作的新算法。

研究人員發(fā)現(xiàn)，在人形機(jī)器人上，移動(dòng)底座或軀干的輕微誤差會(huì)被放大，最終影響機(jī)器人末端執(zhí)行器的精準(zhǔn)度。

WB-VIMA是一種模仿學(xué)習(xí)算法，專門用于建模機(jī)器人的全身動(dòng)作，并充分利用其固有的運(yùn)動(dòng)學(xué)層級(jí)結(jié)構(gòu)。

核心思路是機(jī)器人各關(guān)節(jié)之間存在強(qiáng)關(guān)聯(lián)性——上游部位（如軀干）的微小動(dòng)作，可能會(huì)導(dǎo)致下游部位（如末端執(zhí)行器）發(fā)生較大位移。

因此，為了確保所有關(guān)節(jié)的精準(zhǔn)協(xié)調(diào)，WB-VIMA采用層級(jí)條件預(yù)測(cè)方式，即：下游部位的動(dòng)作預(yù)測(cè)基于上游部位的動(dòng)作，從而實(shí)現(xiàn)更同步的全身運(yùn)動(dòng)。

WB-VIMA采用自回歸方式在整個(gè)機(jī)器人結(jié)構(gòu)中依次解碼動(dòng)作：

首先預(yù)測(cè)移動(dòng)底座的動(dòng)作
再根據(jù)底座的預(yù)測(cè)動(dòng)作來(lái)調(diào)整軀干的動(dòng)作
最后在底座和軀干動(dòng)作的基礎(chǔ)上，預(yù)測(cè)手臂的動(dòng)作

此外，WB-VIMA通過(guò)自注意力機(jī)制，動(dòng)態(tài)整合多模態(tài)感知信息，從而提升系統(tǒng)的魯棒性和適應(yīng)性。

實(shí)驗(yàn)

受BEHAVIOR-1K中定義的日?；顒?dòng)啟發(fā)，研究團(tuán)隊(duì)選擇了具有代表性的家庭任務(wù)來(lái)展示BRS的能力，包括以下五項(xiàng)家務(wù)：

把垃圾帶到外面
把物品放到架子上
擺放衣物
清潔馬桶
在狂歡派對(duì)后打掃房間

這些任務(wù)需要3個(gè)關(guān)鍵的全身控制能力：雙手協(xié)調(diào)、穩(wěn)定精確的導(dǎo)航以及機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性。

所有任務(wù)都在真實(shí)世界的未經(jīng)改造的環(huán)境中進(jìn)行，使用人類日常接觸的物品。

這些任務(wù)都是長(zhǎng)期任務(wù)，人類操作員使用JoyLo完成這些任務(wù)需要60至210秒不等。

由于這些活動(dòng)的多階段性質(zhì)，每個(gè)任務(wù)都被劃分為多個(gè)子任務(wù)「ST」(SubTask)。

BRS讓機(jī)器人成功完成了這些多樣化的家務(wù)任務(wù)，并且新算法WB-VIMA在所有測(cè)試中穩(wěn)定超越基準(zhǔn)方法（詳見(jiàn)下方結(jié)果）。

接下來(lái)的有策略執(zhí)行的視頻，快來(lái)看看吧！

BRS支持各種家庭活動(dòng)

任務(wù)1：倒垃圾

對(duì)機(jī)器人而言，完成倒垃圾的最關(guān)鍵的能力穩(wěn)定和精確的導(dǎo)航。

機(jī)器人首先找到客廳的垃圾袋，然后完成下列子任務(wù)（括號(hào)數(shù)字表示執(zhí)行順序）：拾起（ST-1），搬運(yùn)至關(guān)閉的門前（ST-2），打開(kāi)門（ST-3），移動(dòng)至室外，并將垃圾袋放到垃圾箱（ST-4）。

任務(wù)2：將物品擺放至貨架

在儲(chǔ)物室中，機(jī)器人從地面抬起一個(gè)箱子（ST-1），找到四層貨架，并將箱子放到合適的位置（ST-2）。

機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性是完成該任務(wù)最關(guān)鍵的能力。

任務(wù)3：整理衣物

在臥室中，機(jī)器人找到衣柜，打開(kāi)衣柜（ST-1），取下衣架上的外套（ST-2），將外套平整地展開(kāi)在沙發(fā)上（ST-3），隨后返回關(guān)閉衣柜（ST-4）。

雙手協(xié)調(diào)能力是完成該任務(wù)最關(guān)鍵的能力。

任務(wù)4：刷馬桶

在衛(wèi)生間中，機(jī)器人拿起放置在已關(guān)閉馬桶上的一塊海綿（ST-1），掀開(kāi)馬桶蓋（ST-2），清潔馬桶圈（ST-3），合上馬桶蓋（ST-4），并開(kāi)始擦馬桶蓋（ST-5），隨后機(jī)器人前往沖水按鈕處按下沖水鍵（ST-6）。

這里，機(jī)械臂末端執(zhí)行器的廣泛可達(dá)性是完成該任務(wù)最關(guān)鍵的能力。

任務(wù)5：狂歡派對(duì)后的房屋清理

從客廳出發(fā)，機(jī)器人導(dǎo)航至廚房的洗碗機(jī)前（ST-1）并打開(kāi)洗碗機(jī)（ST-2）。

隨后前往娛樂(lè)桌處（ST-3）收集遺留的碗具（ST-4）。

最后，機(jī)器人返回洗碗機(jī)前（ST-5），將所有碗具放入并關(guān)閉洗碗機(jī)（ST-6）。

這里，穩(wěn)定和精確的導(dǎo)航能力是完成該任務(wù)最關(guān)鍵的能力。

JoyLo的使用反饋

JoyLo不僅高效、用戶友好，而且能為策略學(xué)習(xí)提供高質(zhì)量數(shù)據(jù)。

研究人員對(duì)10名參與者進(jìn)行了深入的用戶研究，以評(píng)估JoyLo的有效性及其所收集數(shù)據(jù)對(duì)策略學(xué)習(xí)的適用性。

研究人員將JoyLo與兩個(gè)主流的基于逆向運(yùn)動(dòng)學(xué)（Inverse kinematics，IK）的界面進(jìn)行對(duì)比：VR控制器和Apple Vision Pro。

為防止對(duì)機(jī)器人或環(huán)境造成潛在損害，研究在OmniGibson模擬器中進(jìn)行，并選用「狂歡派對(duì)后的房屋清理」作為測(cè)試任務(wù)。

研究人員通過(guò)測(cè)量成功率（↑，越高越好）和完成時(shí)間（↓，越低越好）來(lái)評(píng)估效率，同時(shí)通過(guò)重放成功率（↑）和奇異性比率（↓）來(lái)評(píng)估數(shù)據(jù)對(duì)策略學(xué)習(xí)的質(zhì)量。

其中，「成功率」指遙操作試驗(yàn)的成功比例，而「重放成功率」則衡量已收集的機(jī)器人軌跡在開(kāi)環(huán)執(zhí)行時(shí)的成功程度。

這種評(píng)估對(duì)于隨機(jī)環(huán)境中的長(zhǎng)期任務(wù)來(lái)說(shuō)尤具挑戰(zhàn)性。較高的重放成功率表明數(shù)據(jù)質(zhì)量可靠，使得模仿學(xué)習(xí)策略可以直接對(duì)收集的軌跡進(jìn)行建模，而無(wú)需考慮具身化或運(yùn)動(dòng)學(xué)不匹配問(wèn)題。研究人員同時(shí)報(bào)告了整體任務(wù)（「ET」）和各子任務(wù)（「ST」）的結(jié)果。

如上圖所示，JoyLo在所有界面中取得了最高的成功率和最短的完成時(shí)間。

使用JoyLo完成整體任務(wù)的平均成功率是VR控制器的5倍，而使用Apple Vision Pro的參與者則無(wú)一人能完成整體任務(wù)。

使用JoyLo的中位完成時(shí)間比使用VR控制器縮短了23%。

在需要精確操作的鉸接物體操作方面，JoyLo表現(xiàn)尤為突出。

此外，JoyLo始終提供最優(yōu)質(zhì)的數(shù)據(jù)，這一點(diǎn)體現(xiàn)在僅有使用JoyLo收集的數(shù)據(jù)能在開(kāi)環(huán)中成功重放并完成復(fù)雜任務(wù)。這是因?yàn)镴oyLo產(chǎn)生的奇異性比率最低，比VR控制器低78%，比Apple Vision Pro低85%。

所有參與者均認(rèn)為JoyLo是最用戶友好的界面。

有趣的是，雖然70%的參與者最初認(rèn)為基于IK的界面會(huì)更直觀，但在研究結(jié)束后，他們一致選擇了JoyLo。

這種轉(zhuǎn)變凸顯了臺(tái)面操作任務(wù)與移動(dòng)全身操作在數(shù)據(jù)收集方面的關(guān)鍵差異——參與者普遍反映使用基于IK的方法難以有效控制移動(dòng)底座和軀干部分。

WB-VIMA家務(wù)水平完全超越基線

在基準(zhǔn)比較中，研究人員選取了DP3和基于RGB圖像的擴(kuò)散策略模型（「RGBDP」）作為對(duì)照。

研究人員同時(shí)將人類遙操作成功率作為參考標(biāo)準(zhǔn)，并追蹤安全違規(guī)情況（包括機(jī)器人碰撞或因過(guò)度受力導(dǎo)致的電機(jī)功率損失）。

每種策略模型均對(duì)每項(xiàng)活動(dòng)進(jìn)行15次評(píng)估。在評(píng)估過(guò)程中，若某個(gè)子任務(wù)（「ST」）失敗，研究人員會(huì)將機(jī)器人和環(huán)境重置至后續(xù)子任務(wù)的初始狀態(tài)并繼續(xù)評(píng)估。

此外，研究人員還報(bào)告了整體任務(wù)（「ET」）的成功率，用以表征策略模型完成端到端活動(dòng)的能力。

如上圖所示，WB-VIMA在所有任務(wù)中的表現(xiàn)始終優(yōu)于基準(zhǔn)方法DP3和RGB-DP。

就端到端任務(wù)成功率而言，WB-VIMA比DP3高出13倍，比RGB-DP高出21倍。

基準(zhǔn)方法僅能完成部分子任務(wù)和相對(duì)簡(jiǎn)單的「將物品擺放至貨架」任務(wù)，但在更復(fù)雜的任務(wù)中均告失敗。

在平均子任務(wù)表現(xiàn)方面，WB-VIMA的性能比DP3高出1.6倍，比RGB-DP高出3.4倍。

基準(zhǔn)方法失敗的根本原因在于它們無(wú)法預(yù)測(cè)準(zhǔn)確且協(xié)調(diào)的全身動(dòng)作。

DP3和RGB-DP都直接預(yù)測(cè)扁平化的21自由度（DoF）動(dòng)作，而忽視了動(dòng)作空間中的層級(jí)依賴關(guān)系。這種方法存在問(wèn)題，因?yàn)榧词故怯?xùn)練充分的策略模型，也會(huì)出現(xiàn)建模誤差。

如果這些誤差出現(xiàn)在移動(dòng)底座或軀干動(dòng)作的預(yù)測(cè)中，由于所有組件都是同時(shí)預(yù)測(cè)且相互獨(dú)立的，這些誤差就無(wú)法通過(guò)手臂動(dòng)作來(lái)修正。

全身控制涉及多個(gè)鉸接部件，這意味著不準(zhǔn)確的全身動(dòng)作會(huì)導(dǎo)致任務(wù)空間中的末端執(zhí)行器偏移被放大，使機(jī)器人進(jìn)入分布外（out-of-distribution）狀態(tài)，最終導(dǎo)致操作失敗。

WB-VIMA各組件對(duì)任務(wù)性能的影響分析

研究人員對(duì)WB-VIMA的兩個(gè)變體進(jìn)行了消融實(shí)驗(yàn)（ablations tudies）：

第一個(gè)變體移除了自回歸全身動(dòng)作去噪（autoregressive whole-body action denoising）模塊，
第二個(gè)變體移除了多模態(tài)觀察注意力（multi-modal observation attention）機(jī)制。

如上圖所示，移除任一組件都會(huì)導(dǎo)致系統(tǒng)整體性能顯著下降。

特別是在「將物品放置到架子上」任務(wù)和「整理衣物」中的首個(gè)子任務(wù)「打開(kāi)衣柜」中，協(xié)調(diào)的全身動(dòng)作對(duì)任務(wù)成功起著決定性作用。

具體而言，移除自回歸全身動(dòng)作去噪模塊會(huì)導(dǎo)致性能嚴(yán)重下降，降幅最高達(dá)到53%。同樣，移除多模態(tài)觀察注意力機(jī)制也會(huì)導(dǎo)致所有任務(wù)的性能下降。

總體而言，WB-VIMA 在復(fù)雜的真實(shí)家庭任務(wù)中的出色表現(xiàn)，主要得益于兩個(gè)方面的協(xié)同作用：一是連貫且協(xié)調(diào)的全身動(dòng)作預(yù)測(cè)能力，二是從多模態(tài)觀察中有效提取任務(wù)相關(guān)特征的能力。

整體系統(tǒng)能力的深度分析

盡管BRS在各類家庭任務(wù)中表現(xiàn)出色，但還有哪些深入見(jiàn)解可以指導(dǎo)未來(lái)的技術(shù)進(jìn)步？

研究人員重點(diǎn)強(qiáng)調(diào)兩個(gè)關(guān)鍵發(fā)現(xiàn)。

首先，4自由度（DoF）軀干和移動(dòng)底座顯著提升了機(jī)器人的運(yùn)動(dòng)靈活性，這是固定機(jī)械臂難以具備的特性。

如下圖所示，這種優(yōu)勢(shì)在需要協(xié)調(diào)全身運(yùn)動(dòng)的鉸接物體交互任務(wù)中尤為突出，例如在「倒垃圾」任務(wù)中的「開(kāi)門」環(huán)節(jié)，以及「狂歡派對(duì)后的房屋清理」任務(wù)中的「打開(kāi)洗碗機(jī)」環(huán)節(jié)。

為了開(kāi)啟未經(jīng)改裝的門，機(jī)器人習(xí)得了一種策略：在推進(jìn)移動(dòng)底座的同時(shí)前傾軀干，這樣在抓住門把手后能產(chǎn)生足夠的慣性來(lái)解鎖鉸鏈并推開(kāi)門。

同樣，在打開(kāi)洗碗機(jī)時(shí)，機(jī)器人通過(guò)向后移動(dòng)底座，協(xié)調(diào)利用全身來(lái)平穩(wěn)地拉開(kāi)洗碗機(jī)門。

此外，研究人員觀察到機(jī)器人掌握了從失敗中恢復(fù)的能力。

如下方視頻所示，當(dāng)機(jī)器人在打開(kāi)衣柜門時(shí)發(fā)現(xiàn)一扇門未能完全打開(kāi)，它會(huì)主動(dòng)后退一段距離，重新嘗試開(kāi)門動(dòng)作，最終成功完成任務(wù)。

類似地，當(dāng)機(jī)器人因手臂夠不著而無(wú)法關(guān)閉馬桶蓋時(shí)，它會(huì)通過(guò)向前傾斜軀干來(lái)縮短與馬桶的距離。隨后，機(jī)器人重新嘗試，成功抓取馬桶蓋并平穩(wěn)地將其關(guān)閉。

失敗案例分析

研究人員展示了經(jīng)過(guò)訓(xùn)練的WB-VIMA策略模型的若干失敗案例，具體包括：

機(jī)器人雖已成功抓住把手，但未能完全打開(kāi)洗碗機(jī)；
未能成功按下沖水按鈕；
未能從地面上成功拾取垃圾袋；
未能成功搬起地面上的箱子；
未能成功關(guān)閉衣柜門。

結(jié)論

研究人員提出了BRS全身機(jī)器人綜合性框架，致力于學(xué)習(xí)全身操作技能以應(yīng)對(duì)多樣化真實(shí)家庭任務(wù)。

研究人員識(shí)別了執(zhí)行家庭活動(dòng)所必需的全身控制三個(gè)核心能力：雙手協(xié)調(diào)能力、穩(wěn)定精確的導(dǎo)航能力以及廣泛的末端執(zhí)行器可達(dá)性。

要通過(guò)基于學(xué)習(xí)的方法使機(jī)器人成功掌握這些能力，需要同時(shí)克服數(shù)據(jù)收集和算法建模兩大領(lǐng)域的挑戰(zhàn)。

整體而言，BRS系統(tǒng)在多項(xiàng)真實(shí)家庭任務(wù)中展現(xiàn)出卓越性能，能夠在自然、非結(jié)構(gòu)化環(huán)境中與未經(jīng)改裝的物體進(jìn)行有效交互。

研究人員相信，BRS是實(shí)現(xiàn)機(jī)器人以更高自主性和可靠性執(zhí)行日常家務(wù)的重要一步。

責(zé)任編輯：張燕妮來(lái)源：新智元

機(jī)器人李飛飛 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="0qbk5"></blockquote>