買個(gè)機(jī)器人端茶倒水有希望了?Meta、紐約大學(xué)造了一個(gè)OK-Robot
「xx,去把電視柜上的遙控器幫我拿過(guò)來(lái)?!乖谝粋€(gè)家庭環(huán)境中,很多家庭成員都不免被支使干這種活兒。甚至有時(shí)候,寵物狗也難以幸免。但人總有支使不動(dòng)的時(shí)候,寵物狗也并不一定都能聽(tīng)懂。幫人類干活兒的終極夢(mèng)想還是寄托在機(jī)器人身上。
最近,紐約大學(xué)、Meta 研發(fā)出的一款機(jī)器人學(xué)會(huì)了這個(gè)技能。你只需要對(duì)它說(shuō),「把桌子上的玉米片拿到床頭柜上」,它就能自己找到玉米片,并規(guī)劃出路線和相應(yīng)的動(dòng)作,順利完成任務(wù)。此外,它還能幫你整理東西或扔垃圾。
這個(gè)機(jī)器人名叫 OK-Robot,由來(lái)自紐約大學(xué)、Meta 的研究者共同構(gòu)建。他們將視覺(jué)語(yǔ)言模型(用于物體檢測(cè))、導(dǎo)航和抓取的基礎(chǔ)模塊整合到一個(gè)開(kāi)放知識(shí)型框架中,為機(jī)器人的高效拾放操作提供了解決方案。看來(lái),等我們老了之后,買個(gè)機(jī)器人給自己端茶倒水還是有希望的。
OK-Robot 定位中的「開(kāi)放知識(shí)」指的是在大型公開(kāi)數(shù)據(jù)集上訓(xùn)練的學(xué)習(xí)模型。當(dāng) OK-Robot 被放置在一個(gè)新的家庭環(huán)境中時(shí),它將從 iPhone 上獲取掃描結(jié)果。根據(jù)掃描結(jié)果,它會(huì)使用 LangSam 和 CLIP 計(jì)算出密集的視覺(jué)語(yǔ)言表征,并將其存儲(chǔ)在語(yǔ)義存儲(chǔ)器中。在此之后,給定一個(gè)需要拾取的對(duì)象的語(yǔ)言查詢,查詢的語(yǔ)言表征與語(yǔ)義記憶相匹配。接下來(lái),它會(huì)依次應(yīng)用導(dǎo)航和拾取模塊,移動(dòng)到所需物體并將其拾取。類似的過(guò)程也可用于丟棄物體。
為了研究 OK-Robot,研究者在 10 個(gè)真實(shí)的家庭環(huán)境中對(duì)其進(jìn)行了測(cè)試。通過(guò)實(shí)驗(yàn),他們發(fā)現(xiàn),在一個(gè)從未見(jiàn)過(guò)的自然家居環(huán)境中,該系統(tǒng)零樣本部署的成功率平均為 58.5%。然而,這一成功率在很大程度上取決于環(huán)境的「自然程度」。因?yàn)樗麄儼l(fā)現(xiàn),通過(guò)改進(jìn)查詢、整理空間和排除明顯具有對(duì)抗性的物體(太大、太半透明、太滑),這一成功率達(dá)到了約 82.4%。
在紐約市的 10 個(gè)家庭環(huán)境中,OK-Robot 嘗試了 171 個(gè)拾取任務(wù)。
總之,通過(guò)實(shí)驗(yàn),他們得出了以下結(jié)論:
- 預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型對(duì)開(kāi)放詞匯導(dǎo)航非常有效:目前的開(kāi)放詞匯視覺(jué)語(yǔ)言模型 —— 如 CLIP 或 OWL-ViT—— 在識(shí)別真實(shí)世界中的任意物體方面表現(xiàn)出色,并能以零樣本的方式導(dǎo)航、找到這些物體。
- 預(yù)訓(xùn)練的抓取模型可直接應(yīng)用于移動(dòng)操控:與 VLM 類似,根據(jù)大量數(shù)據(jù)預(yù)訓(xùn)練的專用機(jī)器人模型可以直接應(yīng)用于家庭中的開(kāi)放詞匯抓取。這些機(jī)器人模型不需要任何額外的訓(xùn)練或微調(diào)。
- 如何組合組件至關(guān)重要: 研究者發(fā)現(xiàn),在預(yù)先訓(xùn)練好模型的情況下,可以使用一個(gè)簡(jiǎn)單的狀態(tài)機(jī)模型(state-machine model)將它們組合起來(lái),而無(wú)需進(jìn)行任何訓(xùn)練。他們還發(fā)現(xiàn),使用啟發(fā)式方法來(lái)抵消機(jī)器人的物理限制,可以在真實(shí)世界中獲得更高的成功率。
- 目前仍存在一些挑戰(zhàn):考慮到在任意家庭中進(jìn)行零樣本操作的巨大挑戰(zhàn),OK-Robot 在先前工作的基礎(chǔ)上進(jìn)行了改進(jìn):通過(guò)分析失敗模式,他們發(fā)現(xiàn)在視覺(jué)語(yǔ)言模型、機(jī)器人模型和機(jī)器人形態(tài)學(xué)方面可以進(jìn)行重大改進(jìn),這將直接提高開(kāi)放知識(shí)操縱智能體的性能。
為了鼓勵(lì)和支持其他研究者在開(kāi)放知識(shí)機(jī)器人領(lǐng)域的工作,作者表示將共享 OK-Robot 的代碼和模塊。更多信息可參見(jiàn):https://ok-robot.github.io。
- 論文標(biāo)題:OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics
- 論文鏈接:https://arxiv.org/pdf/2401.12202.pdf
技術(shù)組成和方法
該研究主要解決這個(gè)問(wèn)題:從 B 上拿起 A 并將其放在 C 上,其中 A 是一個(gè)物體,B 和 C 是現(xiàn)實(shí)世界環(huán)境中的某個(gè)地方。要實(shí)現(xiàn)這一點(diǎn),所提系統(tǒng)需要包含以下模塊:開(kāi)放詞匯對(duì)象導(dǎo)航模塊,開(kāi)放詞匯 RGB-D 抓取模塊以及釋放或放置對(duì)象的啟發(fā)式模塊(dropping heuristic)。
開(kāi)放詞匯對(duì)象導(dǎo)航
首先是掃描房間。開(kāi)放詞匯對(duì)象導(dǎo)航遵循了 CLIP-Fields 的方法,并假設(shè)有一個(gè)預(yù)先映射階段,即使用 iPhone 手動(dòng)掃描家庭環(huán)境。這種手動(dòng)掃描只是用 iPhone 上的 Record3D 應(yīng)用程序拍攝家庭視頻,這將產(chǎn)生一系列帶位置的 RGB-D 圖像。
掃描每個(gè)房間的時(shí)間不到一分鐘,一旦信息收集完畢,RGB-D 圖像以及相機(jī)的姿態(tài)和位置就被導(dǎo)出到項(xiàng)目庫(kù)中進(jìn)行地圖構(gòu)建。錄制時(shí)必須捕捉地面表面以及環(huán)境中的物體和容器。
接下來(lái)是進(jìn)行對(duì)象檢測(cè)。在掃描的每一幀上,會(huì)有一個(gè)開(kāi)放詞匯對(duì)象檢測(cè)器對(duì)掃描的內(nèi)容進(jìn)行處理。本文選擇 OWL-ViT 對(duì)象檢測(cè)器,因?yàn)檫@種方法在初步查詢中表現(xiàn)更好。研究者在每一幀上應(yīng)用檢測(cè)器,并提取每個(gè)對(duì)象邊界框、CLIP 嵌入、檢測(cè)器置信度,并將它們傳遞到導(dǎo)航模塊的對(duì)象存儲(chǔ)模塊中。
然后進(jìn)行以對(duì)象為中心的語(yǔ)義存儲(chǔ)。本文借助 VoxelMap 來(lái)完成這一步,具體來(lái)說(shuō),他們使用深度圖像和相機(jī)收集的姿態(tài)將對(duì)象掩模反向投影到現(xiàn)實(shí)世界坐標(biāo)中,這種方式可以提供一個(gè)點(diǎn)云,其中每個(gè)點(diǎn)都有一個(gè)來(lái)自 CLIP 的關(guān)聯(lián)語(yǔ)義向量。
之后是查詢記憶模塊:給定一個(gè)語(yǔ)言查詢,本文使用 CLIP 語(yǔ)言編碼器將其轉(zhuǎn)換為語(yǔ)義向量。由于每個(gè)體素都與家中的真實(shí)位置相關(guān)聯(lián),因此可以找到最有可能找到查詢對(duì)象的位置,類似于圖 2 (a)。
必要時(shí),本文將「A on B」實(shí)施為「A close B」。為此,查詢 A 選擇前 10 個(gè)點(diǎn),查詢 B 選擇前 50 個(gè)點(diǎn)。然后計(jì)算 10×50 成對(duì)歐氏距離,并選擇與最短 (A, B) 距離相關(guān)的 A 點(diǎn)。
完成上述過(guò)程,接下來(lái)就是導(dǎo)航到現(xiàn)實(shí)世界中的對(duì)象:一旦得到了現(xiàn)實(shí)世界中的 3D 位置坐標(biāo),就可以將其用作機(jī)器人的導(dǎo)航目標(biāo)來(lái)初始化操作階段。導(dǎo)航模塊必須將機(jī)器人放置在手臂可觸到的范圍,以便機(jī)器人隨后可以操縱目標(biāo)物體。
機(jī)器人對(duì)現(xiàn)實(shí)世界物體的抓握
與開(kāi)放詞匯導(dǎo)航不同,為了完成抓取任務(wù),算法需要與現(xiàn)實(shí)世界中的任意對(duì)象進(jìn)行物理交互,這使得這部分變得更加困難。因此,本文選擇使用預(yù)訓(xùn)練的抓取模型來(lái)生成現(xiàn)實(shí)世界中的抓取姿態(tài),并使用 VLM 進(jìn)行語(yǔ)言條件過(guò)濾。
本文使用的抓取生成模塊是 AnyGrasp,它在給定單個(gè) RGB 圖像和點(diǎn)云的場(chǎng)景中使用平行鉗口夾具生成無(wú)碰撞抓取。
AnyGrasp 提供了場(chǎng)景中可能的抓握(圖 3 第 2 列),包括抓握點(diǎn)、寬度、高度、深度和抓握分?jǐn)?shù),該分?jǐn)?shù)表示每次抓握中未校準(zhǔn)的模型置信度。
使用語(yǔ)言查詢過(guò)濾抓握:對(duì)于從 AnyGrasp 獲得的抓握建議,本文采用 LangSam 過(guò)濾抓握。本文將所有建議的抓握點(diǎn)投影到圖像上,并找到落入對(duì)象掩模的抓握點(diǎn)(圖 3 第 4 列)。
抓握?qǐng)?zhí)行。一旦確定了最佳抓握(圖 3 第 5 列),就可以使用簡(jiǎn)單的預(yù)抓握方法來(lái)抓握目標(biāo)對(duì)象。
釋放或放置對(duì)象的啟發(fā)式模塊
抓握對(duì)象后,接下來(lái)就是將對(duì)象放置在什么地方。與 HomeRobot 的基線實(shí)現(xiàn)不同,該方法假設(shè)物體放下的位置是一個(gè)平坦的表面,本文進(jìn)行了擴(kuò)展,還涵蓋了凹物體,如水槽、箱子、盒子和袋子。
至此,導(dǎo)航、抓握和放置都有了,之后就可以直接將它們組合起來(lái),該方法可以直接應(yīng)用于任何新的家庭。對(duì)于新的家居環(huán)境,該研究可以在一分鐘內(nèi)掃描房間。然后,只需不到五分鐘即可將其處理到 VoxelMap 中。一旦完成,機(jī)器人就可以立即放置在選定的場(chǎng)地并開(kāi)始運(yùn)行。從到達(dá)一個(gè)全新的環(huán)境到開(kāi)始在其中自主操作,該系統(tǒng)平均需要不到 10 分鐘即可完成第一個(gè)取放任務(wù)。
實(shí)驗(yàn)
在超過(guò) 10 個(gè)家庭實(shí)驗(yàn)中,OK-Robot 在取放任務(wù)上實(shí)現(xiàn)了 58.5% 的成功率。
該研究還對(duì) OK-Robot 進(jìn)行了深入探索以更好地理解其故障模式。研究發(fā)現(xiàn),故障的主要原因是操作故障,然而,仔細(xì)觀察后注意到失敗的原因是長(zhǎng)尾造成的,如圖 4 所示,失敗的三大原因包括未能從語(yǔ)義記憶中檢索到要導(dǎo)航到的正確對(duì)象 (9.3%) ,從操作模塊獲得的姿態(tài)難以完成(8.0%),以及硬件原因(7.5%)。
由圖 5 可得,OK-Robot 中使用的 VoxelMap 略微優(yōu)于其他語(yǔ)義記憶模塊。至于抓取模塊,AnyGrasp 明顯優(yōu)于其他抓取方法,在相對(duì)規(guī)模上比最佳候選方法(自上而下抓?。┑男阅芨叱鼋?50%。然而,基于啟發(fā)式的算法,HomeRobot 的自上向下抓取擊敗了開(kāi)源 AnyGrasp 基線和 Contact-GraspNet,這一事實(shí)表明構(gòu)建真正的通用抓取模型仍然很困難。
圖 6 展示了 OK-Robot 在各個(gè)階段失敗的完整分析。由分析可得,當(dāng)研究者對(duì)環(huán)境進(jìn)行清理并刪除模糊物體時(shí),導(dǎo)航準(zhǔn)確率會(huì)上升,總錯(cuò)誤率從 15% 下降到 12%,最后一直下降到 4%。同樣,當(dāng)研究者清理環(huán)境中的雜物時(shí),操作準(zhǔn)確率也提高了,錯(cuò)誤率從 25% 下降到 16%,最后下降到 13%。
了解更多內(nèi)容,請(qǐng)參考原論文。