自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="w1iaa"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

買個(gè)機(jī)器人端茶倒水有希望了？Meta、紐約大學(xué)造了一個(gè)OK-Robot

作者：機(jī)器之心 2024-01-24 13:13:00

人工智能新聞

最近，紐約大學(xué)、Meta 研發(fā)出的一款機(jī)器人學(xué)會(huì)了這個(gè)技能。你只需要對(duì)它說(shuō)，「把桌子上的玉米片拿到床頭柜上」，它就能自己找到玉米片，并規(guī)劃出路線和相應(yīng)的動(dòng)作，順利完成任務(wù)。此外，它還能幫你整理東西或扔垃圾。

「xx，去把電視柜上的遙控器幫我拿過(guò)來(lái)?！乖谝粋€(gè)家庭環(huán)境中，很多家庭成員都不免被支使干這種活兒。甚至有時(shí)候，寵物狗也難以幸免。但人總有支使不動(dòng)的時(shí)候，寵物狗也并不一定都能聽(tīng)懂。幫人類干活兒的終極夢(mèng)想還是寄托在機(jī)器人身上。

最近，紐約大學(xué)、Meta 研發(fā)出的一款機(jī)器人學(xué)會(huì)了這個(gè)技能。你只需要對(duì)它說(shuō)，「把桌子上的玉米片拿到床頭柜上」，它就能自己找到玉米片，并規(guī)劃出路線和相應(yīng)的動(dòng)作，順利完成任務(wù)。此外，它還能幫你整理東西或扔垃圾。

這個(gè)機(jī)器人名叫 OK-Robot，由來(lái)自紐約大學(xué)、Meta 的研究者共同構(gòu)建。他們將視覺(jué)語(yǔ)言模型（用于物體檢測(cè)）、導(dǎo)航和抓取的基礎(chǔ)模塊整合到一個(gè)開(kāi)放知識(shí)型框架中，為機(jī)器人的高效拾放操作提供了解決方案。看來(lái)，等我們老了之后，買個(gè)機(jī)器人給自己端茶倒水還是有希望的。

OK-Robot 定位中的「開(kāi)放知識(shí)」指的是在大型公開(kāi)數(shù)據(jù)集上訓(xùn)練的學(xué)習(xí)模型。當(dāng) OK-Robot 被放置在一個(gè)新的家庭環(huán)境中時(shí)，它將從 iPhone 上獲取掃描結(jié)果。根據(jù)掃描結(jié)果，它會(huì)使用 LangSam 和 CLIP 計(jì)算出密集的視覺(jué)語(yǔ)言表征，并將其存儲(chǔ)在語(yǔ)義存儲(chǔ)器中。在此之后，給定一個(gè)需要拾取的對(duì)象的語(yǔ)言查詢，查詢的語(yǔ)言表征與語(yǔ)義記憶相匹配。接下來(lái)，它會(huì)依次應(yīng)用導(dǎo)航和拾取模塊，移動(dòng)到所需物體并將其拾取。類似的過(guò)程也可用于丟棄物體。

為了研究 OK-Robot，研究者在 10 個(gè)真實(shí)的家庭環(huán)境中對(duì)其進(jìn)行了測(cè)試。通過(guò)實(shí)驗(yàn)，他們發(fā)現(xiàn)，在一個(gè)從未見(jiàn)過(guò)的自然家居環(huán)境中，該系統(tǒng)零樣本部署的成功率平均為 58.5%。然而，這一成功率在很大程度上取決于環(huán)境的「自然程度」。因?yàn)樗麄儼l(fā)現(xiàn)，通過(guò)改進(jìn)查詢、整理空間和排除明顯具有對(duì)抗性的物體（太大、太半透明、太滑），這一成功率達(dá)到了約 82.4%。

在紐約市的 10 個(gè)家庭環(huán)境中，OK-Robot 嘗試了 171 個(gè)拾取任務(wù)。

總之，通過(guò)實(shí)驗(yàn)，他們得出了以下結(jié)論：

預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型對(duì)開(kāi)放詞匯導(dǎo)航非常有效：目前的開(kāi)放詞匯視覺(jué)語(yǔ)言模型 —— 如 CLIP 或 OWL-ViT—— 在識(shí)別真實(shí)世界中的任意物體方面表現(xiàn)出色，并能以零樣本的方式導(dǎo)航、找到這些物體。
預(yù)訓(xùn)練的抓取模型可直接應(yīng)用于移動(dòng)操控：與 VLM 類似，根據(jù)大量數(shù)據(jù)預(yù)訓(xùn)練的專用機(jī)器人模型可以直接應(yīng)用于家庭中的開(kāi)放詞匯抓取。這些機(jī)器人模型不需要任何額外的訓(xùn)練或微調(diào)。
如何組合組件至關(guān)重要：研究者發(fā)現(xiàn)，在預(yù)先訓(xùn)練好模型的情況下，可以使用一個(gè)簡(jiǎn)單的狀態(tài)機(jī)模型（state-machine model）將它們組合起來(lái)，而無(wú)需進(jìn)行任何訓(xùn)練。他們還發(fā)現(xiàn)，使用啟發(fā)式方法來(lái)抵消機(jī)器人的物理限制，可以在真實(shí)世界中獲得更高的成功率。
目前仍存在一些挑戰(zhàn)：考慮到在任意家庭中進(jìn)行零樣本操作的巨大挑戰(zhàn)，OK-Robot 在先前工作的基礎(chǔ)上進(jìn)行了改進(jìn)：通過(guò)分析失敗模式，他們發(fā)現(xiàn)在視覺(jué)語(yǔ)言模型、機(jī)器人模型和機(jī)器人形態(tài)學(xué)方面可以進(jìn)行重大改進(jìn)，這將直接提高開(kāi)放知識(shí)操縱智能體的性能。

為了鼓勵(lì)和支持其他研究者在開(kāi)放知識(shí)機(jī)器人領(lǐng)域的工作，作者表示將共享 OK-Robot 的代碼和模塊。更多信息可參見(jiàn)：https://ok-robot.github.io。

論文標(biāo)題：OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics
論文鏈接：https://arxiv.org/pdf/2401.12202.pdf

技術(shù)組成和方法

該研究主要解決這個(gè)問(wèn)題：從 B 上拿起 A 并將其放在 C 上，其中 A 是一個(gè)物體，B 和 C 是現(xiàn)實(shí)世界環(huán)境中的某個(gè)地方。要實(shí)現(xiàn)這一點(diǎn)，所提系統(tǒng)需要包含以下模塊：開(kāi)放詞匯對(duì)象導(dǎo)航模塊，開(kāi)放詞匯 RGB-D 抓取模塊以及釋放或放置對(duì)象的啟發(fā)式模塊（dropping heuristic）。

開(kāi)放詞匯對(duì)象導(dǎo)航

首先是掃描房間。開(kāi)放詞匯對(duì)象導(dǎo)航遵循了 CLIP-Fields 的方法，并假設(shè)有一個(gè)預(yù)先映射階段，即使用 iPhone 手動(dòng)掃描家庭環(huán)境。這種手動(dòng)掃描只是用 iPhone 上的 Record3D 應(yīng)用程序拍攝家庭視頻，這將產(chǎn)生一系列帶位置的 RGB-D 圖像。

掃描每個(gè)房間的時(shí)間不到一分鐘，一旦信息收集完畢，RGB-D 圖像以及相機(jī)的姿態(tài)和位置就被導(dǎo)出到項(xiàng)目庫(kù)中進(jìn)行地圖構(gòu)建。錄制時(shí)必須捕捉地面表面以及環(huán)境中的物體和容器。

接下來(lái)是進(jìn)行對(duì)象檢測(cè)。在掃描的每一幀上，會(huì)有一個(gè)開(kāi)放詞匯對(duì)象檢測(cè)器對(duì)掃描的內(nèi)容進(jìn)行處理。本文選擇 OWL-ViT 對(duì)象檢測(cè)器，因?yàn)檫@種方法在初步查詢中表現(xiàn)更好。研究者在每一幀上應(yīng)用檢測(cè)器，并提取每個(gè)對(duì)象邊界框、CLIP 嵌入、檢測(cè)器置信度，并將它們傳遞到導(dǎo)航模塊的對(duì)象存儲(chǔ)模塊中。

然后進(jìn)行以對(duì)象為中心的語(yǔ)義存儲(chǔ)。本文借助 VoxelMap 來(lái)完成這一步，具體來(lái)說(shuō)，他們使用深度圖像和相機(jī)收集的姿態(tài)將對(duì)象掩模反向投影到現(xiàn)實(shí)世界坐標(biāo)中，這種方式可以提供一個(gè)點(diǎn)云，其中每個(gè)點(diǎn)都有一個(gè)來(lái)自 CLIP 的關(guān)聯(lián)語(yǔ)義向量。

之后是查詢記憶模塊：給定一個(gè)語(yǔ)言查詢，本文使用 CLIP 語(yǔ)言編碼器將其轉(zhuǎn)換為語(yǔ)義向量。由于每個(gè)體素都與家中的真實(shí)位置相關(guān)聯(lián)，因此可以找到最有可能找到查詢對(duì)象的位置，類似于圖 2 (a)。

必要時(shí)，本文將「A on B」實(shí)施為「A close B」。為此，查詢 A 選擇前 10 個(gè)點(diǎn)，查詢 B 選擇前 50 個(gè)點(diǎn)。然后計(jì)算 10×50 成對(duì)歐氏距離，并選擇與最短 (A, B) 距離相關(guān)的 A 點(diǎn)。

完成上述過(guò)程，接下來(lái)就是導(dǎo)航到現(xiàn)實(shí)世界中的對(duì)象：一旦得到了現(xiàn)實(shí)世界中的 3D 位置坐標(biāo)，就可以將其用作機(jī)器人的導(dǎo)航目標(biāo)來(lái)初始化操作階段。導(dǎo)航模塊必須將機(jī)器人放置在手臂可觸到的范圍，以便機(jī)器人隨后可以操縱目標(biāo)物體。

機(jī)器人對(duì)現(xiàn)實(shí)世界物體的抓握

與開(kāi)放詞匯導(dǎo)航不同，為了完成抓取任務(wù)，算法需要與現(xiàn)實(shí)世界中的任意對(duì)象進(jìn)行物理交互，這使得這部分變得更加困難。因此，本文選擇使用預(yù)訓(xùn)練的抓取模型來(lái)生成現(xiàn)實(shí)世界中的抓取姿態(tài)，并使用 VLM 進(jìn)行語(yǔ)言條件過(guò)濾。

本文使用的抓取生成模塊是 AnyGrasp，它在給定單個(gè) RGB 圖像和點(diǎn)云的場(chǎng)景中使用平行鉗口夾具生成無(wú)碰撞抓取。

AnyGrasp 提供了場(chǎng)景中可能的抓握（圖 3 第 2 列），包括抓握點(diǎn)、寬度、高度、深度和抓握分?jǐn)?shù)，該分?jǐn)?shù)表示每次抓握中未校準(zhǔn)的模型置信度。

使用語(yǔ)言查詢過(guò)濾抓握：對(duì)于從 AnyGrasp 獲得的抓握建議，本文采用 LangSam 過(guò)濾抓握。本文將所有建議的抓握點(diǎn)投影到圖像上，并找到落入對(duì)象掩模的抓握點(diǎn)（圖 3 第 4 列）。

抓握?qǐng)?zhí)行。一旦確定了最佳抓握（圖 3 第 5 列），就可以使用簡(jiǎn)單的預(yù)抓握方法來(lái)抓握目標(biāo)對(duì)象。

釋放或放置對(duì)象的啟發(fā)式模塊

抓握對(duì)象后，接下來(lái)就是將對(duì)象放置在什么地方。與 HomeRobot 的基線實(shí)現(xiàn)不同，該方法假設(shè)物體放下的位置是一個(gè)平坦的表面，本文進(jìn)行了擴(kuò)展，還涵蓋了凹物體，如水槽、箱子、盒子和袋子。

至此，導(dǎo)航、抓握和放置都有了，之后就可以直接將它們組合起來(lái)，該方法可以直接應(yīng)用于任何新的家庭。對(duì)于新的家居環(huán)境，該研究可以在一分鐘內(nèi)掃描房間。然后，只需不到五分鐘即可將其處理到 VoxelMap 中。一旦完成，機(jī)器人就可以立即放置在選定的場(chǎng)地并開(kāi)始運(yùn)行。從到達(dá)一個(gè)全新的環(huán)境到開(kāi)始在其中自主操作，該系統(tǒng)平均需要不到 10 分鐘即可完成第一個(gè)取放任務(wù)。

實(shí)驗(yàn)

在超過(guò) 10 個(gè)家庭實(shí)驗(yàn)中，OK-Robot 在取放任務(wù)上實(shí)現(xiàn)了 58.5% 的成功率。

該研究還對(duì) OK-Robot 進(jìn)行了深入探索以更好地理解其故障模式。研究發(fā)現(xiàn)，故障的主要原因是操作故障，然而，仔細(xì)觀察后注意到失敗的原因是長(zhǎng)尾造成的，如圖 4 所示，失敗的三大原因包括未能從語(yǔ)義記憶中檢索到要導(dǎo)航到的正確對(duì)象 (9.3%) ，從操作模塊獲得的姿態(tài)難以完成（8.0％），以及硬件原因（7.5％）。

由圖 5 可得，OK-Robot 中使用的 VoxelMap 略微優(yōu)于其他語(yǔ)義記憶模塊。至于抓取模塊，AnyGrasp 明顯優(yōu)于其他抓取方法，在相對(duì)規(guī)模上比最佳候選方法（自上而下抓?。┑男阅芨叱鼋?50%。然而，基于啟發(fā)式的算法，HomeRobot 的自上向下抓取擊敗了開(kāi)源 AnyGrasp 基線和 Contact-GraspNet，這一事實(shí)表明構(gòu)建真正的通用抓取模型仍然很困難。

圖 6 展示了 OK-Robot 在各個(gè)階段失敗的完整分析。由分析可得，當(dāng)研究者對(duì)環(huán)境進(jìn)行清理并刪除模糊物體時(shí)，導(dǎo)航準(zhǔn)確率會(huì)上升，總錯(cuò)誤率從 15% 下降到 12%，最后一直下降到 4%。同樣，當(dāng)研究者清理環(huán)境中的雜物時(shí)，操作準(zhǔn)確率也提高了，錯(cuò)誤率從 25% 下降到 16%，最后下降到 13%。

了解更多內(nèi)容，請(qǐng)參考原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<meter id="vlepm"></meter>

<menuitem id="vlepm"></menuitem>

<cite id="vlepm"><track id="vlepm"></track></cite>

<sub id="vlepm"></sub>