自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

買個(gè)機(jī)器人端茶倒水有希望了?Meta、紐約大學(xué)造了一個(gè)OK-Robot

人工智能 新聞
最近,紐約大學(xué)、Meta 研發(fā)出的一款機(jī)器人學(xué)會(huì)了這個(gè)技能。你只需要對(duì)它說(shuō),「把桌子上的玉米片拿到床頭柜上」,它就能自己找到玉米片,并規(guī)劃出路線和相應(yīng)的動(dòng)作,順利完成任務(wù)。此外,它還能幫你整理東西或扔垃圾。

「xx,去把電視柜上的遙控器幫我拿過(guò)來(lái)?!乖谝粋€(gè)家庭環(huán)境中,很多家庭成員都不免被支使干這種活兒。甚至有時(shí)候,寵物狗也難以幸免。但人總有支使不動(dòng)的時(shí)候,寵物狗也并不一定都能聽(tīng)懂。幫人類干活兒的終極夢(mèng)想還是寄托在機(jī)器人身上。

最近,紐約大學(xué)、Meta 研發(fā)出的一款機(jī)器人學(xué)會(huì)了這個(gè)技能。你只需要對(duì)它說(shuō),「把桌子上的玉米片拿到床頭柜上」,它就能自己找到玉米片,并規(guī)劃出路線和相應(yīng)的動(dòng)作,順利完成任務(wù)。此外,它還能幫你整理東西或扔垃圾。

圖片


圖片


圖片

這個(gè)機(jī)器人名叫 OK-Robot,由來(lái)自紐約大學(xué)、Meta 的研究者共同構(gòu)建。他們將視覺(jué)語(yǔ)言模型(用于物體檢測(cè))、導(dǎo)航和抓取的基礎(chǔ)模塊整合到一個(gè)開(kāi)放知識(shí)型框架中,為機(jī)器人的高效拾放操作提供了解決方案。看來(lái),等我們老了之后,買個(gè)機(jī)器人給自己端茶倒水還是有希望的。

OK-Robot 定位中的「開(kāi)放知識(shí)」指的是在大型公開(kāi)數(shù)據(jù)集上訓(xùn)練的學(xué)習(xí)模型。當(dāng) OK-Robot 被放置在一個(gè)新的家庭環(huán)境中時(shí),它將從 iPhone 上獲取掃描結(jié)果。根據(jù)掃描結(jié)果,它會(huì)使用 LangSam 和 CLIP 計(jì)算出密集的視覺(jué)語(yǔ)言表征,并將其存儲(chǔ)在語(yǔ)義存儲(chǔ)器中。在此之后,給定一個(gè)需要拾取的對(duì)象的語(yǔ)言查詢,查詢的語(yǔ)言表征與語(yǔ)義記憶相匹配。接下來(lái),它會(huì)依次應(yīng)用導(dǎo)航和拾取模塊,移動(dòng)到所需物體并將其拾取。類似的過(guò)程也可用于丟棄物體。

為了研究 OK-Robot,研究者在 10 個(gè)真實(shí)的家庭環(huán)境中對(duì)其進(jìn)行了測(cè)試。通過(guò)實(shí)驗(yàn),他們發(fā)現(xiàn),在一個(gè)從未見(jiàn)過(guò)的自然家居環(huán)境中,該系統(tǒng)零樣本部署的成功率平均為 58.5%。然而,這一成功率在很大程度上取決于環(huán)境的「自然程度」。因?yàn)樗麄儼l(fā)現(xiàn),通過(guò)改進(jìn)查詢、整理空間和排除明顯具有對(duì)抗性的物體(太大、太半透明、太滑),這一成功率達(dá)到了約 82.4%。

在紐約市的 10 個(gè)家庭環(huán)境中,OK-Robot 嘗試了 171 個(gè)拾取任務(wù)。

總之,通過(guò)實(shí)驗(yàn),他們得出了以下結(jié)論:

  • 預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型對(duì)開(kāi)放詞匯導(dǎo)航非常有效:目前的開(kāi)放詞匯視覺(jué)語(yǔ)言模型 —— 如 CLIP 或 OWL-ViT—— 在識(shí)別真實(shí)世界中的任意物體方面表現(xiàn)出色,并能以零樣本的方式導(dǎo)航、找到這些物體。
  • 預(yù)訓(xùn)練的抓取模型可直接應(yīng)用于移動(dòng)操控:與 VLM 類似,根據(jù)大量數(shù)據(jù)預(yù)訓(xùn)練的專用機(jī)器人模型可以直接應(yīng)用于家庭中的開(kāi)放詞匯抓取。這些機(jī)器人模型不需要任何額外的訓(xùn)練或微調(diào)。
  • 如何組合組件至關(guān)重要: 研究者發(fā)現(xiàn),在預(yù)先訓(xùn)練好模型的情況下,可以使用一個(gè)簡(jiǎn)單的狀態(tài)機(jī)模型(state-machine model)將它們組合起來(lái),而無(wú)需進(jìn)行任何訓(xùn)練。他們還發(fā)現(xiàn),使用啟發(fā)式方法來(lái)抵消機(jī)器人的物理限制,可以在真實(shí)世界中獲得更高的成功率。
  • 目前仍存在一些挑戰(zhàn):考慮到在任意家庭中進(jìn)行零樣本操作的巨大挑戰(zhàn),OK-Robot 在先前工作的基礎(chǔ)上進(jìn)行了改進(jìn):通過(guò)分析失敗模式,他們發(fā)現(xiàn)在視覺(jué)語(yǔ)言模型、機(jī)器人模型和機(jī)器人形態(tài)學(xué)方面可以進(jìn)行重大改進(jìn),這將直接提高開(kāi)放知識(shí)操縱智能體的性能。

為了鼓勵(lì)和支持其他研究者在開(kāi)放知識(shí)機(jī)器人領(lǐng)域的工作,作者表示將共享 OK-Robot 的代碼和模塊。更多信息可參見(jiàn):https://ok-robot.github.io。

圖片


  • 論文標(biāo)題:OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics
  • 論文鏈接:https://arxiv.org/pdf/2401.12202.pdf

技術(shù)組成和方法

該研究主要解決這個(gè)問(wèn)題:從 B 上拿起 A 并將其放在 C 上,其中 A 是一個(gè)物體,B 和 C 是現(xiàn)實(shí)世界環(huán)境中的某個(gè)地方。要實(shí)現(xiàn)這一點(diǎn),所提系統(tǒng)需要包含以下模塊:開(kāi)放詞匯對(duì)象導(dǎo)航模塊,開(kāi)放詞匯 RGB-D 抓取模塊以及釋放或放置對(duì)象的啟發(fā)式模塊(dropping heuristic)。

開(kāi)放詞匯對(duì)象導(dǎo)航

首先是掃描房間。開(kāi)放詞匯對(duì)象導(dǎo)航遵循了 CLIP-Fields 的方法,并假設(shè)有一個(gè)預(yù)先映射階段,即使用 iPhone 手動(dòng)掃描家庭環(huán)境。這種手動(dòng)掃描只是用 iPhone 上的 Record3D 應(yīng)用程序拍攝家庭視頻,這將產(chǎn)生一系列帶位置的 RGB-D 圖像。

掃描每個(gè)房間的時(shí)間不到一分鐘,一旦信息收集完畢,RGB-D 圖像以及相機(jī)的姿態(tài)和位置就被導(dǎo)出到項(xiàng)目庫(kù)中進(jìn)行地圖構(gòu)建。錄制時(shí)必須捕捉地面表面以及環(huán)境中的物體和容器。

接下來(lái)是進(jìn)行對(duì)象檢測(cè)。在掃描的每一幀上,會(huì)有一個(gè)開(kāi)放詞匯對(duì)象檢測(cè)器對(duì)掃描的內(nèi)容進(jìn)行處理。本文選擇 OWL-ViT 對(duì)象檢測(cè)器,因?yàn)檫@種方法在初步查詢中表現(xiàn)更好。研究者在每一幀上應(yīng)用檢測(cè)器,并提取每個(gè)對(duì)象邊界框、CLIP 嵌入、檢測(cè)器置信度,并將它們傳遞到導(dǎo)航模塊的對(duì)象存儲(chǔ)模塊中。

然后進(jìn)行以對(duì)象為中心的語(yǔ)義存儲(chǔ)。本文借助 VoxelMap 來(lái)完成這一步,具體來(lái)說(shuō),他們使用深度圖像和相機(jī)收集的姿態(tài)將對(duì)象掩模反向投影到現(xiàn)實(shí)世界坐標(biāo)中,這種方式可以提供一個(gè)點(diǎn)云,其中每個(gè)點(diǎn)都有一個(gè)來(lái)自 CLIP 的關(guān)聯(lián)語(yǔ)義向量。

之后是查詢記憶模塊:給定一個(gè)語(yǔ)言查詢,本文使用 CLIP 語(yǔ)言編碼器將其轉(zhuǎn)換為語(yǔ)義向量。由于每個(gè)體素都與家中的真實(shí)位置相關(guān)聯(lián),因此可以找到最有可能找到查詢對(duì)象的位置,類似于圖 2 (a)。

圖片

必要時(shí),本文將「A on B」實(shí)施為「A close B」。為此,查詢 A 選擇前 10 個(gè)點(diǎn),查詢 B 選擇前 50 個(gè)點(diǎn)。然后計(jì)算 10×50 成對(duì)歐氏距離,并選擇與最短 (A, B) 距離相關(guān)的 A 點(diǎn)。

完成上述過(guò)程,接下來(lái)就是導(dǎo)航到現(xiàn)實(shí)世界中的對(duì)象:一旦得到了現(xiàn)實(shí)世界中的 3D 位置坐標(biāo),就可以將其用作機(jī)器人的導(dǎo)航目標(biāo)來(lái)初始化操作階段。導(dǎo)航模塊必須將機(jī)器人放置在手臂可觸到的范圍,以便機(jī)器人隨后可以操縱目標(biāo)物體。

機(jī)器人對(duì)現(xiàn)實(shí)世界物體的抓握

與開(kāi)放詞匯導(dǎo)航不同,為了完成抓取任務(wù),算法需要與現(xiàn)實(shí)世界中的任意對(duì)象進(jìn)行物理交互,這使得這部分變得更加困難。因此,本文選擇使用預(yù)訓(xùn)練的抓取模型來(lái)生成現(xiàn)實(shí)世界中的抓取姿態(tài),并使用 VLM 進(jìn)行語(yǔ)言條件過(guò)濾。

本文使用的抓取生成模塊是 AnyGrasp,它在給定單個(gè) RGB 圖像和點(diǎn)云的場(chǎng)景中使用平行鉗口夾具生成無(wú)碰撞抓取。

AnyGrasp 提供了場(chǎng)景中可能的抓握(圖 3 第 2 列),包括抓握點(diǎn)、寬度、高度、深度和抓握分?jǐn)?shù),該分?jǐn)?shù)表示每次抓握中未校準(zhǔn)的模型置信度。

圖片

使用語(yǔ)言查詢過(guò)濾抓握:對(duì)于從 AnyGrasp 獲得的抓握建議,本文采用 LangSam 過(guò)濾抓握。本文將所有建議的抓握點(diǎn)投影到圖像上,并找到落入對(duì)象掩模的抓握點(diǎn)(圖 3 第 4 列)。

抓握?qǐng)?zhí)行。一旦確定了最佳抓握(圖 3 第 5 列),就可以使用簡(jiǎn)單的預(yù)抓握方法來(lái)抓握目標(biāo)對(duì)象。

釋放或放置對(duì)象的啟發(fā)式模塊

抓握對(duì)象后,接下來(lái)就是將對(duì)象放置在什么地方。與 HomeRobot 的基線實(shí)現(xiàn)不同,該方法假設(shè)物體放下的位置是一個(gè)平坦的表面,本文進(jìn)行了擴(kuò)展,還涵蓋了凹物體,如水槽、箱子、盒子和袋子。

至此,導(dǎo)航、抓握和放置都有了,之后就可以直接將它們組合起來(lái),該方法可以直接應(yīng)用于任何新的家庭。對(duì)于新的家居環(huán)境,該研究可以在一分鐘內(nèi)掃描房間。然后,只需不到五分鐘即可將其處理到 VoxelMap 中。一旦完成,機(jī)器人就可以立即放置在選定的場(chǎng)地并開(kāi)始運(yùn)行。從到達(dá)一個(gè)全新的環(huán)境到開(kāi)始在其中自主操作,該系統(tǒng)平均需要不到 10 分鐘即可完成第一個(gè)取放任務(wù)。

實(shí)驗(yàn)

在超過(guò) 10 個(gè)家庭實(shí)驗(yàn)中,OK-Robot 在取放任務(wù)上實(shí)現(xiàn)了 58.5% 的成功率。

該研究還對(duì) OK-Robot 進(jìn)行了深入探索以更好地理解其故障模式。研究發(fā)現(xiàn),故障的主要原因是操作故障,然而,仔細(xì)觀察后注意到失敗的原因是長(zhǎng)尾造成的,如圖 4 所示,失敗的三大原因包括未能從語(yǔ)義記憶中檢索到要導(dǎo)航到的正確對(duì)象 (9.3%) ,從操作模塊獲得的姿態(tài)難以完成(8.0%),以及硬件原因(7.5%)。

圖片

由圖 5 可得,OK-Robot 中使用的 VoxelMap 略微優(yōu)于其他語(yǔ)義記憶模塊。至于抓取模塊,AnyGrasp 明顯優(yōu)于其他抓取方法,在相對(duì)規(guī)模上比最佳候選方法(自上而下抓?。┑男阅芨叱鼋?50%。然而,基于啟發(fā)式的算法,HomeRobot 的自上向下抓取擊敗了開(kāi)源 AnyGrasp 基線和 Contact-GraspNet,這一事實(shí)表明構(gòu)建真正的通用抓取模型仍然很困難。

圖片

圖 6 展示了 OK-Robot 在各個(gè)階段失敗的完整分析。由分析可得,當(dāng)研究者對(duì)環(huán)境進(jìn)行清理并刪除模糊物體時(shí),導(dǎo)航準(zhǔn)確率會(huì)上升,總錯(cuò)誤率從 15% 下降到 12%,最后一直下降到 4%。同樣,當(dāng)研究者清理環(huán)境中的雜物時(shí),操作準(zhǔn)確率也提高了,錯(cuò)誤率從 25% 下降到 16%,最后下降到 13%。 

圖片

了解更多內(nèi)容,請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-01-05 13:24:29

谷歌家務(wù)機(jī)器人AI

2021-03-26 16:00:20

機(jī)器人AI人工智能

2021-01-12 12:45:16

機(jī)器人人工智能AI

2023-08-06 12:50:19

機(jī)器人AI

2020-12-24 13:20:17

機(jī)器人人工智能圣誕節(jié)

2020-12-08 10:15:55

機(jī)器人人工智能就業(yè)

2021-08-19 15:44:20

機(jī)器人人工智能機(jī)器學(xué)習(xí)

2024-01-01 22:14:04

2021-07-19 09:11:05

機(jī)器人人工智能算法

2020-03-17 11:52:38

編程機(jī)器人程序員

2020-06-07 16:12:41

機(jī)器人地?cái)偨?jīng)濟(jì)夜市

2021-08-19 15:46:08

機(jī)器人人工智能機(jī)器學(xué)習(xí)

2021-11-30 15:19:19

機(jī)器人人工智能技術(shù)

2020-02-18 10:26:58

機(jī)器人人工智能系統(tǒng)

2019-01-15 13:14:03

機(jī)器人算法SAC

2012-06-21 14:20:16

CSS3

2021-05-24 15:29:24

人工智能機(jī)器人聊天

2018-06-14 10:40:02

人工智能機(jī)器人機(jī)器學(xué)習(xí)

2023-09-28 20:57:23

Meta人工智能聊天機(jī)器人

2020-09-15 13:56:08

公眾號(hào)機(jī)器人圖靈機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)