自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用GPT-4V和人類演示訓(xùn)練機(jī)器人:眼睛學(xué)會(huì)了,手也能跟上

人工智能 新聞
微軟提出使用人手運(yùn)動(dòng)視頻直接教機(jī)器人完成任務(wù)的新方法,這種方法使用 GPT-4V 分解視頻中的動(dòng)作,結(jié)合大語言模型生成對應(yīng)的行為表述并作為任務(wù)列表,訓(xùn)練機(jī)器人只需要?jiǎng)觿?dòng)手就能完成。

如何將語言 / 視覺輸入轉(zhuǎn)換為機(jī)器人動(dòng)作?

訓(xùn)練自定義模型的方法已經(jīng)過時(shí),基于最近大語言模型(LLM)和視覺語言模型(VLM)的技術(shù)進(jìn)展,通過 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是時(shí)下熱門的方法。

這種方法繞過了海量數(shù)據(jù)的收集和對模型的訓(xùn)練過程,展示出了強(qiáng)大的靈活性,而且對不同機(jī)器人硬件更具適應(yīng)性,并增強(qiáng)了系統(tǒng)對研究和工業(yè)應(yīng)用的可重用性。

特別是最近出現(xiàn)了通用視覺大模型(VLM),如 GPT-4V,將這些視覺系統(tǒng)集成到任務(wù)規(guī)劃中,為開發(fā)基于多模態(tài)人類指令的任務(wù)規(guī)劃器提供了可能性。

在近期微軟的一篇論文中,研究者利用 GPT-4V 和 GPT-4(圖 1)分別作為最新的 VLM 和 LLM 的范例,提出了一種多模態(tài)任務(wù)規(guī)劃器。該系統(tǒng)可以接受內(nèi)容為人類行為的視頻和文本指令等輸入,甚至可以同時(shí)接受二者,并輸出符號化的任務(wù)規(guī)劃(即一系列連貫的任務(wù)步驟)。

圖片

  • 論文地址:https://arxiv.org/pdf/2311.12015.pdf
  • 代碼即將公開:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

當(dāng)視覺數(shù)據(jù)可用時(shí),系統(tǒng)會(huì)根據(jù)任務(wù)規(guī)劃重新分析視頻,并在每個(gè)任務(wù)和視頻之間建立時(shí)空上的對應(yīng)關(guān)系。這一過程可以提取對機(jī)器人執(zhí)行有價(jià)值的各種能力信息,如接近物體的方式、抓握類型、避免碰撞的路徑點(diǎn)和上肢姿勢等。

最后,能力(affordance)信息和任務(wù)規(guī)劃被編譯成獨(dú)立于硬件的可執(zhí)行文件,以 JSON 格式保存。本文對模型進(jìn)行了定性分析,并確認(rèn)了輸出的任務(wù)規(guī)劃在多個(gè)真實(shí)機(jī)器人上的可操作性。

圖片

技術(shù)細(xì)節(jié)

本文提出的系統(tǒng)由兩個(gè)串聯(lián)的部分組成(圖 2):

第一部分是符號任務(wù)規(guī)劃器,將人類行為的教學(xué)視頻、文本或兩者共同作為輸入,然后輸出一系列的機(jī)器人動(dòng)作。在這里,文本輸入也包括對 GPT-4V 識(shí)別結(jié)果的反饋,以便進(jìn)行修正。為用戶提供對識(shí)別結(jié)果進(jìn)行反饋的機(jī)會(huì),可以得到更加魯棒的操作作為輸入,換句話說,當(dāng)系統(tǒng)任務(wù)用戶操作不準(zhǔn)確時(shí),還能有機(jī)會(huì)重新輸入。

第二部分是能力分析器,負(fù)責(zé)分析視頻以確定任務(wù)發(fā)生的時(shí)間和地點(diǎn),然后提取高效執(zhí)行任務(wù)所需的能力信息。

在這一系統(tǒng)中,輸入的視頻是人類執(zhí)行動(dòng)作的演示,讓機(jī)器人去復(fù)制。本研究實(shí)驗(yàn)中假定視頻的粒度為抓握 - 操縱 - 釋放。 

A. 符號任務(wù)規(guī)劃器

符號任務(wù)規(guī)劃器由三個(gè)部分組成:1) 視頻分析;2) 場景分析;3) 任務(wù)規(guī)劃。

最初,當(dāng)輸入 RGB 視頻時(shí),視頻分析使用 GPT-4V 來識(shí)別視頻中人類所做的動(dòng)作,并將其轉(zhuǎn)錄為人與人交流中使用的文本指令(例如,請扔掉這個(gè)空罐子)。在視頻分析中,考慮到模型 token 的限制和延遲,本文采用了視頻幀定時(shí)采樣的方法,并將抽到的幀輸入 GPT-4V。然后由用戶對輸出文本進(jìn)行檢查和編輯。如果不提供視頻輸入,則在此階段向系統(tǒng)提供文本指令。圖 3 顯示了視頻分析器的示例,表明 GPT-4V 可以成功地從幀中理解人的動(dòng)作。

圖片

接下來,場景分析器根據(jù)這些指令和工作環(huán)境的第一幀視頻數(shù)據(jù)或圖像,將預(yù)期的工作環(huán)境編譯成文本信息。這些環(huán)境信息包括 GPT-4V 識(shí)別的物體名稱列表、物體的可抓取屬性以及物體之間的空間關(guān)系。雖然這些計(jì)算過程在 GPT-4V 中是一個(gè)黑盒,但這些信息是根據(jù) GPT-4V 的知識(shí)和輸入的圖像 / 文本輸出的。

圖 4 顯示了場景分析器的示例。如圖所示,GPT-4V 成功地選擇了與操作相關(guān)的對象。例如,當(dāng)人類在桌子上移動(dòng)垃圾桶時(shí),輸出中包含了桌子,而在打開冰箱的任務(wù)中則忽略了桌子。這些結(jié)果表明,場景分析器可以根據(jù)人類的操作對場景信息進(jìn)行編碼。

圖片

根據(jù)給定的文本指令和環(huán)境信息,任務(wù)規(guī)劃器會(huì)輸出一系列任務(wù)。

具體來說,本文設(shè)計(jì)了一個(gè) prompt,讓 GPT-4 將給定指令分解為一系列機(jī)器人任務(wù) 。本文又根據(jù) Kuhn-Tucker 理論,建立了一套必要且充分的機(jī)器人操作物體的動(dòng)作。

表 I 顯示了本文在 prompt 中包含的任務(wù)集和解釋。在這里,任務(wù)參數(shù)的名稱是基于對 GPT-4V 的理解,以開放詞匯格式給出的。在后續(xù)階段,這些名稱將通過能力分析器與視頻結(jié)合起來。此外,這些前 / 后條件用于強(qiáng)制 GPT-4 輸出連貫的任務(wù)序列,而不是根據(jù)視頻中的意象進(jìn)行驗(yàn)證。

為了確保對 GPT-4 模型理解的透明度,任務(wù)規(guī)劃器被設(shè)計(jì)為輸出任務(wù)解釋、操作后的估計(jì)環(huán)境和操作摘要,以及一組任務(wù)規(guī)劃。此外,任務(wù)規(guī)劃器還是一個(gè)有狀態(tài)的系統(tǒng),可在 GPT-4 模型的 token 限制范圍內(nèi)保持過去對話的歷史記錄。因此,用戶可以根據(jù)任務(wù)規(guī)劃器的輸出,通過語言反饋來修改和確認(rèn)輸出。圖 5 顯示了任務(wù)規(guī)劃器的計(jì)算結(jié)果示例。結(jié)果表明,一套量身定制的 prompt 可以產(chǎn)生合理的文本指示、環(huán)境描述和符號任務(wù)規(guī)劃。

圖片

B. Affordance 分析器

Affordance 分析器利用來自符號任務(wù)規(guī)劃器的知識(shí)對給定視頻進(jìn)行重新分析,以獲取機(jī)器人有效執(zhí)行任務(wù)所需的能力信息。

具體來說,它根據(jù)任務(wù)的性質(zhì)和物體名稱,重點(diǎn)分析手與物體之間的關(guān)系。它能識(shí)別視頻中抓取和釋放的時(shí)刻和位置,并將這些時(shí)刻和位置與任務(wù)序列對齊。這些瞬間可作為錨點(diǎn),用于識(shí)別每項(xiàng)任務(wù)所必需的能力。本文之前的研究《Verbal Focus-of-Attention System for Learning-from-Observation》已經(jīng)證明了「關(guān)注焦點(diǎn) 」在檢測動(dòng)作抓取和釋放方面的有效性。

1) 通過關(guān)注人手來檢測抓取和釋放的動(dòng)作:起初,模型將一系列視頻按固定的時(shí)間間隔分割成視頻片段。然后使用手部檢測器和圖像分類器對每個(gè)視頻片段的開始和結(jié)束幀進(jìn)行分析,以確定物體是否被抓(圖 6)。視頻片段被分為以下幾種模式:

  • 在第一幀中沒有任何東西被抓住,但在最后一幀中卻有東西被抓住的片段表示發(fā)生了抓取。
  • 在第一幀中有東西被握住,而在最后一幀中沒有東西被握住的片段表示發(fā)生了釋放。
  • 其他片段則被歸類為包含其他類型動(dòng)作的片段。

圖片

通過這種分類,分析器可以確定哪些視頻片段包含抓握和松開的實(shí)例。為此,研究者開發(fā)了基于 YOLO 的手部檢測器和識(shí)別器 ,并已將該模型開源(https://github.com/ultralytics/ultralytics)。

2) 通過關(guān)注手與物體的交互,實(shí)現(xiàn)檢測抓取和釋放的時(shí)空位置。然后,模型將重點(diǎn)放在抓取視頻片段上,分析抓取物體的位置和時(shí)間。本文使用 Detic(一種開放式詞匯對象檢測器)來搜索視頻中的候選對象,正如符號任務(wù)規(guī)劃器所識(shí)別的那樣,當(dāng)識(shí)別出多個(gè)候選對象時(shí),視頻片段中最靠近手部的對象將被視為抓取對象。這是通過比較手部檢測器在抓取視頻片段的每一幀中檢測到的每個(gè)候選對象的邊界框與手部之間的距離來確定的。圖 7 展示了物體檢測的計(jì)算過程。在「抓取」視頻片段中,手與物體在空間上最接近的時(shí)刻被確定為抓取時(shí)刻。類似的計(jì)算也應(yīng)用于釋放視頻片段,以確定釋放的時(shí)間。

圖片

圖 8 顯示了將果汁罐從貨架底部移到頂部的操作計(jì)算過程。

圖片

3) 本文將抓取和松開的瞬間看作任務(wù)序列與視頻對齊的錨點(diǎn),對齊后,視覺分析器會(huì)提取以下信息,包括:

  • 抓取任務(wù)的能力:1)接近物體的方向信息,以避免與環(huán)境發(fā)生碰撞。2)抓取類型還包含人類如何有效的執(zhí)行操作。
  • 手部移動(dòng)的能力:1)手移動(dòng)過程中的航點(diǎn)信息,以避免環(huán)境碰撞。
  • 釋放任務(wù)的能力:1)釋放物體后手的撤離方向信息,以避免環(huán)境碰撞。
  • 拾取任務(wù)的能力:1)矢量化的離開方向信息,以盡量減少物體與平面之間不必要的力。
  • 放置任務(wù)的能力:1)朝物體靠近方向的信息,以避免環(huán)境碰撞。
  • 旋轉(zhuǎn)任務(wù)的能力:1)旋轉(zhuǎn)軸的方向。2) 旋轉(zhuǎn)中心的位置。3)旋轉(zhuǎn)角度。
  • 滑動(dòng)任務(wù)的能力:1)滑動(dòng)運(yùn)動(dòng)的位移。
  • 表面移動(dòng)任務(wù)的能力:1)與表面垂直的軸。

除了這些能力外,上臂和前臂在抓取、釋放和每個(gè)時(shí)刻的姿態(tài)也被編碼為一對離散的方向向量。這些向量可作為計(jì)算多自由度手臂逆運(yùn)動(dòng)學(xué)的約束條件,確保機(jī)器人不會(huì)在人類周圍擺出意想不到的姿勢。值得注意的是,雖然這些能力為許多控制器提供了可行的信息,但機(jī)器人的實(shí)際執(zhí)行可能還需要力反饋等額外信息。獲取這些能力信息的具體方法可參見研究者之前的論文(https://arxiv.org/abs/2008.01513)。

實(shí)驗(yàn)結(jié)果

研究者將模型進(jìn)行了封裝,并設(shè)計(jì)了網(wǎng)頁訪問接口,如圖 9 所示。

圖片

該模型允許用戶上傳預(yù)先錄制的教學(xué)演示,并讓 GPT-4V 和 GPT-4 對任務(wù)模型進(jìn)行編碼。然后,研究者測試了機(jī)器人能否通過在各種場景下獲得的視頻進(jìn)行一次嘗試操作。此處研究者介紹了幾個(gè)執(zhí)行示例。實(shí)驗(yàn)測試了兩個(gè)機(jī)器人:第一個(gè)是 Nextage 機(jī)器人(川田機(jī)器人公司出品)其手臂有六個(gè)自由度;第二個(gè)是 Fetch 移動(dòng)機(jī)械手(Fetch 機(jī)器人公司出品),其手臂有七個(gè)自由度。機(jī)器人上還裝有一個(gè)四指機(jī)械手,即 Shadow Dexterous Hand Lite(Shadow Robotics)。機(jī)器人的技能是通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的。所有實(shí)驗(yàn)結(jié)果將可以在其官方代碼庫中訪問(代碼即將公布)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-21 21:14:00

AI模型

2022-10-21 17:30:26

機(jī)器人

2023-11-04 12:23:39

GPT-4AI

2023-12-12 12:43:19

AI訓(xùn)練

2023-05-24 13:04:46

機(jī)器人人工智能

2021-04-19 20:30:06

機(jī)器人AI人工智能

2021-11-30 15:19:19

機(jī)器人人工智能技術(shù)

2023-10-19 09:32:45

自動(dòng)駕駛技術(shù)

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2023-03-16 12:14:55

2021-12-26 23:04:34

機(jī)器人人工智能技術(shù)

2023-02-26 11:53:20

2025-03-13 10:28:07

2024-01-05 19:44:48

谷歌機(jī)器人憲法AI

2023-10-17 12:34:04

2024-01-08 13:29:00

AI數(shù)據(jù)

2024-09-02 10:00:00

機(jī)器人開源

2024-01-05 09:16:22

谷歌機(jī)器人人工智能

2024-10-22 18:42:58

2021-02-19 13:17:19

比特幣機(jī)器人加密貨幣
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號