自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="cwmis"></style>

<sup id="cwmis"><input id="cwmis"></input></sup>

<blockquote id="cwmis"><p id="cwmis"></p></blockquote>

<sup id="cwmis"></sup>

<s id="cwmis"><li id="cwmis"></li></s>

<tfoot id="cwmis"></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

代碼即策略：具身控制的語(yǔ)言模型程序

作者：黃浴 2024-09-27 09:48:28

人工智能新聞

本文介紹代碼即策略（CaP）：一種以機(jī)器人為中心的語(yǔ)言模型生成程序 (LMP) 公式，可以表示反應(yīng)策略（例如阻抗控制器）以及基于路徑點(diǎn)的策略（基于視覺(jué)的拾取-和-放置、基于軌跡的控制），已在多個(gè)真實(shí)機(jī)器人平臺(tái)上進(jìn)行演示。

23年5月來(lái)自谷歌的論文“Code as Policies: Language Model Programs for Embodied Control”。

經(jīng)過(guò)代碼補(bǔ)全訓(xùn)練的大語(yǔ)言模型 (LLM) ，已被證明能夠從文檔字符串合成簡(jiǎn)單的 Python 程序 [1]。這些編寫(xiě)代碼的 LLM 可以重新用于編寫(xiě)機(jī)器人策略代碼，只需提供自然語(yǔ)言命令即可。具體來(lái)說(shuō)，策略代碼可以表達(dá)處理感知輸出（例如來(lái)自目標(biāo)檢測(cè)器 [2]、[3]）和參數(shù)化控制原語(yǔ) API 的函數(shù)或反饋循環(huán)。當(dāng)提供幾個(gè)示例語(yǔ)言命令（格式化為注釋?zhuān)┳鳛檩斎霑r(shí)，然后提供相應(yīng)的策略代碼（通過(guò)少量提示），LLM 可以接收新命令并自主重新編寫(xiě) API 調(diào)用，分別生成新策略代碼。通過(guò)鏈接經(jīng)典邏輯結(jié)構(gòu)并引用第三方庫(kù)（例如 NumPy、Shapely）來(lái)執(zhí)行算術(shù)，以這種方式使用的 LLM 可以編寫(xiě)機(jī)器人策略，這些策略 (i) 展示空間幾何推理，(ii) 推廣到新指令，以及 (iii) 根據(jù)上下文（即行為常識(shí)）為模糊描述（“更快”）指定精確值（例如速度）。

本文介紹代碼即策略（CaP）：一種以機(jī)器人為中心的語(yǔ)言模型生成程序 (LMP) 公式，可以表示反應(yīng)策略（例如阻抗控制器）以及基于路徑點(diǎn)的策略（基于視覺(jué)的拾取-和-放置、基于軌跡的控制），已在多個(gè)真實(shí)機(jī)器人平臺(tái)上進(jìn)行演示。核心是提示分層代碼生成（遞歸定義未定義的函數(shù)），它可以編寫(xiě)更復(fù)雜的代碼，還可以提高現(xiàn)有技術(shù)水平，以解決 HumanEval [1] 基準(zhǔn)上 39.8% 的問(wèn)題。

如圖所示：通過(guò)給定示例（通過(guò)少量提示），機(jī)器人可以使用編寫(xiě)代碼的大語(yǔ)言模型 (LLM) 將自然語(yǔ)言命令轉(zhuǎn)換為機(jī)器人策略代碼，該代碼處理感知輸出、參數(shù)化控制原語(yǔ)、遞歸生成未定義函數(shù)的代碼并推廣到新任務(wù)。

術(shù)語(yǔ)“語(yǔ)言模型程序（LMP）”指代由語(yǔ)言模型生成并在系統(tǒng)上執(zhí)行的任何程序。這項(xiàng)工作研究代碼即策略，這是一類(lèi) LMP，它將語(yǔ)言指令映射到代碼片段，這些代碼片段 (i) 對(duì)感知輸入做出反應(yīng)（即來(lái)自傳感器或傳感器之上的模塊），(ii) 參數(shù)化控制原語(yǔ) API，以及 (iii) 直接在機(jī)器人上編譯和執(zhí)行，例如：

輸入指令被格式化為注釋?zhuān)ňG色），可以由人類(lèi)提供或由另一個(gè) LMP 編寫(xiě)。LLM 的預(yù)測(cè)輸出（突出顯示）應(yīng)為有效的 Python 代碼，由自回歸生成 [11]，[12]。LMP 是使用示例提示的少量樣本，用于生成不同的子程序，這些子程序可能處理目標(biāo)檢測(cè)結(jié)果、構(gòu)建軌跡或序列控制原語(yǔ)?？梢酝ㄟ^(guò)組合已知函數(shù)（例如，使用感知模塊的 get_obj_names()）或調(diào)用其他 LMP 定義未定義的函數(shù)來(lái)分層生成 LMP：

對(duì)于新的具身，這些活動(dòng)函數(shù)調(diào)用，可以用表示智體動(dòng)作空間（例如 set_velocity）的可用控制 API 替換。具有詳細(xì)變量名的分層代碼生成，可以看作是通過(guò)函數(shù)式編程進(jìn)行思維鏈提示 [47] 的變型。LMP 定義的函數(shù)可以隨時(shí)間的推移逐漸積累，其中新的 LMP 可以引用以前構(gòu)建的函數(shù)來(lái)擴(kuò)展策略邏輯。

要執(zhí)行 LMP，首先檢查它是否可以安全運(yùn)行，確保沒(méi)有 import 語(yǔ)句、以 __ 開(kāi)頭的特殊變量或?qū)?exec 和 eval 的調(diào)用。然后，調(diào)用 Python 的 exec 函數(shù)，使用代碼作為輸入字符串和兩個(gè)字典構(gòu)成該代碼執(zhí)行的范圍：(i) global 變量，包含生成的代碼可能調(diào)用的所有 API，以及 (ii) local 變量，一個(gè)空字典，它將填充在 exec 期間定義的變量和新函數(shù)。如果預(yù)計(jì) LMP 將返回一個(gè)值，會(huì)在 exec 完成后從 local 變量中獲取它。

如圖所示代碼即策略可以遵循不同領(lǐng)域和機(jī)器人的自然語(yǔ)言指令：桌面操作 (a)-(b)、2D 形狀繪制 (c) 以及在廚房中使用 Everyday Robots 機(jī)器人進(jìn)行移動(dòng)操作 (d)。該方法使機(jī)器人能夠使用現(xiàn)成的模型和少量提示進(jìn)行空間幾何推理、解析目標(biāo)關(guān)系并形成多步行為，而無(wú)需額外訓(xùn)練。

在機(jī)器人策略的背景下，LMP 可以根據(jù)自然語(yǔ)言指令編寫(xiě)感知到控制的反饋邏輯，其中感知模型（狀態(tài)）的高級(jí)輸出可以通過(guò)編程方式進(jìn)行操作，并用于通知低級(jí)控制 API（操作）的參數(shù)。有關(guān)可用感知和控制 API 的先前信息可以通過(guò)示例和提示進(jìn)行引導(dǎo)。這些 API 將 LMP “接地”到現(xiàn)實(shí)世界的機(jī)器人系統(tǒng)，感知和控制算法的改進(jìn)可以直接提高基于 LMP 的策略的能力。例如，真實(shí)世界實(shí)驗(yàn)中，用最近開(kāi)發(fā)的、現(xiàn)成的、開(kāi)放詞匯目標(biāo)檢測(cè)模型（如 ViLD [3] 和 MDETR [2]）來(lái)獲取目標(biāo)位置和邊框。

基于 LMP 的策略有三方面的好處：(i) 可以將策略代碼和參數(shù)調(diào)整為，由未見(jiàn)過(guò)自然語(yǔ)言指令指定的新任務(wù)和行為；(ii) 可以通過(guò)引導(dǎo)開(kāi)放詞匯感知系統(tǒng)和/或顯著性（saliency）模型推廣到新目標(biāo)和環(huán)境；(iii) 不需要任何額外的數(shù)據(jù)收集或模型訓(xùn)練。生成的規(guī)劃和策略也是可解釋的，因?yàn)樗鼈円源a表示，因此可以輕松修改和重用。使用 LMP 進(jìn)行高級(jí)用戶(hù)交互繼承了 LLM 的優(yōu)勢(shì)，包括使用常識(shí)知識(shí)解析富有表現(xiàn)力的自然語(yǔ)言、考慮先前的上下文、多語(yǔ)言功能以及參與對(duì)話(huà)。

在真實(shí)世界桌面操控實(shí)驗(yàn)，UR5e 機(jī)器人的任務(wù)是根據(jù)自然語(yǔ)言指令操控桌面上的目標(biāo)。該機(jī)器人配備了吸盤(pán)夾持器，只能執(zhí)行由 2D 自上而下的拾取-和-放置位置參數(shù)化的拾取-和-放置動(dòng)作。機(jī)器人還需要使用提供的感知 API 回答有關(guān)場(chǎng)景的問(wèn)題（例如，有多少個(gè)塊？）。在演示中，用 Google Cloud 的語(yǔ)音-轉(zhuǎn)-文本和文本-轉(zhuǎn)-語(yǔ)音 API，讓用戶(hù)通過(guò)語(yǔ)音命令與系統(tǒng)交互，并聽(tīng)到機(jī)器人對(duì)命令和問(wèn)題的回答。目前，提示僅支持擁有一組唯一目標(biāo)。這不是 CaP 的限制，而是感知系統(tǒng)的限制——沒(méi)有很好的方法來(lái)在 VLM 檢測(cè)中保留重復(fù)目標(biāo)的身份。一個(gè)更復(fù)雜的跟蹤感知世界狀態(tài)的系統(tǒng)可以解決這個(gè)問(wèn)題。

移動(dòng)操控實(shí)驗(yàn)由 Everyday Robots 的機(jī)器人在現(xiàn)實(shí)世界的辦公室廚房中導(dǎo)航和與目標(biāo)交互而設(shè)置。該機(jī)器人有一個(gè)移動(dòng)底座和一個(gè) 7DoF 臂。為了實(shí)現(xiàn)感知 API，主要使用機(jī)器人上的 RGBD 相機(jī)傳感器。其中的機(jī)器人如圖所示。

與現(xiàn)實(shí)世界的桌面領(lǐng)域類(lèi)似，構(gòu)建了一個(gè)模擬桌面環(huán)境，其中配備了 Robotiq 2F85 夾爪的 UR5e 機(jī)器人會(huì)收到自然語(yǔ)言指令來(lái)完成重新排列任務(wù)。這些物體包括 10 個(gè)不同顏色的積木和 10 個(gè)不同顏色的碗。擬議的 CaP 提供了 API，用于通過(guò)腳本化目標(biāo)檢測(cè)器訪(fǎng)問(wèn)當(dāng)前目標(biāo)及其位置的列表，以及通過(guò)坐標(biāo)或目標(biāo)名稱(chēng)參數(shù)化的拾取-和-放置運(yùn)動(dòng)原語(yǔ)。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

機(jī)器人模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="0mwhf"><p id="0mwhf"></p></sub>