自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="jzvfj"></u>

^{<thead id="jzvfj"></thead>}

<legend id="jzvfj"><track id="jzvfj"></track></legend>

<sub id="jzvfj"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大型語言模型（LLM）在機(jī)器人領(lǐng)域的機(jī)遇、挑戰(zhàn)與展望

作者：AIRoobt 2024-07-10 11:38:15

本研究提供了一個全面的概述，介紹了LLMs和多模態(tài)LLMs如何被整合到各種機(jī)器人任務(wù)中。此外，我們提出了一個框架，該框架利用多模態(tài)GPT-4V通過結(jié)合自然語言指令和機(jī)器人視覺感知來增強(qiáng)具體化任務(wù)規(guī)劃。

摘要—大型語言模型（LLMs）經(jīng)歷了顯著的擴(kuò)展，并且越來越多地被整合到各個領(lǐng)域中。特別是在機(jī)器人任務(wù)規(guī)劃領(lǐng)域，LLMs利用其先進(jìn)的推理和語言理解能力，根據(jù)自然語言指令制定精確高效的行動計劃。然而，對于具體化的機(jī)器人任務(wù)，即機(jī)器人與復(fù)雜環(huán)境互動的任務(wù)，僅文本的LLMs常常因為缺乏與機(jī)器人視覺感知的兼容性而面臨挑戰(zhàn)。本研究提供了一個全面的概述，介紹了LLMs和多模態(tài)LLMs如何被整合到各種機(jī)器人任務(wù)中。此外，我們提出了一個框架，該框架利用多模態(tài)GPT-4V通過結(jié)合自然語言指令和機(jī)器人視覺感知來增強(qiáng)具體化任務(wù)規(guī)劃。我們基于多樣化數(shù)據(jù)集的結(jié)果顯示，GPT-4V有效地提高了機(jī)器人在具體化任務(wù)中的性能。對LLMs和多模態(tài)LLMs在各種機(jī)器人任務(wù)中的廣泛調(diào)查和評估豐富了對以LLM為中心的具體化智能的理解，并為彌合人-機(jī)器人-環(huán)境交互中的差距提供了前瞻性的見解。

I. 引言

隨著預(yù)訓(xùn)練模型在模型規(guī)模和數(shù)據(jù)量上的擴(kuò)展，一些大型預(yù)訓(xùn)練模型在一系列復(fù)雜任務(wù)上展現(xiàn)出了顯著的能力[1]，[2]。大型語言模型（LLMs）因其卓越的上下文涌現(xiàn)能力[2]–[10]在各個領(lǐng)域引起了廣泛關(guān)注。這種新興能力以前所未有的方式賦能了人工智能算法，重塑了人們使用人工智能算法的方式，并促使人們重新評估人工通用智能（AGI）的可能性。

隨著LLMs的快速發(fā)展，指令調(diào)整和對齊調(diào)整已成為適應(yīng)特定目標(biāo)的主要方法。在自然語言處理（NLP）領(lǐng)域，LLMs在一定程度上可以作為語言相關(guān)任務(wù)的通用解決方案[3]，[5]，[11]–[13]。這些基于變換器的大型模型在多個領(lǐng)域取得了非凡成就[14]–[17]，深刻改變了人工智能的最新狀態(tài)[3]，[12]，[18]–[26]。研究范式也轉(zhuǎn)向了解決子領(lǐng)域特定問題。在計算機(jī)視覺（CV）領(lǐng)域，研究人員也在開發(fā)類似于GPT-4和Gemini的大型模型[27]，[28]，這些模型融合了視覺和語言信息，從而支持多模態(tài)輸入[29]。這種增強(qiáng)LLMs的策略不僅提高了它們在下游任務(wù)中的性能，而且通過確保與人類價值觀和偏好的一致性，對機(jī)器人學(xué)的發(fā)展具有重要的指導(dǎo)意義。這種方法已在眾多領(lǐng)域得到廣泛采用[7]，[29]–[32]，甚至在卷積神經(jīng)網(wǎng)絡(luò)（CNNs）是主要技術(shù)[33]–[40]的領(lǐng)域也是如此。

LLMs處理和內(nèi)化大量文本數(shù)據(jù)的能力為提高機(jī)器的理解和自然語言分析能力提供了前所未有的潛力[41]，[42]。這擴(kuò)展到了理解手冊和技術(shù)指南等文檔，并將這些知識應(yīng)用于進(jìn)行連貫、準(zhǔn)確和與人類一致的對話[43]–[45]。通過對話，自然語言指令從文本提示轉(zhuǎn)化為機(jī)器可理解的代碼，觸發(fā)相應(yīng)的動作，從而使機(jī)器人在適應(yīng)各種用戶命令方面更加靈活和適應(yīng)性強(qiáng)[46]–[48]。將現(xiàn)實世界的傳感器模態(tài)整合到語言模型中，有助于建立單詞和感知之間的聯(lián)系，使它們能夠應(yīng)用于各種特定任務(wù)。然而，僅文本的LLMs缺乏對物理世界的體驗性暴露和觀察的經(jīng)驗性結(jié)果，這使得它們在特定環(huán)境中的決策制定中難以應(yīng)用。因此，將多模態(tài)性整合到LLMs對于有效執(zhí)行機(jī)器人任務(wù)至關(guān)重要。此外，機(jī)器人學(xué)領(lǐng)域呈現(xiàn)出更為微妙的任務(wù)變化。與可以從互聯(lián)網(wǎng)上獲取大量數(shù)據(jù)集的NLP和CV不同，獲取用于機(jī)器人交互的大型和多樣化數(shù)據(jù)集是具有挑戰(zhàn)性的[49]。這些數(shù)據(jù)集通常要么專注于單一環(huán)境和對象，要么強(qiáng)調(diào)特定任務(wù)領(lǐng)域，導(dǎo)致它們之間存在顯著差異。[50]這種復(fù)雜性在將LLMs與機(jī)器人學(xué)整合時帶來了更大的挑戰(zhàn)。

如何克服機(jī)器人技術(shù)帶來的挑戰(zhàn)，并利用LLMs在其他領(lǐng)域的成就來造福機(jī)器人學(xué)領(lǐng)域，是本綜述所要解決的核心問題。在本文中，工作的貢獻(xiàn)可以總結(jié)為四個主要點：

- 我們仔細(xì)調(diào)查并綜合現(xiàn)有的LLM機(jī)器人文獻(xiàn)，探索三個不同任務(wù)類別中的最新進(jìn)展：規(guī)劃、操作、推理。

- 我們總結(jié)了LLMs為機(jī)器人學(xué)領(lǐng)域提供的主要技術(shù)方法，檢查了訓(xùn)練通用機(jī)器人策略的潛力，并為該領(lǐng)域的研究人員提供了基礎(chǔ)調(diào)查。

- 我們評估了多模態(tài)GPT-4V在各種環(huán)境和場景中機(jī)器人任務(wù)規(guī)劃的有效性。

- 我們總結(jié)了我們調(diào)查的主要發(fā)現(xiàn)，討論了未來工作中需要解決的突出挑戰(zhàn)，并提出了前瞻性的觀點。

大型語言模型（LLM）在機(jī)器人領(lǐng)域的機(jī)遇、挑戰(zhàn)與展望 -AI.x社區(qū)

圖1. 提出的GPT-4V賦能的具體化任務(wù)規(guī)劃框架。我們使用視頻數(shù)據(jù)的初始幀及其對應(yīng)的文本指令作為輸入。我們的框架利用GPT-4V將指令分解為一系列任務(wù)計劃，并從預(yù)定義的動作池中選擇相應(yīng)的表示。同時，我們可以分析與指令相關(guān)的目標(biāo)對象以及指令前后圖像中的環(huán)境變化。最后，我們使用GPT-4V比較并評估我們生成的任務(wù)計劃與真實計劃的匹配程度。

II. 相關(guān)工作

A. 機(jī)器人領(lǐng)域的LLM

基于LLMs的機(jī)器人學(xué)研究領(lǐng)域已經(jīng)取得了重大進(jìn)展。這些模型展現(xiàn)出了卓越的自然語言理解和常識推理能力，顯著提升了機(jī)器人理解上下文和執(zhí)行命令的能力。當(dāng)前的研究集中在利用LLMs解析復(fù)雜的上下文和指令，包括解決歧義、消除歧義和理解隱含信息。該領(lǐng)域的關(guān)鍵進(jìn)展包括視覺-語言模型的發(fā)展[51]–[53]，這些模型顯著提高了視覺問答[54]–[56]和圖像描述[57]，[58]等任務(wù)的性能。這些進(jìn)步極大地增強(qiáng)了機(jī)器人在物理世界中的推理能力，特別是在復(fù)雜命令導(dǎo)航等領(lǐng)域。[59]，[60] 通過視覺語言處理系統(tǒng)，機(jī)器人能夠理解圖像內(nèi)容，并將其與相關(guān)語言信息（如圖像描述和指令執(zhí)行）整合。這種多模態(tài)信息處理同樣應(yīng)用于音頻-視覺整合中。LLMs在人-機(jī)器人交互中的另一個重大進(jìn)展是通過互動學(xué)習(xí)過程實現(xiàn)的，這些過程更好地符合人類的需求和偏好。例如，通過將強(qiáng)化學(xué)習(xí)與人類反饋相結(jié)合，機(jī)器人可以持續(xù)改進(jìn)它們的任務(wù)執(zhí)行，通過結(jié)合人類指導(dǎo)和大型語言模型，機(jī)器人可以更精確地細(xì)化指令，從而更好地實現(xiàn)自主學(xué)習(xí)和環(huán)境適應(yīng)，以實現(xiàn)更準(zhǔn)確和有針對性的控制。機(jī)器人還可以通過互動學(xué)習(xí)和適應(yīng)用戶的行為、偏好和需求，提供更個性化和定制化的交互體驗。這些進(jìn)步不僅增強(qiáng)了機(jī)器人技術(shù)的實用性，而且為未來的人與人之間的交互開辟了新的可能性。

B. 使用LLMs進(jìn)行多模態(tài)任務(wù)規(guī)劃

LLMs領(lǐng)域內(nèi)的多模態(tài)任務(wù)規(guī)劃構(gòu)成了人工智能學(xué)科的一個復(fù)雜交叉點，涉及整合各種不同的數(shù)據(jù)模態(tài)——如文本、視覺和聽覺輸入——以促進(jìn)更全面和細(xì)致的AI驅(qū)動分析[61]–[65]。

這種跨學(xué)科方法超越了LLMs的傳統(tǒng)界限，后者主要關(guān)注文本理解和生成，迎來了一個新時代，在這個時代中，這些模型擅長于解釋、關(guān)聯(lián)和同時與多個數(shù)據(jù)流互動。在這個背景下，LLM的角色從單純的語言處理演變?yōu)楦闲缘墓δ埽C合并響應(yīng)復(fù)雜的數(shù)據(jù)交互。在LLMs的多模態(tài)任務(wù)規(guī)劃領(lǐng)域，最近的進(jìn)步如Inner Monologue和SayCan項目所示，展示了該領(lǐng)域的復(fù)雜性和成熟度的增長。Inner Monologue的方法[65]代表了該領(lǐng)域的重大飛躍，因為它整合了來自環(huán)境的多模態(tài)反饋源。這種整合使得生成更可靠、更具上下文意識的任務(wù)規(guī)劃成為可能，協(xié)調(diào)不同的感官輸入以創(chuàng)造對AI周圍環(huán)境的更連貫理解。同樣，SayCan的框架[61]為LLM應(yīng)用引入了一個新維度。該系統(tǒng)將LLMs作為模型的“手和眼睛”的代理，生成最優(yōu)的長期指令，并有效地評估當(dāng)前場景中指令的可行性概率。這種方法不僅增強(qiáng)了AI理解和與其直接環(huán)境互動的能力，而且還利用LLMs的細(xì)致理解來規(guī)劃和執(zhí)行復(fù)雜動作序列的長期任務(wù)。

Inner Monologue和SayCan中這些先進(jìn)技術(shù)的整合代表了在創(chuàng)建AI系統(tǒng)中邁出了重要的一步，這些系統(tǒng)不僅更加意識到多個數(shù)據(jù)流，而且還能夠?qū)⑦@些流合成為可操作的智能。這一進(jìn)展指向了一個未來，AI可以在一個更加動態(tài)、上下文意識和自主的方式中導(dǎo)航和與真實世界互動[61]，[65]–[67]，推動AI驅(qū)動創(chuàng)新和跨學(xué)科綜合的邊界。

III. 機(jī)器人任務(wù)的范圍

A. 規(guī)劃

1) 自然語言理解：在機(jī)器人規(guī)劃中，大型語言模型因其先進(jìn)的自然語言理解能力而表現(xiàn)出色。它們將自然語言指令翻譯成機(jī)器人可執(zhí)行的動作序列，這是機(jī)器人規(guī)劃的一個關(guān)鍵方面[61]，[68]。本研究顯示，LLMs能夠僅基于語言指令生成準(zhǔn)確的動作序列，即使沒有視覺輸入[69]。然而，當(dāng)有少量視覺信息時，它們的性能會顯著提高，使它們能夠創(chuàng)建精確的視覺-語義計劃。這些計劃將高級自然語言指令轉(zhuǎn)化為虛擬代理執(zhí)行復(fù)雜任務(wù)的可操作指導(dǎo)。這種能力強(qiáng)調(diào)了LLMs整合多模態(tài)信息的潛力，從而提高了它們的理解能力。它還展示了它們解釋和整合來自各種模態(tài)的信息的能力，從而更全面地理解任務(wù)[70]。此外，關(guān)于從大型語言模型生成動作序列以進(jìn)行自然語言理解的研究進(jìn)一步證實了LLMs在機(jī)器人規(guī)劃中的有效性。LLMs在解釋與物理環(huán)境同步的自然語言命令方面也顯示出巨大的潛力。采用Grounded Decoding方法，它們可以產(chǎn)生與物理模型概率一致的行為序列，展示了該方法在機(jī)器人規(guī)劃任務(wù)中的有效性[71]。

在復(fù)雜序列任務(wù)規(guī)劃方面的研究突出了LLMs能力的重大進(jìn)步。Text2Motion的研究顯示，LLMs不僅擅長處理語言信息，而且能夠解決技能序列中的依賴關(guān)系[72]。這是通過幾何上可行的規(guī)劃實現(xiàn)的，標(biāo)志著在解釋抽象指令和理解復(fù)雜任務(wù)結(jié)構(gòu)方面的一個重要進(jìn)步。此外，LLM-Planner研究通過將LLMs與傳統(tǒng)規(guī)劃器集成，增強(qiáng)了LLMs在機(jī)器人規(guī)劃中的自然語言理解能力[73]。這種協(xié)同作用展示了如何利用LLMs的NLP能力來提高規(guī)劃任務(wù)的效率和精確性。此外，LLM+P利用傳統(tǒng)規(guī)劃器的能力，使用規(guī)劃領(lǐng)域定義語言（PDDL）和問題提示來為LLMs創(chuàng)建特定任務(wù)的問題文件[44]。這種整合顯著提高了LLMs在處理長期規(guī)劃任務(wù)方面的有效性。另外，SayPlan通過集成經(jīng)典路徑規(guī)劃器來解決規(guī)劃視野問題。通過這樣做，SayPlan能夠?qū)某橄蠛妥匀徽Z言指令派生出的大規(guī)模、長期任務(wù)計劃具體化，使移動操作機(jī)器人能夠成功執(zhí)行它們[74]。此外，LLMs在搜索算法中作為啟發(fā)式策略以及作為常識知識的儲備庫方面顯示出潛力。LLMs的這種雙重角色不僅增強(qiáng)了這些算法內(nèi)的推理能力，而且還有助于預(yù)測潛在結(jié)果。這種方法充分利用了LLMs的潛力，利用它們先進(jìn)的推理能力有效地規(guī)劃復(fù)雜任務(wù)[66]。這種雙重應(yīng)用強(qiáng)調(diào)了大型語言模型在任務(wù)規(guī)劃和問題解決中的廣泛和多功能潛力。

關(guān)于LLMs的研究展示了它們解析和理解自然語言的顯著能力。這種能力超越了單純的文本匹配，達(dá)到了深刻的語義理解，包括任務(wù)的目的和上下文。LLMs的一個關(guān)鍵方面是將它們理解的指令轉(zhuǎn)化為機(jī)器人可執(zhí)行的動作序列，這是機(jī)器人任務(wù)規(guī)劃的一個必要特征。LLMs顯著提高了指令生成的質(zhì)量和適應(yīng)性，使得能夠創(chuàng)造出既具有上下文意識又特定于環(huán)境的復(fù)雜動作序列。這些模型在處理各種任務(wù)規(guī)劃復(fù)雜性和類型方面表現(xiàn)出多樣性，從簡單的物理互動到復(fù)雜的長期序列規(guī)劃。研究突出了LLMs作為獨立決策者和其他模態(tài)及規(guī)劃算法的協(xié)作者的潛力。這種協(xié)作在解釋自然語言和推進(jìn)機(jī)器人規(guī)劃方面至關(guān)重要。隨著研究的進(jìn)展，預(yù)計LLMs在機(jī)器人學(xué)和自動化系統(tǒng)領(lǐng)域?qū)l(fā)揮越來越重要的作用。

2) 復(fù)雜任務(wù)推理和決策：在復(fù)雜任務(wù)推理和決策領(lǐng)域，由LLMs賦能的機(jī)器人表現(xiàn)出顯著的熟練度。這些基于LLM的機(jī)器人規(guī)劃任務(wù)已經(jīng)顯著超越了單純的文本生成和語言理解的范疇。最近的研究突出了語言模型在處理復(fù)雜任務(wù)、進(jìn)行邏輯推理、做出明智的決策和參與互動學(xué)習(xí)方面的巨大能力[3]，[75]。這些突破不僅擴(kuò)展了我們對基于LLM的機(jī)器人規(guī)劃潛力的理解，而且為創(chuàng)新的實際應(yīng)用打開了大門。

在探索預(yù)訓(xùn)練語言模型（PLMs）在交互式?jīng)Q策中的應(yīng)用時，研究表明目標(biāo)和觀察被轉(zhuǎn)化為嵌入序列，用PLMs初始化網(wǎng)絡(luò)。這種策略的泛化能力在多變量環(huán)境和監(jiān)督模態(tài)中特別有效[76]。在多模態(tài)領(lǐng)域的一個顯著進(jìn)步是LM-Nav系統(tǒng)的發(fā)展[59]。該系統(tǒng)基于PLMs，整合了語言、視覺和動作模型，通過高級自然語言命令指導(dǎo)機(jī)器人導(dǎo)航。值得注意的是，它通過合并預(yù)訓(xùn)練的視覺導(dǎo)航、圖像-語言相關(guān)性和語言理解模型，減少了對昂貴軌跡注釋監(jiān)督的依賴。專注于特定環(huán)境中的LLMs，研究人員[65]已經(jīng)檢查了它們在自然語言反饋和復(fù)雜任務(wù)規(guī)劃方面的推理能力。這種能力對于遵循高級任務(wù)指令和增強(qiáng)模型在現(xiàn)實世界場景中的應(yīng)用性至關(guān)重要。解決自然語言理解和決策中的一致性容錯問題，創(chuàng)新的ReAct模型[77]克服了交互式設(shè)置中語言推理的先前限制。它解決了幻覺生成和錯誤信息傳播等挑戰(zhàn)。通過利用LLMs維持工作記憶和抽象概念化高級目標(biāo)的潛力，ReAct模型在各種任務(wù)中實現(xiàn)了顯著的性能提升。與此同時，為了解決大型語言模型（LLMs）在應(yīng)用于機(jī)器人學(xué)時的自信幻覺預(yù)測問題，KnowNo[78]為任務(wù)完成提供了統(tǒng)計保證，同時在復(fù)雜的多步驟規(guī)劃場景中最小化了對人類協(xié)助的需求。值得注意的是，KnowNo與LLMs無縫集成，無需模型微調(diào)，提供了一種輕量級和有前途的不確定性建模方法。這種方法與基礎(chǔ)模型不斷演變的能力保持一致，提供了一種可擴(kuò)展的解決方案。此外，已經(jīng)提出了一種涉及預(yù)處理錯誤提示的策略，使LLMs能夠提取可執(zhí)行計劃。這種方法為任務(wù)執(zhí)行中代理的獨立性和適應(yīng)性提供了新的視角。在多代理協(xié)作方面，越來越多地探索將語言模型與動作代理集成。通過將LLMs與在特定環(huán)境中執(zhí)行任務(wù)的代理配對，建立了一個由規(guī)劃器、執(zhí)行器和報告器組成的系統(tǒng)。這種安排顯著提高了復(fù)雜任務(wù)中推理和執(zhí)行的效率。

大型預(yù)訓(xùn)練語言模型領(lǐng)域正在經(jīng)歷一個顯著趨勢：這些模型越來越擅長理解和執(zhí)行復(fù)雜任務(wù)，與現(xiàn)實世界場景緊密對齊。這一進(jìn)步不僅強(qiáng)調(diào)了預(yù)訓(xùn)練模型的適應(yīng)性和多功能性，而且預(yù)示著下一代AI的到來。隨著這些技術(shù)的演進(jìn)，我們預(yù)計創(chuàng)新應(yīng)用將激增，有望徹底改變各個行業(yè)。這些任務(wù)的一個關(guān)鍵方面是利用LLMs強(qiáng)大的語言理解和生成能力進(jìn)行復(fù)雜推理和決策過程。該領(lǐng)域的每項研究都探索了LLMs在復(fù)雜認(rèn)知功能中的潛力。許多模型采用自監(jiān)督學(xué)習(xí)，有些則結(jié)合微調(diào)以更好地適應(yīng)特定任務(wù)。這種方法使LLMs在下游任務(wù)輔助推理中表現(xiàn)出色，從而做出更精確和定制化的決策。盡管LLMs在復(fù)雜推理和決策中得到廣泛應(yīng)用，但具體的技術(shù)和方法在任務(wù)處理、學(xué)習(xí)策略和反饋機(jī)制方面有所不同。這些模型在多種現(xiàn)實世界情境中得到應(yīng)用，包括家庭自動化、機(jī)器人導(dǎo)航和任務(wù)規(guī)劃，展示了它們廣泛和不斷發(fā)展的實用性。

3）人-機(jī)器人交互：在人-機(jī)器人交互領(lǐng)域，AGI語言模型的先進(jìn)推理能力賦予機(jī)器人顯著的泛化能力[79]。這使它們能夠適應(yīng)以前未見環(huán)境和任務(wù)中的新任務(wù)規(guī)劃。此外，LLMs的自然語言理解界面促進(jìn)了與人類的交流，為人-機(jī)器人交互開辟了新的可能性[80]。廣泛的研究強(qiáng)調(diào)了LLMs在輔助智能任務(wù)規(guī)劃方面取得的進(jìn)展，這反過來又增強(qiáng)了多智能體協(xié)作通信。研究發(fā)現(xiàn)，使用自然語言來提高多智能體合作的效率是一種有效的方法來提高通信效率。一個值得注意的例子是OpenAI的ChatGPT，其在機(jī)器人應(yīng)用中的能力通過嚴(yán)格的實驗進(jìn)行了評估。研究結(jié)果顯示，ChatGPT在邏輯、幾何和數(shù)學(xué)推理等復(fù)雜任務(wù)方面表現(xiàn)出色，以及空中導(dǎo)航、操作和控制具體化代理[48]。它通過自由形式的對話、解析XML標(biāo)簽和合成代碼等技術(shù)實現(xiàn)了這一點。此外，ChatGPT允許通過自然語言命令進(jìn)行用戶交互，為開發(fā)與人類以自然和直觀方式交互的創(chuàng)新機(jī)器人系統(tǒng)提供了重要的指導(dǎo)和見解。同樣，提出了一個利用大規(guī)模語言模型進(jìn)行協(xié)作具體化智能的框架[81]。該框架使語言模型能夠用于高效規(guī)劃和通信，促進(jìn)各種智能體和人類之間的協(xié)作，共同應(yīng)對復(fù)雜任務(wù)。實驗結(jié)果表明，這種方法在該領(lǐng)域的傳統(tǒng)方法中表現(xiàn)顯著優(yōu)越。

B. 操控

1) 自然語言理解：在機(jī)器人控制領(lǐng)域，LLMs的自然語言理解能力可以幫助機(jī)器人進(jìn)行常識分析。例如，LLM-GROP展示了如何從LLM中提取語義信息，并將其用作在復(fù)雜環(huán)境中響應(yīng)自然語言命令執(zhí)行多步驟任務(wù)和運動規(guī)劃器中關(guān)于對象放置的常識性、語義上有效的決策[82]。該研究提出了一個將語言置于智能體核心的框架[83]。通過利用這些模型中包含的先驗知識，可以設(shè)計出更好的機(jī)器人代理，它們能夠在現(xiàn)實世界中直接解決具有挑戰(zhàn)性的任務(wù)。通過一系列實驗，展示了該框架如何利用底層模型的知識和功能，以更高的效率和多功能性解決各種問題。同時，該研究引入了Linguistically Conditional Collision Function (LACO)，這是一種使用單視圖圖像、語言提示和機(jī)器人配置學(xué)習(xí)碰撞函數(shù)的新方法。LACO預(yù)測機(jī)器人與環(huán)境之間的碰撞，使得靈活的條件路徑規(guī)劃成為可能[84]。

除了自然語言理解能力外，LLM的強(qiáng)大推理能力也扮演著突出的角色。例如，在VIMA工作[85]中，引入了一種新的多模態(tài)提示公式，將不同的機(jī)器人操控任務(wù)轉(zhuǎn)化為統(tǒng)一的序列建模問題，并在具有多模態(tài)任務(wù)和系統(tǒng)泛化評估協(xié)議的多樣化基準(zhǔn)中實例化。實驗表明，VIMA能夠使用單一模型解決視覺目標(biāo)實現(xiàn)、一次性視頻模仿和新穎概念基礎(chǔ)等任務(wù)，具有強(qiáng)大的模型可擴(kuò)展性和零樣本泛化能力。同樣，TIP提出了Text-Image Cueing[86]，這是一種雙模態(tài)提示框架，將LLMs連接到多模態(tài)生成模型，以合理生成多模態(tài)程序計劃。除了提示方法外，在機(jī)器人控制領(lǐng)域，基于預(yù)訓(xùn)練LMs的下游任務(wù)微調(diào)也是一種常見方法。例如，該工作展示了預(yù)訓(xùn)練的視覺語言表示可以有效提高現(xiàn)有探索方法的樣本效率[87]。R3M研究了如何在不同的人類視頻數(shù)據(jù)上預(yù)訓(xùn)練視覺表示，以實現(xiàn)下游機(jī)器人操控任務(wù)的數(shù)據(jù)高效學(xué)習(xí)[88]。LIV在大型泛化人類視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練，并在小型機(jī)器人數(shù)據(jù)集上進(jìn)行微調(diào)，微調(diào)后在三個不同的評估設(shè)置中超越了最先進(jìn)的方法，并成功執(zhí)行了現(xiàn)實世界的機(jī)器人任務(wù)[89]。

這一系列研究共同展示了LLMs和自然語言理解技術(shù)在推進(jìn)機(jī)器人智能方面的重要角色，特別是在理解和執(zhí)行復(fù)雜的基于語言的任務(wù)方面。這些研究的一個關(guān)鍵重點是模型泛化的重要性以及將這些模型應(yīng)用于不同領(lǐng)域能力。每項研究雖然共享這一共同主題，但在其特定的關(guān)注點和應(yīng)用方法論上有所不同。例如，LLM-GROP專注于語義信息的提取和應(yīng)用。相比之下，VIMA和TIP專注于無先前示例的多模態(tài)處理和學(xué)習(xí)。此外，微調(diào)預(yù)訓(xùn)練LMs的方法旨在提高應(yīng)用效率和任務(wù)特定優(yōu)化?？偟膩碚f，這些研究表明，將復(fù)雜的NLP技術(shù)與機(jī)器學(xué)習(xí)策略相結(jié)合，可以大大提高機(jī)器人系統(tǒng)的效率，特別是在其理解和執(zhí)行復(fù)雜任務(wù)的能力方面。這一進(jìn)步是實現(xiàn)機(jī)器人操控中更大智能和自主性的關(guān)鍵一步。

2) 交互策略：在交互策略領(lǐng)域，TEXT2REWARD框架引入了一種使用LLMs生成交互式獎勵代碼的創(chuàng)新方法[83]。該方法自動產(chǎn)生密集的獎勵代碼，增強(qiáng)了強(qiáng)化學(xué)習(xí)。此外，通過利用大型語言模型定義可以優(yōu)化以完成各種機(jī)器人任務(wù)的獎勵參數(shù)，可以有效彌合高級語言指令或糾正與低級機(jī)器人行動之間的差距。語言模型生成的獎勵作為中間接口，使得高級指令和機(jī)器人的低級行動之間的無縫通信和協(xié)調(diào)成為可能[90]。此外，VoxPoser展示了一個多功能的機(jī)器人操控框架[64]，其特點是能夠直接從LLMs中提取可操作性和約束。這種方法顯著提高了機(jī)器人對開放式指令和多樣化對象的適應(yīng)性。通過將LLMs與視覺-語言模型集成，并利用在線交互，VoxPoser高效地學(xué)習(xí)與復(fù)雜任務(wù)動態(tài)模型互動。LLMs的應(yīng)用也擴(kuò)展到了人-機(jī)器人交互。LILAC系統(tǒng)通過一個可擴(kuò)展的[63]、由語言驅(qū)動的人機(jī)交互機(jī)制來實現(xiàn)這一點。它將自然語言話語翻譯成低維控制空間中的可執(zhí)行命令，使得機(jī)器人的精確和用戶友好的指導(dǎo)成為可能。重要的是，每個用戶的糾正都會完善這個控制空間，允許越來越針對性和準(zhǔn)確的命令。InstructRL提供了另一個旨在增強(qiáng)人-AI協(xié)作的創(chuàng)新框架[91]。它專注于訓(xùn)練強(qiáng)化學(xué)習(xí)代理來解釋和執(zhí)行人類提供的自然語言指令。該系統(tǒng)使用LLMs根據(jù)這些指令制定初始策略，引導(dǎo)強(qiáng)化學(xué)習(xí)代理實現(xiàn)協(xié)調(diào)的最佳平衡。最后，對于基于語言的人機(jī)界面，已經(jīng)開發(fā)了一種新的、靈活的界面LILAC。它允許用戶使用文本輸入和場景圖像改變機(jī)器人軌跡[92]。該系統(tǒng)協(xié)同預(yù)訓(xùn)練的語言和圖像模型，如BERT和CLIP，使用變換器編碼器和解碼器在3D和速度空間中操縱機(jī)器人軌跡。這種方法在模擬環(huán)境中證明是有效的，并通過實際應(yīng)用展示了其實用性。

所有這些技術(shù)和方法在不同程度上依賴于先進(jìn)的語言建模來增強(qiáng)人-機(jī)器人交互和機(jī)器人控制。它們共同強(qiáng)調(diào)了LLMs在解釋和執(zhí)行人類意圖方面的關(guān)鍵作用。每種方法都旨在提高機(jī)器人的適應(yīng)性和靈活性，使它們能夠更有效地處理多樣化的任務(wù)和環(huán)境。具體來說，TEXT2REWARD專注于生成和優(yōu)化獎勵代碼，提高了強(qiáng)化學(xué)習(xí)策略的效力。相反，VoxPoser專注于從LLMs中提取操作符和約束。與此同時，LILAC和InstructRL采用不同的方法來解釋和執(zhí)行自然語言命令。LILAC優(yōu)先考慮將話語映射到控制空間，而StructRL致力于訓(xùn)練強(qiáng)化學(xué)習(xí)代理理解和遵循自然語言指令。此外，最后討論的基于語言的人機(jī)交互研究探討了如何直接從文本和圖像中提取用戶意圖，并將其應(yīng)用于各種機(jī)器人平臺。這一方面使其與其他可能不包含此功能的方法有所不同?？偟膩碚f，這些研究標(biāo)志著將LLMs技術(shù)整合到機(jī)器人學(xué)中的重大進(jìn)步。雖然它們的應(yīng)用領(lǐng)域和方法論有不同的焦點，但它們都展示了人工智能創(chuàng)新的潛力。此外，它們?yōu)槲磥砣?機(jī)器人交互的探索鋪平了道路。

3) 模塊化方法：最近在機(jī)器人控制方面的進(jìn)展強(qiáng)調(diào)了模塊化方法，允許創(chuàng)建更復(fù)雜和功能豐富的機(jī)器人系統(tǒng)。最近的研究突出了這一趨勢的關(guān)鍵方面。PROGRAMPORT提出了一個以程序為基礎(chǔ)的模塊化框架，專注于機(jī)器人操控[93]。它通過將自然語言的語義結(jié)構(gòu)翻譯成編程元素來解釋和執(zhí)行語言概念。該框架包括在學(xué)習(xí)和掌握一般視覺概念和特定任務(wù)操作策略方面表現(xiàn)出色的神經(jīng)模塊。這種結(jié)構(gòu)化方法明顯增強(qiáng)了對視覺基礎(chǔ)和操作策略的學(xué)習(xí)，提高了對未見樣本和合成環(huán)境的泛化能力。接下來，研究人員探索了使用LLMs來加速機(jī)器人系統(tǒng)策略適應(yīng)的方法[94]，特別是在遇到新工具時。通過生成幾何形狀和描述性工具模型，然后將這些轉(zhuǎn)換為向量表示，LLMs促進(jìn)了快速適應(yīng)。這種語言信息和元學(xué)習(xí)的整合在適應(yīng)不熟悉工具方面表現(xiàn)出顯著的性能提升。

此外，將基于ViLD和CLIP的視覺語言模型NLMap[95]與SayCan框架相結(jié)合，導(dǎo)致了更靈活的場景表示。這種結(jié)合對于長期規(guī)劃特別有效，尤其是在開放世界場景中處理自然語言命令時。NLMap增強(qiáng)了基于LLM的規(guī)劃器理解其環(huán)境的能力。"Scaling Up and Distilling Down"框架結(jié)合了LLMs[96]、基于采樣的規(guī)劃器和策略學(xué)習(xí)的優(yōu)勢。它自動化了生成、標(biāo)記和提取豐富的機(jī)器人探索經(jīng)驗到一個多功能的視覺-語言運動策略中。這種多任務(wù)策略不僅繼承了長期行為和穩(wěn)健的操控技能，而且在訓(xùn)練分布之外的場景中也表現(xiàn)出改善的性能。

MetaMorph介紹了一種基于變換器的方法，用于學(xué)習(xí)適用于廣泛的模塊化機(jī)器人設(shè)計空間的通用控制器[97]。這種方法使得機(jī)器人形態(tài)可以作為變換器模型的輸出。通過在多樣化的形態(tài)上進(jìn)行預(yù)訓(xùn)練，通過這種方法生成的策略展示了對新形態(tài)和任務(wù)的廣泛泛化能力。這展示了在機(jī)器人學(xué)中進(jìn)行廣泛的預(yù)訓(xùn)練和微調(diào)的潛力，類似于視覺和語言領(lǐng)域的發(fā)展。

在這些研究中的每一項中，都采用了模塊化方法，增強(qiáng)了系統(tǒng)對新任務(wù)和環(huán)境的靈活性和適應(yīng)性。這些工作廣泛利用深度學(xué)習(xí)技術(shù)，特別是與LLMs協(xié)同作用，以增強(qiáng)機(jī)器人系統(tǒng)的理解和決策能力。此外，這些研究的一個重要焦點是應(yīng)用NLP。這無論是通過直接解釋語言命令，還是通過語言豐富的學(xué)習(xí)和適應(yīng)過程都顯而易見。主要目標(biāo)是提高機(jī)器人在新環(huán)境和任務(wù)中快速泛化和適應(yīng)的能力。雖然所有研究都采用了深度學(xué)習(xí)和LLMs，但它們的具體實現(xiàn)和應(yīng)用是多樣的。有些集中在語言描述和理解上，而其他研究探索視覺和語言的融合。研究目標(biāo)各不相同，從適應(yīng)新工具，到長期戰(zhàn)略規(guī)劃，到多形態(tài)機(jī)器人控制的挑戰(zhàn)。盡管技術(shù)方法、應(yīng)用領(lǐng)域和目標(biāo)任務(wù)存在差異，但每項研究都顯著地為推進(jìn)機(jī)器人系統(tǒng)的智能和適應(yīng)能力做出了貢獻(xiàn)。

C. 推理

1) 自然語言理解：在機(jī)器人推理任務(wù)領(lǐng)域，基于自然語言理解的LLMs作為一個重要的知識庫，為各種任務(wù)提供常識性洞察，這一點至關(guān)重要。廣泛的研究表明，LLMs有效地模擬了類似人類的狀態(tài)和行為，特別是在研究執(zhí)行家庭清潔功能的機(jī)器人時尤為相關(guān)。這種方法偏離了傳統(tǒng)方法，后者通常需要昂貴的數(shù)據(jù)收集和模型訓(xùn)練。相反，LLMs利用現(xiàn)成的方法在機(jī)器人學(xué)中進(jìn)行泛化，從廣泛的文本數(shù)據(jù)分析中受益于其強(qiáng)大的總結(jié)能力。此外，LLMs的常識推理和代碼理解能力促進(jìn)了機(jī)器人與物理世界之間的聯(lián)系。例如，Progprompt在LLMs中引入編程語言特性已被證明可以提高任務(wù)性能。這種方法不僅直觀，而且足夠靈活，能夠適應(yīng)新的場景、代理和任務(wù)，包括實際的機(jī)器人部署[98]。同時，GIRAF利用大型語言模型的強(qiáng)大能力，更加靈活地解釋手勢和語言命令，使得能夠準(zhǔn)確推斷人類意圖并為更有效的人機(jī)協(xié)作對手勢含義進(jìn)行情境化[99]。

在這一領(lǐng)域的一個創(chuàng)新發(fā)展是Cap（代碼作為策略）[47]，它主張以機(jī)器人為中心的語言模型生成程序。這些程序可以適應(yīng)機(jī)器人操作棧的特定層：解釋自然語言命令、處理感知數(shù)據(jù)以及為原始語言控制參數(shù)化低維輸入。這種方法的基本原則是分層代碼生成促進(jìn)了更復(fù)雜代碼的創(chuàng)建，從而推進(jìn)了這一領(lǐng)域的最新技術(shù)。

無論是家庭清潔應(yīng)用還是Cap中的以機(jī)器人為中心的語言模型生成程序，都突出了LLMs在提供常識知識和解釋自然語言指令方面的優(yōu)勢。傳統(tǒng)機(jī)器人學(xué)通常需要廣泛的數(shù)據(jù)收集和專門的模型訓(xùn)練。相比之下，LLMs通過利用其在文本數(shù)據(jù)上的廣泛訓(xùn)練來減輕這種需求。LLMs的代碼理解和生成能力尤其關(guān)鍵，使機(jī)器人能夠更有效地與物理世界互動并執(zhí)行復(fù)雜任務(wù)。然而，應(yīng)用重點有所區(qū)別：家庭清潔功能傾向于強(qiáng)調(diào)日常任務(wù)和環(huán)境適應(yīng)性，而Cap則專注于通過語言模型生成程序（LMPs）編程和控制機(jī)器人的更技術(shù)性行為。

總之，將LLMs整合到機(jī)器人推理任務(wù)中強(qiáng)調(diào)了它們在自然語言理解、常識知識提供以及代碼理解和生成方面的顯著能力。這些特性不僅減輕了與傳統(tǒng)機(jī)器人學(xué)相關(guān)的數(shù)據(jù)收集和模型訓(xùn)練負(fù)擔(dān)，還提高了機(jī)器人的泛化能力和靈活性。通過充分的訓(xùn)練和調(diào)整，LLMs可以應(yīng)用于各種場景和任務(wù)，展示了它們在機(jī)器人學(xué)和人工智能未來的巨大潛力和廣泛的適用性。

2) 復(fù)雜任務(wù)推理和決策：在復(fù)雜任務(wù)推理和決策領(lǐng)域，各種研究已經(jīng)利用LLMs的推理能力來增強(qiáng)特定下游任務(wù)的精細(xì)化。例如，SayCan利用LLMs中嵌入的廣泛知識進(jìn)行具體化任務(wù)以及強(qiáng)化學(xué)習(xí)[61]。這種方法涉及使用強(qiáng)化學(xué)習(xí)來揭示有關(guān)個人技能價值函數(shù)的見解。然后，它使用這些技能的文本標(biāo)簽作為潛在響應(yīng)，而LLM為任務(wù)完成提供總體語義指導(dǎo)。

另一個值得注意的發(fā)展是Instruct2Act框架[100]。它提供了一個用戶友好的、通用的機(jī)器人系統(tǒng)，該系統(tǒng)使用LLMs將多模態(tài)命令轉(zhuǎn)換為機(jī)器人領(lǐng)域中的一系列動作。該系統(tǒng)使用LLM生成的策略代碼，這些代碼對各種視覺基礎(chǔ)模型進(jìn)行API調(diào)用，從而獲得對任務(wù)集的視覺理解。

LLMs在自我規(guī)劃和PDDL（規(guī)劃領(lǐng)域定義語言）規(guī)劃中的使用也已經(jīng)被探索[101]。已經(jīng)證明，LLM輸出可以有效地指導(dǎo)啟發(fā)式搜索規(guī)劃器。

在失敗解釋和糾正任務(wù)領(lǐng)域，REFLECT框架利用機(jī)器人過去經(jīng)驗的層次化總結(jié)，這些經(jīng)驗是從多感官觀察生成的，來查詢LLM進(jìn)行失敗推理[102]。獲得的失敗解釋然后可以指導(dǎo)基于語言的規(guī)劃器糾正失敗并成功完成任務(wù)。

此外，預(yù)訓(xùn)練多模態(tài)模型的適應(yīng)也是一種常見策略。通過將視覺-語言模型的預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)集成，以訓(xùn)練視覺-語言-行動（VLA）模型[62]，研究人員發(fā)現(xiàn)，經(jīng)過互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的模型，參數(shù)高達(dá)550億，可以生成高效的機(jī)器人策略。這些模型表現(xiàn)出增強(qiáng)的泛化性能，并受益于網(wǎng)絡(luò)上可用的廣泛的視覺-語言預(yù)訓(xùn)練能力。

Socratic Models代表了另一種方法[67]，其中多個大型預(yù)訓(xùn)練模型之間的結(jié)構(gòu)化對話促進(jìn)了新多模態(tài)任務(wù)的聯(lián)合預(yù)測。這種方法在多個任務(wù)中實現(xiàn)了零次射擊性能。

在這些研究中，主要的重點是利用LLMs自動化推理和決策過程。這是通過利用LLMs提供或利用高級語義知識的能力來實現(xiàn)的，從而增強(qiáng)了任務(wù)執(zhí)行。有些方法將LLMs與其他模態(tài)集成，如視覺和行動，以加深任務(wù)理解和執(zhí)行。其他方法展示了在以前未見的任務(wù)上的有效性能，展示了零次或少次學(xué)習(xí)的能力。

每項研究采用了獨特的方法來整合LLMs。例如，SayCan結(jié)合了強(qiáng)化學(xué)習(xí)，而Instruct2Act則集中在直接映射多模態(tài)指令上。所采用的技術(shù)——從強(qiáng)化學(xué)習(xí)和啟發(fā)式搜索到多模態(tài)預(yù)訓(xùn)練——在不同的應(yīng)用領(lǐng)域，如機(jī)器人操控、規(guī)劃和自動決策制定中差異顯著。這些研究共同展示了LLMs在管理復(fù)雜任務(wù)推理和決策方面的巨大潛力。通過將LLMs與其他技術(shù)（如強(qiáng)化學(xué)習(xí)和多模態(tài)數(shù)據(jù)處理）結(jié)合起來，可以實現(xiàn)更深層次的語義理解和更有效的決策支持。這在機(jī)器人學(xué)和自動化領(lǐng)域尤為明顯，這種整合方法為新應(yīng)用鋪平了道路。然而，這些方法的有效性高度依賴于任務(wù)的具體性質(zhì)、所使用的數(shù)據(jù)和模型訓(xùn)練方法。因此，每種方法的選擇和應(yīng)用必須仔細(xì)針對特定上下文進(jìn)行定制。

3) 交互策略：LLMs的最新進(jìn)展在交互策略的發(fā)展中做出了重大貢獻(xiàn)，展示了在語言生成和類似人類推理方面的印象能力。Matcha[103]利用LLMs增強(qiáng)了交互式多模態(tài)感知，展示了LLMs在理解各種類型的輸入數(shù)據(jù)（如視覺和聽覺）方面的潛力。這種方法提出了一個增強(qiáng)的LLM多模態(tài)交互代理。這個代理不僅利用LLMs中固有的常識知識進(jìn)行更合理的交互式多模態(tài)感知，而且還展示了LLMs在進(jìn)行這種感知和解釋行為方面的實際應(yīng)用。

生成性代理，如所介紹的，是為了模擬人類行為而設(shè)計的交互計算代理[104]。這些代理的架構(gòu)被設(shè)計成存儲、合成和應(yīng)用相關(guān)記憶，從而使用大型語言模型生成合理的行為。將LLMs與這些計算代理集成，促進(jìn)了先進(jìn)架構(gòu)和交互模式的創(chuàng)建。這種結(jié)合使得更真實的人類行為模擬成為可能，擴(kuò)展了LLMs的潛在應(yīng)用。

基于LLMs的交互策略的重點是將LLMs與其他感知系統(tǒng)（如圖像識別和語音處理）融合。這種融合旨在模仿或增強(qiáng)人類能力，提高認(rèn)知和處理能力。這種進(jìn)步在智能助理、機(jī)器人和增強(qiáng)現(xiàn)實系統(tǒng)領(lǐng)域有著深遠(yuǎn)的影響。

在討論的工作中，特別強(qiáng)調(diào)了多模態(tài)感知，重點是提高系統(tǒng)理解和與其環(huán)境互動的能力。此外，人類行為的模擬旨在在人工智能中復(fù)制人類的思維和行動過程。這兩個方向的融合有望創(chuàng)造出更強(qiáng)大、更通用的智能系統(tǒng)。這些系統(tǒng)被設(shè)想能夠以更復(fù)雜和人性化的水平與人類互動，提出了重大的技術(shù)挑戰(zhàn)，并引發(fā)了關(guān)鍵的倫理和社會適應(yīng)問題。

IV. GPT-4V賦能的具體化任務(wù)規(guī)劃

基于前述對具體化任務(wù)和LLMs的調(diào)查，我們在本研究中開發(fā)了一個基于GPT-4V的具體化任務(wù)規(guī)劃框架，并進(jìn)行了評估實驗，如圖1所示。以下部分將提供有關(guān)數(shù)據(jù)集、提示設(shè)計和實驗結(jié)果的詳細(xì)信息。

A. 數(shù)據(jù)集

為了全面評估GPT-4V的多模態(tài)具體化任務(wù)規(guī)劃能力，我們選擇了來自9個數(shù)據(jù)集的40多個案例，重點關(guān)注操控和抓取。這些動作在遵循指令的機(jī)器人學(xué)中是基礎(chǔ)，涉及多種人類指令在不同場景中的應(yīng)用，如廚房取物和桌面重新排列。所選數(shù)據(jù)集通過谷歌開放XEmbodiment數(shù)據(jù)集[49]訪問。在每個案例中，視頻演示和自然語言指令作為輸入，評估GPT-4V作為機(jī)器人大腦的能力。這種設(shè)置使得基于自然語言指令的健壯規(guī)劃成為可能，用于生成機(jī)器人動作。

B. 提示設(shè)計

提示設(shè)計在查詢LLMs時起著至關(guān)重要的作用。一個精心制作的、信息豐富且結(jié)構(gòu)清晰的提示，能夠產(chǎn)生更精確和一致的輸出，與給定指令相符合。在這里，我們通過結(jié)合圖像更新了[114]中的文本提示，創(chuàng)建了一個多模態(tài)提示，引導(dǎo)GPT-4V生成機(jī)器人任務(wù)計劃。多模態(tài)提示由五部分組成：

? 系統(tǒng)角色說明：指定任務(wù)和GPT-4V在其響應(yīng)中采用的角色。

? 預(yù)定義動作池：一組預(yù)定義的機(jī)器人動作，GPT-4V可以從中選擇和排序，逐步完成任務(wù)。為解決詞匯限制，必要時提示GPT-4V創(chuàng)建新動作。

? 示例輸出：一個JSON格式的示例，用于說明預(yù)期輸出并確保一致性。

? 案例環(huán)境圖像和自然語言指令：包括從視頻演示中提取的第一幀作為環(huán)境圖像。

? 評估：GPT-4V負(fù)責(zé)根據(jù)與視頻演示的一致性對生成的任務(wù)計劃進(jìn)行評估，并提供解釋。

前三部分作為每個查詢的系統(tǒng)消息輸入，而最后兩部分作為用戶消息根據(jù)測試數(shù)據(jù)變化。完整的提示如圖附錄4所示。

V. 實驗結(jié)果

在我們的實驗框架中，大型語言模型（LLMs）首先生成針對每個機(jī)器人任務(wù)目標(biāo)的逐步指令。隨后，在這個生成的指令的指導(dǎo)下，模型從預(yù)定義的動作池和動作對象中選擇最合適的動作，形成每個步驟的動作計劃。在獲得LLMs生成的指令后，我們通過將它們與相應(yīng)視頻數(shù)據(jù)集中的Ground Truth指令進(jìn)行比較，對生成的結(jié)果進(jìn)行了定量評估。我們在9個公開可用的機(jī)器人數(shù)據(jù)集上進(jìn)行了嚴(yán)格的測試，得出了深刻且富有洞察力的發(fā)現(xiàn)。

例如，在RT-1 Robot Action [105]數(shù)據(jù)集中，如圖2頂部面板所示，多模態(tài)LLMs準(zhǔn)確識別了目標(biāo)對象，并熟練地分解和執(zhí)行了任務(wù)。如圖2左上角所示，基于給定的環(huán)境和指令，LLMs生成的指令如下：1) 將手移動到底層抽屜中目標(biāo)的位置；2) 抓住目標(biāo)；3) 將手帶著目標(biāo)移動到柜臺上；4) 在柜臺上釋放目標(biāo)。在提供詳細(xì)的逐步文本指令后，LLMs從動作池中選擇并列出一組符合當(dāng)前策略的指令和對象。例如，“移動手(底層抽屜)”是第一項文本指令的功能表達(dá)，便于后續(xù)直接使用這個動作計劃與控制機(jī)器人臂的接口代碼。此外，通過LLMs生成的“環(huán)境狀態(tài)”，可以明顯看出模型能夠有效理解一系列操作后環(huán)境中關(guān)鍵對象空間關(guān)系的變化。圖2中的“匹配得分”也展示了模型的精確度。

表 I數(shù)據(jù)集描述以及GPT-4V自評的平均匹配得分，比較它生成的任務(wù)計劃與九個測試數(shù)據(jù)集中的真實演示。

大型語言模型（LLM）在機(jī)器人領(lǐng)域的機(jī)遇、挑戰(zhàn)與展望 -AI.x社區(qū)

大型語言模型（LLM）在機(jī)器人領(lǐng)域的機(jī)遇、挑戰(zhàn)與展望 -AI.x社區(qū)

圖 2. 不同數(shù)據(jù)集生成的任務(wù)計劃：RT-1 機(jī)器人動作（頂部面板）、QT-Opt（左中）、伯克利橋（右中）、弗萊堡Franka游戲（底部左）和南加州大學(xué)Jaco游戲（底部右）。

在上述測試案例中，場景涉及的對象較少，任務(wù)指令相對簡潔明了。因此，我們進(jìn)一步進(jìn)行了涉及語義模糊任務(wù)描述和復(fù)雜場景的測試。圖2左中代表了一個來自QT-Opt數(shù)據(jù)集[106]的測試案例，其中指令簡單地是“拿起任何東西”，沒有指定場景中的任何實體。從LLMs生成的結(jié)果來看，它產(chǎn)生了一系列的通用指令，適用于抓取任何物體，并與地面真相保持高度一致性。對于復(fù)雜場景，如圖2右中所示，我們測試了一個來自伯克利橋數(shù)據(jù)集[107]的示例案例。輸入指令“將銀鍋從紅色罐頭前面的移動到桌子前沿藍(lán)色毛巾旁邊”涉及多個對象及其在場景中的空間關(guān)系。在這里，LLMs不僅理解了任務(wù)的目的，還熟練地執(zhí)行了任務(wù)細(xì)節(jié)，展示了它們先進(jìn)的圖像理解和邏輯推理能力。

圖2和圖3展示了LLMs在多樣化和復(fù)雜場景中的有效性的進(jìn)一步證據(jù)（包括數(shù)據(jù)集[108]–[113]）。在這些實驗中，LLMs表現(xiàn)出色，即使在設(shè)置復(fù)雜或有特殊要求的任務(wù)中也是如此。表I展示了GPT-4V在九個不同數(shù)據(jù)集中自我評估的平均匹配得分，表明生成的任務(wù)計劃與地面真相演示之間具有一致的高水平一致性。這鞏固了我們方法的有效性，并強(qiáng)調(diào)了多模態(tài)LLMs在機(jī)器人任務(wù)執(zhí)行中的強(qiáng)大的圖像理解和邏輯推理能力。其他測試結(jié)果可以在附錄中找到。

大型語言模型（LLM）在機(jī)器人領(lǐng)域的機(jī)遇、挑戰(zhàn)與展望 -AI.x社區(qū)

圖 3. 不同數(shù)據(jù)集生成的任務(wù)計劃：伯克利Autolab UR5（左上）、紐約大學(xué)Vinn（右上）、BC-Z（左下）和TOTO基準(zhǔn)測試（右下）。

VI. 局限性、討論和未來工作

我們概述了將大型語言模型（LLMs）整合到各種任務(wù)和環(huán)境中的機(jī)器人系統(tǒng)，并評估了GPT-4V在多模態(tài)任務(wù)規(guī)劃中的表現(xiàn)。盡管GPT-4V作為任務(wù)規(guī)劃的機(jī)器人大腦展示了令人印象深刻的多模態(tài)推理和理解能力，但它面臨幾個局限性：1）生成的計劃是同質(zhì)化的，缺乏詳細(xì)的具體化和特定、穩(wěn)健的設(shè)計來管理復(fù)雜環(huán)境和任務(wù)。2）當(dāng)前的多模態(tài)LLMs，如GPT-4V和Google Gemini [28]，需要精心制作的、冗長的提示來產(chǎn)生可靠的輸出，這需要領(lǐng)域?qū)I(yè)知識和廣泛的技巧。3）機(jī)器人受到預(yù)定義動作的限制，限制了其執(zhí)行自由和穩(wěn)健性。4）GPT-4V API的閉源性質(zhì)及相關(guān)的時間延遲可能會阻礙嵌入式系統(tǒng)開發(fā)和實時商業(yè)應(yīng)用。未來的研究應(yīng)該旨在解決這些挑戰(zhàn)，以開發(fā)更穩(wěn)健的AGI機(jī)器人系統(tǒng)。

另一方面，多模態(tài)GPT-4V在機(jī)器人學(xué)中展示的先進(jìn)推理和視覺語言理解能力突顯了以LLM為中心的AGI機(jī)器人系統(tǒng)的潛力。展望未來，以多模態(tài)LLM為中心的AGI機(jī)器人在各個領(lǐng)域都有應(yīng)用潛力。在精準(zhǔn)農(nóng)業(yè)領(lǐng)域，這些機(jī)器人可以取代人類在各種勞動密集型任務(wù)中的勞動力，尤其是在收獲方面。這包括像水果采摘和作物表型分析[115]，[116]這樣的任務(wù)，這些任務(wù)需要在農(nóng)場復(fù)雜的環(huán)境下進(jìn)行高級推理和精確行動[117]。在醫(yī)療保健領(lǐng)域，對安全和精確性的關(guān)鍵需求對多模態(tài)LLM的感知和推理能力提出了更高的要求。這一點在機(jī)器人輔助篩查和手術(shù)中尤為重要，因為需要根據(jù)個人需求定制任務(wù)[118]。此外，利用對比學(xué)習(xí)模型如CLIP[119]將大腦信號與自然語言對齊，為開發(fā)以LLM為中心的AGI機(jī)器人系統(tǒng)中的腦-機(jī)接口（BCIs）[120]提供了一條路徑。這些系統(tǒng)能夠讀取和解釋人類大腦信號，如EEG和fMRI，用于復(fù)雜任務(wù)完成中的自我規(guī)劃和控制[80]，[121]。這一進(jìn)步可以顯著縮小人-環(huán)境互動的差距，減輕身體和認(rèn)知勞動。

VII. 結(jié)論

在本文中，我們提供了將大型語言模型（LLMs）整合到各種機(jī)器人系統(tǒng)和任務(wù)的概述。我們的分析顯示，LLMs展示了令人印象深刻的推理、語言理解和多模態(tài)處理能力，這些能力可以顯著增強(qiáng)機(jī)器人對指令、環(huán)境和所需行動的理解。我們在9個數(shù)據(jù)集的30多個案例中評估了最近發(fā)布的GPT-4V模型進(jìn)行具體化任務(wù)規(guī)劃。結(jié)果表明，GPT-4V能夠有效利用自然語言指令和視覺感知來生成詳細(xì)的行動計劃，以完成操控任務(wù)。這表明使用多模態(tài)LLMs作為具體化智能的機(jī)器人大腦是可行的。

然而，關(guān)于模型透明度、穩(wěn)健性、安全性和現(xiàn)實世界適用性的一些挑戰(zhàn)仍然需要解決，因為我們正在朝著更實用和有能力的基于LLM的AI系統(tǒng)邁進(jìn)。具體來說，大型神經(jīng)模型的黑盒性質(zhì)使得很難完全理解它們的內(nèi)部推理過程和失敗模式。此外，模擬與現(xiàn)實世界之間的差距在不降低性能的情況下轉(zhuǎn)移策略方面持續(xù)存在困難。仍然需要通過標(biāo)準(zhǔn)化測試、對抗性訓(xùn)練、策略適應(yīng)方法和更安全的模型架構(gòu)等技術(shù)來解決這些問題。依賴LLMs的自主智能系統(tǒng)的問責(zé)和監(jiān)督協(xié)議也需要深思熟慮。以謹(jǐn)慎、道德和社會負(fù)責(zé)的方式克服這些多方面的挑戰(zhàn)仍然是推進(jìn)這一領(lǐng)域進(jìn)步的必要條件。

隨著語言模型繼續(xù)從多模態(tài)數(shù)據(jù)中積累廣泛的基礎(chǔ)知識，我們預(yù)計在將它們與機(jī)器人學(xué)和基于模擬的學(xué)習(xí)整合方面將迅速創(chuàng)新。這可以在部署前使用模擬到現(xiàn)實技術(shù)在模擬中直觀地開發(fā)和驗證智能機(jī)器人。這樣的發(fā)展可以深刻增強(qiáng)和轉(zhuǎn)變我們構(gòu)建、測試和部署智能機(jī)器人系統(tǒng)的方式。

總體而言，自然語言處理和機(jī)器人學(xué)的協(xié)同整合是一個充滿機(jī)遇和挑戰(zhàn)的有前景的領(lǐng)域，值得進(jìn)行廣泛的未來跨學(xué)科研究。

Jiaqi Wang?, Zihao Wu?, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu,Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao,Bao Ge, Xiang Li, Tianming Liu?, and Shu Zhang?

西北工大、美國佐治亞大學(xué)等，2024.01，JOURNAL OF LATEX CLASS FILES

責(zé)任編輯：龐桂玉來源： AI.x社區(qū)

大模型機(jī)器人

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="lqm03"><track id="lqm03"></track></s>