自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大型語言模型與智能機器人集成的調(diào)查研究原創(chuàng)

發(fā)布于 2024-7-1 12:20

瀏覽

0收藏

摘要:近年來，大型語言模型（LLMs）的集成已經(jīng)徹底改變了機器人學領域，使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLMs對機器人學多方面的影響，解決了利用這些模型在各個領域的關鍵挑戰(zhàn)和機遇。通過將LLM應用歸類并分析在機器人學的核心要素——通信、感知、規(guī)劃和控制中，我們旨在為尋求將LLM集成到他們的機器人系統(tǒng)中的研究者提供可行的見解。我們的研究重點放在GPT-3.5之后開發(fā)的LLMs上，主要在基于文本的模態(tài)中，同時也考慮了用于感知和控制的多模態(tài)方法。我們?yōu)樘崾竟こ烫峁┤娴闹笇Х结樅褪纠?，以促進初學者接觸基于LLM的機器人解決方案。通過教程級別的示例和結(jié)構化的提示構建，我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本調(diào)查作為研究人員導航LLM驅(qū)動的機器人學不斷發(fā)展的領域的路線圖，提供了一個全面的概述和實用指南，以利用語言模型在機器人學開發(fā)中的力量。

1 引言

在過去的十年中，我們在應用語言模型（LMs）的機器人學領域見證了顯著的進步。這一進展不僅包括類似人類的交流，還包括機器人的理解和推理能力，從而顯著提高了它們在各種任務中的有效性，從家務到工業(yè)操作[52, 105]。在工作的早期階段，成功源于統(tǒng)計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令[110, 121]，理解上下文[2, 4]，代表世界[50]，以及與人類互動[134]，盡管理解的深度有限。然后，采用具有自注意力機制的Transformer架構[140]，特別是像BERT這樣的預訓練LMs[26]，提高了捕捉復雜模式的能力，同時為特定任務微調(diào)模型。然而，這些模型的性能常常取決于有限的數(shù)據(jù)集，限制了它們對更深層次上下文理解的把握和在多樣化場景中的泛化能力。

隨著大型語言模型（LLMs）的進步，基于語言的機器人學在各個領域引入了創(chuàng)新性的變化，如信息檢索、推理任務、適應環(huán)境、持續(xù)學習和改進等[61, 64]。這些LLMs的特點是它們龐大的參數(shù)規(guī)模和在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集上的訓練，為下游任務提供了零樣本和少樣本學習的能力，而無需額外的參數(shù)更新。

這些顯著的進步來自于文獻[147]中定義的“在小模型中不存在但在大模型中出現(xiàn)的”新興能力。這些能力顯著提高了機器人通過利用廣泛的常識知識[8]來理解、推斷和響應開放式指令的性能。此外，稱為提示工程的提示創(chuàng)建技術，使LLMs能夠通過自由形式的語言描述或交互式對話納入更豐富的上下文信息，促進了泛化推理[148]。引入的上下文學習能力[8]使LLMs能夠基于提示中提供的指令或演示生成預期格式的輸出，如JSON、YAML或PDDL，甚至代碼[42, 87]。最近的LLMs，如GPT-4，通過與外部機器人工具（如規(guī)劃器或翻譯器）[90]集成，進一步擴展了能力。

盡管LLMs具有多樣化的能力，它們的使用面臨著幾個挑戰(zhàn)[69]。首先，LLMs經(jīng)常生成不準確或意外的響應。由于機器人執(zhí)行的安全性是最重要的部署因素，基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次，像上下文學習這樣的新興能力尚未可預測和一致[19]。即使是輸入文本的微小變化也可能導致響應的不可預測變化。第三，精心設計的提示使機器人能夠有效地利用LLMs的能力，但缺乏支持機器人系統(tǒng)關鍵組件的系統(tǒng)指導方針，阻礙了無縫集成[35, 54, 164]。因此，我們需要對機器人學中LLM的參與進行逐個組件的調(diào)查，以理解限制和安全性。

目前，各種調(diào)查已經(jīng)開始探索大型語言模型（LLMs）和機器人學的交叉點[141, 164]，主要關注基于LLM的機器人學的應用或交互維度。然而，在提供全面審查和將LLMs集成到機器人系統(tǒng)的關鍵要素——包括通信、感知、規(guī)劃和控制——的可行見解方面，仍然存在差距。此外，研究人員探索了廣泛的預訓練大容量模型領域，這些模型被稱為基礎模型，尋求在多模態(tài)基于Transformer的模型中的泛化能力[35, 54]。然而，這個廣泛的領域涵蓋了機器人學的廣泛范圍和多樣化的方法論，使得新興研究人員錯過了深入的審查和指導方針。

在本文中，如圖1所示，我們的目標是分類并分析LLMs如何增強機器人系統(tǒng)的核心要素，以及我們?nèi)绾沃笇屡d研究人員在每個領域內(nèi)集成LLMs，包括通信、感知、規(guī)劃和控制，以發(fā)展智能機器人。我們根據(jù)三個關鍵問題構建本文：

? Q1: LLMs在每個機器人學領域如何被利用？

? Q2: 研究人員如何克服LLMs集成的局限性？

? Q3: 產(chǎn)生每個領域中最小功能所需的基本提示結(jié)構是什么？

為了回答這些問題，我們專注于GPT-3.5引入后開發(fā)的LLMs[106]。我們主要考慮基于文本的模態(tài)，但也回顧了感知和控制領域的多模態(tài)性。然而，為了進行深入審查，我們將調(diào)查限制在LLMs上，而不是基礎模型。

此外，我們?yōu)樘崾竟こ烫峁┝巳娴闹笇Х结樅褪纠荚谑钩鯇W者能夠接觸基于LLM的機器人解決方案。我們的教程級示例說明了如何通過引入四種類型的示例提示來增強或替代機器人組件的基本功能：對話提示用于交互性基礎，指令提示用于場景圖生成，規(guī)劃提示用于少樣本規(guī)劃，以及代碼生成提示用于獎勵生成。通過提供提示構建的規(guī)則和技巧，我們概述了生成設計良好的提示以產(chǎn)生所需格式的輸出的過程。這些原則確保了在機器人應用中有效的LLM引導增強，而無需參數(shù)調(diào)整。

本文的其余部分組織如下。第2節(jié)概述了機器人學中LMs和LLMs的歷史背景。第3節(jié)回顧了LLMs如何通過語言理解和生成使機器人能夠進行通信。第4節(jié)調(diào)查了LLMs如何感知各種傳感器模態(tài)并推進感知行為。第5節(jié)和第6節(jié)分別組織了基于LLM的規(guī)劃和控制研究。在第7節(jié)，我們?yōu)樘崾竟こ烫峁┝巳娴闹笇Х结?，作為LLM集成到機器人學的起點。最后，第8節(jié)總結(jié)了這項調(diào)查。

2 初步

我們簡要回顧語言模型，分為兩個部分：LLM出現(xiàn)前后。與以往文獻[164]中的概述不同，我們將LM（語言模型）的時期——即LLM（大型語言模型）出現(xiàn)之前，限定在神經(jīng)語言模型開始被使用的時間段，這一時期從循環(huán)神經(jīng)網(wǎng)絡(RNNs)[33]的引入開始，直至諸如GPT-2[115]這樣采用Transformer架構的模型問世。同時，我們也對LLMs進行了簡要說明，并涉及到相關的術語和技術。

2.1 機器人學中的語言模型

基于LM的機器人學研究主要探索了神經(jīng)語言模型，用于序列數(shù)據(jù)處理。在早期階段，基于RNN的LM[23, 46]利用RNN的序列到序列建模能力，將語言命令轉(zhuǎn)換為一系列動作[6, 100]或形式語言[40]。使用RNN作為語言編碼器，LMs還將文本輸入轉(zhuǎn)換為語言特征，然后可以將其映射到視覺特征以進行指代表達對象識別[121, 125]。然而，RNN中的長期依賴問題限制了它們的應用范圍。隨后，Transformer架構[140]的引入克服了這些限制，使其能夠應用于需要長期理解的任務，例如視覺-語言導航[14, 16]。先前的方法嚴重依賴訓練數(shù)據(jù)集，降低了泛化能力。然而，基于Transformer的模型的可擴展性和自監(jiān)督學習技術，如掩蔽語言建模，導致了互聯(lián)網(wǎng)規(guī)模預訓練模型的發(fā)展，如BERT[26]或GPT-2[115]。這些預訓練模型展示了通用的語言理解能力。這一進步允許對這些模型進行特定任務的微調(diào)[74, 75, 124]。此外，使用預訓練的多模態(tài)語言模型，如CLIP[116]，有助于利用跨模態(tài)對齊的特征，如視覺和語言，豐富了在機器人研究中的應用[76, 126]。

2.2 機器人學中的大型語言模型

最近在LLMs方面的進展，如GPT-3[8]、GPT-4[107]、LLaMA[136]、Llama 2[137]和Gemini[39]，在理解、上下文感知、泛化能力和知識豐富性方面取得了顯著進步，超越了早期的語言模型。這些進步來自于它們在數(shù)十億規(guī)模參數(shù)的龐大數(shù)據(jù)集上的訓練，使它們能夠捕捉到復雜的數(shù)據(jù)模式。此外，還開發(fā)了先進的學習策略，如從人類反饋中進行強化學習，以使LLMs的行為與人類價值觀或偏好保持一致[108]。

另一方面，提示工程，利用上下文學習（ICL）[8]，代表了另一個重大進展，允許LLMs在沒有額外訓練的情況下直接從提示中學習。提示工程的有效性取決于提示的設計和質(zhì)量，包括詳細的任務描述、少樣本示例或更多模型可消化的格式（例如，###作為停止符號[167]）。此外，思維鏈（CoT）提示方法[148]出現(xiàn)了，將中間推理步驟納入提示中，導致復雜推理任務的顯著增強。正在進行的研究努力進一步提高LLMs的推理能力，如思維樹[160]或思維圖[5]的發(fā)展。

另一方面，各種基于LLM的機器人學研究已經(jīng)嘗試直接訓練LLMs[7, 170]。然而，完整的微調(diào)，即在特定任務數(shù)據(jù)上訓練整個模型，不僅計算成本高昂，而且由于它們的大規(guī)模參數(shù)，獲得足夠的數(shù)據(jù)也很昂貴。為了解決這些問題，研究人員開發(fā)了參數(shù)高效的微調(diào)方法，如適配器——插入到LLM的每層中的小型、可訓練網(wǎng)絡，用于特定任務的調(diào)整[49]，和LoRA[51]，它對每層中更新的矩陣施加低秩約束。LLMs在這些方面的發(fā)展顯著影響著機器人學，為在機器人系統(tǒng)內(nèi)更深入地探索LLM應用奠定了基礎。

3 通信

我們研究了LLMs的使用，以促進機器人學中類似人類的通信，使機器人能夠有效地與人類和其他機器人代理進行交互[98]。我們將通信能力分為兩個主要領域：（1）語言理解；（2）語言生成，如圖1所示，該圖顯示了詳細的分類以及相關研究，用綠色單元格引用。

大型語言模型與智能機器人集成的調(diào)查研究 -AI.x社區(qū)

圖1：本調(diào)研中綜合了LLMs的智能機器人學研究概覽結(jié)構。最右側(cè)的單元格展示了每個類別中代表性的名稱（例如，方法、模型或作者名）。

3.1 語言理解

我們回顧了語言理解能力，探討了LLMs如何通過解釋和基礎化處理語言輸入的變異性和歧義性。

解釋涉及將自然語言輸入轉(zhuǎn)換為機器人可操作的語義表示，范圍從形式語言，如線性時序邏輯（LTL）[94, 159]和規(guī)劃領域定義語言（PDDL）[18, 42, 90, 154]，到編程語言，如Python[56, 76]。為了幫助解釋自由形式的句子，研究人員利用LLMs的上下文學習（ICL）能力，在提示中提供指導和示例[56, 76, 90, 122]。盡管做出了努力，LLMs在將輸入轉(zhuǎn)換為形式語言時常常無法滿足語法或捕獲精確的語義。解決方案包括簡化詞匯或使用領域不可知數(shù)據(jù)微調(diào)LLMs[94, 159]。翻譯系統(tǒng)，如Lang2LTL[92]，展示了LLMs如何將導航命令中的地標引用表達式翻譯成LTL符號。進一步的改進通常涉及使用人類反饋和語法檢查器來糾正生成的形式語言翻譯[18, 42]。例如，Guan等人[42]提出了一個循環(huán)中的人類翻譯框架，人類領域?qū)＜曳磸蛯彶镻DDL描述并用自然語言提供反饋。

（注釋：假設你有一個機器人助手，它能夠理解人類的語言并執(zhí)行任務。但是，為了讓機器人能夠理解并執(zhí)行復雜的任務，你需要將人類說的話轉(zhuǎn)換成機器人能夠理解的“語言”。這種“語言”可以是一些特別的形式語言，比如線性時序邏輯（LTL）或者規(guī)劃領域定義語言（PDDL），也可以是編程語言，比如Python。

為了讓機器人助手更好地理解我們說的話，研究人員利用了一種叫做大型語言模型（LLMs）的技術。這些模型能夠根據(jù)上下文來學習并理解語言，就像我們學習新詞匯一樣。研究人員會在提示中加入一些指導和例子，幫助這些模型更好地理解我們的話。

但是，即使有了這些幫助，機器人助手在把我們的話轉(zhuǎn)換成它們能理解的形式語言時，有時候還是會出錯，比如語法不對或者意思理解得不夠準確。為了解決這個問題，研究人員想出了一些辦法，比如簡化我們使用的詞匯，或者用一些特殊的數(shù)據(jù)來調(diào)整模型，讓它更好地適應特定的領域。

還有一些專門的系統(tǒng)，比如Lang2LTL，它們能夠把我們說的話中的一些特定表達轉(zhuǎn)換成LTL符號，這樣機器人就能更好地理解我們的導航命令。

為了讓機器人助手更準確地理解我們的話，研究人員還會用到人類的反饋。比如，他們會請一些領域內(nèi)的專家來檢查機器人助手生成的代碼，然后用自然語言提供反饋，幫助改進模型。

舉個例子，Guan等人提出了一個系統(tǒng)，在這個系統(tǒng)中，人類專家會反復檢查PDDL的描述，并用自然語言提供反饋，這樣機器人助手就能不斷學習和改進，更好地理解我們的話。）

基礎化是將語言表達映射到機器人可識別的參照物，如行為或?qū)ο蟆Ｔ缙谘芯客ㄟ^最大化LLM輸出的詞嵌入與現(xiàn)實世界參照物之間的余弦相似度來找到映射[58, 76, 94, 117]。隨后的研究結(jié)合了LLMs的常識知識，為物體的語言標簽基礎化提供上下文支持[41, 118]。例如，Guan等人[41]展示了LLMs如何根據(jù)我們知道的大小和重量假設，將“用作紙鎮(zhèn)的東西”基礎化到一個陶瓷花瓶上。然而，基礎化的準確性取決于世界模型的細節(jié)和準確性。為了解決這個問題，研究人員通過多模態(tài)能力增強LLMs，直接將語言輸入與感官感知相關聯(lián)[31, 47, 114, 158]，或使LLMs能夠與環(huán)境[157, 168]或人類[61, 109, 120]進行交互以更好地收集上下文。例如，3D視覺基礎化方法，LLM-Grounder[157]，使用視覺工具，如LERF[72]和OpenScene[111]，積極收集環(huán)境信息。

（注釋：基礎化就是教機器人理解我們說的話，并將這些話與它能夠識別的事物或動作聯(lián)系起來。比如，當我們說“拿起杯子”，機器人需要知道“杯子”是什么，以及“拿起”這個動作意味著什么。

在早期研究中，研究人員嘗試通過比較機器人內(nèi)部的詞匯（詞嵌入）與真實世界中的事物之間的相似度來教機器人理解語言。他們用一個叫做“余弦相似度”的方法來衡量這種相似性，就像我們用尺子量東西一樣，看看機器人的理解和現(xiàn)實世界有多接近。

后來，研究人員發(fā)現(xiàn)，除了比較相似度，還可以利用機器人的**常識知識**來幫助理解語言。比如，我們知道紙鎮(zhèn)通常不會太重，所以當我們說“用作紙鎮(zhèn)的東西”，機器人可以推斷出這可能是一個輕的、可以用來壓紙的物品，比如一個陶瓷花瓶。

但是，機器人理解語言的準確性還取決于它對世界的了解有多深入。為了提高這種準確性，研究人員開始給機器人增加更多的能力，比如讓它能夠處理多種類型的信息（多模態(tài)能力），或者讓它能夠直接通過感官（比如視覺、聽覺）來理解我們的話。

還有一些方法讓機器人能夠更好地與環(huán)境互動，或者與人類交流，從而收集更多的上下文信息，幫助它更好地理解我們的語言。

例如，有一個叫做LLM-Grounder的方法，它使用視覺工具來幫助機器人理解我們的話。這些工具可以像照相機一樣捕捉周圍環(huán)境的信息，幫助機器人更準確地理解我們提到的物體。）

3.2 語言生成

語言生成指的是產(chǎn)生反映交流意圖的類似人類書面或口頭語言[38]。我們根據(jù)它們的交流意圖，將語言生成分類為任務依賴型和任務非依賴型，這與傳統(tǒng)的自然語言生成（NLG）類別（文本到文本和數(shù)據(jù)到文本）[30]不同，因為我們關注的是研究的交流目的。

任務依賴型語言生成專注于產(chǎn)生具有特定功能目標的語言，無論是陳述性的還是命令性的。為了生成開放式的陳述性語句，研究人員經(jīng)常向LLMs提供上下文信息[20, 62, 97]。然而，LLMs常常產(chǎn)生重復和事實不一致的輸出，受限于依賴先前的對話和常識知識[20, 84]。因此，研究人員通過輔助知識源增強LLMs，以擴大可用信息的范圍[3, 21, 156]。例如，Axelsson和Skantze[3]通過知識圖譜增強了一個機器人博物館導游。此外，研究人員指導LLMs通過生成請求人類協(xié)助的命令性指令來澄清歧義[25, 61]。為了改進推理步驟，引入了概率模型來評估情況的不確定性[109, 120]。例如，KnowNo[120]和CLARA[109]交互系統(tǒng)分別評估置信度和語義差異，僅當這些指標表明顯著的不確定性時才觸發(fā)生成。

（注釋：任務依賴型語言生成就是讓機器人或者計算機系統(tǒng)能夠根據(jù)特定的目標來說出有用的話。這可以是簡單的陳述，比如說出一些事實，也可以是發(fā)出命令，告訴別人要做什么。

研究人員為了讓機器人能夠生成開放式的陳述性語句，比如描述一個場景或者講述一個故事，通常會給機器人一些背景信息，幫助它更好地理解和生成語言。

但是，機器人在生成語言的時候可能會遇到一些問題，比如它會重復說同樣的話，或者說出一些與事實不符的內(nèi)容。這主要是因為機器人生成語言的時候，往往依賴于它之前聽到或者“記住”的對話，以及它所具備的一些常識。

為了解決這個問題，研究人員嘗試通過給機器人提供額外的知識來源來幫助它。比如，他們可能會用到知識圖譜，這是一種能夠存儲大量信息的工具，可以幫助機器人更好地理解上下文和生成語言。

研究人員還會教機器人在遇到不確定的情況時，向人類求助。比如，如果機器人不確定某個信息是否正確，它可以請求人類來幫助確認。

此外，為了提高機器人的推理能力，研究人員還會使用一些概率模型來評估情況的不確定性。這就像是給機器人一個“信心計”，幫助它判斷自己生成的語言有多可靠。

例如，有兩個交互系統(tǒng)叫做KnowNo和CLARA，它們可以通過評估置信度和語義差異來判斷機器人生成的語言是否足夠可靠。如果這些指標顯示不確定性很大，那么機器人就會選擇不生成語言，或者再次請求人類的幫助。）

任務非依賴型語言生成涉及制作具有社交情感目標的表達[11]，通過在提示中嵌入非語言線索（例如，非語言聲音、手勢和面部表情）來增強參與度和同理心[73, 81]。例如，Khoo等人[73]開發(fā)了一個會話機器人，使用轉(zhuǎn)錄的音頻和視覺線索生成同理心響應。然而，與LLMs的對話仍然表面化，因為知識和對話歷史有限[65]。為了克服這一點，研究人員將記憶模塊集成到LLMs中，使它們能夠以結(jié)構化格式從對話中提取和存儲信息[22, 63, 65, 162]。例如，Irfan等人[65]設計的一個伴侶機器人，根據(jù)與用戶的互動不斷更新機器人的記憶，以生成個性化的對話。

（注釋：任務非依賴型語言生成是一種讓機器人或計算機系統(tǒng)生成語言的技術，這種語言不是用來完成特定任務的，而是用來進行社交和表達情感的。就像我們和朋友聊天時那樣，不是為了完成某項工作，而是為了增進彼此的感情和理解。

為了讓機器人在對話中更加自然和有人情味，研究人員嘗試在機器人的提示中加入一些非語言的線索，比如聲音的語調(diào)變化、手勢或者面部表情。這樣做可以讓機器人的交流更加生動，更有同理心，就像人類在交流時那樣。

舉個例子，Khoo等人開發(fā)了一個會話機器人，它可以通過聽人說話的聲音和看人的面部表情來做出更有同理心的回應。

但是，機器人和人的對話往往還是顯得比較膚淺，因為機器人的知識有限，而且它記得的對話內(nèi)容也不多。為了解決這個問題，研究人員開始在機器人的語言模型中加入記憶模塊。這些記憶模塊可以幫助機器人從對話中提取信息，并且像記筆記一樣把它們存起來。

舉個例子，Irfan等人設計了一個伴侶機器人，它會根據(jù)和用戶的互動不斷地更新自己的記憶，然后用這些記憶來生成更加個性化的對話，讓對話更有深度，更貼近用戶的真實感受。

總的來說，這段話講的是如何讓機器人在社交和情感表達方面做得更好，通過加入非語言線索和記憶模塊，讓機器人的對話更加自然和有人情味。）

4 感知

感知在使機器人能夠做出決策、規(guī)劃行動和導航真實世界中起著至關重要的作用[113]。在基于LLM的機器人感知領域，研究主要集中在兩個方面：感知模態(tài)和行為。在本節(jié)中，我們介紹了基于LLM的機器人如何將語言與感知模態(tài)集成，以及代理如何通過被動和主動感知行為獲取環(huán)境信息。圖1展示了詳細的分類以及相關研究，用粉色單元格引用。

4.1 感知模態(tài)

研究人員通過集成多模態(tài)語言模型顯著提高了機器人的理解和泛化能力。我們將主要的感知模態(tài)分類為視覺、聽覺和觸覺模態(tài)，回顧了利用多模態(tài)LLMs進行感知任務的最新研究。

視覺感知任務涉及對圖像或點云等視覺信息的解釋。預訓練的視覺-語言模型（VLMs），如CLIP[116]和InstructBLIP[83]，允許基于LLM的機器人直接利用圖像源。例如，最近的基于LLM的操作系統(tǒng)，如TidyBot[151]和RoCo[97]，使用從CLIP和OWL-ViT[101]生成的圖像推斷對象標簽或場景描述。此外，研究人員通過在下游任務上應用VLMs，如圖像字幕[41]和視覺問答（VQA）[36, 79, 104]，擴展了推理能力。這些下游任務使LLMs能夠隨后請求VLMs推斷對象屬性（例如，材料、易碎性）[36]或為抓取接地對象部分[104]。然而，圖像通常難以獲取空間幾何信息。

（注釋：研究人員正在讓機器人變得更聰明，他們用“多模態(tài)語言模型”的技術來幫助機器人更好地理解和處理不同類型的信息。這些信息包括我們能看到的（視覺信息）、能聽到的（聽覺信息）和能觸摸到的（觸覺信息）。

視覺感知任務就是讓機器人通過看東西來理解周圍世界。比如，機器人可以通過看一張圖片來知道圖片里有什么，或者發(fā)生了什么。

研究人員用了一些特別訓練的模型，比如CLIP和InstructBLIP，這些模型就像是機器人的“眼睛”，幫助它們理解圖像。有了這些模型，機器人可以直接使用圖像信息來做任務。

比如TidyBot和RoCo，它們可以用CLIP和另一個叫做OWL-ViT的模型來理解圖像，然后告訴機器人圖片里有哪些東西，或者描述圖片里的場景。

研究人員還用這些視覺模型來做更復雜的任務，比如給圖片配上文字（圖像字幕），或者回答關于圖片的問題（視覺問答，VQA）。這些任務讓機器人能夠更深入地理解圖片，比如猜測一個物體是什么材料做的，或者判斷它是否容易碎。

但是，這些模型也有局限性，比如它們很難從圖片中得到物體的準確形狀和空間位置信息，這就是所謂的“空間幾何信息”。）

另外，Huang等人[56]將來自VLM（即，LSeg[82]）的視覺-語言特征與三維（3D）點云關聯(lián)起來，用于3D地圖重建。進一步地，Jatavallabhula等人[66]通過引入來自VLMs的細粒度和像素對齊特征，改進了與RGB-D圖像的關聯(lián)機制。然而，與3D信息的關聯(lián)往往是內(nèi)存密集型的，限制了大型場景的可擴展性[56, 66, 157]。作為替代解決方案，研究人員經(jīng)常將幾何和語義特征與3D場景圖關聯(lián)起來[41]。

聽覺感知涉及聲音的解釋?；贚LM的研究經(jīng)常利用預訓練的音頻-語言模型（ALMs），如AudioCLIP[43]和Wav2CLIP[150]，將它們與視覺數(shù)據(jù)集成以增強環(huán)境或上下文理解[55, 95, 123, 163]。例如，AVLMaps[55]，一個具有交叉模態(tài)信息的3D空間地圖構造器，將音頻、視覺和語言信號集成到3D地圖中，使代理能夠使用多模態(tài)目標進行導航，例如“在冰箱的圖像和打破玻璃的聲音之間移動”。此外，REFLECT[95]，一個用于總結(jié)機器人故障的框架，將多感官觀察結(jié)果（如RGB-D圖像、音頻剪輯和機器人狀態(tài)）轉(zhuǎn)換為文本描述，以增強基于LLM的故障推理。

觸覺感知涉及接觸信息的解釋。研究人員引入了多模態(tài)感知模塊，這些模塊交互式地結(jié)合了從預定義的高級描述[168]或基于CLIP的觸覺圖像特征[48]獲得的觸覺特征。例如，MultiPLY[48]，一個多感官LLM，將觸覺傳感器讀數(shù)轉(zhuǎn)換為由CLIP編碼的熱圖。然后，通過引入一個線性層的觸覺投影器，該模型將熱圖信息映射到LLMs的特征空間。

4.2 感知行為

根據(jù)感知行為的類型，我們將本節(jié)分解為被動和主動感知。被動感知是指在不積極尋找的情況下收集感官信息的過程。盡管其有限，被動感知已在基于LLM的機器人研究中廣泛用于各種任務：對象識別[36, 53, 151]、姿態(tài)估計[104, 155]、場景重建[41, 59, 122, 122]和對象接地[66, 143, 157]。例如，TidyBot[151]從俯視圖中檢測最近的物體，然后使用機器人相機捕獲的更近的視圖識別其對象類別。然而，感知的被動性質(zhì)限制了在信息未觀察或不可用時執(zhí)行任務的能力（例如，看不見的區(qū)域、重量）。

另一方面，主動感知指的是通過采取額外的行動有意識地收集感官信息的過程。通過感官觀察或請求用戶反饋[79, 129]獲取新信息，主動信息收集增強了對環(huán)境的理解。例如，LLM-Planner[129]生成尋找動作，如“打開冰箱”以定位不可見的物體。最近的研究還專注于收集感官數(shù)據(jù)，以更好地理解物體的物理屬性[48, 168]。然而，LLMs經(jīng)常生成不準確或虛構的信息，稱為幻覺。為了解決這個問題，Dai等人[25]引入了一個個性化的會話代理，旨在詢問用戶不確定的信息。

5 規(guī)劃

規(guī)劃涉及組織行動以解決給定問題，通常通過生成一系列高級符號操作符（即任務規(guī)劃）然后使用低級電機控制器執(zhí)行它們[37, 85]。本節(jié)調(diào)查了基于LLM的規(guī)劃研究如何通過將它們歸類為三個關鍵研究領域來解決規(guī)劃領域的局限性：（1）任務規(guī)劃，（2）運動規(guī)劃，和（3）任務和運動規(guī)劃（TAMP）。圖1展示了詳細的分類以及相關的規(guī)劃研究，用紫色單元格引用。

5.1 任務規(guī)劃

基于LLM的任務規(guī)劃器能夠在沒有嚴格符號定義的情況下生成計劃[58]，而傳統(tǒng)的任務規(guī)劃器需要預先定義操作符，這些操作符具有關于可用行動和約束的領域知識[34, 99]。在這一領域，大多數(shù)規(guī)劃器采用靜態(tài)規(guī)劃策略，它采用不隨環(huán)境變化而適應的固定描述[163]。然而，自適應規(guī)劃的替代方法允許將環(huán)境反饋納入輸入提示中，根據(jù)觀察到的條件調(diào)整行動。本節(jié)根據(jù)這兩種策略：靜態(tài)規(guī)劃和自適應規(guī)劃，審查基于LLM的規(guī)劃器。

靜態(tài)規(guī)劃：靜態(tài)規(guī)劃方法是一般的零次或少次預測方法，其中零次方法僅基于輸入命令生成計劃，而少次方法利用從有限的類似示例中學習[9, 27, 70, 163]。然而，由于推理能力有限，LLMs在長期任務規(guī)劃中的表現(xiàn)往往不佳[90, 139]。為了解決這一局限性，Huang等人[58]引入了一個規(guī)劃器，該規(guī)劃器迭代選擇LLMs生成的可執(zhí)行操作中最可能的行動。另外，基于LLM的代碼生成器，如Code as Policies[87]或ProgPrompt[128]，產(chǎn)生導致適應性行動的代碼，以響應觀察結(jié)果[56, 57]。Singh等人[128]證明，代碼生成優(yōu)于LLMs的基本任務規(guī)劃，因為輸出計劃與執(zhí)行環(huán)境緊密對齊。盡管它們有優(yōu)勢，但這些方法缺乏驗證和重新規(guī)劃過程。

為了驗證計劃，研究人員經(jīng)常將LLMs與邏輯程序相結(jié)合，要么（1）檢查結(jié)果計劃是否違反邏輯約束，要么（2）使用外部邏輯規(guī)劃器生成計劃。例如，SayPlan[118]，一個基于GPT4的規(guī)劃器，通過場景圖模擬器3DSG[1]驗證抽象級別行動，而LLM+P[90]應用從LLMs翻譯的PDDL問題到經(jīng)典任務規(guī)劃器，F(xiàn)ast Downward[45]。此外，Silver等人[127]證明，具有來自LLMs的初始計劃的基于搜索的規(guī)劃器通過探索較少的節(jié)點表現(xiàn)得更好。這些研究強調(diào)了將LLMs與邏輯程序集成以增加生成可行計劃的成功率或性能的有效性。

自適應規(guī)劃：自適應規(guī)劃允許機器人根據(jù)反饋修改它們的計劃或行動，要么根據(jù)環(huán)境觀察生成新計劃[20, 141, 151, 168, 169]，要么通過檢測失敗并相應調(diào)整[61]。Chen等人[12]和Huang等人[60]引入了根據(jù)觀察反饋生成新計劃的適應策略，使機器人能夠響應更廣泛的場景。另一種適應策略是將失敗檢測作為反饋。例如，Inner Monologue[61]重試初始計劃，直到成功。此外，其他研究提供有關過去失敗的文本解釋，以幫助避免反復出現(xiàn)的問題[88, 95, 117, 146]。LLM-Planner[129]和COWP[28]通過尋找利用觀察上下文和LLMs常識知識的替代計劃，提高了重新規(guī)劃能力。這些適應新信息的靈活性增強了機器人在動態(tài)設置中的自主性。

5.2 任務和運動規(guī)劃

我們概述了基于LLM的低級規(guī)劃，將方法分類為運動規(guī)劃和TAMP領域。

運動規(guī)劃指的是在機器人的配置空間或任務空間內(nèi)生成具有數(shù)值航點的目標軌跡。然而，直接的數(shù)值序列化是具有挑戰(zhàn)性的，因為語言模型通過生成與連續(xù)空間無關的標記來學習。盡管如此，基于LLM的運動規(guī)劃器直接為無人機編舞生成位置序列[68]，因為它們的任務足夠簡單，可以展示LLMs的空間推理能力。對于更復雜的場景，采用間接方法，Huang等人[59]將LLMs與基于搜索的規(guī)劃器相結(jié)合。在他們的框架中，VoxPoser，一個LLM，使用VLM生成潛在場的代碼，然后基于搜索的規(guī)劃器在生成的場內(nèi)進行運動規(guī)劃。

TAMP指的是將高級任務規(guī)劃與低級運動規(guī)劃相結(jié)合。各種工作使用LLMs本身作為TAMP規(guī)劃器，利用它們的邏輯和物理推理能力[80, 97, 152]。研究人員指導LLMs生成高級子目標，然后使用它們進行低級軌跡生成[80, 97]。然而，它們的粗略表示限制了它們的方法到簡單的任務，如取放。相反，Xia等人[152]使用運動學感知提示增強LLMs的運動學知識，用于復雜的操作，如關節(jié)對象操作。此外，各種研究增強了LLMs以補充它們的推理能力。研究人員經(jīng)常集成一個邏輯增強的TAMP規(guī)劃器，以檢查任務計劃的邏輯可行性[29]。同時，其他人使用物理增強的TAMP規(guī)劃器來評估物理可行性[18, 44, 89]。例如，Text2Motion[89]允許一個LLM生成物理上可行的高級行動，并將它們與學習到的技能結(jié)合起來進行低級行動。

6 控制

早期研究主要集中在建立簡單的語言命令和已知運動原語之間的映射上。隨著深度學習的出現(xiàn)，研究人員在控制方面探索了兩種主要方法：基于語言指令的控制值的直接建模[7, 119]和通過LLMs間接解釋復雜指令以生成行動[153]。我們將這個領域的工作分為兩組：（1）直接方法，意味著基于語言指令直接生成控制命令；（2）間接方法，代表通過語言指導間接指定控制命令。圖1展示了詳細的分類以及相關論文，用橙色單元格引用。

6.1 直接方法

直接方法涉及使用LLM來解釋并產(chǎn)生可執(zhí)行命令，要么通過選擇運動原語[133]，要么生成控制信號[145, 170]。早期工作生成行動標記以通過訓練Transformer架構[140]產(chǎn)生控制策略，使用特定任務的專家演示數(shù)據(jù)[7, 119, 131]。研究人員將這些標記線性映射到離散化的末端執(zhí)行器速度[119]或位移[7, 131]以進行連續(xù)運動。雖然這些方法在未見任務（如新對象或現(xiàn)實指令）上展示了一定程度的泛化，但它們通常需要大量的數(shù)據(jù)收集和訓練時間。

為了減少收集工作，研究人員經(jīng)常利用現(xiàn)有的網(wǎng)絡規(guī)模視覺和語言數(shù)據(jù)集進行微調(diào)[142, 170]。例如，Zitkovich等人共同微調(diào)VLMs，如PaLI-X[17]和PaLM-E[31]，目標是視覺語言任務和機器人控制任務。他們使用為VLMs設計的原始數(shù)據(jù)集以及機器人控制演示，在微調(diào)期間保持一般知識，如在RT-2[170]中演示的那樣。此外，為了減少訓練負擔，Hu等人[51]使用低秩適應（LoRA）方法對LLM進行微調(diào)，用于控制任務[15]，而不是微調(diào)整個模型。

LLMs常常難以生成連續(xù)的行動級命令，如關節(jié)位置和扭矩值，因為LLMs通常生成稱為標記的原子元素[133]。因此，研究人員反而使用LLMs生成任務級輸出[10, 102, 133]。例如，SayTap，一個基于LLM的步行控制器，使用LLM生成腳和地面之間的接觸模式，而不是直接產(chǎn)生關節(jié)位置，以實現(xiàn)步行運動。其他研究通過將其框架為完成末端執(zhí)行器姿態(tài)序列[102]或生成Python代碼[10]，類似于自然語言生成任務，來解決控制問題。最近，研究人員提示LLM通過提供歸一化和離散化的控制值歷史來產(chǎn)生動作空間輸出，以保持控制的連續(xù)性[145]，或通過提供機器人運動學信息來確定所需姿態(tài)的合理關節(jié)值[86]。

6.2 間接方法

LLMs也適用于基于自然語言指令生成控制命令的間接表示（例如，子目標或獎勵函數(shù)）。研究人員利用目標描述，用自然語言解釋所需的行為，以指導學習過程[32, 67, 78]。例如，ELLM[32]，一個基于LLM的RL框架，使用LLM生成子目標描述作為RL策略的條件，并進一步使用當前觀察結(jié)果和文本嵌入空間中的子目標描述之間的相似性來計算獎勵。此外，Kumar等人[78]逐步使用LLM基于以前的人類指令生成目標描述。然而，由于LLM的輸出是自然語言描述，這些方法需要一個額外的步驟來基礎化或解釋描述。

利用代碼生成能力，研究人員生成代碼級獎勵函數(shù)。Yu等人[161]將自然語言目標轉(zhuǎn)換為高級運動描述，然后生成相應的獎勵函數(shù)。然而，這種生成需要固定的獎勵函數(shù)格式。相反，最近的工作提示LLM從人類設計的例子中推斷獎勵函數(shù)格式[71, 144]。盡管如此，生成的獎勵函數(shù)可能并不總是足夠準確或最優(yōu)，以直接用于訓練[130]。

為了提高準確性，研究人員添加了一個細化循環(huán)來驗證生成的獎勵函數(shù)的語法[112]和語義[96, 130, 153, 165]。例如，Song等人[130]使用LLM根據(jù)訓練過程的收斂和結(jié)果機器人運動重新設計獎勵函數(shù)。此外，研究人員使用LLM評估機器人運動，直接生成獎勵[24]。此外，最近的工作演示了LLM在通過根據(jù)錯誤狀態(tài)調(diào)整控制參數(shù)[132]或從人類反饋中選擇合適的運動目標[91]來完善運動中的使用。

7 提示指南

本章為進入機器人學研究領域的研究者提供關于如何設計提示的指南。提示是一種信息，旨在引導LLMs按照我們的指示處理并輸出，如同預訓練語言模型[93, 149]的操作一樣。精心設計的提示應：

- 包含清晰、簡潔且不含行業(yè)術語的具體陳述，

- 引入能夠讓模型預期處理流程的示例，

- 指定希望輸出呈現(xiàn)的格式，

- 包含約束行動的指令。

這些提示使得模型能夠在不更新參數(shù)的情況下，按照期望的格式和約束生成內(nèi)容。我們?yōu)橐韵滤膫€機器人學領域提供指南：(1) 交互式定位、(2) 場景圖生成、(3) 少樣本規(guī)劃、以及 (4) 獎勵函數(shù)生成。

7.1 對話提示：交互式定位

我們詳細說明了一種對話提示設計，利用LLM作為定位代理，澄清如“給我拿點吃的”這樣的命令，并通過邏輯推斷解析“一些東西”之類的模糊目標。表1展示了設計細節(jié)，其中提示由三個關鍵組成部分構成：任務描述、任務流程和任務背景。我們接下來逐一詳述。

大型語言模型與智能機器人集成的調(diào)查研究 -AI.x社區(qū)

表1：用于交互式接地的對話提示。通過提示中的“任務”，我們要求LLM通過對個人喜好的互動詢問，將任務中提及的未具體說明的對象“某個東西”定位為“餅干”。該提示由任務描述、任務流程和任務情境三部分組成，指導LLM的行為及其對上下文的理解。粗體字表示與LLM響應（以藍色高亮顯示）進行交互的主題。

任務描述概述了LLM期望的行為和響應格式。在此例中，我們特別強調(diào)其作為對話代理的角色，通過“你應該”之類的指令引導與用戶的動態(tài)互動。此外，“保持”所包含的命令性語句提供了任務約束或需求。我們還在末尾放置行為約束以抑制LLM的冗余輸出。

任務流程隨后定義了LLM遵循以達成任務目標的一系列推理步驟。此描述采用編號步驟指導LLM一步步執(zhí)行動作。通過邏輯表示，我們也強制動作按邏輯順序執(zhí)行；使用“迭代地”表示“while循環(huán)”，以及“如果”或“當”表示條件。

任務背景描述了LLM進行定位所依據(jù)的上下文輸入，如“世界模型”。任務描述和任務流程中術語的一致性對LLM操作至關重要。例如，“任務”和“世界模型”之類的通用表達使LLM能在提供的同一上下文中工作。此外，通過為世界模型中的對象使用明確的名稱，我們使LLM能夠?qū)γ麑嶓w應用常識。請注意，盡管我們使用對象列表作為世界模型，但LLM接受多種形式的世界模型輸入：文本描述、對象列表和場景圖。

通過這些結(jié)構化的組件，提示觸發(fā)了一個交互式的定位對話，以精確識別對象，如表1所示。此提示使用了ChatGPT 3.5 [106]。

7.2 指令提示：場景圖生成

本節(jié)介紹利用多模態(tài)LLM（特別是GPT-4 [107]）從場景圖像構建場景圖的指令提示設計。場景圖由作為節(jié)點的對象及其作為邊的關系組成。盡管多模態(tài)LLM取得了進展，但它們從二維圖像中推斷三維關系的能力仍有限制[13]。為了減少這一限制，我們將任務分解為兩個步驟：利用多模態(tài)輸入創(chuàng)建節(jié)點和利用文本信息創(chuàng)建邊。我們在表2中提供了每個步驟的詳細示例。

大型語言模型與智能機器人集成的調(diào)查研究 -AI.x社區(qū)

表2：生成場景圖的指令提示。該表包含兩個提示：節(jié)點創(chuàng)建和邊創(chuàng)建。在給定場景中的圖像條件下，多模態(tài)LLM感知物體并利用幾何信息推斷相關關系。粗體字表示LLM響應的輸出主題（以藍色高亮顯示）?？梢暬瘍?nèi)容既不是LLM的輸入也不是輸出。

節(jié)點創(chuàng)建的提示包括兩部分：(1) 任務描述和(2) 任務背景。任務描述類似于7.1節(jié)，包括LLM的預期行為（即角色）和響應格式。例如，LLM的任務是在給定圖像中識別作為節(jié)點的對象。然后，我們將輸出格式指定為‘ObjectName(ID)’以確保一致性和簡潔性。接著，任務背景展示了一系列獨特的對象標識符及其對應的以對象為中心的圖像。我們通過SAM [77]，一個擅長在遮擋情況下識別物體的基礎視覺模型，從場景中裁剪得到這些對象中心圖像。

邊的創(chuàng)建包括：(1) 任務描述、(2) 示例和(3) 任務背景。任務描述不僅指定了預期行為和輸出格式，還闡釋了如何利用示例來識別節(jié)點間的關系。我們特別解釋了LLM如何使用三維對象坐標和單位測量值，從預定義集合（如‘左’、‘右’等）中推斷空間關系。與節(jié)點創(chuàng)建不同，這允許生成額外的輸出解釋，以適應辨別空間關系的復雜性。

為了增強對輸入格式及相應輸出的理解，我們包含了展示邊生成的示例。我們選擇了一個在對象及其空間相互關系上與目標場景相似的示例，從而為邊的識別提供更豐富的信息。

最后，任務背景提供了源節(jié)點和目標節(jié)點信息作為輸入，并留下空白輸出以從LLM獲取響應。我們沒有提供所有節(jié)點的全排列，而是指定所有節(jié)點組合的考慮，假設我們可以識別反向邊作為相反的空間關系（例如，‘左’與‘右’相對）。

7.3 規(guī)劃提示：少量樣本規(guī)劃

本節(jié)提出了一種規(guī)劃提示設計，旨在預測完成既定目標所需的后續(xù)行動，同時融入上下文要素，如可執(zhí)行動作和環(huán)境設置。該設計特別專注于少量樣本規(guī)劃，通過實例增強性能。設計包含四個組成部分：(1) 任務描述、(2) 示例、(3) 目標情境和(4) 額外互動，具體細節(jié)見表3。

大型語言模型與智能機器人集成的調(diào)查研究 -AI.x社區(qū)

表3：用于少量示例規(guī)劃的規(guī)劃指令提示。通過利用輸入-輸出示例對，LLM提高了生成完成任務目標計劃的性能。該提示包括任務描述、示例以及任務上下文。粗體字表示與LLM交互的主體部分，LLM的響應以藍色高亮顯示。

任務描述包括任務目標、預期行為和響應格式，與傳統(tǒng)提示相似。然而，與先前不同的是，此提示明確了機器人的約束條件，包括初始狀態(tài)和動作限制——這是之前未被詳述的約束。例如，表3中的“CANNOT”一詞強調(diào)機器人每次行動只能操作一個物體的限制。此外，這些約束還擴展到規(guī)定“完成”動作的規(guī)則，標志著任務的完成。示例展示了引導LLM生成期望行動的輸入輸出對。示例將允許動作中的泛化“對象”參數(shù)（例如，“關閉(對象)”）調(diào)整為特定的物體名稱，如“抽屜”或“紙張”，從而加強了在任務描述中寫明的任務約束。例如，第二個示例在達成任務目標后返回“完成”信號，而非繼續(xù)規(guī)劃。

目標情境提供了當前場景，包括任務、允許的動作、可見物體、已執(zhí)行計劃以及下一個計劃，與示例相同。我們允許LLM填充“下一個計劃:”后的空白，直接提出下一步行動，不添加不必要的元素如換行符，以確保輸出的精確性。

此外，當通過額外提示更新已執(zhí)行計劃時，LLM會基于這一更新后的上下文生成新計劃，而無需重復整個目標情境，使規(guī)劃過程動態(tài)且迭代，能適應變化并保持高效。

7.4 代碼生成提示：獎勵函數(shù)設計

我們引入了一種代碼生成提示設計，用于從Gymnasium庫中的MuJoCo基礎Reacher任務[135]生成獎勵函數(shù)。Reacher任務的目標是從任意起始配置移動機械臂的末端執(zhí)行器接近指定的目標位置。該提示旨在將此任務目標轉(zhuǎn)化為指定獎勵的代碼。表4展示了設計細節(jié)，包含四個關鍵元素：(1) 任務描述、(2) 可用API、(3) 目標與約束、以及(4) 生成規(guī)則。

大型語言模型與智能機器人集成的調(diào)查研究 -AI.x社區(qū)

表4：用于獎勵函數(shù)生成的指令示例。該提示包括任務描述、可用API、目標與約束條件以及生成規(guī)則。LLM依據(jù)這些信息生成用于強化學習（RL）訓練的Python代碼形式的獎勵函數(shù)。

任務描述為LLM定義了期望的機器人行為和任務條件，包括機器人的控制策略及具有兩個關節(jié)的機械臂的動作空間。我們特別指定了使用Gymnasium庫API的連續(xù)“Box”空間作為動作空間，假設LLM熟悉知名庫函數(shù)的工作方式。然后，此描述引導LLM理解所定義動作的整體強化學習目標。

可用API列出了設計獎勵函數(shù)所需的API，包括每個API的名稱及輸入輸出規(guī)范。通過提供Python函數(shù)注解，我們讓LLM能夠推斷輸入輸出類型，前提是它了解類似浮點數(shù)變量類型及API的工作原理。

目標與約束提供了指導獎勵內(nèi)容的任務目標和限制。我們明確界定了初始設定、目標分配和目標條件，旨在排除不必要的獎勵成分，例如為了平滑運動而懲罰高速度。需要注意的是，盡管語言學意義上相似，我們推薦使用簡潔一致的詞匯，如任務描述中使用的“扭矩”而非“動力”。

最后，生成規(guī)則為生成可直接執(zhí)行的代碼建立了指南，以應對LLM產(chǎn)生不必要的或錯誤的變量或函數(shù)的趨勢。這些規(guī)則限制了此類聲明，正如表4中生成規(guī)則第二部分所述，鼓勵使用知名的Python庫來提高編程質(zhì)量。此外，考慮到獎勵函數(shù)的線性組合元素，我們引入了規(guī)則來調(diào)整獎勵成分的尺度以保持平衡。

8 結(jié)論

在本調(diào)查中，我們從涉及智能機器人組件，包括通信、感知、規(guī)劃和控制的大型語言模型在機器人學研究中的應用進行了考察。這種分組件的調(diào)查揭示了研究人員如何整合LLMs以克服在預LLM方法中存在的各種任務固有挑戰(zhàn)，從而全面理解LLMs在該領域的影響。

在每個組件領域內(nèi)，我們審視了為最大化利用LLMs能力并增強其響應完整性而提出的改進方法論。此外，我們的調(diào)查為每個組件領域提供了提示工程的指導原則，并輔以關鍵提示組件示例，為進入該領域的研究者提供實踐洞察。本文的核心貢獻在于突顯了LLMs在機器人學中的變革性影響，使得在有限資源下開發(fā)多功能且智能的機器人成為可能。

Kim Y, Kim D, Choi J, et al. A Survey on Integration of Large Language Models with Intelligent Robots[J]. arXiv preprint arXiv:2404.09228, 2024.

本文轉(zhuǎn)載自公眾號AIRoobt ，作者：AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/Dz2hBfT25odDM7OQJgQgPQ??

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

大型語言模型

智能機器人

贊

收藏

回復

舉報

回復

相關推薦

谷歌 DeepMind CEO Hassabis 暢談 Gemini、Scalin Law、通用機器人、大模型開源、超級人工智能

lintoms ? 2484瀏覽 ? 0回復
人形機器人進廠打工

echo_ning ? 2811瀏覽 ? 0回復
Sergey Levine教授解讀機器人AI的演進

lintoms ? 2698瀏覽 ? 0回復
搬磚機器人？淺談RPA技術及其應用

zhcs333 ? 2832瀏覽 ? 0回復
世界上第一個聊天機器人并非旨在成為聊天機器人

xuxiangda ? 4398瀏覽 ? 0回復
圖遇見大型語言模型：進展與未來方向的研究

AIRoobt ? 6423瀏覽 ? 0回復
大型語言模型（LLM）在機器人領域的機遇、挑戰(zhàn)與展望

AIRoobt ? 5133瀏覽 ? 0回復
在智能電網(wǎng)中應用大型語言模型的風險：威脅建模與驗證

AIRoobt ? 3994瀏覽 ? 0回復
圖遇見大型語言模型：進展與未來方向的研究

AIRoobt ? 3906瀏覽 ? 0回復
大型語言模型（LLM）的歷史與未來

51CTO內(nèi)容精選 ? 3167瀏覽 ? 0回復
谷歌將大模型集成在實體機器人中，能看、聽、說執(zhí)行57種任務

Aceryt ? 2264瀏覽 ? 0回復
LLM+P：賦予大語言模型最佳機器人規(guī)劃能力

AIRoobt ? 2662瀏覽 ? 0回復
大模型在機器人領域的應用：機遇、挑戰(zhàn)與前景

AIRoobt ? 3843瀏覽 ? 0回復
用Python打造加密貨幣算法交易機器人

開發(fā)者阿橙 ? 4706瀏覽 ? 0回復
豐田、波士頓動力聯(lián)手開發(fā)，實體大型行為模型機器人

Aceryt ? 1842瀏覽 ? 0回復
融合、集成與協(xié)作！大語言模型時代的協(xié)作策略綜述

AIRoobt ? 2996瀏覽 ? 0回復
探索基于大型語言模型的智能體：定義、方法與前景

AIRoobt ? 4061瀏覽 ? 0回復
英偉達震撼發(fā)布GR00T N1，全球首個開放通用人形機器人模型，顛覆多模態(tài)操控，開啟機器人智能新紀元

angel ? 1894瀏覽 ? 0回復
語言、邏輯與大型語言模型——從古代哲學抽象思維到人工智能的演進

上堵吟1 ? 1283瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器 1天前發(fā)布
大型語言模型容易被無關上下文分散注意力(ICLM) 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：大模型（LLM） API的使用，免費獲取試用API方法，付費API計費方式

下一篇： TextCoT：放大增強型多模態(tài)富文本圖像理解

社區(qū)精華內(nèi)容

目錄

<cite id="swe3j"></cite><p id="swe3j"></p>

<var id="swe3j"><button id="swe3j"><span id="swe3j"></span></button></var>