大型語言模型(LLM)在機器人領(lǐng)域的機遇、挑戰(zhàn)與展望 原創(chuàng) 精華
?摘要—大型語言模型(LLMs)經(jīng)歷了顯著的擴展,并且越來越多地被整合到各個領(lǐng)域中。特別是在機器人任務(wù)規(guī)劃領(lǐng)域,LLMs利用其先進的推理和語言理解能力,根據(jù)自然語言指令制定精確高效的行動計劃。然而,對于具體化的機器人任務(wù),即機器人與復(fù)雜環(huán)境互動的任務(wù),僅文本的LLMs常常因為缺乏與機器人視覺感知的兼容性而面臨挑戰(zhàn)。本研究提供了一個全面的概述,介紹了LLMs和多模態(tài)LLMs如何被整合到各種機器人任務(wù)中。此外,我們提出了一個框架,該框架利用多模態(tài)GPT-4V通過結(jié)合自然語言指令和機器人視覺感知來增強具體化任務(wù)規(guī)劃。我們基于多樣化數(shù)據(jù)集的結(jié)果顯示,GPT-4V有效地提高了機器人在具體化任務(wù)中的性能。對LLMs和多模態(tài)LLMs在各種機器人任務(wù)中的廣泛調(diào)查和評估豐富了對以LLM為中心的具體化智能的理解,并為彌合人-機器人-環(huán)境交互中的差距提供了前瞻性的見解。
I. 引言
隨著預(yù)訓(xùn)練模型在模型規(guī)模和數(shù)據(jù)量上的擴展,一些大型預(yù)訓(xùn)練模型在一系列復(fù)雜任務(wù)上展現(xiàn)出了顯著的能力[1],[2]。大型語言模型(LLMs)因其卓越的上下文涌現(xiàn)能力[2]–[10]在各個領(lǐng)域引起了廣泛關(guān)注。這種新興能力以前所未有的方式賦能了人工智能算法,重塑了人們使用人工智能算法的方式,并促使人們重新評估人工通用智能(AGI)的可能性。
隨著LLMs的快速發(fā)展,指令調(diào)整和對齊調(diào)整已成為適應(yīng)特定目標的主要方法。在自然語言處理(NLP)領(lǐng)域,LLMs在一定程度上可以作為語言相關(guān)任務(wù)的通用解決方案[3],[5],[11]–[13]。這些基于變換器的大型模型在多個領(lǐng)域取得了非凡成就[14]–[17],深刻改變了人工智能的最新狀態(tài)[3],[12],[18]–[26]。研究范式也轉(zhuǎn)向了解決子領(lǐng)域特定問題。在計算機視覺(CV)領(lǐng)域,研究人員也在開發(fā)類似于GPT-4和Gemini的大型模型[27],[28],這些模型融合了視覺和語言信息,從而支持多模態(tài)輸入[29]。這種增強LLMs的策略不僅提高了它們在下游任務(wù)中的性能,而且通過確保與人類價值觀和偏好的一致性,對機器人學(xué)的發(fā)展具有重要的指導(dǎo)意義。這種方法已在眾多領(lǐng)域得到廣泛采用[7],[29]–[32],甚至在卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是主要技術(shù)[33]–[40]的領(lǐng)域也是如此。
LLMs處理和內(nèi)化大量文本數(shù)據(jù)的能力為提高機器的理解和自然語言分析能力提供了前所未有的潛力[41],[42]。這擴展到了理解手冊和技術(shù)指南等文檔,并將這些知識應(yīng)用于進行連貫、準確和與人類一致的對話[43]–[45]。通過對話,自然語言指令從文本提示轉(zhuǎn)化為機器可理解的代碼,觸發(fā)相應(yīng)的動作,從而使機器人在適應(yīng)各種用戶命令方面更加靈活和適應(yīng)性強[46]–[48]。將現(xiàn)實世界的傳感器模態(tài)整合到語言模型中,有助于建立單詞和感知之間的聯(lián)系,使它們能夠應(yīng)用于各種特定任務(wù)。然而,僅文本的LLMs缺乏對物理世界的體驗性暴露和觀察的經(jīng)驗性結(jié)果,這使得它們在特定環(huán)境中的決策制定中難以應(yīng)用。因此,將多模態(tài)性整合到LLMs對于有效執(zhí)行機器人任務(wù)至關(guān)重要。此外,機器人學(xué)領(lǐng)域呈現(xiàn)出更為微妙的任務(wù)變化。與可以從互聯(lián)網(wǎng)上獲取大量數(shù)據(jù)集的NLP和CV不同,獲取用于機器人交互的大型和多樣化數(shù)據(jù)集是具有挑戰(zhàn)性的[49]。這些數(shù)據(jù)集通常要么專注于單一環(huán)境和對象,要么強調(diào)特定任務(wù)領(lǐng)域,導(dǎo)致它們之間存在顯著差異。[50]這種復(fù)雜性在將LLMs與機器人學(xué)整合時帶來了更大的挑戰(zhàn)。
如何克服機器人技術(shù)帶來的挑戰(zhàn),并利用LLMs在其他領(lǐng)域的成就來造福機器人學(xué)領(lǐng)域,是本綜述所要解決的核心問題。在本文中,工作的貢獻可以總結(jié)為四個主要點:
- 我們仔細調(diào)查并綜合現(xiàn)有的LLM機器人文獻,探索三個不同任務(wù)類別中的最新進展:規(guī)劃、操作、推理。
- 我們總結(jié)了LLMs為機器人學(xué)領(lǐng)域提供的主要技術(shù)方法,檢查了訓(xùn)練通用機器人策略的潛力,并為該領(lǐng)域的研究人員提供了基礎(chǔ)調(diào)查。
- 我們評估了多模態(tài)GPT-4V在各種環(huán)境和場景中機器人任務(wù)規(guī)劃的有效性。
- 我們總結(jié)了我們調(diào)查的主要發(fā)現(xiàn),討論了未來工作中需要解決的突出挑戰(zhàn),并提出了前瞻性的觀點。
圖1. 提出的GPT-4V賦能的具體化任務(wù)規(guī)劃框架。我們使用視頻數(shù)據(jù)的初始幀及其對應(yīng)的文本指令作為輸入。我們的框架利用GPT-4V將指令分解為一系列任務(wù)計劃,并從預(yù)定義的動作池中選擇相應(yīng)的表示。同時,我們可以分析與指令相關(guān)的目標對象以及指令前后圖像中的環(huán)境變化。最后,我們使用GPT-4V比較并評估我們生成的任務(wù)計劃與真實計劃的匹配程度。
II. 相關(guān)工作
A. 機器人領(lǐng)域的LLM
基于LLMs的機器人學(xué)研究領(lǐng)域已經(jīng)取得了重大進展。這些模型展現(xiàn)出了卓越的自然語言理解和常識推理能力,顯著提升了機器人理解上下文和執(zhí)行命令的能力。當前的研究集中在利用LLMs解析復(fù)雜的上下文和指令,包括解決歧義、消除歧義和理解隱含信息。該領(lǐng)域的關(guān)鍵進展包括視覺-語言模型的發(fā)展[51]–[53],這些模型顯著提高了視覺問答[54]–[56]和圖像描述[57],[58]等任務(wù)的性能。這些進步極大地增強了機器人在物理世界中的推理能力,特別是在復(fù)雜命令導(dǎo)航等領(lǐng)域。[59],[60] 通過視覺語言處理系統(tǒng),機器人能夠理解圖像內(nèi)容,并將其與相關(guān)語言信息(如圖像描述和指令執(zhí)行)整合。這種多模態(tài)信息處理同樣應(yīng)用于音頻-視覺整合中。LLMs在人-機器人交互中的另一個重大進展是通過互動學(xué)習(xí)過程實現(xiàn)的,這些過程更好地符合人類的需求和偏好。例如,通過將強化學(xué)習(xí)與人類反饋相結(jié)合,機器人可以持續(xù)改進它們的任務(wù)執(zhí)行,通過結(jié)合人類指導(dǎo)和大型語言模型,機器人可以更精確地細化指令,從而更好地實現(xiàn)自主學(xué)習(xí)和環(huán)境適應(yīng),以實現(xiàn)更準確和有針對性的控制。機器人還可以通過互動學(xué)習(xí)和適應(yīng)用戶的行為、偏好和需求,提供更個性化和定制化的交互體驗。這些進步不僅增強了機器人技術(shù)的實用性,而且為未來的人與人之間的交互開辟了新的可能性。
B. 使用LLMs進行多模態(tài)任務(wù)規(guī)劃
LLMs領(lǐng)域內(nèi)的多模態(tài)任務(wù)規(guī)劃構(gòu)成了人工智能學(xué)科的一個復(fù)雜交叉點,涉及整合各種不同的數(shù)據(jù)模態(tài)——如文本、視覺和聽覺輸入——以促進更全面和細致的AI驅(qū)動分析[61]–[65]。
這種跨學(xué)科方法超越了LLMs的傳統(tǒng)界限,后者主要關(guān)注文本理解和生成,迎來了一個新時代,在這個時代中,這些模型擅長于解釋、關(guān)聯(lián)和同時與多個數(shù)據(jù)流互動。在這個背景下,LLM的角色從單純的語言處理演變?yōu)楦闲缘墓δ?,綜合并響應(yīng)復(fù)雜的數(shù)據(jù)交互。在LLMs的多模態(tài)任務(wù)規(guī)劃領(lǐng)域,最近的進步如Inner Monologue和SayCan項目所示,展示了該領(lǐng)域的復(fù)雜性和成熟度的增長。Inner Monologue的方法[65]代表了該領(lǐng)域的重大飛躍,因為它整合了來自環(huán)境的多模態(tài)反饋源。這種整合使得生成更可靠、更具上下文意識的任務(wù)規(guī)劃成為可能,協(xié)調(diào)不同的感官輸入以創(chuàng)造對AI周圍環(huán)境的更連貫理解。同樣,SayCan的框架[61]為LLM應(yīng)用引入了一個新維度。該系統(tǒng)將LLMs作為模型的“手和眼睛”的代理,生成最優(yōu)的長期指令,并有效地評估當前場景中指令的可行性概率。這種方法不僅增強了AI理解和與其直接環(huán)境互動的能力,而且還利用LLMs的細致理解來規(guī)劃和執(zhí)行復(fù)雜動作序列的長期任務(wù)。
Inner Monologue和SayCan中這些先進技術(shù)的整合代表了在創(chuàng)建AI系統(tǒng)中邁出了重要的一步,這些系統(tǒng)不僅更加意識到多個數(shù)據(jù)流,而且還能夠?qū)⑦@些流合成為可操作的智能。這一進展指向了一個未來,AI可以在一個更加動態(tài)、上下文意識和自主的方式中導(dǎo)航和與真實世界互動[61],[65]–[67],推動AI驅(qū)動創(chuàng)新和跨學(xué)科綜合的邊界。
III. 機器人任務(wù)的范圍
A. 規(guī)劃
1) 自然語言理解:在機器人規(guī)劃中,大型語言模型因其先進的自然語言理解能力而表現(xiàn)出色。它們將自然語言指令翻譯成機器人可執(zhí)行的動作序列,這是機器人規(guī)劃的一個關(guān)鍵方面[61],[68]。本研究顯示,LLMs能夠僅基于語言指令生成準確的動作序列,即使沒有視覺輸入[69]。然而,當有少量視覺信息時,它們的性能會顯著提高,使它們能夠創(chuàng)建精確的視覺-語義計劃。這些計劃將高級自然語言指令轉(zhuǎn)化為虛擬代理執(zhí)行復(fù)雜任務(wù)的可操作指導(dǎo)。這種能力強調(diào)了LLMs整合多模態(tài)信息的潛力,從而提高了它們的理解能力。它還展示了它們解釋和整合來自各種模態(tài)的信息的能力,從而更全面地理解任務(wù)[70]。此外,關(guān)于從大型語言模型生成動作序列以進行自然語言理解的研究進一步證實了LLMs在機器人規(guī)劃中的有效性。LLMs在解釋與物理環(huán)境同步的自然語言命令方面也顯示出巨大的潛力。采用Grounded Decoding方法,它們可以產(chǎn)生與物理模型概率一致的行為序列,展示了該方法在機器人規(guī)劃任務(wù)中的有效性[71]。
在復(fù)雜序列任務(wù)規(guī)劃方面的研究突出了LLMs能力的重大進步。Text2Motion的研究顯示,LLMs不僅擅長處理語言信息,而且能夠解決技能序列中的依賴關(guān)系[72]。這是通過幾何上可行的規(guī)劃實現(xiàn)的,標志著在解釋抽象指令和理解復(fù)雜任務(wù)結(jié)構(gòu)方面的一個重要進步。此外,LLM-Planner研究通過將LLMs與傳統(tǒng)規(guī)劃器集成,增強了LLMs在機器人規(guī)劃中的自然語言理解能力[73]。這種協(xié)同作用展示了如何利用LLMs的NLP能力來提高規(guī)劃任務(wù)的效率和精確性。此外,LLM+P利用傳統(tǒng)規(guī)劃器的能力,使用規(guī)劃領(lǐng)域定義語言(PDDL)和問題提示來為LLMs創(chuàng)建特定任務(wù)的問題文件[44]。這種整合顯著提高了LLMs在處理長期規(guī)劃任務(wù)方面的有效性。另外,SayPlan通過集成經(jīng)典路徑規(guī)劃器來解決規(guī)劃視野問題。通過這樣做,SayPlan能夠?qū)某橄蠛妥匀徽Z言指令派生出的大規(guī)模、長期任務(wù)計劃具體化,使移動操作機器人能夠成功執(zhí)行它們[74]。此外,LLMs在搜索算法中作為啟發(fā)式策略以及作為常識知識的儲備庫方面顯示出潛力。LLMs的這種雙重角色不僅增強了這些算法內(nèi)的推理能力,而且還有助于預(yù)測潛在結(jié)果。這種方法充分利用了LLMs的潛力,利用它們先進的推理能力有效地規(guī)劃復(fù)雜任務(wù)[66]。這種雙重應(yīng)用強調(diào)了大型語言模型在任務(wù)規(guī)劃和問題解決中的廣泛和多功能潛力。
關(guān)于LLMs的研究展示了它們解析和理解自然語言的顯著能力。這種能力超越了單純的文本匹配,達到了深刻的語義理解,包括任務(wù)的目的和上下文。LLMs的一個關(guān)鍵方面是將它們理解的指令轉(zhuǎn)化為機器人可執(zhí)行的動作序列,這是機器人任務(wù)規(guī)劃的一個必要特征。LLMs顯著提高了指令生成的質(zhì)量和適應(yīng)性,使得能夠創(chuàng)造出既具有上下文意識又特定于環(huán)境的復(fù)雜動作序列。這些模型在處理各種任務(wù)規(guī)劃復(fù)雜性和類型方面表現(xiàn)出多樣性,從簡單的物理互動到復(fù)雜的長期序列規(guī)劃。研究突出了LLMs作為獨立決策者和其他模態(tài)及規(guī)劃算法的協(xié)作者的潛力。這種協(xié)作在解釋自然語言和推進機器人規(guī)劃方面至關(guān)重要。隨著研究的進展,預(yù)計LLMs在機器人學(xué)和自動化系統(tǒng)領(lǐng)域?qū)l(fā)揮越來越重要的作用。
2) 復(fù)雜任務(wù)推理和決策:在復(fù)雜任務(wù)推理和決策領(lǐng)域,由LLMs賦能的機器人表現(xiàn)出顯著的熟練度。這些基于LLM的機器人規(guī)劃任務(wù)已經(jīng)顯著超越了單純的文本生成和語言理解的范疇。最近的研究突出了語言模型在處理復(fù)雜任務(wù)、進行邏輯推理、做出明智的決策和參與互動學(xué)習(xí)方面的巨大能力[3],[75]。這些突破不僅擴展了我們對基于LLM的機器人規(guī)劃潛力的理解,而且為創(chuàng)新的實際應(yīng)用打開了大門。
在探索預(yù)訓(xùn)練語言模型(PLMs)在交互式?jīng)Q策中的應(yīng)用時,研究表明目標和觀察被轉(zhuǎn)化為嵌入序列,用PLMs初始化網(wǎng)絡(luò)。這種策略的泛化能力在多變量環(huán)境和監(jiān)督模態(tài)中特別有效[76]。在多模態(tài)領(lǐng)域的一個顯著進步是LM-Nav系統(tǒng)的發(fā)展[59]。該系統(tǒng)基于PLMs,整合了語言、視覺和動作模型,通過高級自然語言命令指導(dǎo)機器人導(dǎo)航。值得注意的是,它通過合并預(yù)訓(xùn)練的視覺導(dǎo)航、圖像-語言相關(guān)性和語言理解模型,減少了對昂貴軌跡注釋監(jiān)督的依賴。專注于特定環(huán)境中的LLMs,研究人員[65]已經(jīng)檢查了它們在自然語言反饋和復(fù)雜任務(wù)規(guī)劃方面的推理能力。這種能力對于遵循高級任務(wù)指令和增強模型在現(xiàn)實世界場景中的應(yīng)用性至關(guān)重要。解決自然語言理解和決策中的一致性容錯問題,創(chuàng)新的ReAct模型[77]克服了交互式設(shè)置中語言推理的先前限制。它解決了幻覺生成和錯誤信息傳播等挑戰(zhàn)。通過利用LLMs維持工作記憶和抽象概念化高級目標的潛力,ReAct模型在各種任務(wù)中實現(xiàn)了顯著的性能提升。與此同時,為了解決大型語言模型(LLMs)在應(yīng)用于機器人學(xué)時的自信幻覺預(yù)測問題,KnowNo[78]為任務(wù)完成提供了統(tǒng)計保證,同時在復(fù)雜的多步驟規(guī)劃場景中最小化了對人類協(xié)助的需求。值得注意的是,KnowNo與LLMs無縫集成,無需模型微調(diào),提供了一種輕量級和有前途的不確定性建模方法。這種方法與基礎(chǔ)模型不斷演變的能力保持一致,提供了一種可擴展的解決方案。此外,已經(jīng)提出了一種涉及預(yù)處理錯誤提示的策略,使LLMs能夠提取可執(zhí)行計劃。這種方法為任務(wù)執(zhí)行中代理的獨立性和適應(yīng)性提供了新的視角。在多代理協(xié)作方面,越來越多地探索將語言模型與動作代理集成。通過將LLMs與在特定環(huán)境中執(zhí)行任務(wù)的代理配對,建立了一個由規(guī)劃器、執(zhí)行器和報告器組成的系統(tǒng)。這種安排顯著提高了復(fù)雜任務(wù)中推理和執(zhí)行的效率。
大型預(yù)訓(xùn)練語言模型領(lǐng)域正在經(jīng)歷一個顯著趨勢:這些模型越來越擅長理解和執(zhí)行復(fù)雜任務(wù),與現(xiàn)實世界場景緊密對齊。這一進步不僅強調(diào)了預(yù)訓(xùn)練模型的適應(yīng)性和多功能性,而且預(yù)示著下一代AI的到來。隨著這些技術(shù)的演進,我們預(yù)計創(chuàng)新應(yīng)用將激增,有望徹底改變各個行業(yè)。這些任務(wù)的一個關(guān)鍵方面是利用LLMs強大的語言理解和生成能力進行復(fù)雜推理和決策過程。該領(lǐng)域的每項研究都探索了LLMs在復(fù)雜認知功能中的潛力。許多模型采用自監(jiān)督學(xué)習(xí),有些則結(jié)合微調(diào)以更好地適應(yīng)特定任務(wù)。這種方法使LLMs在下游任務(wù)輔助推理中表現(xiàn)出色,從而做出更精確和定制化的決策。盡管LLMs在復(fù)雜推理和決策中得到廣泛應(yīng)用,但具體的技術(shù)和方法在任務(wù)處理、學(xué)習(xí)策略和反饋機制方面有所不同。這些模型在多種現(xiàn)實世界情境中得到應(yīng)用,包括家庭自動化、機器人導(dǎo)航和任務(wù)規(guī)劃,展示了它們廣泛和不斷發(fā)展的實用性。
3)人-機器人交互:在人-機器人交互領(lǐng)域,AGI語言模型的先進推理能力賦予機器人顯著的泛化能力[79]。這使它們能夠適應(yīng)以前未見環(huán)境和任務(wù)中的新任務(wù)規(guī)劃。此外,LLMs的自然語言理解界面促進了與人類的交流,為人-機器人交互開辟了新的可能性[80]。廣泛的研究強調(diào)了LLMs在輔助智能任務(wù)規(guī)劃方面取得的進展,這反過來又增強了多智能體協(xié)作通信。研究發(fā)現(xiàn),使用自然語言來提高多智能體合作的效率是一種有效的方法來提高通信效率。一個值得注意的例子是OpenAI的ChatGPT,其在機器人應(yīng)用中的能力通過嚴格的實驗進行了評估。研究結(jié)果顯示,ChatGPT在邏輯、幾何和數(shù)學(xué)推理等復(fù)雜任務(wù)方面表現(xiàn)出色,以及空中導(dǎo)航、操作和控制具體化代理[48]。它通過自由形式的對話、解析XML標簽和合成代碼等技術(shù)實現(xiàn)了這一點。此外,ChatGPT允許通過自然語言命令進行用戶交互,為開發(fā)與人類以自然和直觀方式交互的創(chuàng)新機器人系統(tǒng)提供了重要的指導(dǎo)和見解。同樣,提出了一個利用大規(guī)模語言模型進行協(xié)作具體化智能的框架[81]。該框架使語言模型能夠用于高效規(guī)劃和通信,促進各種智能體和人類之間的協(xié)作,共同應(yīng)對復(fù)雜任務(wù)。實驗結(jié)果表明,這種方法在該領(lǐng)域的傳統(tǒng)方法中表現(xiàn)顯著優(yōu)越。
B. 操控
1) 自然語言理解:在機器人控制領(lǐng)域,LLMs的自然語言理解能力可以幫助機器人進行常識分析。例如,LLM-GROP展示了如何從LLM中提取語義信息,并將其用作在復(fù)雜環(huán)境中響應(yīng)自然語言命令執(zhí)行多步驟任務(wù)和運動規(guī)劃器中關(guān)于對象放置的常識性、語義上有效的決策[82]。該研究提出了一個將語言置于智能體核心的框架[83]。通過利用這些模型中包含的先驗知識,可以設(shè)計出更好的機器人代理,它們能夠在現(xiàn)實世界中直接解決具有挑戰(zhàn)性的任務(wù)。通過一系列實驗,展示了該框架如何利用底層模型的知識和功能,以更高的效率和多功能性解決各種問題。同時,該研究引入了Linguistically Conditional Collision Function (LACO),這是一種使用單視圖圖像、語言提示和機器人配置學(xué)習(xí)碰撞函數(shù)的新方法。LACO預(yù)測機器人與環(huán)境之間的碰撞,使得靈活的條件路徑規(guī)劃成為可能[84]。
除了自然語言理解能力外,LLM的強大推理能力也扮演著突出的角色。例如,在VIMA工作[85]中,引入了一種新的多模態(tài)提示公式,將不同的機器人操控任務(wù)轉(zhuǎn)化為統(tǒng)一的序列建模問題,并在具有多模態(tài)任務(wù)和系統(tǒng)泛化評估協(xié)議的多樣化基準中實例化。實驗表明,VIMA能夠使用單一模型解決視覺目標實現(xiàn)、一次性視頻模仿和新穎概念基礎(chǔ)等任務(wù),具有強大的模型可擴展性和零樣本泛化能力。同樣,TIP提出了Text-Image Cueing[86],這是一種雙模態(tài)提示框架,將LLMs連接到多模態(tài)生成模型,以合理生成多模態(tài)程序計劃。除了提示方法外,在機器人控制領(lǐng)域,基于預(yù)訓(xùn)練LMs的下游任務(wù)微調(diào)也是一種常見方法。例如,該工作展示了預(yù)訓(xùn)練的視覺語言表示可以有效提高現(xiàn)有探索方法的樣本效率[87]。R3M研究了如何在不同的人類視頻數(shù)據(jù)上預(yù)訓(xùn)練視覺表示,以實現(xiàn)下游機器人操控任務(wù)的數(shù)據(jù)高效學(xué)習(xí)[88]。LIV在大型泛化人類視頻數(shù)據(jù)集上進行訓(xùn)練,并在小型機器人數(shù)據(jù)集上進行微調(diào),微調(diào)后在三個不同的評估設(shè)置中超越了最先進的方法,并成功執(zhí)行了現(xiàn)實世界的機器人任務(wù)[89]。
這一系列研究共同展示了LLMs和自然語言理解技術(shù)在推進機器人智能方面的重要角色,特別是在理解和執(zhí)行復(fù)雜的基于語言的任務(wù)方面。這些研究的一個關(guān)鍵重點是模型泛化的重要性以及將這些模型應(yīng)用于不同領(lǐng)域能力。每項研究雖然共享這一共同主題,但在其特定的關(guān)注點和應(yīng)用方法論上有所不同。例如,LLM-GROP專注于語義信息的提取和應(yīng)用。相比之下,VIMA和TIP專注于無先前示例的多模態(tài)處理和學(xué)習(xí)。此外,微調(diào)預(yù)訓(xùn)練LMs的方法旨在提高應(yīng)用效率和任務(wù)特定優(yōu)化??偟膩碚f,這些研究表明,將復(fù)雜的NLP技術(shù)與機器學(xué)習(xí)策略相結(jié)合,可以大大提高機器人系統(tǒng)的效率,特別是在其理解和執(zhí)行復(fù)雜任務(wù)的能力方面。這一進步是實現(xiàn)機器人操控中更大智能和自主性的關(guān)鍵一步。
2) 交互策略:在交互策略領(lǐng)域,TEXT2REWARD框架引入了一種使用LLMs生成交互式獎勵代碼的創(chuàng)新方法[83]。該方法自動產(chǎn)生密集的獎勵代碼,增強了強化學(xué)習(xí)。此外,通過利用大型語言模型定義可以優(yōu)化以完成各種機器人任務(wù)的獎勵參數(shù),可以有效彌合高級語言指令或糾正與低級機器人行動之間的差距。語言模型生成的獎勵作為中間接口,使得高級指令和機器人的低級行動之間的無縫通信和協(xié)調(diào)成為可能[90]。此外,VoxPoser展示了一個多功能的機器人操控框架[64],其特點是能夠直接從LLMs中提取可操作性和約束。這種方法顯著提高了機器人對開放式指令和多樣化對象的適應(yīng)性。通過將LLMs與視覺-語言模型集成,并利用在線交互,VoxPoser高效地學(xué)習(xí)與復(fù)雜任務(wù)動態(tài)模型互動。LLMs的應(yīng)用也擴展到了人-機器人交互。LILAC系統(tǒng)通過一個可擴展的[63]、由語言驅(qū)動的人機交互機制來實現(xiàn)這一點。它將自然語言話語翻譯成低維控制空間中的可執(zhí)行命令,使得機器人的精確和用戶友好的指導(dǎo)成為可能。重要的是,每個用戶的糾正都會完善這個控制空間,允許越來越針對性和準確的命令。InstructRL提供了另一個旨在增強人-AI協(xié)作的創(chuàng)新框架[91]。它專注于訓(xùn)練強化學(xué)習(xí)代理來解釋和執(zhí)行人類提供的自然語言指令。該系統(tǒng)使用LLMs根據(jù)這些指令制定初始策略,引導(dǎo)強化學(xué)習(xí)代理實現(xiàn)協(xié)調(diào)的最佳平衡。最后,對于基于語言的人機界面,已經(jīng)開發(fā)了一種新的、靈活的界面LILAC。它允許用戶使用文本輸入和場景圖像改變機器人軌跡[92]。該系統(tǒng)協(xié)同預(yù)訓(xùn)練的語言和圖像模型,如BERT和CLIP,使用變換器編碼器和解碼器在3D和速度空間中操縱機器人軌跡。這種方法在模擬環(huán)境中證明是有效的,并通過實際應(yīng)用展示了其實用性。
所有這些技術(shù)和方法在不同程度上依賴于先進的語言建模來增強人-機器人交互和機器人控制。它們共同強調(diào)了LLMs在解釋和執(zhí)行人類意圖方面的關(guān)鍵作用。每種方法都旨在提高機器人的適應(yīng)性和靈活性,使它們能夠更有效地處理多樣化的任務(wù)和環(huán)境。具體來說,TEXT2REWARD專注于生成和優(yōu)化獎勵代碼,提高了強化學(xué)習(xí)策略的效力。相反,VoxPoser專注于從LLMs中提取操作符和約束。與此同時,LILAC和InstructRL采用不同的方法來解釋和執(zhí)行自然語言命令。LILAC優(yōu)先考慮將話語映射到控制空間,而StructRL致力于訓(xùn)練強化學(xué)習(xí)代理理解和遵循自然語言指令。此外,最后討論的基于語言的人機交互研究探討了如何直接從文本和圖像中提取用戶意圖,并將其應(yīng)用于各種機器人平臺。這一方面使其與其他可能不包含此功能的方法有所不同??偟膩碚f,這些研究標志著將LLMs技術(shù)整合到機器人學(xué)中的重大進步。雖然它們的應(yīng)用領(lǐng)域和方法論有不同的焦點,但它們都展示了人工智能創(chuàng)新的潛力。此外,它們?yōu)槲磥砣?機器人交互的探索鋪平了道路。
3) 模塊化方法:最近在機器人控制方面的進展強調(diào)了模塊化方法,允許創(chuàng)建更復(fù)雜和功能豐富的機器人系統(tǒng)。最近的研究突出了這一趨勢的關(guān)鍵方面。PROGRAMPORT提出了一個以程序為基礎(chǔ)的模塊化框架,專注于機器人操控[93]。它通過將自然語言的語義結(jié)構(gòu)翻譯成編程元素來解釋和執(zhí)行語言概念。該框架包括在學(xué)習(xí)和掌握一般視覺概念和特定任務(wù)操作策略方面表現(xiàn)出色的神經(jīng)模塊。這種結(jié)構(gòu)化方法明顯增強了對視覺基礎(chǔ)和操作策略的學(xué)習(xí),提高了對未見樣本和合成環(huán)境的泛化能力。接下來,研究人員探索了使用LLMs來加速機器人系統(tǒng)策略適應(yīng)的方法[94],特別是在遇到新工具時。通過生成幾何形狀和描述性工具模型,然后將這些轉(zhuǎn)換為向量表示,LLMs促進了快速適應(yīng)。這種語言信息和元學(xué)習(xí)的整合在適應(yīng)不熟悉工具方面表現(xiàn)出顯著的性能提升。
此外,將基于ViLD和CLIP的視覺語言模型NLMap[95]與SayCan框架相結(jié)合,導(dǎo)致了更靈活的場景表示。這種結(jié)合對于長期規(guī)劃特別有效,尤其是在開放世界場景中處理自然語言命令時。NLMap增強了基于LLM的規(guī)劃器理解其環(huán)境的能力。"Scaling Up and Distilling Down"框架結(jié)合了LLMs[96]、基于采樣的規(guī)劃器和策略學(xué)習(xí)的優(yōu)勢。它自動化了生成、標記和提取豐富的機器人探索經(jīng)驗到一個多功能的視覺-語言運動策略中。這種多任務(wù)策略不僅繼承了長期行為和穩(wěn)健的操控技能,而且在訓(xùn)練分布之外的場景中也表現(xiàn)出改善的性能。
MetaMorph介紹了一種基于變換器的方法,用于學(xué)習(xí)適用于廣泛的模塊化機器人設(shè)計空間的通用控制器[97]。這種方法使得機器人形態(tài)可以作為變換器模型的輸出。通過在多樣化的形態(tài)上進行預(yù)訓(xùn)練,通過這種方法生成的策略展示了對新形態(tài)和任務(wù)的廣泛泛化能力。這展示了在機器人學(xué)中進行廣泛的預(yù)訓(xùn)練和微調(diào)的潛力,類似于視覺和語言領(lǐng)域的發(fā)展。
在這些研究中的每一項中,都采用了模塊化方法,增強了系統(tǒng)對新任務(wù)和環(huán)境的靈活性和適應(yīng)性。這些工作廣泛利用深度學(xué)習(xí)技術(shù),特別是與LLMs協(xié)同作用,以增強機器人系統(tǒng)的理解和決策能力。此外,這些研究的一個重要焦點是應(yīng)用NLP。這無論是通過直接解釋語言命令,還是通過語言豐富的學(xué)習(xí)和適應(yīng)過程都顯而易見。主要目標是提高機器人在新環(huán)境和任務(wù)中快速泛化和適應(yīng)的能力。雖然所有研究都采用了深度學(xué)習(xí)和LLMs,但它們的具體實現(xiàn)和應(yīng)用是多樣的。有些集中在語言描述和理解上,而其他研究探索視覺和語言的融合。研究目標各不相同,從適應(yīng)新工具,到長期戰(zhàn)略規(guī)劃,到多形態(tài)機器人控制的挑戰(zhàn)。盡管技術(shù)方法、應(yīng)用領(lǐng)域和目標任務(wù)存在差異,但每項研究都顯著地為推進機器人系統(tǒng)的智能和適應(yīng)能力做出了貢獻。
C. 推理
1) 自然語言理解:在機器人推理任務(wù)領(lǐng)域,基于自然語言理解的LLMs作為一個重要的知識庫,為各種任務(wù)提供常識性洞察,這一點至關(guān)重要。廣泛的研究表明,LLMs有效地模擬了類似人類的狀態(tài)和行為,特別是在研究執(zhí)行家庭清潔功能的機器人時尤為相關(guān)。這種方法偏離了傳統(tǒng)方法,后者通常需要昂貴的數(shù)據(jù)收集和模型訓(xùn)練。相反,LLMs利用現(xiàn)成的方法在機器人學(xué)中進行泛化,從廣泛的文本數(shù)據(jù)分析中受益于其強大的總結(jié)能力。此外,LLMs的常識推理和代碼理解能力促進了機器人與物理世界之間的聯(lián)系。例如,Progprompt在LLMs中引入編程語言特性已被證明可以提高任務(wù)性能。這種方法不僅直觀,而且足夠靈活,能夠適應(yīng)新的場景、代理和任務(wù),包括實際的機器人部署[98]。同時,GIRAF利用大型語言模型的強大能力,更加靈活地解釋手勢和語言命令,使得能夠準確推斷人類意圖并為更有效的人機協(xié)作對手勢含義進行情境化[99]。
在這一領(lǐng)域的一個創(chuàng)新發(fā)展是Cap(代碼作為策略)[47],它主張以機器人為中心的語言模型生成程序。這些程序可以適應(yīng)機器人操作棧的特定層:解釋自然語言命令、處理感知數(shù)據(jù)以及為原始語言控制參數(shù)化低維輸入。這種方法的基本原則是分層代碼生成促進了更復(fù)雜代碼的創(chuàng)建,從而推進了這一領(lǐng)域的最新技術(shù)。
無論是家庭清潔應(yīng)用還是Cap中的以機器人為中心的語言模型生成程序,都突出了LLMs在提供常識知識和解釋自然語言指令方面的優(yōu)勢。傳統(tǒng)機器人學(xué)通常需要廣泛的數(shù)據(jù)收集和專門的模型訓(xùn)練。相比之下,LLMs通過利用其在文本數(shù)據(jù)上的廣泛訓(xùn)練來減輕這種需求。LLMs的代碼理解和生成能力尤其關(guān)鍵,使機器人能夠更有效地與物理世界互動并執(zhí)行復(fù)雜任務(wù)。然而,應(yīng)用重點有所區(qū)別:家庭清潔功能傾向于強調(diào)日常任務(wù)和環(huán)境適應(yīng)性,而Cap則專注于通過語言模型生成程序(LMPs)編程和控制機器人的更技術(shù)性行為。
總之,將LLMs整合到機器人推理任務(wù)中強調(diào)了它們在自然語言理解、常識知識提供以及代碼理解和生成方面的顯著能力。這些特性不僅減輕了與傳統(tǒng)機器人學(xué)相關(guān)的數(shù)據(jù)收集和模型訓(xùn)練負擔,還提高了機器人的泛化能力和靈活性。通過充分的訓(xùn)練和調(diào)整,LLMs可以應(yīng)用于各種場景和任務(wù),展示了它們在機器人學(xué)和人工智能未來的巨大潛力和廣泛的適用性。
2) 復(fù)雜任務(wù)推理和決策:在復(fù)雜任務(wù)推理和決策領(lǐng)域,各種研究已經(jīng)利用LLMs的推理能力來增強特定下游任務(wù)的精細化。例如,SayCan利用LLMs中嵌入的廣泛知識進行具體化任務(wù)以及強化學(xué)習(xí)[61]。這種方法涉及使用強化學(xué)習(xí)來揭示有關(guān)個人技能價值函數(shù)的見解。然后,它使用這些技能的文本標簽作為潛在響應(yīng),而LLM為任務(wù)完成提供總體語義指導(dǎo)。
另一個值得注意的發(fā)展是Instruct2Act框架[100]。它提供了一個用戶友好的、通用的機器人系統(tǒng),該系統(tǒng)使用LLMs將多模態(tài)命令轉(zhuǎn)換為機器人領(lǐng)域中的一系列動作。該系統(tǒng)使用LLM生成的策略代碼,這些代碼對各種視覺基礎(chǔ)模型進行API調(diào)用,從而獲得對任務(wù)集的視覺理解。
LLMs在自我規(guī)劃和PDDL(規(guī)劃領(lǐng)域定義語言)規(guī)劃中的使用也已經(jīng)被探索[101]。已經(jīng)證明,LLM輸出可以有效地指導(dǎo)啟發(fā)式搜索規(guī)劃器。
在失敗解釋和糾正任務(wù)領(lǐng)域,REFLECT框架利用機器人過去經(jīng)驗的層次化總結(jié),這些經(jīng)驗是從多感官觀察生成的,來查詢LLM進行失敗推理[102]。獲得的失敗解釋然后可以指導(dǎo)基于語言的規(guī)劃器糾正失敗并成功完成任務(wù)。
此外,預(yù)訓(xùn)練多模態(tài)模型的適應(yīng)也是一種常見策略。通過將視覺-語言模型的預(yù)訓(xùn)練與機器人數(shù)據(jù)集成,以訓(xùn)練視覺-語言-行動(VLA)模型[62],研究人員發(fā)現(xiàn),經(jīng)過互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的模型,參數(shù)高達550億,可以生成高效的機器人策略。這些模型表現(xiàn)出增強的泛化性能,并受益于網(wǎng)絡(luò)上可用的廣泛的視覺-語言預(yù)訓(xùn)練能力。
Socratic Models代表了另一種方法[67],其中多個大型預(yù)訓(xùn)練模型之間的結(jié)構(gòu)化對話促進了新多模態(tài)任務(wù)的聯(lián)合預(yù)測。這種方法在多個任務(wù)中實現(xiàn)了零次射擊性能。
在這些研究中,主要的重點是利用LLMs自動化推理和決策過程。這是通過利用LLMs提供或利用高級語義知識的能力來實現(xiàn)的,從而增強了任務(wù)執(zhí)行。有些方法將LLMs與其他模態(tài)集成,如視覺和行動,以加深任務(wù)理解和執(zhí)行。其他方法展示了在以前未見的任務(wù)上的有效性能,展示了零次或少次學(xué)習(xí)的能力。
每項研究采用了獨特的方法來整合LLMs。例如,SayCan結(jié)合了強化學(xué)習(xí),而Instruct2Act則集中在直接映射多模態(tài)指令上。所采用的技術(shù)——從強化學(xué)習(xí)和啟發(fā)式搜索到多模態(tài)預(yù)訓(xùn)練——在不同的應(yīng)用領(lǐng)域,如機器人操控、規(guī)劃和自動決策制定中差異顯著。這些研究共同展示了LLMs在管理復(fù)雜任務(wù)推理和決策方面的巨大潛力。通過將LLMs與其他技術(shù)(如強化學(xué)習(xí)和多模態(tài)數(shù)據(jù)處理)結(jié)合起來,可以實現(xiàn)更深層次的語義理解和更有效的決策支持。這在機器人學(xué)和自動化領(lǐng)域尤為明顯,這種整合方法為新應(yīng)用鋪平了道路。然而,這些方法的有效性高度依賴于任務(wù)的具體性質(zhì)、所使用的數(shù)據(jù)和模型訓(xùn)練方法。因此,每種方法的選擇和應(yīng)用必須仔細針對特定上下文進行定制。
3) 交互策略:LLMs的最新進展在交互策略的發(fā)展中做出了重大貢獻,展示了在語言生成和類似人類推理方面的印象能力。Matcha[103]利用LLMs增強了交互式多模態(tài)感知,展示了LLMs在理解各種類型的輸入數(shù)據(jù)(如視覺和聽覺)方面的潛力。這種方法提出了一個增強的LLM多模態(tài)交互代理。這個代理不僅利用LLMs中固有的常識知識進行更合理的交互式多模態(tài)感知,而且還展示了LLMs在進行這種感知和解釋行為方面的實際應(yīng)用。
生成性代理,如所介紹的,是為了模擬人類行為而設(shè)計的交互計算代理[104]。這些代理的架構(gòu)被設(shè)計成存儲、合成和應(yīng)用相關(guān)記憶,從而使用大型語言模型生成合理的行為。將LLMs與這些計算代理集成,促進了先進架構(gòu)和交互模式的創(chuàng)建。這種結(jié)合使得更真實的人類行為模擬成為可能,擴展了LLMs的潛在應(yīng)用。
基于LLMs的交互策略的重點是將LLMs與其他感知系統(tǒng)(如圖像識別和語音處理)融合。這種融合旨在模仿或增強人類能力,提高認知和處理能力。這種進步在智能助理、機器人和增強現(xiàn)實系統(tǒng)領(lǐng)域有著深遠的影響。
在討論的工作中,特別強調(diào)了多模態(tài)感知,重點是提高系統(tǒng)理解和與其環(huán)境互動的能力。此外,人類行為的模擬旨在在人工智能中復(fù)制人類的思維和行動過程。這兩個方向的融合有望創(chuàng)造出更強大、更通用的智能系統(tǒng)。這些系統(tǒng)被設(shè)想能夠以更復(fù)雜和人性化的水平與人類互動,提出了重大的技術(shù)挑戰(zhàn),并引發(fā)了關(guān)鍵的倫理和社會適應(yīng)問題。
IV. GPT-4V賦能的具體化任務(wù)規(guī)劃
基于前述對具體化任務(wù)和LLMs的調(diào)查,我們在本研究中開發(fā)了一個基于GPT-4V的具體化任務(wù)規(guī)劃框架,并進行了評估實驗,如圖1所示。以下部分將提供有關(guān)數(shù)據(jù)集、提示設(shè)計和實驗結(jié)果的詳細信息。
A. 數(shù)據(jù)集
為了全面評估GPT-4V的多模態(tài)具體化任務(wù)規(guī)劃能力,我們選擇了來自9個數(shù)據(jù)集的40多個案例,重點關(guān)注操控和抓取。這些動作在遵循指令的機器人學(xué)中是基礎(chǔ),涉及多種人類指令在不同場景中的應(yīng)用,如廚房取物和桌面重新排列。所選數(shù)據(jù)集通過谷歌開放XEmbodiment數(shù)據(jù)集[49]訪問。在每個案例中,視頻演示和自然語言指令作為輸入,評估GPT-4V作為機器人大腦的能力。這種設(shè)置使得基于自然語言指令的健壯規(guī)劃成為可能,用于生成機器人動作。
B. 提示設(shè)計
提示設(shè)計在查詢LLMs時起著至關(guān)重要的作用。一個精心制作的、信息豐富且結(jié)構(gòu)清晰的提示,能夠產(chǎn)生更精確和一致的輸出,與給定指令相符合。在這里,我們通過結(jié)合圖像更新了[114]中的文本提示,創(chuàng)建了一個多模態(tài)提示,引導(dǎo)GPT-4V生成機器人任務(wù)計劃。多模態(tài)提示由五部分組成:
? 系統(tǒng)角色說明:指定任務(wù)和GPT-4V在其響應(yīng)中采用的角色。
? 預(yù)定義動作池:一組預(yù)定義的機器人動作,GPT-4V可以從中選擇和排序,逐步完成任務(wù)。為解決詞匯限制,必要時提示GPT-4V創(chuàng)建新動作。
? 示例輸出:一個JSON格式的示例,用于說明預(yù)期輸出并確保一致性。
? 案例環(huán)境圖像和自然語言指令:包括從視頻演示中提取的第一幀作為環(huán)境圖像。
? 評估:GPT-4V負責(zé)根據(jù)與視頻演示的一致性對生成的任務(wù)計劃進行評估,并提供解釋。
前三部分作為每個查詢的系統(tǒng)消息輸入,而最后兩部分作為用戶消息根據(jù)測試數(shù)據(jù)變化。完整的提示如圖附錄4所示。
V. 實驗結(jié)果
在我們的實驗框架中,大型語言模型(LLMs)首先生成針對每個機器人任務(wù)目標的逐步指令。隨后,在這個生成的指令的指導(dǎo)下,模型從預(yù)定義的動作池和動作對象中選擇最合適的動作,形成每個步驟的動作計劃。在獲得LLMs生成的指令后,我們通過將它們與相應(yīng)視頻數(shù)據(jù)集中的Ground Truth指令進行比較,對生成的結(jié)果進行了定量評估。我們在9個公開可用的機器人數(shù)據(jù)集上進行了嚴格的測試,得出了深刻且富有洞察力的發(fā)現(xiàn)。
例如,在RT-1 Robot Action [105]數(shù)據(jù)集中,如圖2頂部面板所示,多模態(tài)LLMs準確識別了目標對象,并熟練地分解和執(zhí)行了任務(wù)。如圖2左上角所示,基于給定的環(huán)境和指令,LLMs生成的指令如下:1) 將手移動到底層抽屜中目標的位置;2) 抓住目標;3) 將手帶著目標移動到柜臺上;4) 在柜臺上釋放目標。在提供詳細的逐步文本指令后,LLMs從動作池中選擇并列出一組符合當前策略的指令和對象。例如,“移動手(底層抽屜)”是第一項文本指令的功能表達,便于后續(xù)直接使用這個動作計劃與控制機器人臂的接口代碼。此外,通過LLMs生成的“環(huán)境狀態(tài)”,可以明顯看出模型能夠有效理解一系列操作后環(huán)境中關(guān)鍵對象空間關(guān)系的變化。圖2中的“匹配得分”也展示了模型的精確度。
表 I數(shù)據(jù)集描述以及GPT-4V自評的平均匹配得分,比較它生成的任務(wù)計劃與九個測試數(shù)據(jù)集中的真實演示。
圖 2. 不同數(shù)據(jù)集生成的任務(wù)計劃:RT-1 機器人動作(頂部面板)、QT-Opt(左中)、伯克利橋(右中)、弗萊堡Franka游戲(底部左)和南加州大學(xué)Jaco游戲(底部右)。
在上述測試案例中,場景涉及的對象較少,任務(wù)指令相對簡潔明了。因此,我們進一步進行了涉及語義模糊任務(wù)描述和復(fù)雜場景的測試。圖2左中代表了一個來自QT-Opt數(shù)據(jù)集[106]的測試案例,其中指令簡單地是“拿起任何東西”,沒有指定場景中的任何實體。從LLMs生成的結(jié)果來看,它產(chǎn)生了一系列的通用指令,適用于抓取任何物體,并與地面真相保持高度一致性。對于復(fù)雜場景,如圖2右中所示,我們測試了一個來自伯克利橋數(shù)據(jù)集[107]的示例案例。輸入指令“將銀鍋從紅色罐頭前面的移動到桌子前沿藍色毛巾旁邊”涉及多個對象及其在場景中的空間關(guān)系。在這里,LLMs不僅理解了任務(wù)的目的,還熟練地執(zhí)行了任務(wù)細節(jié),展示了它們先進的圖像理解和邏輯推理能力。
圖2和圖3展示了LLMs在多樣化和復(fù)雜場景中的有效性的進一步證據(jù)(包括數(shù)據(jù)集[108]–[113])。在這些實驗中,LLMs表現(xiàn)出色,即使在設(shè)置復(fù)雜或有特殊要求的任務(wù)中也是如此。表I展示了GPT-4V在九個不同數(shù)據(jù)集中自我評估的平均匹配得分,表明生成的任務(wù)計劃與地面真相演示之間具有一致的高水平一致性。這鞏固了我們方法的有效性,并強調(diào)了多模態(tài)LLMs在機器人任務(wù)執(zhí)行中的強大的圖像理解和邏輯推理能力。其他測試結(jié)果可以在附錄中找到。
圖 3. 不同數(shù)據(jù)集生成的任務(wù)計劃:伯克利Autolab UR5(左上)、紐約大學(xué)Vinn(右上)、BC-Z(左下)和TOTO基準測試(右下)。
VI. 局限性、討論和未來工作
我們概述了將大型語言模型(LLMs)整合到各種任務(wù)和環(huán)境中的機器人系統(tǒng),并評估了GPT-4V在多模態(tài)任務(wù)規(guī)劃中的表現(xiàn)。盡管GPT-4V作為任務(wù)規(guī)劃的機器人大腦展示了令人印象深刻的多模態(tài)推理和理解能力,但它面臨幾個局限性:1)生成的計劃是同質(zhì)化的,缺乏詳細的具體化和特定、穩(wěn)健的設(shè)計來管理復(fù)雜環(huán)境和任務(wù)。2)當前的多模態(tài)LLMs,如GPT-4V和Google Gemini [28],需要精心制作的、冗長的提示來產(chǎn)生可靠的輸出,這需要領(lǐng)域?qū)I(yè)知識和廣泛的技巧。3)機器人受到預(yù)定義動作的限制,限制了其執(zhí)行自由和穩(wěn)健性。4)GPT-4V API的閉源性質(zhì)及相關(guān)的時間延遲可能會阻礙嵌入式系統(tǒng)開發(fā)和實時商業(yè)應(yīng)用。未來的研究應(yīng)該旨在解決這些挑戰(zhàn),以開發(fā)更穩(wěn)健的AGI機器人系統(tǒng)。
另一方面,多模態(tài)GPT-4V在機器人學(xué)中展示的先進推理和視覺語言理解能力突顯了以LLM為中心的AGI機器人系統(tǒng)的潛力。展望未來,以多模態(tài)LLM為中心的AGI機器人在各個領(lǐng)域都有應(yīng)用潛力。在精準農(nóng)業(yè)領(lǐng)域,這些機器人可以取代人類在各種勞動密集型任務(wù)中的勞動力,尤其是在收獲方面。這包括像水果采摘和作物表型分析[115],[116]這樣的任務(wù),這些任務(wù)需要在農(nóng)場復(fù)雜的環(huán)境下進行高級推理和精確行動[117]。在醫(yī)療保健領(lǐng)域,對安全和精確性的關(guān)鍵需求對多模態(tài)LLM的感知和推理能力提出了更高的要求。這一點在機器人輔助篩查和手術(shù)中尤為重要,因為需要根據(jù)個人需求定制任務(wù)[118]。此外,利用對比學(xué)習(xí)模型如CLIP[119]將大腦信號與自然語言對齊,為開發(fā)以LLM為中心的AGI機器人系統(tǒng)中的腦-機接口(BCIs)[120]提供了一條路徑。這些系統(tǒng)能夠讀取和解釋人類大腦信號,如EEG和fMRI,用于復(fù)雜任務(wù)完成中的自我規(guī)劃和控制[80],[121]。這一進步可以顯著縮小人-環(huán)境互動的差距,減輕身體和認知勞動。
VII. 結(jié)論
在本文中,我們提供了將大型語言模型(LLMs)整合到各種機器人系統(tǒng)和任務(wù)的概述。我們的分析顯示,LLMs展示了令人印象深刻的推理、語言理解和多模態(tài)處理能力,這些能力可以顯著增強機器人對指令、環(huán)境和所需行動的理解。我們在9個數(shù)據(jù)集的30多個案例中評估了最近發(fā)布的GPT-4V模型進行具體化任務(wù)規(guī)劃。結(jié)果表明,GPT-4V能夠有效利用自然語言指令和視覺感知來生成詳細的行動計劃,以完成操控任務(wù)。這表明使用多模態(tài)LLMs作為具體化智能的機器人大腦是可行的。
然而,關(guān)于模型透明度、穩(wěn)健性、安全性和現(xiàn)實世界適用性的一些挑戰(zhàn)仍然需要解決,因為我們正在朝著更實用和有能力的基于LLM的AI系統(tǒng)邁進。具體來說,大型神經(jīng)模型的黑盒性質(zhì)使得很難完全理解它們的內(nèi)部推理過程和失敗模式。此外,模擬與現(xiàn)實世界之間的差距在不降低性能的情況下轉(zhuǎn)移策略方面持續(xù)存在困難。仍然需要通過標準化測試、對抗性訓(xùn)練、策略適應(yīng)方法和更安全的模型架構(gòu)等技術(shù)來解決這些問題。依賴LLMs的自主智能系統(tǒng)的問責(zé)和監(jiān)督協(xié)議也需要深思熟慮。以謹慎、道德和社會負責(zé)的方式克服這些多方面的挑戰(zhàn)仍然是推進這一領(lǐng)域進步的必要條件。
隨著語言模型繼續(xù)從多模態(tài)數(shù)據(jù)中積累廣泛的基礎(chǔ)知識,我們預(yù)計在將它們與機器人學(xué)和基于模擬的學(xué)習(xí)整合方面將迅速創(chuàng)新。這可以在部署前使用模擬到現(xiàn)實技術(shù)在模擬中直觀地開發(fā)和驗證智能機器人。這樣的發(fā)展可以深刻增強和轉(zhuǎn)變我們構(gòu)建、測試和部署智能機器人系統(tǒng)的方式。
總體而言,自然語言處理和機器人學(xué)的協(xié)同整合是一個充滿機遇和挑戰(zhàn)的有前景的領(lǐng)域,值得進行廣泛的未來跨學(xué)科研究。
Jiaqi Wang?, Zihao Wu?, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu,Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao,Bao Ge, Xiang Li, Tianming Liu?, and Shu Zhang?
西北工大、美國佐治亞大學(xué)等,2024.01,JOURNAL OF LATEX CLASS FILES
?
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/T_vqm2kl239uwxDL2CNBAg??
