自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型在機(jī)器人領(lǐng)域的應(yīng)用:機(jī)遇、挑戰(zhàn)與前景 原創(chuàng) 精華

發(fā)布于 2024-9-3 14:32
瀏覽
0收藏

摘要: 大型語言模型(LLMs)已經(jīng)顯著擴(kuò)展,并逐漸融入各個領(lǐng)域。在機(jī)器人任務(wù)規(guī)劃中,LLMs利用其先進(jìn)的推理和語言理解能力,基于自然語言指令制定精準(zhǔn)高效的行動計劃。然而,對于需要與復(fù)雜環(huán)境交互的具體任務(wù),僅限于文本的LLMs在與機(jī)器人視覺感知的兼容性方面往往面臨挑戰(zhàn)。本研究全面概述了LLMs和多模態(tài)LLMs在各種機(jī)器人任務(wù)中的新興應(yīng)用。此外,我們提出了一個利用多模態(tài)GPT-4V增強(qiáng)具體任務(wù)規(guī)劃的框架,通過結(jié)合自然語言指令和機(jī)器人視覺感知,提升機(jī)器人在具體任務(wù)中的表現(xiàn)?;诙鄻踊瘮?shù)據(jù)集的結(jié)果表明,GPT-4V有效提升了機(jī)器人在具體任務(wù)中的表現(xiàn)。這項對LLMs和多模態(tài)LLMs在多種機(jī)器人任務(wù)中的廣泛調(diào)查和評估豐富了對LLM為中心的具體現(xiàn)智能的理解,并為彌合人-機(jī)-環(huán)境交互中的差距提供了前瞻性見解。

I. 介紹

隨著預(yù)訓(xùn)練模型在模型規(guī)模和數(shù)據(jù)量上的擴(kuò)展,一些大型預(yù)訓(xùn)練模型在一系列復(fù)雜任務(wù)中展現(xiàn)出了顯著的能力。大型語言模型(LLMs)因其出色的上下文推理能力在各個領(lǐng)域得到了廣泛關(guān)注。這種新興的能力使人工智能算法以前所未有的方式發(fā)揮作用,重新塑造了人們利用人工智能算法的方式,并促使人們重新評估通用人工智能(AGI)的可能性。

隨著LLMs的快速發(fā)展,指令微調(diào)和對齊微調(diào)已經(jīng)成為將其適配于特定目標(biāo)的主要方法。在自然語言處理(NLP)領(lǐng)域,LLMs在一定程度上可以作為一種通用的語言相關(guān)任務(wù)的解決方案。這些基于Transformer的大型模型在多個領(lǐng)域中取得了非凡的成就,深刻地改變了人工智能的最新發(fā)展現(xiàn)狀。研究范式也轉(zhuǎn)向了利用這些模型來解決子領(lǐng)域特定的問題。在計算機(jī)視覺(CV)領(lǐng)域,研究人員也在開發(fā)類似于GPT-4和Gemini的大型模型,這些模型結(jié)合了視覺和語言信息,從而支持多模態(tài)輸入。這種增強(qiáng)LLMs的策略不僅提高了它們在下游任務(wù)中的表現(xiàn),還為機(jī)器人技術(shù)的發(fā)展提供了重要的指導(dǎo),確保其與人類價值觀和偏好的對齊。這種方法已經(jīng)在許多領(lǐng)域廣泛采用,甚至在卷積神經(jīng)網(wǎng)絡(luò)(CNN)一直主導(dǎo)的領(lǐng)域也是如此。

LLMs處理和內(nèi)化大量文本數(shù)據(jù)的能力為增強(qiáng)機(jī)器的理解和自然語言分析能力提供了前所未有的潛力。這種能力擴(kuò)展到理解如手冊和技術(shù)指南等文檔,并將這些知識應(yīng)用于進(jìn)行連貫、準(zhǔn)確且符合人類需求的對話中。通過對話,自然語言指令從文本提示被轉(zhuǎn)化為機(jī)器可理解的代碼,從而觸發(fā)相應(yīng)的動作,使機(jī)器人在適應(yīng)各種用戶命令方面更加靈活。將現(xiàn)實世界的傳感器模態(tài)整合到語言模型中,有助于建立詞匯與感知之間的聯(lián)系,使其能夠應(yīng)用于各種具體任務(wù)。然而,純文本的LLMs缺乏對物理世界的經(jīng)驗性接觸和觀察的實際結(jié)果,這使得它們在特定環(huán)境中的決策應(yīng)用上面臨挑戰(zhàn)。因此,將多模態(tài)整合到LLMs中對于有效執(zhí)行機(jī)器人任務(wù)至關(guān)重要。此外,機(jī)器人技術(shù)領(lǐng)域呈現(xiàn)出更微妙的任務(wù)變體,不同于NLP和CV領(lǐng)域可以利用來自互聯(lián)網(wǎng)的大量數(shù)據(jù)集,獲取用于機(jī)器人交互的大規(guī)模、多樣化的數(shù)據(jù)集非常困難。這些數(shù)據(jù)集通常要么集中于單一環(huán)境和物體,要么強(qiáng)調(diào)特定任務(wù)領(lǐng)域,從而導(dǎo)致它們之間存在顯著差異。這種復(fù)雜性在將LLMs與機(jī)器人技術(shù)結(jié)合時提出了更大的挑戰(zhàn)。

如何克服機(jī)器人技術(shù)帶來的挑戰(zhàn)并利用LLMs在其他領(lǐng)域的成就來推動機(jī)器人領(lǐng)域的發(fā)展,是本綜述中所探討的核心問題。在本文中,工作的貢獻(xiàn)可以總結(jié)為以下四個主要方面:

- 我們細(xì)致地調(diào)查和綜合了現(xiàn)有的LLM在機(jī)器人領(lǐng)域的文獻(xiàn),探討了在三個不同任務(wù)類別(規(guī)劃、操作、推理)中的最新進(jìn)展。

- 我們總結(jié)了LLMs為機(jī)器人領(lǐng)域提供的主要技術(shù)方法,探討了訓(xùn)練通用機(jī)器人策略的潛力,并為該領(lǐng)域的研究人員提供了基礎(chǔ)性的綜述。

- 我們評估了多模態(tài)GPT-4V在不同環(huán)境和場景下的機(jī)器人任務(wù)規(guī)劃的有效性。

- 我們總結(jié)了調(diào)查的主要發(fā)現(xiàn),討論了未來需要解決的重大挑戰(zhàn),并提出了前瞻性的觀點。

大模型在機(jī)器人領(lǐng)域的應(yīng)用:機(jī)遇、挑戰(zhàn)與前景-AI.x社區(qū)

圖1. 提議的GPT-4V增強(qiáng)具體任務(wù)規(guī)劃的框架。我們使用視頻數(shù)據(jù)的初始幀及其相應(yīng)的文本指令作為輸入。我們的框架利用GPT-4V將指令分解為一系列任務(wù)計劃,并從預(yù)定義的動作池中選擇相應(yīng)的表示。同時,我們可以分析與指令相關(guān)的目標(biāo)物體以及指令前后環(huán)境的變化。最后,我們使用GPT-4V將生成的任務(wù)計劃與真實計劃進(jìn)行比較和評分。

(注釋:圖1展示了一個基于GPT-4V的增強(qiáng)具體任務(wù)規(guī)劃框架的工作流程。在這個框架中,視頻數(shù)據(jù)的初始幀及其相應(yīng)的文本指令被用作輸入。GPT-4V利用這些輸入生成任務(wù)計劃,并從預(yù)定義的動作池中選擇合適的動作序列來完成任務(wù)。框架的工作流程可以總結(jié)如下:

1. 輸入:系統(tǒng)接收視頻的第一幀和相應(yīng)的自然語言指令。這些輸入提供了任務(wù)的環(huán)境和目標(biāo)信息。

2. 任務(wù)分解:GPT-4V根據(jù)輸入的自然語言指令,將任務(wù)分解為一系列具體的步驟或動作。這些步驟包括從動作池中選擇合適的動作,并且如果需要,還可以生成新的動作。

3. 動作選擇與序列化:GPT-4V根據(jù)分解的任務(wù)步驟,選擇和排序相應(yīng)的動作,以形成一個完整的任務(wù)計劃。這些動作被組織成一個連貫的序列,指導(dǎo)機(jī)器人執(zhí)行任務(wù)。

4. 環(huán)境和任務(wù)評估:在任務(wù)計劃生成后,GPT-4V會通過“環(huán)境狀態(tài)”對任務(wù)計劃進(jìn)行評估。這包括評估任務(wù)計劃與真實視頻演示的匹配程度,并根據(jù)計劃與視頻的一致性進(jìn)行評分。GPT-4V還會對任務(wù)執(zhí)行后的環(huán)境變化進(jìn)行理解和反饋。

5. 輸出:最終的任務(wù)計劃作為輸出,包括一個按步驟分解的行動方案,以及對任務(wù)計劃和環(huán)境狀態(tài)的評估和評分。

圖1整體上展示了GPT-4V如何在多模態(tài)環(huán)境中利用視覺和語言信息來生成并評估復(fù)雜任務(wù)的執(zhí)行計劃。這個框架展示了GPT-4V在處理機(jī)器人任務(wù)規(guī)劃時的高效性和靈活性,尤其是在結(jié)合視覺和語言提示方面的能力。)

II. 相關(guān)工作

A. 基于LLM的機(jī)器人技術(shù)

基于大型語言模型(LLMs)的機(jī)器人研究取得了顯著進(jìn)展。這些模型表現(xiàn)出了卓越的自然語言理解和常識推理能力,大大增強(qiáng)了機(jī)器人理解上下文和執(zhí)行指令的能力。目前的研究重點在于利用LLMs解析復(fù)雜的上下文和指令,包括解決模糊性、消除歧義以及理解隱含信息。該領(lǐng)域的一個關(guān)鍵進(jìn)展是視覺語言模型的發(fā)展,這些模型顯著提高了諸如視覺問答和圖像字幕生成等任務(wù)的表現(xiàn)。這些進(jìn)步大大提升了機(jī)器人在物理世界中的推理能力,特別是在復(fù)雜命令導(dǎo)航方面。通過視覺語言處理系統(tǒng),機(jī)器人能夠理解圖像內(nèi)容并將其與相關(guān)的語言信息(如圖像描述和命令執(zhí)行)結(jié)合起來。這種多模態(tài)信息處理同樣適用于視聽一體化。

另一個LLM的重要進(jìn)展是在人與機(jī)器人交互中的應(yīng)用,通過互動學(xué)習(xí)過程更好地符合人類的需求和偏好。例如,通過將強(qiáng)化學(xué)習(xí)與人類反饋結(jié)合,機(jī)器人能夠不斷改進(jìn)其任務(wù)執(zhí)行,解決大模型應(yīng)用中遇到的語義模糊問題。通過結(jié)合人類的指導(dǎo)與大型語言模型,機(jī)器人能夠更精確地調(diào)整指令,從而更好地實現(xiàn)自主學(xué)習(xí)和環(huán)境適應(yīng),以實現(xiàn)更精確和針對性的控制。機(jī)器人還可以通過互動學(xué)習(xí)用戶的行為、偏好和需求,從而提供更個性化和定制化的交互體驗。這些進(jìn)展不僅增強(qiáng)了機(jī)器人技術(shù)的實用性,還為未來的人機(jī)交互開辟了新的可能性。

B. 使用LLMs的多模態(tài)任務(wù)規(guī)劃

在LLMs領(lǐng)域中的多模態(tài)任務(wù)規(guī)劃構(gòu)成了一種人工智能學(xué)科的復(fù)雜交叉,結(jié)合了不同的數(shù)據(jù)模態(tài)——如文本、視覺和聽覺輸入——以促進(jìn)更全面和細(xì)致的人工智能驅(qū)動分析。這種跨學(xué)科的方法超越了LLMs傳統(tǒng)上以文本理解和生成為主的界限,開啟了一個時代,這些模型能夠在統(tǒng)一的情況下解釋、關(guān)聯(lián)和處理多個數(shù)據(jù)流。在這種背景下,LLM的角色從簡單的語言處理演變?yōu)橐环N更具整合功能的角色,能夠合成和回應(yīng)復(fù)雜的數(shù)據(jù)交互。

在LLMs的多模態(tài)任務(wù)規(guī)劃領(lǐng)域,最近的進(jìn)展以“內(nèi)部獨白”和“SayCan”等項目為代表,展示了該領(lǐng)域日益復(fù)雜和精致的發(fā)展?!皟?nèi)部獨白”的方法代表了這一領(lǐng)域的重大飛躍,因為它整合了來自環(huán)境的多模態(tài)反饋源。這種整合使得任務(wù)規(guī)劃更加可靠和具有上下文意識,將不同的感官輸入?yún)f(xié)調(diào)起來,以對AI的周圍環(huán)境形成更一致的理解。同樣,“SayCan”框架為LLM應(yīng)用引入了一個新的維度。該系統(tǒng)將LLMs作為模型的“手和眼”,生成最佳的長時間任務(wù)指令,并有效地評估當(dāng)前場景下指令的可執(zhí)行性。這一方法不僅增強(qiáng)了AI理解和與其直接環(huán)境交互的能力,還利用LLMs的細(xì)致理解來規(guī)劃和執(zhí)行復(fù)雜的連續(xù)動作。

將這些先進(jìn)技術(shù)整合到“內(nèi)部獨白”和“SayCan”中,并應(yīng)用于基于LLMs的多模態(tài)任務(wù)規(guī)劃中,標(biāo)志著向創(chuàng)建更能感知多種數(shù)據(jù)流并能夠?qū)⑦@些流綜合為可操作智能的AI系統(tǒng)邁出了重要的一步。這一進(jìn)展指向了一個未來,在這個未來中,AI能夠以更加動態(tài)、上下文感知和自主的方式導(dǎo)航并與現(xiàn)實世界互動,推動了AI驅(qū)動創(chuàng)新和跨學(xué)科融合的可能性邊界。

III. 機(jī)器人任務(wù)的范圍

A. 規(guī)劃

1) 自然語言理解:在機(jī)器人規(guī)劃中,大型語言模型(LLMs)因其先進(jìn)的自然語言理解能力而表現(xiàn)出色。它們將自然語言指令轉(zhuǎn)化為可執(zhí)行的機(jī)器人行動序列,這是機(jī)器人規(guī)劃的一個關(guān)鍵方面。本研究表明,LLMs即使在沒有視覺輸入的情況下,也能僅基于語言指令生成準(zhǔn)確的行動序列。然而,當(dāng)加入少量視覺信息時,它們的表現(xiàn)會顯著提升,從而生成更精確的視覺語義計劃。這些計劃將高層次的自然語言指令轉(zhuǎn)化為虛擬代理執(zhí)行復(fù)雜任務(wù)的可操作指導(dǎo)。這一能力凸顯了LLMs整合多模態(tài)信息的潛力,從而提升其理解能力。它還展示了LLMs解釋和整合來自不同模態(tài)的信息的能力,從而形成對任務(wù)更全面的理解。此外,研究還進(jìn)一步確認(rèn)了LLMs在生成自然語言理解的行動序列方面的有效性。LLMs在同步解釋自然語言命令與物理環(huán)境方面也顯示出巨大潛力。采用“基于環(huán)境的解碼”方法,它們能夠生成與物理模型概率相一致的行為序列,展示了這種方法在機(jī)器人規(guī)劃任務(wù)中的有效性。

復(fù)雜順序任務(wù)規(guī)劃的研究強(qiáng)調(diào)了LLMs能力的顯著進(jìn)展。Text2Motion的研究表明,LLMs不僅擅長處理語言信息,還能夠解決技能序列中的依賴關(guān)系。這是通過幾何上可行的規(guī)劃實現(xiàn)的,標(biāo)志著在解釋抽象指令和理解復(fù)雜任務(wù)結(jié)構(gòu)方面的重大進(jìn)展。此外,LLM-Planner研究通過將LLMs與傳統(tǒng)規(guī)劃器結(jié)合,增強(qiáng)了LLMs在機(jī)器人規(guī)劃中的自然語言理解能力。這種協(xié)同作用展示了如何利用LLMs的自然語言處理(NLP)能力來提高規(guī)劃任務(wù)的效率和精度。此外,LLM+P利用經(jīng)典規(guī)劃器的能力,通過采用規(guī)劃域定義語言(PDDL)和問題提示,為LLMs創(chuàng)建特定任務(wù)的問題文件。這種整合顯著增強(qiáng)了LLMs在處理長期規(guī)劃任務(wù)中的效果。同樣,SayPlan通過整合經(jīng)典路徑規(guī)劃器解決了規(guī)劃時間跨度的問題。通過這樣做,SayPlan能夠?qū)某橄蠛妥匀徽Z言指令中獲得的大規(guī)模、長時間任務(wù)計劃落實,并使移動操作機(jī)器人成功執(zhí)行這些任務(wù)。此外,LLMs在作為搜索算法中的啟發(fā)式策略和常識知識庫方面也顯示出潛力。這種雙重角色不僅增強(qiáng)了這些算法中的推理能力,還幫助預(yù)測可能的結(jié)果。這樣的方法充分利用了LLMs的潛力,通過其先進(jìn)的推理能力有效地規(guī)劃復(fù)雜任務(wù)。這種雙重應(yīng)用突顯了大型語言模型在任務(wù)規(guī)劃和問題解決方面的廣泛且多功能的潛力。

LLMs的研究展示了其在解析和理解自然語言方面的卓越能力。這種能力不僅僅停留在簡單的文本匹配,還擴(kuò)展到對任務(wù)目的和上下文的深刻語義理解。LLMs的一個關(guān)鍵特點是將其理解的指令轉(zhuǎn)化為可執(zhí)行的機(jī)器人行動序列,這在機(jī)器人任務(wù)規(guī)劃中至關(guān)重要。LLMs顯著提升了指令生成的質(zhì)量和適應(yīng)性,使得生成的行動序列既能考慮上下文又能適應(yīng)特定環(huán)境。這些模型在處理各種任務(wù)規(guī)劃復(fù)雜性和類型方面表現(xiàn)出多樣性,從簡單的物理交互到復(fù)雜的長期序列規(guī)劃。這些研究強(qiáng)調(diào)了LLMs作為獨立決策者以及與其他模態(tài)和規(guī)劃算法合作的潛力。這種合作在解釋自然語言和推進(jìn)機(jī)器人規(guī)劃方面至關(guān)重要。隨著研究的進(jìn)展,預(yù)計LLMs將在機(jī)器人和自動化系統(tǒng)領(lǐng)域發(fā)揮越來越重要的作用。

2) 復(fù)雜任務(wù)推理和決策:在復(fù)雜任務(wù)推理和決策領(lǐng)域,由LLMs賦能的機(jī)器人表現(xiàn)出了卓越的能力。這些基于LLMs的機(jī)器人規(guī)劃任務(wù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了單純的文本生成和語言理解的范疇。最新的研究表明,語言模型在處理復(fù)雜任務(wù)、進(jìn)行邏輯推理、做出明智決策和參與互動學(xué)習(xí)方面展現(xiàn)了巨大的潛力。這些突破不僅拓展了我們對基于LLMs的機(jī)器人規(guī)劃潛力的理解,也為創(chuàng)新的實際應(yīng)用打開了大門。

在探索預(yù)訓(xùn)練語言模型(PLMs)在互動決策中的應(yīng)用時,研究展示了如何將目標(biāo)和觀察轉(zhuǎn)化為嵌入序列,并用PLMs初始化網(wǎng)絡(luò)。這種策略的泛化能力在多變量環(huán)境和監(jiān)督模態(tài)中尤其有效。多模態(tài)領(lǐng)域的一個重要進(jìn)展是LM-Nav系統(tǒng)的發(fā)展。該系統(tǒng)基于PLMs,集成了語言、視覺和行動模型,通過高層次的自然語言命令引導(dǎo)機(jī)器人導(dǎo)航。顯著的是,它通過融合預(yù)訓(xùn)練的視覺導(dǎo)航、圖像-語言關(guān)聯(lián)和語言理解模型,減少了對代價高昂的軌跡注釋監(jiān)督的依賴。

針對特定環(huán)境中的LLMs,研究人員考察了它們在自然語言反饋和復(fù)雜任務(wù)規(guī)劃中的推理能力。這種能力對于遵循高層次的任務(wù)指令并增強(qiáng)模型在現(xiàn)實世界中的適用性至關(guān)重要。為了解決自然語言理解和決策中的一致性容錯問題,創(chuàng)新性的ReAct模型克服了在交互環(huán)境中語言推理的先前局限性。它解決了諸如幻覺生成和錯誤信息傳播等挑戰(zhàn)。通過利用LLMs的潛力來維持工作記憶和抽象概念化高層目標(biāo),ReAct模型在各種任務(wù)中實現(xiàn)了顯著的性能提升。同時,為了解決在機(jī)器人領(lǐng)域應(yīng)用LLMs時產(chǎn)生的自信幻覺預(yù)測問題,KnowNo模型為任務(wù)完成提供了統(tǒng)計保證,同時減少了在復(fù)雜多步驟規(guī)劃場景中對人工幫助的需求。值得注意的是,KnowNo無需微調(diào)模型即可無縫集成LLMs,提供了一種輕量級且有前途的模型不確定性處理方法。這種方法與基礎(chǔ)模型的不斷演進(jìn)能力相吻合,提供了可擴(kuò)展的解決方案。

此外,還提出了一種使用預(yù)設(shè)錯誤提示的策略,使LLMs能夠提取可執(zhí)行的計劃。這種方法為任務(wù)執(zhí)行中的代理獨立性和適應(yīng)性提供了新的視角。在多代理協(xié)作方面,將語言模型與行動代理集成的探索也在不斷增加。通過將LLMs與在特定環(huán)境中執(zhí)行任務(wù)的代理配對,建立了一個由規(guī)劃者、執(zhí)行者和報告者組成的系統(tǒng)。這種安排顯著提高了復(fù)雜任務(wù)中的推理和執(zhí)行效率。

LLMs的研究正在呈現(xiàn)一個顯著的趨勢:這些模型越來越擅長理解和執(zhí)行復(fù)雜任務(wù),并且與現(xiàn)實世界的情境緊密對接。這一進(jìn)展不僅彰顯了預(yù)訓(xùn)練模型的適應(yīng)性和多功能性,也預(yù)示了下一代AI的到來。隨著這些技術(shù)的發(fā)展,我們預(yù)計會出現(xiàn)一波創(chuàng)新應(yīng)用,準(zhǔn)備顛覆各個行業(yè)。復(fù)雜任務(wù)中LLMs的強(qiáng)大語言理解和生成能力對于推理和決策過程的復(fù)雜性起到了重要作用。該領(lǐng)域的每一項研究都探討了LLMs在復(fù)雜認(rèn)知功能中的潛力。許多模型采用自監(jiān)督學(xué)習(xí),一些還結(jié)合微調(diào)以更好地與特定任務(wù)對齊。這種方法使得LLMs在下游任務(wù)輔助推理中表現(xiàn)出色,從而做出更精確和定制化的決策。

盡管LLMs在復(fù)雜推理和決策中的應(yīng)用廣泛,但具體的技術(shù)和方法有所不同,特別是在任務(wù)處理、學(xué)習(xí)策略和反饋機(jī)制方面。這些模型在家居自動化、機(jī)器人導(dǎo)航和任務(wù)規(guī)劃等現(xiàn)實世界的應(yīng)用中展示了它們廣泛且不斷發(fā)展的實用性。

3) 人機(jī)交互:在人機(jī)交互領(lǐng)域,具備通用人工智能(AGI)語言模型的高級推理能力使機(jī)器人具備了顯著的泛化能力,使其能夠適應(yīng)新環(huán)境中的新任務(wù)規(guī)劃。此外,LLMs的自然語言理解界面促進(jìn)了人與機(jī)器人之間的溝通,為人機(jī)交互開辟了新的可能性。大量研究強(qiáng)調(diào)了LLMs在支持智能任務(wù)規(guī)劃方面的進(jìn)展,這反過來又提升了多智能體協(xié)作通信的效率。研究表明,使用自然語言來增強(qiáng)多智能體合作的效率是一種有效的方法。

一個值得注意的例子是OpenAI的ChatGPT,通過嚴(yán)格的實驗評估了其在機(jī)器人應(yīng)用中的能力。研究結(jié)果表明,ChatGPT在邏輯推理、幾何推理、數(shù)學(xué)推理以及空中導(dǎo)航、操作和控制具身代理等復(fù)雜任務(wù)中表現(xiàn)出色。它通過自由形式的對話、解析XML標(biāo)簽以及合成代碼等技術(shù)實現(xiàn)了這一點。此外,ChatGPT允許用戶通過自然語言命令進(jìn)行交互,這為開發(fā)與人類自然交互的創(chuàng)新機(jī)器人系統(tǒng)提供了重要指導(dǎo)和見解。

類似地,提出了一個利用大規(guī)模語言模型進(jìn)行協(xié)作具身智能的框架。該框架使語言模型能夠用于高效的規(guī)劃和溝通,促進(jìn)多種智能體與人類協(xié)作,解決復(fù)雜任務(wù)。實驗結(jié)果表明,這種方法在該領(lǐng)域顯著優(yōu)于傳統(tǒng)方法。

B. 操作

1) 自然語言理解:在機(jī)器人控制領(lǐng)域,LLMs的自然語言理解能力可以幫助機(jī)器人進(jìn)行常識性分析。例如,LLM-GROP展示了如何從LLM中提取語義信息,并將其用于在復(fù)雜環(huán)境中響應(yīng)自然語言命令時,作為任務(wù)和運動規(guī)劃的一部分,做出關(guān)于物體放置的常識性、語義有效的決策。該研究提出了一個將語言置于智能體核心的框架。通過利用這些模型中包含的先驗知識,可以設(shè)計出能夠在現(xiàn)實世界中直接解決復(fù)雜任務(wù)的更好的機(jī)器人代理。通過一系列實驗,證明了該框架如何利用底層模型的知識和功能,以更高的效率和靈活性解決各種問題。同時,研究引入了一種新方法,即語言條件碰撞函數(shù)(LACO),該方法僅使用單視圖圖像、語言提示和機(jī)器人配置來學(xué)習(xí)碰撞函數(shù)。LACO預(yù)測機(jī)器人和環(huán)境之間的碰撞,從而實現(xiàn)靈活的條件路徑規(guī)劃。

除了自然語言理解能力之外,LLMs的強(qiáng)大推理能力也起到了顯著作用。例如,在VIMA的研究中,引入了一種新的多模態(tài)提示配方,將不同的機(jī)器人操作任務(wù)轉(zhuǎn)化為統(tǒng)一的序列建模問題,并在多模態(tài)任務(wù)和系統(tǒng)泛化評估協(xié)議中實現(xiàn)。實驗表明,VIMA能夠通過單一模型解決視覺目標(biāo)實現(xiàn)、一次性視頻模仿和新概念基礎(chǔ)等任務(wù),具有強(qiáng)大的模型擴(kuò)展性和零樣本泛化能力。同樣,TIP提出了一種文本-圖像提示(Text-Image Cueing),這是一個將LLMs與多模態(tài)生成模型連接起來,以生成合理的多模態(tài)程序計劃的雙模提示框架。

除了提示方法外,基于預(yù)訓(xùn)練語言模型微調(diào)下游任務(wù)也是機(jī)器人控制領(lǐng)域的一種常見方法。例如,有研究表明,預(yù)訓(xùn)練的視覺語言表示可以有效提高現(xiàn)有探索方法的樣本效率。R3M研究了如何利用不同人類視頻數(shù)據(jù)上的預(yù)訓(xùn)練視覺表示來實現(xiàn)下游機(jī)器人操作任務(wù)的數(shù)據(jù)高效學(xué)習(xí)。LIV模型在一個大型泛化的人類視頻數(shù)據(jù)集上訓(xùn)練,并在一個小型機(jī)器人數(shù)據(jù)集上進(jìn)行微調(diào),能夠在三種不同的評估設(shè)置中超越最先進(jìn)的方法,并成功執(zhí)行現(xiàn)實世界的機(jī)器人任務(wù)。

這一系列研究共同說明了LLMs和自然語言理解技術(shù)在提升機(jī)器人智能方面的重要作用,特別是在理解和執(zhí)行復(fù)雜的基于語言的任務(wù)中。這些研究的一個關(guān)鍵點是模型泛化的重要性以及在各種領(lǐng)域應(yīng)用這些模型的能力。雖然每項研究都分享了這一共同主題,但它們在具體的關(guān)注點和應(yīng)用方法上有所不同。例如,LLM-GROP專注于語義信息的提取和應(yīng)用,而VIMA和TIP則集中于無需先例的多模態(tài)處理和學(xué)習(xí)。此外,微調(diào)預(yù)訓(xùn)練語言模型的方法旨在提高應(yīng)用效率和特定任務(wù)的優(yōu)化??傮w而言,這些研究表明,將復(fù)雜的自然語言處理技術(shù)與機(jī)器學(xué)習(xí)策略相結(jié)合,可以顯著提高機(jī)器人系統(tǒng)的效率,特別是在理解和執(zhí)行復(fù)雜任務(wù)的能力方面。這一進(jìn)展是實現(xiàn)機(jī)器人操作更高智能和自主性的關(guān)鍵一步。

2) 互動策略:在互動策略領(lǐng)域,TEXT2REWARD框架引入了一種創(chuàng)新方法,利用LLMs生成互動獎勵代碼。該方法自動生成密集的獎勵代碼,增強(qiáng)了強(qiáng)化學(xué)習(xí)。此外,通過利用大型語言模型來定義可優(yōu)化的獎勵參數(shù),以完成各種機(jī)器人任務(wù),高層語言指令或修正與低層機(jī)器人動作之間的差距得到了有效彌合。由語言模型生成的獎勵作為中間接口,促進(jìn)了高層指令與低層機(jī)器人動作之間的無縫通信與協(xié)調(diào)。

VoxPoser提出了一個多功能的機(jī)器人操作框架,能夠直接從LLMs中提取可操作性和約束條件。這種方法顯著增強(qiáng)了機(jī)器人對開放式指令和多樣化物體的適應(yīng)能力。通過將LLMs與視覺語言模型相結(jié)合,并利用在線互動,VoxPoser能夠高效學(xué)習(xí)與復(fù)雜任務(wù)動態(tài)模型的交互。LLMs的應(yīng)用還延伸到了人機(jī)交互領(lǐng)域。LILAC系統(tǒng)通過一個可擴(kuò)展的、基于語言驅(qū)動的人機(jī)交互機(jī)制體現(xiàn)了這一點。它將自然語言對話轉(zhuǎn)化為低維控制空間中的可操作指令,使機(jī)器人指導(dǎo)更加精準(zhǔn)和用戶友好。重要的是,每次用戶修正都會細(xì)化這個控制空間,使指令越來越精確。InstructRL提出了另一個旨在增強(qiáng)人類與AI合作的創(chuàng)新框架。該框架側(cè)重于訓(xùn)練強(qiáng)化學(xué)習(xí)代理理解和執(zhí)行人類提供的自然語言指令。該系統(tǒng)利用LLMs根據(jù)這些指令制定初始策略,引導(dǎo)強(qiáng)化學(xué)習(xí)代理在協(xié)調(diào)中實現(xiàn)最佳平衡。

最后,對于基于語言的人機(jī)界面,開發(fā)了一種新穎、靈活的接口LILAC,它允許用戶使用文本輸入和場景圖像來改變機(jī)器人軌跡。該系統(tǒng)將預(yù)訓(xùn)練的語言和圖像模型(如BERT和CLIP)結(jié)合起來,使用Transformer編碼器和解碼器來操作3D和速度空間中的機(jī)器人軌跡。該方法在模擬環(huán)境中證明了其有效性,并通過現(xiàn)實世界的應(yīng)用展示了其實用性。

所有這些技術(shù)和方法在不同程度上依賴于先進(jìn)的語言建模,以增強(qiáng)人機(jī)交互和機(jī)器人控制。它們共同強(qiáng)調(diào)了LLMs在解釋和執(zhí)行人類意圖方面的關(guān)鍵作用。每種方法的目標(biāo)都是提高機(jī)器人的適應(yīng)性和靈活性,使其能夠更有效地處理各種任務(wù)和環(huán)境。具體而言,TEXT2REWARD側(cè)重于生成和優(yōu)化獎勵代碼,這提高了強(qiáng)化學(xué)習(xí)策略的有效性。相反,VoxPoser則專注于從LLMs中提取操作變量和約束條件。與此同時,LILAC和InstructRL采用了不同的方法來解釋和執(zhí)行自然語言指令。LILAC優(yōu)先將對話映射到控制空間,而InstructRL則專注于訓(xùn)練強(qiáng)化學(xué)習(xí)代理理解和執(zhí)行自然語言指令。此外,最后討論的基于語言的人機(jī)交互研究探討了如何直接從文本和圖像中提取用戶意圖,并將其應(yīng)用于各種機(jī)器人平臺。這一方面使其區(qū)別于其他可能未包含此功能的方法??傮w而言,這些研究標(biāo)志著將LLMs技術(shù)集成到機(jī)器人領(lǐng)域的重大進(jìn)展。盡管它們的應(yīng)用領(lǐng)域和方法各有側(cè)重,但它們共同展示了在人工智能創(chuàng)新方面的潛力。此外,它們?yōu)槲磥碓谌藱C(jī)交互方面的探索鋪平了道路。

3) 模塊化方法:機(jī)器人控制領(lǐng)域的最新進(jìn)展強(qiáng)調(diào)了模塊化方法,允許創(chuàng)建更復(fù)雜和功能豐富的機(jī)器人系統(tǒng)。這一趨勢的關(guān)鍵方面在最近的研究中得到了突出體現(xiàn)。PROGRAMPORT提出了一個基于程序的模塊化框架,專注于機(jī)器人操作。它通過將自然語言的語義結(jié)構(gòu)轉(zhuǎn)化為編程元素來解釋和執(zhí)行語言概念。該框架包括在學(xué)習(xí)通用視覺概念和特定任務(wù)操作策略方面表現(xiàn)卓越的神經(jīng)模塊。這種結(jié)構(gòu)化方法顯著增強(qiáng)了視覺基礎(chǔ)和操作策略的學(xué)習(xí)能力,提高了對未見樣本和合成環(huán)境的泛化能力。

接下來,研究人員探索了利用LLMs加速機(jī)器人系統(tǒng)中策略適應(yīng)的可能性,特別是在遇到新工具時。通過生成幾何形狀和描述性工具模型,然后將其轉(zhuǎn)化為向量表示,LLMs促進(jìn)了快速適應(yīng)。這種語言信息與元學(xué)習(xí)的結(jié)合在適應(yīng)不熟悉的工具方面顯示出了顯著的性能提升。

此外,將基于ViLD和CLIP的視覺語言模型NLMap與SayCan框架結(jié)合,帶來了更靈活的場景表示。這種結(jié)合在處理開放世界場景中的自然語言指令時,特別是在長期規(guī)劃中,效果尤為顯著。NLMap增強(qiáng)了基于LLMs的規(guī)劃器理解其環(huán)境的能力。

“Scaling Up and Distilling Down”框架結(jié)合了LLMs的優(yōu)勢、基于采樣的規(guī)劃器和策略學(xué)習(xí)。它自動生成、標(biāo)記和提取豐富的機(jī)器人探索經(jīng)驗,形成了一個多任務(wù)策略,不僅繼承了長期行為和強(qiáng)大的操作技能,還在訓(xùn)練分布之外的場景中表現(xiàn)出更好的性能。

MetaMorph引入了一種基于Transformer的方法,用于學(xué)習(xí)適用于廣泛模塊化機(jī)器人設(shè)計空間的通用控制器。這種方法使得機(jī)器人形態(tài)可以作為Transformer模型的輸出。通過在多樣化的形態(tài)上進(jìn)行預(yù)訓(xùn)練,通過這種方法生成的策略展示了對新形態(tài)和任務(wù)的廣泛泛化能力。這展示了機(jī)器人領(lǐng)域中廣泛預(yù)訓(xùn)練和微調(diào)的潛力,類似于視覺和語言領(lǐng)域的發(fā)展。

在這些研究中,都采用了模塊化方法,增強(qiáng)了系統(tǒng)對新任務(wù)和環(huán)境的靈活性和適應(yīng)性。這些研究廣泛利用了深度學(xué)習(xí)技術(shù),特別是與LLMs的協(xié)同作用,以增強(qiáng)機(jī)器人系統(tǒng)的理解和決策能力。此外,這些研究的一個重要焦點是自然語言處理(NLP)的應(yīng)用。無論是通過直接解釋語言指令,還是通過語言豐富的學(xué)習(xí)和適應(yīng)過程,都能明顯看出這一點。主要目標(biāo)是提高機(jī)器人在新環(huán)境和任務(wù)中快速泛化和適應(yīng)的能力。雖然所有研究都采用了深度學(xué)習(xí)和LLMs,但它們的具體實現(xiàn)和應(yīng)用各有不同。一些研究集中于語言描述和理解,另一些則探索了視覺和語言的融合。研究目標(biāo)也有所不同,從適應(yīng)新工具到長期戰(zhàn)略規(guī)劃,再到多態(tài)機(jī)器人控制。盡管技術(shù)方法、應(yīng)用領(lǐng)域和目標(biāo)任務(wù)各不相同,每項研究都對推進(jìn)機(jī)器人系統(tǒng)的智能化和適應(yīng)能力做出了顯著貢獻(xiàn)。

C. 推理

1) 自然語言理解:在機(jī)器人推理任務(wù)領(lǐng)域,基于自然語言理解的LLMs作為重要的知識庫,提供了對各種任務(wù)至關(guān)重要的常識性見解。大量研究表明,LLMs能夠有效地模擬類似人類的狀態(tài)和行為,特別是在研究機(jī)器人執(zhí)行家庭清潔功能時尤為相關(guān)。這種方法不同于傳統(tǒng)方法,后者通常需要昂貴的數(shù)據(jù)收集和模型訓(xùn)練。相反,LLMs利用現(xiàn)成的方法在機(jī)器人領(lǐng)域進(jìn)行泛化,并得益于它們通過廣泛的文本數(shù)據(jù)分析所培養(yǎng)的強(qiáng)大總結(jié)能力。此外,LLMs的常識性推理和代碼理解能力促進(jìn)了機(jī)器人與物理世界之間的聯(lián)系。例如,Progprompt通過在LLMs中引入編程語言特性,已被證明能夠提高任務(wù)性能。這種方法不僅直觀,而且足夠靈活,能夠適應(yīng)新場景、代理和任務(wù),包括實際的機(jī)器人部署。同時,GIRAF利用大型語言模型的力量,更靈活地解釋手勢和語言命令,從而準(zhǔn)確推斷人類意圖,并對手勢含義進(jìn)行情境化處理,以實現(xiàn)更有效的人機(jī)協(xié)作。

該領(lǐng)域的一個創(chuàng)新發(fā)展是Cap(Code as Policies),它倡導(dǎo)為機(jī)器人生成以語言模型為中心的程序。這些程序可以適應(yīng)機(jī)器人操作棧的特定層次:解釋自然語言命令、處理感知數(shù)據(jù),以及為原始語言控制參數(shù)化低維輸入。這種方法的基本原理是,分層代碼生成有助于創(chuàng)建更復(fù)雜的代碼,從而推動這一領(lǐng)域的前沿發(fā)展。

家庭清潔應(yīng)用和Cap中的以機(jī)器人為中心的語言模型生成程序都突顯了LLMs在提供常識性知識和解釋自然語言指令方面的優(yōu)勢。傳統(tǒng)的機(jī)器人技術(shù)通常需要大量的數(shù)據(jù)收集和專業(yè)的模型訓(xùn)練。相比之下,LLMs通過利用其在文本數(shù)據(jù)上廣泛的訓(xùn)練來減輕這一需求。LLMs的代碼理解和生成能力尤其關(guān)鍵,使機(jī)器人能夠更有效地與物理世界交互并執(zhí)行復(fù)雜任務(wù)。然而,這些應(yīng)用的重點有所不同:家庭清潔功能側(cè)重于日常任務(wù)和環(huán)境適應(yīng)性,而Cap則側(cè)重于通過語言模型生成程序(LMPs)編程和控制機(jī)器人更技術(shù)性的行為。

總結(jié)而言,將LLMs集成到機(jī)器人推理任務(wù)中,凸顯了它們在自然語言理解、常識知識提供、代碼理解和生成方面的顯著能力。這些特性不僅減輕了傳統(tǒng)機(jī)器人技術(shù)中通常伴隨的數(shù)據(jù)收集和模型訓(xùn)練負(fù)擔(dān),還增強(qiáng)了機(jī)器人泛化和靈活性。通過適當(dāng)?shù)挠?xùn)練和調(diào)整,LLMs可以應(yīng)用于各種場景和任務(wù),展示了它們在機(jī)器人和人工智能未來中的巨大潛力和廣泛適用性。

2) 復(fù)雜任務(wù)推理和決策:在復(fù)雜任務(wù)推理和決策領(lǐng)域,各種研究利用LLMs的推理能力來增強(qiáng)特定下游任務(wù)的精細(xì)化。例如,SayCan利用LLMs中嵌入的廣泛知識與強(qiáng)化學(xué)習(xí)相結(jié)合,用于具體化任務(wù)。這種方法涉及使用強(qiáng)化學(xué)習(xí)來發(fā)現(xiàn)個體技能價值函數(shù)的見解,然后使用這些技能的文本標(biāo)簽作為潛在響應(yīng),而LLM則為任務(wù)完成提供整體語義指導(dǎo)。

另一個值得注意的發(fā)展是Instruct2Act框架。它提供了一個用戶友好的通用機(jī)器人系統(tǒng),利用LLMs將多模態(tài)命令翻譯為機(jī)器人的一系列動作。該系統(tǒng)使用LLMs生成的策略代碼,通過調(diào)用各種視覺基礎(chǔ)模型的API,實現(xiàn)對任務(wù)集的視覺理解。

還探索了使用LLMs進(jìn)行自我規(guī)劃和PDDL(規(guī)劃域定義語言)規(guī)劃的可能性。研究表明,LLMs的輸出可以有效地指導(dǎo)啟發(fā)式搜索規(guī)劃器。

在失敗解釋和修正任務(wù)領(lǐng)域,REFLECT框架利用從多感官觀察生成的機(jī)器人的過去經(jīng)驗的層次化總結(jié)來查詢LLM以進(jìn)行失敗推理。獲得的失敗解釋可以指導(dǎo)基于語言的規(guī)劃器修正失敗并成功完成任務(wù)。

此外,預(yù)訓(xùn)練多模態(tài)模型的適應(yīng)是一種常見策略。通過將視覺-語言模型的預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)集成來訓(xùn)練視覺-語言-動作(VLA)模型,研究人員發(fā)現(xiàn),使用互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的參數(shù)多達(dá)550億的模型可以生成高效的機(jī)器人策略。這些模型表現(xiàn)出增強(qiáng)的泛化性能,并得益于網(wǎng)絡(luò)上廣泛的視覺-語言預(yù)訓(xùn)練能力。

Socratic Models代表了另一種方法,通過多個大型預(yù)訓(xùn)練模型之間的結(jié)構(gòu)化對話促進(jìn)新的多模態(tài)任務(wù)的聯(lián)合預(yù)測。該方法在多個任務(wù)中實現(xiàn)了零樣本性能。

在這些研究中,主要關(guān)注點是利用LLMs自動化推理和決策過程。這是通過利用LLMs提供或使用高級語義知識來增強(qiáng)任務(wù)執(zhí)行。一些方法將LLMs與其他模態(tài)(如視覺和動作)結(jié)合起來,以加深任務(wù)理解和執(zhí)行。其他方法在以前未見過的任務(wù)上表現(xiàn)出有效的性能,展示了零樣本或少樣本學(xué)習(xí)的能力。

每項研究都采用了獨特的方法來整合LLMs。例如,SayCan結(jié)合了強(qiáng)化學(xué)習(xí),而Instruct2Act則專注于多模態(tài)指令的直接映射。采用的技術(shù)——從強(qiáng)化學(xué)習(xí)和啟發(fā)式搜索到多模態(tài)預(yù)訓(xùn)練——在機(jī)器人操作、規(guī)劃和自動化決策等不同應(yīng)用領(lǐng)域中差異顯著。這些研究共同展示了LLMs在管理復(fù)雜任務(wù)推理和決策方面的巨大潛力。通過將LLMs與其他技術(shù)(如強(qiáng)化學(xué)習(xí)和多模態(tài)數(shù)據(jù)處理)結(jié)合,可以實現(xiàn)更深層次的語義理解和更有效的決策支持。這在機(jī)器人和自動化領(lǐng)域尤為明顯,這些集成方法為新應(yīng)用鋪平了道路。然而,這些方法的有效性高度依賴于任務(wù)的具體性質(zhì)、使用的數(shù)據(jù)和模型的訓(xùn)練方法。因此,每種方法的選擇和應(yīng)用必須根據(jù)具體上下文進(jìn)行精心調(diào)整。

3) 互動策略:LLMs的最新進(jìn)展顯著推動了互動策略的發(fā)展,展示了在語言生成和類人推理方面的出色能力。Matcha利用LLMs增強(qiáng)了互動多模態(tài)感知,展示了LLMs在理解各種輸入數(shù)據(jù)(如視覺和聽覺)方面的潛力。該方法提出了一種增強(qiáng)的LLM多模態(tài)互動代理。該代理不僅利用LLMs固有的常識知識來實現(xiàn)更合理的互動多模態(tài)感知,還展示了LLMs在進(jìn)行此類感知和解釋行為中的實際應(yīng)用。

生成代理是一種互動計算代理,旨在模擬人類行為。這些代理的架構(gòu)旨在存儲、綜合和應(yīng)用相關(guān)記憶,從而利用大型語言模型生成合理的行為。LLMs與這些計算代理的整合有助于創(chuàng)建更先進(jìn)的架構(gòu)和互動模式。這種結(jié)合使得人類行為的模擬更加逼真,擴(kuò)展了LLMs的潛在應(yīng)用。

基于LLMs的互動策略重點在于將LLMs與其他感知系統(tǒng)(如圖像識別和語音處理)融合。此類結(jié)合旨在模擬或增強(qiáng)人類能力,提升認(rèn)知和處理能力。這些進(jìn)展在智能助手、機(jī)器人和增強(qiáng)現(xiàn)實系統(tǒng)領(lǐng)域具有深遠(yuǎn)意義。

在討論的工作中,顯著強(qiáng)調(diào)了多模態(tài)感知,重點是提高系統(tǒng)理解和與其環(huán)境互動的能力。此外,人類行為的模擬旨在復(fù)制AI中的人類思維和行為過程。這兩個方向的融合有望創(chuàng)造出更強(qiáng)大和多功能的智能系統(tǒng)。預(yù)計這些系統(tǒng)將能夠以更復(fù)雜和人性化的方式與人類互動,呈現(xiàn)出重大的技術(shù)挑戰(zhàn),并引發(fā)關(guān)鍵的倫理和社會適應(yīng)問題。

IV. 基于GPT-4V的具身任務(wù)規(guī)劃

基于前述對具身任務(wù)和LLMs的研究,本研究開發(fā)了一個基于GPT-4V的具身任務(wù)規(guī)劃框架,并進(jìn)行了評估實驗,如圖1所示。以下部分將詳細(xì)介紹數(shù)據(jù)集、提示設(shè)計和實驗結(jié)果。

A. 數(shù)據(jù)集

為了全面評估GPT-4V在多模態(tài)具身任務(wù)規(guī)劃中的能力,我們從9個數(shù)據(jù)集中選取了40多個案例,重點關(guān)注操作和抓取。這些動作在遵循指令的機(jī)器人技術(shù)中至關(guān)重要,涉及到各種場景中的人類指令,例如廚房中的物品拾取和桌面重新排列。選定的數(shù)據(jù)集通過Google Open X-Embodiment Dataset訪問。在每個案例中,視頻演示和自然語言指令作為輸入,用以評估GPT-4V作為機(jī)器人“大腦”的表現(xiàn)。此設(shè)置使得基于自然語言指令的機(jī)器人動作規(guī)劃更加穩(wěn)健。

B. 提示設(shè)計

提示的設(shè)計在查詢LLMs時起著關(guān)鍵作用。一個信息豐富且結(jié)構(gòu)清晰的提示能夠產(chǎn)生與給定指令更加一致和精確的輸出。在這里,我們通過結(jié)合圖像更新了[114]中的文本提示,創(chuàng)建了一個多模態(tài)提示,引導(dǎo)GPT-4V生成機(jī)器人任務(wù)規(guī)劃。多模態(tài)提示由五個部分組成:

- 系統(tǒng)角色解釋:明確任務(wù)和GPT-4V在其回應(yīng)中所采用的角色。

- 預(yù)定義動作池:一組預(yù)定義的機(jī)器人動作,GPT-4V可以從中選擇并按步驟順序完成任務(wù)。為了解決詞匯限制問題,如果有必要,GPT-4V還可以生成新動作。

- 示例輸出:一個JSON格式的示例,用于說明期望的輸出并確保一致性。

- 按案例提供的環(huán)境圖像和自然語言指令:包括從視頻演示中提取的第一幀作為環(huán)境圖像。

- 評估:GPT-4V需要將生成的任務(wù)計劃與真實視頻演示進(jìn)行比對,根據(jù)其與視頻的吻合度進(jìn)行評分并提供解釋。

前三個部分作為系統(tǒng)消息輸入到每個查詢中,而后兩個部分則根據(jù)測試數(shù)據(jù)作為用戶消息輸入。完整的提示如附錄圖4所示。

V. 實驗結(jié)果

在我們的實驗框架中,大型語言模型(LLMs)首先生成針對每個機(jī)器人任務(wù)目標(biāo)的分步驟指令。隨后,模型根據(jù)這些生成的指令,從預(yù)定義的動作池中選擇最合適的動作和對象,形成每一步的動作計劃。在獲得LLMs生成的指令后,我們通過將其與相應(yīng)視頻數(shù)據(jù)集中的真實指令(Ground-Truth)進(jìn)行比較,對生成的結(jié)果進(jìn)行了定量評估。在9個公開可用的機(jī)器人數(shù)據(jù)集上進(jìn)行了嚴(yán)格的測試,得出了深刻且有啟發(fā)性的發(fā)現(xiàn)。

例如,在RT-1機(jī)器人動作數(shù)據(jù)集中,如圖2上部所示,多模態(tài)LLMs準(zhǔn)確識別了目標(biāo)對象,并熟練地分解和執(zhí)行了任務(wù)。正如圖2左上角所示,基于給定的環(huán)境和指令,LLMs生成的指令如下:1)將手移動到底部抽屜的目標(biāo)位置;2)抓住目標(biāo);3)將帶有目標(biāo)的手移動到柜臺;4)將目標(biāo)放在柜臺上。在提供了詳細(xì)的分步驟文本指令后,LLMs從動作池中選擇并列出了一組符合當(dāng)前策略的指令和對象。例如,“移動手(底部抽屜)”是第一個文本指令的功能表達(dá),便于后續(xù)直接使用此動作計劃與控制機(jī)器人手臂的接口代碼。此外,通過LLMs生成的“環(huán)境狀態(tài)”可以明顯看出,這些模型能夠有效理解在一系列操作后環(huán)境中關(guān)鍵對象的空間關(guān)系變化。圖2中的“匹配評分”也展示了模型的精準(zhǔn)性。

在上述測試案例中,場景涉及的對象較少,任務(wù)指令相對簡潔明了。因此,我們進(jìn)一步進(jìn)行了測試,涉及語義模糊的任務(wù)描述和復(fù)雜場景。圖2中部左側(cè)展示了來自QT-Opt數(shù)據(jù)集的一個測試案例,其中指令僅為“抓取任何物體”,沒有具體說明場景中的任何實體。LLMs生成的結(jié)果是一系列適合抓取任何物體的通用指令,與真實情況保持了高度一致。對于復(fù)雜場景,如圖2中部右側(cè)所示,我們測試了來自Berkeley Bridge數(shù)據(jù)集的一個示例案例。輸入指令為“將銀色鍋從紅色罐子前面移到桌子前緣的藍(lán)色毛巾旁邊”,涉及場景中多個對象及其空間關(guān)系。在這里,LLMs不僅掌握了任務(wù)的目的,還熟練地執(zhí)行了任務(wù)細(xì)節(jié),展現(xiàn)了其高級的圖像理解和邏輯推理能力。

在圖2和圖3中進(jìn)一步展示了LLMs在各種復(fù)雜場景(包括數(shù)據(jù)集[108]–[113])中的有效性。在這些實驗中,LLMs表現(xiàn)出色,即使在設(shè)置復(fù)雜或有特定要求的任務(wù)中也是如此。表I顯示了GPT-4V在九個不同數(shù)據(jù)集中自評的平均匹配得分,表明生成的任務(wù)計劃與真實演示之間的一致性始終保持在較高水平。這鞏固了我們方法的有效性,并突顯了多模態(tài)LLMs在機(jī)器人任務(wù)執(zhí)行中的強(qiáng)大圖像理解和邏輯推理能力。附錄中還提供了其他測試結(jié)果。

表 I 數(shù)據(jù)集描述及GPT-4V自評的平均匹配得分,比較其生成的任務(wù)計劃與九個測試數(shù)據(jù)集中真實演示的對比情況。

大模型在機(jī)器人領(lǐng)域的應(yīng)用:機(jī)遇、挑戰(zhàn)與前景-AI.x社區(qū)

大模型在機(jī)器人領(lǐng)域的應(yīng)用:機(jī)遇、挑戰(zhàn)與前景-AI.x社區(qū)

大模型在機(jī)器人領(lǐng)域的應(yīng)用:機(jī)遇、挑戰(zhàn)與前景-AI.x社區(qū)

圖 2. 為不同數(shù)據(jù)集生成的任務(wù)計劃:RT-1 機(jī)器人動作(上部面板)、QT-Opt(中部左側(cè))、Berkeley Bridge(中部右側(cè))、Freiburg Franka Play(下部左側(cè))和USC Jaco Play(下部右側(cè))。

(注釋:圖2展示了GPT-4V為不同數(shù)據(jù)集生成的任務(wù)計劃。圖中的每個面板代表了一個特定數(shù)據(jù)集的示例任務(wù),展示了GPT-4V在不同場景下如何生成和執(zhí)行任務(wù)計劃。

1. RT-1 機(jī)器人動作(上部面板):

- 這個面板展示了GPT-4V在RT-1數(shù)據(jù)集上的任務(wù)計劃示例。任務(wù)涉及從抽屜中取出目標(biāo)物體,并將其放置在柜臺上。GPT-4V生成了詳細(xì)的分步驟指令,例如“將手移動到底部抽屜的目標(biāo)位置”、“抓住目標(biāo)”、“將帶有目標(biāo)的手移動到柜臺”和“將目標(biāo)放在柜臺上”。這些步驟顯示了GPT-4V在處理簡單、明確任務(wù)時的準(zhǔn)確性和執(zhí)行能力。

2. QT-Opt(中部左側(cè)):

- 這個面板展示了GPT-4V在QT-Opt數(shù)據(jù)集上的任務(wù)計劃。指令是模糊的,如“抓取任何物體”,并未具體說明抓取的對象。GPT-4V生成了一系列通用指令,適用于抓取場景中的任何物體。這顯示了GPT-4V在處理語義模糊任務(wù)時的泛化能力,并且與真實情況保持高度一致。

3. Berkeley Bridge(中部右側(cè)):

- 這個面板展示了GPT-4V在Berkeley Bridge數(shù)據(jù)集上的復(fù)雜場景任務(wù)計劃。指令涉及多個物體及其空間關(guān)系,例如“將銀色鍋從紅色罐子前面移到桌子前緣的藍(lán)色毛巾旁邊”。GPT-4V準(zhǔn)確理解了任務(wù)的目的,并成功生成了詳細(xì)的動作計劃,展示了其高級的圖像理解和邏輯推理能力。

4. Freiburg Franka Play(下部左側(cè)):

- 這個面板展示了GPT-4V在Freiburg Franka Play數(shù)據(jù)集上的任務(wù)計劃。任務(wù)的復(fù)雜性在于需要精確地操作物體并與環(huán)境中的多個對象交互。GPT-4V在此場景中展示了其在控制和操作機(jī)器人手臂時的能力。

5. USC Jaco Play(下部右側(cè)):

- 這個面板展示了GPT-4V在USC Jaco Play數(shù)據(jù)集上的任務(wù)計劃。任務(wù)要求機(jī)器人在多物體的場景中進(jìn)行操作和抓取,GPT-4V成功生成了適當(dāng)?shù)膭幼餍蛄?,顯示了其處理復(fù)雜操作任務(wù)的適應(yīng)性。

總結(jié):

圖2中的這些面板共同展示了GPT-4V在不同數(shù)據(jù)集和場景下的任務(wù)計劃能力。無論是簡單任務(wù)、模糊指令,還是復(fù)雜場景,GPT-4V都展示了出色的任務(wù)理解、分解和執(zhí)行能力。通過這些示例,圖2說明了GPT-4V在多種環(huán)境下的廣泛應(yīng)用潛力,尤其是在結(jié)合自然語言和視覺提示來生成機(jī)器人任務(wù)計劃方面。)

大模型在機(jī)器人領(lǐng)域的應(yīng)用:機(jī)遇、挑戰(zhàn)與前景-AI.x社區(qū)

圖 3. 為不同數(shù)據(jù)集生成的任務(wù)計劃:Berkeley Autolab UR5(左上)、NYU VINN(右上)、BC-Z(左下)和TOTO Benchmark(右下)。

(注釋:圖3展示了GPT-4V為不同數(shù)據(jù)集生成的任務(wù)計劃,每個面板代表一個特定數(shù)據(jù)集的任務(wù)示例,進(jìn)一步展示了GPT-4V在處理多樣化機(jī)器人任務(wù)時的能力。

1. Berkeley Autolab UR5(左上角):

- 這個面板展示了GPT-4V在Berkeley Autolab UR5數(shù)據(jù)集上的任務(wù)計劃。UR5是一個常用于研究的機(jī)械臂,任務(wù)通常涉及精確的物體操作和放置。GPT-4V生成的任務(wù)計劃展示了其在處理機(jī)械臂操作時的精確性和邏輯性,成功地指導(dǎo)機(jī)器人完成物體的抓取和移動任務(wù)。

2. NYU VINN(右上角):

- 這個面板展示了GPT-4V在NYU VINN數(shù)據(jù)集上的任務(wù)計劃。VINN數(shù)據(jù)集通常涉及復(fù)雜的視覺感知和操作任務(wù)。GPT-4V展示了其在處理涉及多個物體和復(fù)雜視覺輸入的任務(wù)時的能力。通過對視覺信息的理解,GPT-4V生成了能夠有效執(zhí)行任務(wù)的詳細(xì)計劃,展示了其在復(fù)雜環(huán)境中的任務(wù)規(guī)劃能力。

3. BC-Z(左下角):

- 這個面板展示了GPT-4V在BC-Z數(shù)據(jù)集上的任務(wù)計劃。BC-Z通常涉及機(jī)器人與環(huán)境中的多個物體交互,任務(wù)可能包括物體的分類、排序或移動。GPT-4V在這一場景中展示了其在處理多個目標(biāo)和操作步驟時的靈活性,生成的計劃能夠應(yīng)對多物體的復(fù)雜場景。

4. TOTO Benchmark(右下角):

- 這個面板展示了GPT-4V在TOTO Benchmark數(shù)據(jù)集上的任務(wù)計劃。TOTO Benchmark通常用于評估機(jī)器人在執(zhí)行標(biāo)準(zhǔn)化任務(wù)時的性能。GPT-4V通過生成符合標(biāo)準(zhǔn)的操作步驟,展示了其在遵循任務(wù)規(guī)范、確保操作一致性和可靠性方面的能力。

總結(jié):

圖3展示了GPT-4V在不同復(fù)雜性和要求的任務(wù)中的適應(yīng)性和多功能性。無論是精確的機(jī)械臂操作、復(fù)雜的視覺感知任務(wù),還是多物體交互和標(biāo)準(zhǔn)化任務(wù),GPT-4V都能生成有效的任務(wù)計劃。這些任務(wù)計劃展示了GPT-4V在不同類型的機(jī)器人任務(wù)中的廣泛應(yīng)用潛力,尤其是在處理多樣化場景和任務(wù)要求時的能力。圖3進(jìn)一步鞏固了GPT-4V作為多模態(tài)任務(wù)規(guī)劃工具的強(qiáng)大表現(xiàn),并突顯了其在不同應(yīng)用領(lǐng)域中的適用性。)

VI. 限制、討論與未來工作

我們概述了將大型語言模型(LLMs)集成到機(jī)器人系統(tǒng)中以應(yīng)對各種任務(wù)和環(huán)境的過程,并評估了GPT-4V在多模態(tài)任務(wù)規(guī)劃中的表現(xiàn)。雖然GPT-4V作為任務(wù)規(guī)劃的機(jī)器人“大腦”展示了令人印象深刻的多模態(tài)推理和理解能力,但它也面臨一些局限性:1) 生成的計劃同質(zhì)化,缺乏詳細(xì)的具身設(shè)計和針對復(fù)雜環(huán)境與任務(wù)的特定且穩(wěn)健的設(shè)計。2) 當(dāng)前的多模態(tài)LLMs,如GPT-4V和Google Gemini [28],需要精心設(shè)計且冗長的提示來生成可靠的輸出,這需要領(lǐng)域?qū)<业闹R和大量技巧。3) 機(jī)器人受限于預(yù)定義的動作,限制了其執(zhí)行自由度和穩(wěn)健性。4) GPT-4V API的閉源性質(zhì)及其相關(guān)的時間延遲可能會阻礙嵌入式系統(tǒng)開發(fā)和實時商業(yè)應(yīng)用。未來的研究應(yīng)著力解決這些挑戰(zhàn),以開發(fā)更穩(wěn)健的AGI機(jī)器人系統(tǒng)。

另一方面,GPT-4V在機(jī)器人領(lǐng)域展示的高級推理和視覺-語言理解能力突顯了以LLM為中心的AGI機(jī)器人系統(tǒng)的潛力。展望未來,以多模態(tài)LLM為中心的AGI機(jī)器人在多個領(lǐng)域具有應(yīng)用潛力。在精密農(nóng)業(yè)領(lǐng)域,這些機(jī)器人可以在各種勞動密集型任務(wù)中替代人類勞動,特別是在收獲環(huán)節(jié)。這包括像水果采摘和作物表型分析[115][116]這樣的任務(wù),這些任務(wù)需要在農(nóng)場復(fù)雜環(huán)境中進(jìn)行高級推理和精確操作[117]。在醫(yī)療領(lǐng)域,對安全性和精確性的關(guān)鍵需求對多模態(tài)LLMs的感知和推理能力提出了更高要求。這一點在機(jī)器人輔助篩查和手術(shù)中尤為重要,在這些場景中,定制化的任務(wù)以滿足個人需求至關(guān)重要[118]。此外,利用對比學(xué)習(xí)模型,如CLIP [119],將大腦信號與自然語言對齊,表明在以LLM為中心的AGI機(jī)器人系統(tǒng)中開發(fā)腦機(jī)接口(BCIs)有著可行的路徑[120]。這些系統(tǒng)可能能夠讀取和解釋人類大腦信號,如EEG和fMRI,用于復(fù)雜任務(wù)完成中的自我規(guī)劃和控制[80][121]。這一進(jìn)展可能顯著縮小人類與環(huán)境互動中的差距,并減輕體力和認(rèn)知勞動。

VII. 結(jié)論

在本文中,我們概述了將大型語言模型(LLMs)集成到各種機(jī)器人系統(tǒng)和任務(wù)中的情況。我們的分析顯示,LLMs表現(xiàn)出令人印象深刻的推理、語言理解和多模態(tài)處理能力,可以顯著增強(qiáng)機(jī)器人對指令、環(huán)境和所需動作的理解。我們評估了最近發(fā)布的GPT-4V模型,在9個數(shù)據(jù)集的30多個案例中進(jìn)行具身任務(wù)規(guī)劃。結(jié)果表明,GPT-4V能夠有效利用自然語言指令和視覺感知生成詳細(xì)的行動計劃,以完成操作任務(wù)。這表明使用多模態(tài)LLMs作為具身智能的機(jī)器人“大腦”是可行的。

然而,在朝著更實用和更有能力的基于LLM的AI系統(tǒng)前進(jìn)的過程中,仍然存在一些挑戰(zhàn)有待解決,包括模型透明度、穩(wěn)健性、安全性和實際應(yīng)用性。具體而言,大型神經(jīng)模型的黑箱特性使得難以完全理解其內(nèi)部推理過程和失敗模式。此外,在沒有性能下降的情況下,彌合仿真與現(xiàn)實世界之間的差距仍然是一個持續(xù)存在的難題。通過標(biāo)準(zhǔn)化測試、對抗訓(xùn)練、策略適應(yīng)方法和更安全的模型架構(gòu)來解決這些問題仍需深入研究。依賴LLMs的自主智能系統(tǒng)的責(zé)任和監(jiān)管協(xié)議也需要仔細(xì)考慮。以謹(jǐn)慎、道德和社會責(zé)任的方式克服這些多方面的挑戰(zhàn),仍然是我們在這一領(lǐng)域推進(jìn)進(jìn)展的關(guān)鍵。

隨著語言模型繼續(xù)從多模態(tài)數(shù)據(jù)中積累廣泛的基礎(chǔ)知識,我們預(yù)期將迅速推動它們與機(jī)器人技術(shù)和基于仿真的學(xué)習(xí)相結(jié)合的發(fā)展。這可能使得在部署前,使用從仿真到現(xiàn)實的技術(shù)直觀地開發(fā)和驗證智能機(jī)器人變得可能。此類發(fā)展可能會深刻增強(qiáng)和改變我們構(gòu)建、測試和部署智能機(jī)器人系統(tǒng)的方式。

總體而言,自然語言處理與機(jī)器人技術(shù)的協(xié)同集成是一個充滿機(jī)遇和挑戰(zhàn)的前沿領(lǐng)域,值得未來廣泛的跨學(xué)科研究。

Wang J, Wu Z, Li Y, et al. Large language models for robotics: Opportunities, challenges, and perspectives[J]. arXiv preprint arXiv:2401.04334, 2024.

Northwestern Polytechnical University

The University of Georgia

Shaanxi Normal University

Massachusetts General Hospital and Harvard Medical School,

?

本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/67qyniokMIuLYdGzw5GSPg??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦