LLM+P:賦予大語言模型最佳機器人規(guī)劃能力 原創(chuàng) 精華
?
?摘要:大規(guī)模語言模型(LLMs)已經(jīng)展示了顯著的零樣本泛化能力:最先進的聊天機器人可以為日常生活中的許多常見問題提供合理的答案。然而,迄今為止,LLMs 還不能可靠地解決長期的機器人規(guī)劃問題。相比之下,經(jīng)典的規(guī)劃器一旦以規(guī)范化的方式給出問題,可以使用高效的搜索算法快速找到正確的,甚至是最優(yōu)的方案。為了結(jié)合兩者的優(yōu)勢,本文引入了 LLM+P,這是第一個將經(jīng)典規(guī)劃器的優(yōu)勢整合到 LLMs 中的框架。LLM+P 接收規(guī)劃問題的自然語言描述,然后返回用自然語言表達的正確(或最優(yōu))解決方案。LLM+P 首先將語言描述轉(zhuǎn)換為規(guī)劃域定義語言(PDDL)文件,然后利用經(jīng)典的規(guī)劃器快速找到解決方案,并將找到的解決方案翻譯回自然語言。本文還定義了一組來自機器人規(guī)劃場景的多樣化基準問題。通過對這些基準問題的一組全面實驗,我們發(fā)現(xiàn) LLM+P 能夠為大多數(shù)問題提供最優(yōu)解決方案,而 LLMs 在大多數(shù)問題上甚至無法提供可行的方案。我們還展示了 LLM+P 使家用機器人能夠解決由用戶用自然語言指定的復雜操作任務。
I. 引言
自人工智能領(lǐng)域誕生以來,研究人員一直致力于創(chuàng)建能夠像人類一樣自然流暢地進行對話的程序。雖然即使是像1966年推出的Eliza這樣相對簡單的模型,也能對某些提示生成看似合理的回應,但相對于人類,這些模型的弱點也很容易暴露——它們?nèi)狈φ嬲摹袄斫狻薄?/p>
盡管大規(guī)模語言模型(LLMs)如GPT-4和ChatGPT遠遠超出了幾年前的預期,但在這方面它們并沒有太大不同。實際上,現(xiàn)在互聯(lián)網(wǎng)上充斥著人們讓ChatGPT生成連5歲兒童都知道不合適的內(nèi)容的例子。
鑒于LLMs的設計和訓練方式,這種現(xiàn)象并不令人驚訝。它們并非專門為展示理解力而構(gòu)建,而是被訓練成生成在人類先前上下文中可能合理的單詞序列。正如Mahowald等人所言【4】,LLMs在語言能力(即知道如何表達)方面表現(xiàn)出了驚人的熟練度,但在功能性能力(即知道說什么)方面則差得多。具體來說,它們很容易被愚弄,例如,當被問到一個簡單的算術(shù)問題時,如果該問題不在它們的訓練語料中,或被要求解決一個需要世界運作知識的全新規(guī)劃問題時,它們可能無法提供正確的答案。
(注釋:GPT-4在規(guī)劃問題上的一個失敗示例:
問題(P1):你有5塊積木。不能將多于一塊積木放在另一塊積木上。b5在b3上,b4在b2上,b2在b1上,b3在b4上,b1在桌子上,b5是清空的,你的手臂是空的。你的目標是移動這些積木。b1應該在b2上,b3應該在b5上,b4應該在b1上。
GPT-4的回答:
1. 將b5從b3上移到桌子上。
2. 將b3從b4上移到b5上。
3. 將b4從b2上移到桌子上。
4. 將b2從b1上移到b5上。
5. 將b1從桌子上移到b2上。
6. 將b4從桌子上移到b1上。)
難道我們應該努力將所有的算術(shù)和規(guī)劃問題都包含在訓練語料中嗎?顯然,這是徒勞的。另一方面,為什么需要這樣做呢?我們已經(jīng)有了可以保證給出正確答案的計算器和通用符號規(guī)劃器。因此,一種自然的替代方法,也是我們并不是第一個探索的方法,是將LLMs與這些工具相結(jié)合。
基于此動機,本研究的目標是首次使LLMs能夠正確地解決規(guī)劃問題。我們旨在做到這一點,而無需對LLMs本身進行任何修改,甚至無需進行微調(diào)【5】【6】。相反,我們引入了一種名為LLM+P的方法,當提出一個自然語言描述的規(guī)劃問題時,LLM將:
1. 輸出一個適合作為通用規(guī)劃器輸入的問題描述;
2. 使用通用規(guī)劃器解決該問題;
3. 將規(guī)劃器的輸出轉(zhuǎn)換回自然語言(或連接到機器人執(zhí)行器)。
我們的大量實驗證明,LLM+P能夠為比單獨使用LLM更多的規(guī)劃問題生成正確的解決方案。雖然本文中展示了在規(guī)劃問題上的應用,但這種通用方法可以應用于任何我們有健全和完整求解器的類問題,例如算術(shù)問題(通過使用計算器)。
II. 背景
本節(jié)介紹了我們用于表示由大規(guī)模語言模型(LLMs)解決的規(guī)劃問題的符號,并回顧了經(jīng)典規(guī)劃器的標準表示方法。
A. 經(jīng)典規(guī)劃問題
形式上,規(guī)劃問題 P 的輸入由一個四元組 < S, s_{init}, S_G, A, f > 定義:
- S 是用于描述世界狀態(tài)的有限且離散的狀態(tài)集合(即狀態(tài)空間)。我們假設狀態(tài)空間是分解的,使得每個狀態(tài) s ∈ S 由一組固定變量的值定義。
- s_{init} 是初始世界狀態(tài)。
- S_G 是目標狀態(tài)的集合。 S_G 通常被指定為一組目標條件,這些條件在目標狀態(tài)中必須全部滿足。
- A 是符號動作的集合。
- f 是底層狀態(tài)轉(zhuǎn)移函數(shù)。函數(shù) f 以當前狀態(tài)和一個動作作為輸入,并輸出相應的下一個狀態(tài)。
規(guī)劃問題 P 的解是一個符號規(guī)劃 pi ,其形式為 < a_1, a_2,..., a_N >,使得動作 a_1 的前置條件在初始狀態(tài) s_{init} 中滿足,動作 a_2 的前置條件在執(zhí)行 a_1 后的狀態(tài)中滿足,以此類推,直到所有目標條件在執(zhí)行完 a_N 后的狀態(tài)中全部滿足。
B. 規(guī)劃域定義語言(PDDL)
規(guī)劃域定義語言(PDDL)是一種經(jīng)典規(guī)劃問題的標準化編碼語言【7】【8】。規(guī)劃問題的 PDDL 表示被分為兩個文件:域文件和問題文件。域 PDDL 文件提供了世界底層規(guī)則的升華表示。它包括一組用于定義狀態(tài)空間 S 和動作集合 A 的謂詞,以及它們的前置條件和效果(即狀態(tài)轉(zhuǎn)移函數(shù) f )。問題 PDDL 文件提供了一組對象來具體化域,問題的初始狀態(tài) s_{init} 和目標條件 S_G 。存在豐富的符號規(guī)劃器集成了高效的搜索算法來解決用 PDDL 形式化的規(guī)劃問題。在這項工作中,我們的目標是將自然語言提示(該提示描述了初始狀態(tài) s_{init} 和目標條件 S_G )轉(zhuǎn)化為 PDDL,并利用符號規(guī)劃器生成正確的規(guī)劃方案。我們假設域規(guī)則是已知的(參見第III節(jié)中的假設)。
III. 方法
本節(jié)首先使用一個運行中的例子來研究如何將規(guī)劃提示公式化為 PDDL,然后介紹 LLM+P 方法。
圖1:LLM+P 利用大規(guī)模語言模型(LLM)生成給定問題的 PDDL 描述,然后利用經(jīng)典規(guī)劃器找到最優(yōu)方案,并再次使用 LLM 將原始方案翻譯回自然語言。
(注釋:圖1分為上下兩個部分,分別展示了 LLM+P 方法的三個主要階段:問題轉(zhuǎn)換、規(guī)劃求解和方案翻譯。具體步驟如下:
1. 自然語言問題轉(zhuǎn)換為 PDDL 文件:
- 輸入問題:圖的左上部分展示了輸入問題,這通常是由用戶用自然語言描述的一個規(guī)劃問題。
- LLM 生成 PDDL 文件:LLM 被用來將這個自然語言描述轉(zhuǎn)換為規(guī)劃域定義語言(PDDL)格式。這一步類似于機器翻譯,將自然語言問題描述翻譯成經(jīng)典規(guī)劃器能夠理解和處理的形式化問題描述。PDDL 文件包括定義狀態(tài)空間、動作和目標的詳細信息。
2. 經(jīng)典規(guī)劃器求解問題:
- PDDL 規(guī)劃求解:圖的中間部分顯示了 PDDL 文件被輸入到經(jīng)典規(guī)劃器中。經(jīng)典規(guī)劃器使用其內(nèi)置的高效搜索算法,基于 PDDL 文件的描述來生成一個解決方案(即一個規(guī)劃或動作序列)。
- 生成 PDDL 方案:規(guī)劃器會輸出一個 PDDL 方案,該方案描述了如何從初始狀態(tài)通過一系列動作達到目標狀態(tài)。這個方案通常是最優(yōu)的,即在最少步驟內(nèi)實現(xiàn)目標狀態(tài)。
3. 方案翻譯回自然語言:
- LLM 翻譯 PDDL 方案:圖的右側(cè)展示了如何再次利用 LLM,將經(jīng)典規(guī)劃器生成的 PDDL 方案翻譯回自然語言。這個過程使得規(guī)劃結(jié)果更易于理解,用戶或機器人可以直接執(zhí)行這些自然語言描述的步驟。
- 輸出方案:最后,系統(tǒng)輸出一個用自然語言描述的解決方案,供用戶或機器人參考和執(zhí)行。
總結(jié)
圖1直觀地展示了 LLM+P 的整體工作流程,突出了一種有效的策略,即通過將 LLM 的自然語言處理能力與經(jīng)典規(guī)劃器的搜索和優(yōu)化能力結(jié)合起來,成功地解決復雜的規(guī)劃問題。這種方法特別適合需要長時間推理和規(guī)劃的場景,如機器人任務規(guī)劃。)
A. 大規(guī)模語言模型作為 PDDL 編寫器
LLMs 在規(guī)劃(或長時推理)方面表現(xiàn)不佳【9】,但它們擅長描述和翻譯文本輸入,包括將規(guī)劃提示重寫為 PDDL 格式。直覺上,我們可以將 PDDL 視為與英語不同的語言,因此將規(guī)劃提示重寫為 PDDL 實質(zhì)上是一個“機器翻譯”任務,而 LLMs 在此類任務中表現(xiàn)優(yōu)異。以下是 GPT-4 無需任何提示工程生成的 PDDL 問題文件示例。我們可以看到,生成的文件看起來具有正確的 PDDL 語法,但使用了一個虛構(gòu)的謂詞(empty),并且遺漏了 b1 在桌子上的初始條件。
(GPT-4 生成的 PDDL 問題文件示例
提示:問題描述(P1) + 直接向我提供描述該規(guī)劃問題的 PDDL 文件,而無需進一步解釋。
GPT-4(生成的問題 PDDL 文件):
```pddl
(:objects b1 b2 b3 b4 b5 - block)
(:init (on b5 b3) (on b4 b2) (on b2 b1) (on b3 b4) (clear b5) (empty))
(:goal (and (on b1 b2) (on b3 b5) (on b4 b1)))
```)
B. 上下文學習
LLMs 已知能夠在不微調(diào)其參數(shù)的情況下進行上下文學習。我們所說的上下文學習,是指 LLMs 通過簡單地基于一些輸入-標簽對(示例)進行條件推理,從而執(zhí)行未見過的下游任務的能力【10】。以下是提供給 GPT-4 的一對自然語言和 PDDL 的問題描述作為上下文。當將上下文與上述提示一起包含時,生成的 PDDL 問題文件可以直接由規(guī)劃器解決。
(注釋:包含上下文的 GPT-4 生成的 PDDL 問題文件示例
上下文(陰影部分):
一個示例規(guī)劃問題是:你有5塊積木。b2 在 b5 上,b5 在 b1 上,b1 在 b4 上,b3 在 b2 上,b4 在桌子上。b3 是清空的。你的手臂是空的。你的目標是移動這些積木。b4 應該在 b3 上。問題的 PDDL 是:
```pddl
(:objects b1 b2 b3 b4 b5)
(:init (arm-empty) (on b1 b4) (on b2 b5) (on b3 b2) (on-table b4) (on b5 b1) (clear b3))
(:goal (and (on b4 b3)))
```
提示:問題描述(P1) + 上下文 + 直接向我提供描述該規(guī)劃問題的 PDDL 文件,而無需進一步解釋。
GPT-4(生成的問題 PDDL 文件):
```pddl
(:objects b1 b2 b3 b4 b5 )
(:init (arm-empty) (on-table b1) (on b2 b1) (on b3 b4) (on b4 b2) (on b5 b3) (clear b5))
(:goal (and (on b1 b2) (on b3 b5) (on b4 b1)))
```)
C. 大規(guī)模語言模型 + 經(jīng)典規(guī)劃器(LLM+P)
在介紹了 LLM 編寫 PDDL 和上下文學習的能力后,我們準備介紹所提出的 LLM+P 解決方案(圖1底部)。特別地,我們假設對于每個問題域,人類專家可以提供一個域描述(即動作的前置條件和效果),這將對該域中發(fā)生的所有問題實例保持固定。雖然自動生成描述的問題是另一個有價值的研究問題,但在這項提議的工作中,我們假設描述是以 PDDL 域文件的形式提供的。LLM+P 方法可以直接作為自然語言接口,用于向機器人系統(tǒng)分配任務。例如,假設我們希望一個機器人充當調(diào)酒師來制作雞尾酒。合理的做法是告訴它可以采取哪些行動,但讓它自己推斷出如何在給定一組要組合的原料的情況下最有效地制作新的雞尾酒。此外,我們假設代理提供了一個最小示例,演示了該域中簡單問題的 PDDL 示例。接下來,代理提供了一個新的(可能非常復雜的)問題(P)。然后,LLM 使用上下文學習來推斷與 P 對應的問題 PDDL 文件。一旦生成了問題 PDDL 文件,我們將其與提供的域 PDDL 文件一起輸入任何經(jīng)典規(guī)劃器,以生成 PDDL 計劃【11】。最后,LLM 將 PDDL 計劃翻譯回自然語言,以完成 LLM+P 管道。
總結(jié)一下,LLM+P 所需的假設是:
1. 機器人知道何時基于與人類用戶的對話觸發(fā) LLM+P。
2. 提供了一個域 PDDL 文件,以定義機器人能夠執(zhí)行的動作。這一規(guī)范與任務無關(guān)——與任務相關(guān)的實體在 LLM 生成的問題 PDDL 中指定。
3. 提供了一個用自然語言描述的簡單問題及其對應的問題 PDDL 文件。
IV. 相關(guān)工作
本節(jié)首先概述了經(jīng)典規(guī)劃算法,然后總結(jié)了在規(guī)劃任務中使用大規(guī)模語言模型(LLMs)的最新進展。最后,討論了近期關(guān)于用外部模塊增強 LLMs 的研究。
A. 經(jīng)典規(guī)劃
自動化規(guī)劃(或稱為經(jīng)典規(guī)劃)技術(shù)可用于計算達成給定目標所需的一系列動作【12】【13】【14】。自動化規(guī)劃算法已廣泛應用于機器人系統(tǒng)中。Shakey 是第一個配備規(guī)劃組件的機器人,其規(guī)劃組件是使用 STRIPS 構(gòu)建的【15】。一些之前的通用規(guī)劃架構(gòu)也被證明對機器人規(guī)劃有用,如 PRODIGY【16】和 HTN【17】。近期為機器人設計的經(jīng)典規(guī)劃系統(tǒng)常使用規(guī)劃域定義語言(PDDL)或應答集編程(ASP)作為規(guī)劃器的底層動作語言【18】【19】【20】【21】。例如,研究人員已將經(jīng)典規(guī)劃算法用于為移動機器人安排遞送任務的動作序列【22】,推理自動駕駛車輛在城市行駛中的安全且高效的行為【23】,以及為移動機器人團隊規(guī)劃動作【24】。任務和運動規(guī)劃(TAMP)是一個層次化的規(guī)劃框架,將經(jīng)典規(guī)劃與連續(xù)空間中的機器人運動規(guī)劃相結(jié)合【25】【26】。
B. 利用大規(guī)模語言模型進行規(guī)劃
近年來,開發(fā)了各種大規(guī)模語言模型(LLMs),例如 Bert【27】、CodeX【28】、Opt【29】、GPT-3【10】、ChatGPT【30】、GPT-4【2】、Llama【31】、Llama2【32】和 PaLM【33】。由于這些 LLMs 使用大量的離線文本數(shù)據(jù)進行預訓練,它們可以展現(xiàn)出驚人的零樣本泛化能力,這可以用于機器人規(guī)劃任務【34】【35】【36】【37】【38】【39】【40】【41】【42】【43】【44】【45】。例如,Huang 等人展示了 LLMs 可以用于家庭領(lǐng)域的任務規(guī)劃,通過迭代增強提示實現(xiàn)【38】。SayCan 是另一種方法,它使機器人規(guī)劃能夠通過權(quán)力函數(shù)考慮動作的可行性,其中服務請求用自然語言指定【34】。
C. 用外部模塊增強 LLMs
近期開發(fā)的方法顯示,通過將 LLMs 與外部模塊結(jié)合,可以提高下游任務的性能。例如,WebGPT【59】是通過結(jié)合網(wǎng)絡知識對 GPT-3 進行微調(diào)的版本,用于回答開放式問題。Lazaridou 等人研究了如何利用像 Google 這樣的搜索引擎作為 LLMs 的外部工具【60】。MemPrompt【61】提出了一個人在循環(huán)系統(tǒng)中,其中不斷增長的錯誤和用戶反饋記憶被作為過往經(jīng)驗添加到提示中,以更準確地回答新問題。REPLUG【62】是另一種檢索增強的語言模型范式,將語言模型視為黑盒,并增加了一個可調(diào)的檢索模型。具體地,人們已經(jīng)研究了使用計算器進行計算【63】【64】。在與我們相關(guān)的非常近期的工作中,Schick 等人訓練了一個名為 ToolFormer 的模型,該模型可以決定何時以及如何通過在提示中在線增強來調(diào)用某些工具 API【65】。在本文中,我們提議經(jīng)典規(guī)劃器可以是另一個特別有用的外部模塊。與此相比,LLM+P 不依賴于任何微調(diào)或 LLMs 的重新訓練。通過簡單地整合來自經(jīng)典規(guī)劃器的知識,LLM+P 將長期推理和規(guī)劃能力整合到現(xiàn)有的 LLMs 中。
V. 實驗
我們進行實驗以回答以下幾個問題:
1. LLM-AS-P 的表現(xiàn)如何?在多大程度上可以直接使用最先進的 LLMs 和基于 LLM 的推理方法進行規(guī)劃?(幾乎不能使用)
2. LLM+P 的表現(xiàn)如何?與 LLM-AS-P 相比表現(xiàn)如何?(好得多)
3. 上下文在 LLM+P 的成功中起到了什么作用?(至關(guān)重要)
4. LLM+P 能否幫助服務機器人在現(xiàn)實任務中變得更有效率?(可以)
A. 基準問題
我們展示了從過去的國際規(guī)劃競賽中借用的七個機器人規(guī)劃域,以及每個域自動生成的20個任務【67】。以下是這些規(guī)劃域的列表,并附有每個域的簡要說明。
1. BLOCKSWORLD:給定一組在桌子上的積木堆,一個機器人被要求將它們重新排列成指定的目標配置。
2. BARMAN:一個機器人調(diào)酒師被要求根據(jù)顧客的訂單使用可用的原料和容器制作雞尾酒。
3. FLOORTILE:一組機器人被要求在地磚上使用油漆顏色圖案。機器人可以四處移動并改變顏色,但不能踩在已經(jīng)涂色的瓷磚上。
4. GRIPPERS:一組帶有兩個夾具的機器人被賦予將物體在不同房間間移動的任務。
5. STORAGE:給定一組起重機,目標是使用起重機將板條箱抬起并放入倉庫中。板條箱最初存儲在不同區(qū)域,起重機可以在存儲區(qū)域之間移動。
6. TERMES:一個機器人被要求通過攜帶和放置積木來建造復雜的結(jié)構(gòu),還要爬上積木以便能夠建造塔。
7. TYREWORLD:機器人被要求通過例如充氣輪胎、擰緊螺母和在完成后將工具放回后備箱等操作,按正確的順序更換輪胎。
對于每個問題 \( P \),它包含一個自然語言描述和一個真實的 PDDL 問題文件。每個域還包括一個示例問題描述、對應的 PDDL 文件和計劃描述,作為各種方法中的上下文。我們假設每個問題域都有一個用戶或域?qū)<以谔幚碓撚蛑械娜魏我?guī)劃問題之前提供的域 PDDL 文件。為了實現(xiàn)可重復性,此數(shù)據(jù)集在我們的代碼庫中公開提供。
B. 實驗設置
我們在所有實驗中都使用 OpenAI 提供的 GPT-4 模型【2】。我們將溫度設置為0,并使用最高概率響應。因此,LLM 返回的響應是確定性的。一旦生成了文本 PDDL 響應,我們將其輸入 FAST-DOWNWARD 規(guī)劃器,并嘗試使用 SEQ-OPT-FDSS-1(保證最優(yōu))和 LAMA(不保證最優(yōu))兩個別名,最大搜索時間為200秒。我們報告最優(yōu)別名的成功率,對于超時的域,我們顯示次優(yōu)別名的成功率(括號內(nèi))。對于基線方法,我們手動計算最優(yōu)計劃的數(shù)量,并報告正確計劃的數(shù)量(如果有任何次優(yōu)計劃,則在括號中)。
我們還評估了一個名為“思維樹”(Tree of Thoughts)的近期 LLM 推理方法,簡稱 LLM-AS-P(TOT)。我們調(diào)整了原始 ToT 實現(xiàn)中的廣度優(yōu)先搜索算法【68】以用于規(guī)劃。在每個樹節(jié)點上,LLM 被提示提供允許的動作列表,然后調(diào)用 LLM 評估樹上新路徑作為部分計劃的可能性。相同的200秒時間限制被應用。
C. 結(jié)果與分析
將 LLM-AS-P 和 LLM+P 應用于7個域的結(jié)果如表1所示。
表 I:應用無上下文的 LLM-AS-P(LLM?)、有上下文的 LLM-AS-P(LLM)、思維樹(LLMToT)、無上下文的 LLM+P(LLM+P?)和 LLM+P 在不同域上的成功率 %。
發(fā)現(xiàn)(LLM-AS-P):
1. 我們觀察到,盡管 LLM-AS-P 為每個問題提供了自然語言的計劃,但大多數(shù)計劃不可行。主要原因是 LLM-AS-P 缺乏推理前提條件的能力。
2. 在大多數(shù)情況下,無論是否提供示例計劃作為上下文,LLM-AS-P 都以相同的方式失敗。特別是在 BLOCKSWORLD 域中,LLM-AS-P 無法跟蹤諸如 ON 和 CLEAR 之類的屬性。在 BARMAN 域中,LLM-AS-P 的計劃未能在再次使用前清潔酒杯。
3. 最復雜的域是那些具有復雜空間關(guān)系的域。LLM-AS-P 方法(無論是否有上下文)在此類問題中完全失敗。在 FLOORTILE 域中,LLM-AS-P 生成了“移動到瓷磚 0-4 并將瓷磚 1-2 涂成黑色”,但機器人只能涂相鄰的瓷磚。在 TERMES 和 STORAGE 中,LLM-AS-P 忽略了機器人不能在它占據(jù)的同一位置卸下積木/板條箱的要求。
4. LLM-AS-P(TOT)在每個樹節(jié)點上調(diào)用 LLM 提供可用動作列表,然后調(diào)用 LLM 評估每條新路徑作為部分計劃。我們發(fā)現(xiàn) LLM 能夠?qū)Σ糠钟媱澾M行合理的排序,但它經(jīng)常無法識別計劃是否達到了目標。由于 LLM 調(diào)用次數(shù)較多,LLM-AS-P(TOT)在大多數(shù)情況下超時,因此不適合解決長時間規(guī)劃問題。
發(fā)現(xiàn)(LLM+P):
1. 提出的 LLM+P 為大多數(shù)問題生成了最優(yōu)計劃。大多數(shù)失敗的情況是由于錯誤指定的問題文件,例如缺少初始條件之一(例如在 FLOORTILE 中沒有連接瓷磚),導致規(guī)劃問題無法解決。
2. 在沒有上下文的情況下(即沒有示例問題及其對應的問題 PDDL),我們觀察到 LLM 無法生成正確的問題 PDDL 文件。因此,上下文對于 LLM+P 的工作至關(guān)重要。
D. 機器人演示
我們驗證了 LLM+P 能夠通過部署在一個實際的機器人上高效解決現(xiàn)實中的服務機器人問題,該機器人被分配了整理家庭的任務。用戶要求機器人將芥末瓶從咖啡桌移動到食品儲藏室,并將空罐頭從側(cè)桌扔掉。由于側(cè)桌和回收箱位于從咖啡桌到食品儲藏室的途中,最優(yōu)的計劃是將芥末瓶帶到側(cè)桌,扔掉罐頭后重新抓住它,總代價為22。圖2顯示了 LLM+P 發(fā)現(xiàn)的最優(yōu)計劃。提示和生成的 PDDL 的部分內(nèi)容如下。LLM-AS-P 輸出了一個次優(yōu)計劃,該計劃先將瓶子帶到食品儲藏室,然后返回取罐頭,總代價為31。
(注釋:LLM+P 生成的整理問題 PDDL
問題 (P):你是一臺配備一個夾具的家用機器人??Х茸篮蛡?cè)桌之間的距離是10,咖啡桌和儲藏室之間的距離是20……你現(xiàn)在在咖啡桌旁,有一個芥末瓶……你的目標是將物品移動到它們的目的地……
LLM+P 生成的問題 PDDL:
```pddl
(:objects coffee-table side-table recycle-bin pantry - location
mustard-bottle soup-can - object)
(:init (= (total-cost) 0)
(= (distance coffee-table side-table) 10)
(= (distance coffee-table pantry) 20)
... (robot-at coffee-table)
(at mustard-bottle coffee-table)
(at soup-can side-table)
(hand-empty) )
(:goal (and (at mustard-bottle pantry) (at soup-can recycle-bin)))
(:metric minimize (total-cost))
```)
圖 2:整理計劃的最優(yōu)方案演示。機器人從咖啡桌開始:1) 拿起瓶子,2) 導航到放有側(cè)桌和回收箱的房間,3) 放下瓶子,4) 抓住罐頭,5) 將罐頭放入回收箱,6) 重新抓住瓶子,7) 導航到廚房,8) 將瓶子放入儲藏室。
VI. 結(jié)論與未來工作
在這項工作中,我們提出利用經(jīng)典規(guī)劃器來賦予大規(guī)模語言模型(LLMs)最佳的規(guī)劃能力。LLM+P 框架的關(guān)鍵設計選擇是將 LLM 的重點放在將規(guī)劃問題從自然語言翻譯成結(jié)構(gòu)化的 PDDL 格式上。此外,我們展示了讓 LLM 意識到一個簡單的(問題,PDDL)對作為示例(或上下文)對上下文學習的重要性。
一些擴展 LLM+P 框架的有趣方向包括:
1. 使 LLM 能夠自動識別何時以及如何應用 LLM+P;
2. 減少 LLM+P 對人工提供信息的依賴,可能涉及微調(diào)。
Liu B, Jiang Y, Zhang X, et al. Llm+ p: Empowering large language models with optimal planning proficiency[J]. arXiv preprint arXiv:2304.11477, 2023.
1Language Technologies Institute, Carnegie Mellon University
2Allen Institute for Artificial Intelligence
3University of Washington
4NVIDIA
5UC San Diego
6Google Research, Brain Team
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/EvdJU-G_JdhemKNkSvfbBQ??
