自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)

發(fā)布于 2024-6-21 16:02
瀏覽
0收藏

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

一、結(jié)論寫(xiě)在前面

論文來(lái)自Google DeepMind。

論文標(biāo)題:NATURAL PLAN: Benchmarking LLMs on Natural Language Planning

論文鏈接:??https://arxiv.org/pdf/2406.04520??

論文提出了NATURAL PLAN,一個(gè)包含三個(gè)關(guān)鍵任務(wù)(旅行規(guī)劃、會(huì)議規(guī)劃和日歷調(diào)度)的自然語(yǔ)言現(xiàn)實(shí)規(guī)劃基準(zhǔn)。論文的評(píng)估重點(diǎn)在于LLMs在完全了解任務(wù)情況下的規(guī)劃能力,通過(guò)提供來(lái)自Google Flights、Google Maps和Google Calendar等工具的輸出作為模型的上下文。    

這消除了在規(guī)劃方面評(píng)估LLMs時(shí)對(duì)工具使用環(huán)境的需要。論文觀察到,NATURAL PLAN對(duì)當(dāng)前最先進(jìn)模型來(lái)說(shuō)是一個(gè)挑戰(zhàn)。例如,在旅行規(guī)劃任務(wù)中,GPT-4和Gemini 1.5 Pro分別僅能達(dá)到31.1%和34.8%的解決率。論文發(fā)現(xiàn),隨著問(wèn)題復(fù)雜度的增加,模型性能急劇下降:當(dāng)涉及10個(gè)城市時(shí),所有模型的表現(xiàn)均低于5%,凸顯了當(dāng)前最先進(jìn)LLMs在自然語(yǔ)言規(guī)劃方面存在顯著差距。

論文還對(duì)NATURAL PLAN進(jìn)行了廣泛的消融研究,進(jìn)一步揭示了自校正、少樣本泛化以及長(zhǎng)上下文情境下的規(guī)劃等方法在提升LLM規(guī)劃效果上的(不)有效性。

?二、論文的簡(jiǎn)單介紹

2.1 論文的背景?

LLM的規(guī)劃能力仍遠(yuǎn)落后于人類(lèi)表現(xiàn)。盡管許多近期工作旨在解決這一問(wèn)題,但沒(méi)有反映真實(shí)世界應(yīng)用的現(xiàn)實(shí)基準(zhǔn),難以在增強(qiáng)這些模型的規(guī)劃能力方面取得有意義的進(jìn)展。

規(guī)劃在機(jī)器人學(xué)和具身環(huán)境中已被廣泛研究。自動(dòng)化規(guī)劃算法已被廣泛應(yīng)用于此類(lèi)系統(tǒng)中,以實(shí)現(xiàn)規(guī)劃功能。在這些場(chǎng)景中,規(guī)劃涉及制定一系列行動(dòng),當(dāng)執(zhí)行這些行動(dòng)時(shí),可以將代理從一個(gè)特定的初始狀態(tài)帶到期望的世界狀態(tài)。這些系統(tǒng)通常使用規(guī)劃域描述語(yǔ)言(PDDL)或答案集編程(ASP)作為規(guī)劃器的底層動(dòng)作語(yǔ)言。盡管最近的工作已經(jīng)探索了LLM驅(qū)動(dòng)的代理在經(jīng)典規(guī)劃設(shè)置中的潛力,但規(guī)劃場(chǎng)景并非實(shí)際設(shè)置,并且它們通常包含模板,而非自然語(yǔ)言。    

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

圖1:旅行規(guī)劃任務(wù)的示例

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

圖2:會(huì)議規(guī)劃任務(wù)的示例

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

圖3:日歷安排任務(wù)的示例

論文引入了NATURAL PLAN,這是一個(gè)專(zhuān)為評(píng)估大型語(yǔ)言模型(LLMs)處理自然語(yǔ)言描述的規(guī)劃任務(wù)能力而設(shè)計(jì)的新基準(zhǔn)。NATURAL PLAN包含三種不同的規(guī)劃任務(wù),即旅行規(guī)劃、會(huì)議規(guī)劃和日歷調(diào)度。對(duì)于每項(xiàng)任務(wù),論文從現(xiàn)有工具中收集真實(shí)信息。例如,在旅行規(guī)劃中,論文查詢Google Flights API,并提供城市間的航班連接信息作為上下文。圖1至圖3展示了這些任務(wù)及其相關(guān)的谷歌工具,這些工具提供的信息作為上下文。    

2.2 論文的方法--NATURAL PLAN

NATURAL PLAN是一個(gè)旨在評(píng)估LLMs執(zhí)行自然語(yǔ)言表達(dá)的規(guī)劃任務(wù)能力的基準(zhǔn)。

?2.2.1 數(shù)據(jù)集類(lèi)別

NATURAL PLAN包含三個(gè)規(guī)劃類(lèi)別:旅行規(guī)劃、會(huì)議規(guī)劃和日歷調(diào)度。每個(gè)類(lèi)別旨在捕捉涉及某些工具(如Google Flights)的真實(shí)世界規(guī)劃任務(wù)。論文將工具使用與推理任務(wù)分離,并在上下文中提供工具輸出,以確保NATURAL PLAN專(zhuān)注于規(guī)劃。論文相信這將顯著簡(jiǎn)化評(píng)估LLMs規(guī)劃過(guò)程的復(fù)雜性。

2.2.1.1 旅行規(guī)劃

旅行規(guī)劃是一項(xiàng)任務(wù),專(zhuān)注于在給定約束條件下規(guī)劃旅行行程。附錄A展示了一個(gè)示例提示及其解決方案。該任務(wù)是關(guān)于確定訪問(wèn)NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)個(gè)城市的順序。論文添加足夠的約束條件,使得任務(wù)只有一個(gè)解決方案,從而使得對(duì)預(yù)測(cè)的評(píng)估變得直接。

2.2.1.2 會(huì)議安排

本部分基準(zhǔn)專(zhuān)注于在各種給定約束下安排會(huì)議。給定NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)個(gè)朋友,該任務(wù)提供了會(huì)議時(shí)間和地點(diǎn)。附錄A展示了一個(gè)示例問(wèn)題。目標(biāo)是在給定的約束條件下,盡可能多地與朋友見(jiàn)面,這些約束包括地點(diǎn)之間的旅行時(shí)間。

2.2.1.3 日歷調(diào)度

日歷調(diào)度是一項(xiàng)任務(wù),專(zhuān)注于在多人之間根據(jù)現(xiàn)有日程和各種約束條件安排工作會(huì)面。論文通過(guò)改變參與會(huì)議的人數(shù)和工作的天數(shù)來(lái)調(diào)整任務(wù)難度。附錄A展示了一個(gè)示例問(wèn)題。

2.2.2 數(shù)據(jù)集構(gòu)建

論文通過(guò)使用相應(yīng)的工具數(shù)據(jù)并創(chuàng)建各種約束條件,人工合成了NATURAL PLAN數(shù)據(jù)集。下面描述了每類(lèi)任務(wù)的具體創(chuàng)建過(guò)程。    

2.2.2.1 旅行規(guī)劃?

論文創(chuàng)建數(shù)據(jù)集的方式如下:為了創(chuàng)建一個(gè)問(wèn)題,論文從歐洲訪問(wèn)量最大的48個(gè)城市中隨機(jī)抽取NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

個(gè)城市。論文還隨機(jī)抽取總持續(xù)時(shí)間和在每個(gè)城市停留的天數(shù),設(shè)為NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)。論文在行程中添加約束條件,要求在特定日期訪問(wèn)某些城市,例如在旅行中的第3天到第5天在巴黎與朋友見(jiàn)面。作為一個(gè)全局約束,論文增加了只使用直飛航班在城市間通行的偏好,排除了如果沒(méi)有從NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)的直飛航班,就不能在訪問(wèn)NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)后訪問(wèn)NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)的可能性。為了幫助LLM理解連通性約束,論文查詢Google Flights API,并在上下文中提供城市之間的航班連通性信息。

2.2.2.2 會(huì)議規(guī)劃

對(duì)于此數(shù)據(jù)集類(lèi)別,論文隨機(jī)抽樣人員姓名以安排會(huì)議,并相應(yīng)地抽樣地點(diǎn)。論文還抽樣時(shí)間框架,顯示人員的可用性。論文增加了約束條件,例如您將在舊金山訪問(wèn)一天。在此設(shè)置中,目標(biāo)是要盡可能多地會(huì)見(jiàn)朋友。為了使問(wèn)題更加真實(shí),時(shí)間約束/地點(diǎn)遵循現(xiàn)實(shí)世界的地點(diǎn)。旅行距離通過(guò)查詢Google地圖API的駕駛時(shí)間來(lái)估算。

表1:NATURAL PLAN任務(wù)的統(tǒng)計(jì)數(shù)據(jù)

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

2.2.2.3 日歷調(diào)度

數(shù)據(jù)集的這一部分包括在多個(gè)工作日中安排30分鐘或1小時(shí)會(huì)議的任務(wù),涉及不同數(shù)量的與會(huì)者。論文實(shí)例化了兩個(gè)子集:第一個(gè)子集固定會(huì)議在特定的一天,例如星期一,同時(shí)變化與會(huì)者的數(shù)量在[2, 7]之間;第二個(gè)子集固定與會(huì)者數(shù)量為2,同時(shí)變化會(huì)議可以安排的工作日數(shù)量為1, 5。每個(gè)參與會(huì)議的人都有他們當(dāng)天的現(xiàn)有會(huì)議安排(第一個(gè)子集)或一周(第二個(gè)子集),這是通過(guò)向每天添加隨機(jī)的30分鐘會(huì)議直到n小時(shí)的會(huì)議時(shí)間被填滿來(lái)創(chuàng)建的。    

論文隨機(jī)為每個(gè)與會(huì)者分配n,以確保一半的與會(huì)者有繁忙的日程,意味著他們超過(guò)一半的工作時(shí)間用于會(huì)議,而另一半有較輕的日程,不到一半的工作時(shí)間用于會(huì)議。每個(gè)與會(huì)者的連續(xù)會(huì)議被合并成一個(gè)單獨(dú)的塊,如圖3所示。一旦論文有了所有與會(huì)者的現(xiàn)有日程,論文添加兩種類(lèi)型的約束:1) 最早可用性;2) 避免在特定時(shí)間段內(nèi)開(kāi)會(huì),以確保問(wèn)題有一個(gè)單一的解決方案。

2.2.3 統(tǒng)計(jì)數(shù)據(jù)

表1展示了NATURAL PLAN中涉及的行程規(guī)劃、會(huì)議規(guī)劃和日歷調(diào)度等多個(gè)任務(wù)的統(tǒng)計(jì)數(shù)據(jù)。

?2.3 論文的效果

論文進(jìn)行了一系列實(shí)驗(yàn),以評(píng)估當(dāng)前最先進(jìn)的語(yǔ)言模型(LMs)在NATURAL PLAN中規(guī)劃任務(wù)的表現(xiàn)。

2.3.1 模型

論文實(shí)驗(yàn)了多個(gè)頂尖的LLMs:GPT-4(gpt-4-turbo-2024-04-09),GPT-3.5(gpt-3.5-turbo-0125),GPT-4o(gpt-4o-2024-05-13),以及Gemini 1.5 Flash和Pro 。

2.3.2 設(shè)置?

少量示例學(xué)習(xí) 對(duì)于NATURAL PLAN中的每個(gè)任務(wù),論文提供5個(gè)同一任務(wù)內(nèi)的示例作為少量示例,以使LLM通過(guò)上下文學(xué)習(xí)[Brown et al., 2020]從這些示例中學(xué)習(xí)。此設(shè)置還確保輸出可以輕松解析以進(jìn)行評(píng)分。

約束復(fù)雜性理解 為了更好地理解LLMs的規(guī)劃能力,論文通過(guò)控制變量改變每個(gè)任務(wù)的難度級(jí)別。論文通過(guò)改變約束條件(如人數(shù)、城市數(shù)、天數(shù)等)進(jìn)行分析,以更好地理解模型在規(guī)劃任務(wù)復(fù)雜性變化中的行為。

少量示例泛化 論文通過(guò)分別提供簡(jiǎn)單和困難示例作為上下文示例,進(jìn)行由易到難和由難到易的泛化研究。例如,在行程規(guī)劃中,對(duì)于由易到難(由難到易)的泛化,論文提供5個(gè)比評(píng)估任務(wù)實(shí)例少(多)2個(gè)城市更簡(jiǎn)單(困難)的示例。    

自我修正 論文評(píng)估模型是否能在NATURAL PLAN中各種任務(wù)類(lèi)別中自我修正其錯(cuò)誤。論文提示模型識(shí)別是否存在任何錯(cuò)誤,并在必要時(shí)進(jìn)行自我修正。

長(zhǎng)上下文中的上下文規(guī)劃 論文評(píng)估模型如何利用長(zhǎng)上下文能力進(jìn)行規(guī)劃中的上下文學(xué)習(xí)。論文將測(cè)試集分為80%和20%,其中80%用作上下文示例,同時(shí)論文在20%的測(cè)試集上評(píng)估模型性能。論文將使用的少量示例數(shù)量增加到800個(gè)。

評(píng)估 論文解析LLM的輸出,并與黃金計(jì)劃進(jìn)行比較。論文計(jì)算LLM生成的計(jì)劃與黃金計(jì)劃完全匹配(EM)的分?jǐn)?shù)。

2.3.3 結(jié)果與分析

表2:5種模型在NATURAL PLAN上的準(zhǔn)確性

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

2.3.3.1 結(jié)果

表2展示了在5次嘗試設(shè)置中,各種LLM在NATURAL PLAN任務(wù)中的表現(xiàn)。論文從結(jié)果中得出以下見(jiàn)解。

所有模型在NATURAL PLAN上的表現(xiàn)都不佳。Gemini 1.5 Pro在旅行規(guī)劃和日歷調(diào)度上表現(xiàn)最佳,而GPT-4在會(huì)議規(guī)劃上表現(xiàn)最佳。

在旅行規(guī)劃中,Gemini 1.5 Pro達(dá)到34.8%的準(zhǔn)確性,而GPT-4為31.1%。特別是,論文觀察到GPT-4o僅為3.7%。進(jìn)一步分析顯示,GPT-4o在理解和遵守航班連接和旅行日期限制方面遇到困難,更多詳細(xì)分析見(jiàn)附錄D。在會(huì)議規(guī)劃上,GPT-4和GPT-4o分別達(dá)到47%和45.29%的準(zhǔn)確性,而Gemini 1.5 Pro為39.1%。對(duì)于日歷調(diào)度,Gemini 1.5 Pro以48.9%的準(zhǔn)確性超過(guò)了GPT-4和GPT-4o。

在NATURAL PLAN的三個(gè)任務(wù)中,旅行計(jì)劃是其中最難的,最佳準(zhǔn)確率僅為34.8%。值得注意的是,所有模型在這三個(gè)任務(wù)上的準(zhǔn)確率均未超過(guò)50%,這表明即使所有必要的工具使用信息都已在上下文中提供,自然語(yǔ)言規(guī)劃對(duì)于最先進(jìn)模型來(lái)說(shuō)仍然是一個(gè)極具挑戰(zhàn)性的任務(wù)。    

2.3.3.2 約束復(fù)雜性

圖4至圖6展示了模型在旅行計(jì)劃中城市數(shù)量、會(huì)議安排中人數(shù)、日歷安排中參與者和天數(shù)變化下的性能變化。論文觀察到以下關(guān)鍵見(jiàn)解:

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

    

圖5:NATURAL PLAN中會(huì)議規(guī)劃任務(wù)的約束復(fù)雜性分析,作為人數(shù)的函數(shù)                  

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

                  圖6:日歷調(diào)度任務(wù)的約束復(fù)雜性分析,作為一天內(nèi)涉及的人數(shù)(左)和兩個(gè)與會(huì)者之間選擇會(huì)議時(shí)間的工作日數(shù)量(右)的函數(shù)

隨著城市/人數(shù)/與會(huì)者/天數(shù)的增加,性能下降。對(duì)于旅行規(guī)劃,圖4顯示,當(dāng)規(guī)劃中涉及更多城市時(shí),模型開(kāi)始失敗。在旅行規(guī)劃中,所有五個(gè)模型在涉及10個(gè)城市時(shí),性能都低于5%。對(duì)于會(huì)議規(guī)劃,論文評(píng)估了從1到10的人數(shù)場(chǎng)景。圖S再次顯示,隨著需要會(huì)見(jiàn)的人數(shù)增加,性能急劇下降。超過(guò)8人后,所有模型的得分都低于10%。對(duì)于日歷調(diào)度,與其他兩個(gè)任務(wù)相比,增加與會(huì)者或天數(shù)時(shí),準(zhǔn)確性的下降并不顯著。

2.3.3.3 泛化分析

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

                  圖7:模型在旅行規(guī)劃任務(wù)上的性能,作為城市數(shù)量對(duì)少數(shù)鏡頭泛化消融的影響函數(shù):E2H=從易到難,H2E=從難到易    

圖7展示了論文對(duì)從易到難和從難到易泛化實(shí)驗(yàn)的總結(jié)。對(duì)于從易到難(從難到易)泛化,論文提供了5個(gè)更簡(jiǎn)單(更難)的例子,這些例子比任務(wù)少2個(gè)(多2個(gè))城市,以測(cè)試大型語(yǔ)言模型(LLMs)是否能從更簡(jiǎn)單(更難)的上下文學(xué)習(xí)示例中泛化。論文選擇旅行規(guī)劃任務(wù)來(lái)進(jìn)行消融研究,因?yàn)樗亲匀灰?guī)劃任務(wù)中最困難的任務(wù)。

總體而言,論文觀察到從易到難的泛化效果優(yōu)于從難到易的泛化,跨越了不同的模型家族。第4.2節(jié)顯示,當(dāng)任務(wù)復(fù)雜度較高時(shí),模型的表現(xiàn)更差。這一結(jié)果表明,即使是對(duì)于最先進(jìn)的LLMs,理解和利用上下文學(xué)習(xí)中的困難示例仍然具有挑戰(zhàn)性。然而,論文確實(shí)觀察到,對(duì)于GPT-4和Gemini 1.5 Flash,隨著任務(wù)復(fù)雜度的增加,趨勢(shì)發(fā)生了逆轉(zhuǎn):對(duì)于

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)到8,從難到易的示例比從易到難的示例表現(xiàn)更好。

2.3.3.4 自我修正

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

                  圖8:自我修正消融實(shí)驗(yàn)中,行程規(guī)劃準(zhǔn)確率隨城市數(shù)量的變化。SC=自我修正

圖8展示了在行程規(guī)劃任務(wù)中對(duì)模型預(yù)測(cè)進(jìn)行自我修正的結(jié)果。論文提示大型語(yǔ)言模型(LLM)檢查生成的計(jì)劃是否正確,如果判定為不正確,則修正計(jì)劃(見(jiàn)附錄B中的提示)。

自我修正導(dǎo)致所有模型性能顯著下降。有趣的是,如GPT-4和Gemini 1.5 Pro這樣的更強(qiáng)模型相比GPT-3.5遭受了更大的損失。如GPT-4和Gemini 1.5 Pro這樣的更強(qiáng)模型相比GPT-3.5遭受了更大的損失。這與先前發(fā)現(xiàn)自我修正可能導(dǎo)致推理任務(wù)性能下降的研究結(jié)果一致[Huang et al., 2023]。像GPT-4和Gemini 1.5 Pro這樣的經(jīng)過(guò)指令調(diào)優(yōu)的強(qiáng)模型可能在被提示時(shí)對(duì)自己的解決方案過(guò)于自信,自我修正的示例見(jiàn)附錄E。    

2.3.3.5 長(zhǎng)上下文情景下的即時(shí)規(guī)劃

NATURAL PLAN:LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)-AI.x社區(qū)

                  圖9 展示了在旅行規(guī)劃和日歷調(diào)度任務(wù)中利用長(zhǎng)上下文進(jìn)行情境規(guī)劃的情況。Gemini 1.5 Pro在規(guī)劃任務(wù)上展現(xiàn)出強(qiáng)大的長(zhǎng)上下文學(xué)習(xí)能力,相較于其他模型表現(xiàn)更優(yōu)

論文研究了通過(guò)利用近期模型的長(zhǎng)上下文能力進(jìn)行情境規(guī)劃的可能性。圖9展示了四種模型在最多800個(gè)示例下的性能。

由于強(qiáng)大的長(zhǎng)上下文能力,Gemini Pro 1.5能夠利用多達(dá)35.5萬(wàn)個(gè)上下文示例,并持續(xù)顯示出穩(wěn)定的改進(jìn)。例如,在旅行規(guī)劃中,將示例數(shù)量從1增加到800,Gemini Pro 1.5的準(zhǔn)確率從2.7%提升至39.9%。與此同時(shí),GPT-4和Gemini 1.5 Flash在20個(gè)示例時(shí)達(dá)到性能峰值,并開(kāi)始出現(xiàn)性能下降。在日歷調(diào)度任務(wù)中,Gemini 1.5 Pro持續(xù)改進(jìn)至400個(gè)示例。這些結(jié)果展示了情境規(guī)劃的潛力,其中長(zhǎng)上下文能力使得大型語(yǔ)言模型能夠利用更廣泛的上下文來(lái)提升規(guī)劃能力。

本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無(wú)影寺

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦