自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Chameleon:使用大型語言模型的即插即用組合推理 原創(chuàng)

發(fā)布于 2024-7-25 19:40
瀏覽
0收藏

?摘要:大型語言模型(LLMs)在解決各種自然語言處理任務(wù)方面取得了顯著進展,這歸功于其突顯的推理能力。然而,LLMs本身存在固有的局限性,例如無法訪問最新信息(存儲在網(wǎng)絡(luò)或任務(wù)特定的知識庫中)、無法使用外部工具,以及無法進行精確的數(shù)學(xué)和邏輯推理。在本文中,我們提出了變色龍(Chameleon),一個通過增加即插即用模塊來增強LLMs進行組合推理的AI系統(tǒng)。變色龍通過組合各種工具(例如LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于啟發(fā)式的方法)來合成程序,以完成復(fù)雜的推理任務(wù)。變色龍的核心是一個基于LLM的計劃器,它組裝了一系列工具以生成最終的響應(yīng)。我們展示了變色龍在兩個多模態(tài)知識密集型推理任務(wù)上的有效性:ScienceQA和TabMWP。由GPT4驅(qū)動的變色龍在ScienceQA上實現(xiàn)了86.54%的總體準確率,比目前發(fā)表的最佳少樣本結(jié)果提高了11.37%。在TabMWP上,由GPT4驅(qū)動的變色龍將準確率提高了17.0%,將最新水平提升至98.78%。我們的分析還表明,與由ChatGPT驅(qū)動的計劃器相比,由GPT4驅(qū)動的計劃器通過推斷指令中的潛在約束,表現(xiàn)出更一致和合理的工具選擇。

1、引言

近年來,大型語言模型(LLMs)在各種自然語言處理任務(wù)中取得了顯著進展,代表性的例子包括 GPT3 [4]、PaLM [8]、LLaMA [64]、ChatGPT [41] 和最近開發(fā)的 GPT4 [42]。LLMs展示了新興的能力,如上下文學(xué)習(xí)和鏈式思維推理 [56]。這些模型能夠以零樣本方式解決各種任務(wù) [25],或在少量示例的幫助下完成任務(wù) [57],并且在規(guī)劃和決策方面展示了與人類類似的潛力 [17, 16]。盡管具有這些能力,LLMs面臨固有的局限,比如無法訪問最新信息 [26],執(zhí)行精確的數(shù)學(xué)推理 [44, 35] 或利用專門的模型 [49]。因此,增強當前的LLMs,使其具備自動組合外部工具來解決現(xiàn)實世界任務(wù)的能力,對解決這些缺點至關(guān)重要。

 

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖1:我們在ScienceQA [32]上使用GPT4進行變色龍方法的示例,這是一個科學(xué)領(lǐng)域的多模態(tài)問答基準。變色龍通過合成程序來組合各種工具并依次執(zhí)行它們以獲得最終答案,從而適應(yīng)不同的查詢。

(注釋:

1. 問題1:

查詢:給定一個包含棒球運動員打擊動作的圖像,問題是“這個推力的方向是什么?”選項是:(A) 遠離棒球棒 (B) 朝向棒球棒。

工具組合:使用圖像描述生成工具(Image Captioner)生成圖像描述,然后使用知識檢索工具(Knowledge Retrieval)查找相關(guān)信息,再使用解決方案生成工具(Solution Generator)分析答案。

答案生成:最終答案生成器(Answer Generator)得出答案。

2. 問題2:

查詢:給定一個環(huán)保廣告的圖像,問題是“這則廣告中主要使用的勸說手段是什么?”選項是:(A) 情感 (B) 人格 (C) 理性。

工具組合:使用文本檢測工具(Text Detector)提取廣告中的文本,然后使用知識檢索工具查找相關(guān)信息,再使用解決方案生成工具分析答案。

詳細解釋:

名詞提示:提供了廣告中提到的環(huán)保紙盤的詳細背景信息。

句子提示:描述了廣告中使用的勸說手段。

多模態(tài)提示:結(jié)合文本和圖像推理,提供了廣告的全面分析。

答案生成:最終答案生成器得出答案“ethos(人格)”。

3. 問題3:

查詢:給定一張動物的圖像,問題是“哪種動物的皮膚適應(yīng)在寒冷環(huán)境中生存?”選項是:(A) 歐亞猞猁 (B) 荊棘龍蜥。

工具組合:使用圖像描述生成工具生成圖像描述,然后使用查詢生成器(Query Generator)構(gòu)建查詢,接著通過Bing搜索引擎查找相關(guān)信息,再使用解決方案生成工具分析答案。

答案生成:最終答案生成器得出答案。

總結(jié):通過變色龍方法,系統(tǒng)能夠適應(yīng)不同類型的查詢,合成和組合各種工具并依次執(zhí)行它們,以生成最終的答案。變色龍方法展示了其在多模態(tài)知識密集型推理任務(wù)中的有效性,并且能夠生成詳細、合理且一致的答案。)

考慮圖1中例子②的問題:“這則廣告中使用了哪種主要的說服手法?”。為了回答這個問題,需要進行以下步驟:1)推斷出廣告圖像中包含文本內(nèi)容并調(diào)用文本解碼器理解語義;2)檢索有關(guān)說服手法及其區(qū)別的背景知識;3)基于輸入查詢和前幾步驟的中間結(jié)果生成解決方案;以及4)最終以特定于任務(wù)的格式給出答案。

另一方面,當回答“哪種動物的皮膚適應(yīng)在寒冷地方生存(③)”時,可能需要調(diào)用諸如圖像標題生成器解析圖像信息和網(wǎng)絡(luò)搜索引擎檢索領(lǐng)域知識以理解科學(xué)術(shù)語。然而,目前的工具增強型LLMs在處理這些跨多種場景的現(xiàn)實世界查詢時仍面臨挑戰(zhàn)。大多數(shù)現(xiàn)有方法要么局限于少量工具 [39, 6, 55, 18, 43, 49],要么依賴于特定領(lǐng)域的工具 [40, 60, 13, 59, 52],因此難以推廣到新領(lǐng)域的查詢(詳見第2節(jié)和A.1節(jié)進一步討論)。在本文中,我們研究如何使LLMs能夠合成程序,以捕捉組合異構(gòu)工具的邏輯。

為了解決現(xiàn)有工作的挑戰(zhàn),我們引入了Chameleon,一個即插即用的組合推理框架,利用LLMs合成程序并組合各種工具,以應(yīng)對廣泛的任務(wù)需求。與現(xiàn)有的工具增強型LLMs [49, 40, 60, 13, 59, 52] 不同,Chameleon使用更豐富的工具集,包括LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于啟發(fā)式的模塊。此外,Chameleon利用LLMs的上下文學(xué)習(xí)能力,以及將LLM作為自然語言規(guī)劃器的特性,無需任何訓(xùn)練或精心策劃的規(guī)則。根據(jù)工具描述和使用示例,規(guī)劃器推斷出一個由一系列工具組成的程序,以便執(zhí)行以生成用戶查詢的最終響應(yīng)。與生成特定領(lǐng)域語言的程序不同 [40, 52, 13],Chameleon生成類似自然語言的(NL)程序(例如,[文本檢測器,知識檢索,解決方案生成器,答案生成器] 用于圖1中的第二個查詢)。NL程序易于理解和由編程經(jīng)驗有限的用戶調(diào)試,并且容易擴展到新模塊。在每個模塊的執(zhí)行過程中,模塊處理查詢和緩存的上下文,返回由模塊自身確定的結(jié)果,并更新后續(xù)執(zhí)行的查詢和上下文。通過將模塊組合成順序程序,后續(xù)模塊可以利用先前緩存的上下文和更新的查詢。

我們展示了Chameleon在兩個任務(wù)上的適應(yīng)性和效果:ScienceQA [32] 和TabMWP [33]。ScienceQA是一個跨多種上下文格式和各種科學(xué)主題的多模式問題回答基準,而TabMWP則涉及各種表格上下文的數(shù)學(xué)基準。這兩個基準作為評估Chameleon跨不同類型和領(lǐng)域協(xié)調(diào)各種工具能力的良好測試平臺。值得注意的是,Chameleon結(jié)合GPT4在ScienceQA上達到了86.54%的準確率,顯著優(yōu)于最佳已發(fā)表的少樣本模型達11.37%。在TabMWP上,使用GPT4作為基礎(chǔ)LLM,Chameleon相比鏈式思維(CoT)提示的GPT4 [57] 提升了7.97%,相比最佳已發(fā)表模型 [6] 提升了17.0%,將技術(shù)水平提升至98.78%。進一步研究表明,使用GPT4作為規(guī)劃器能夠展示更一致和理性的工具選擇,并能根據(jù)指令推斷出潛在約束,相較于其他LLMs如ChatGPT。

我們的貢獻如下:(1) 我們開發(fā)了一個即插即用的組合推理框架Chameleon,有效地組合外部工具以解決LLMs的固有限制,并應(yīng)對廣泛的推理任務(wù)。(2) 利用LLM作為自然語言規(guī)劃器生成程序,Chameleon成功地整合了包括LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于規(guī)則的模塊等多種工具,構(gòu)建了一個多功能且適應(yīng)性強的人工智能系統(tǒng),能夠回答現(xiàn)實世界的查詢。(3) 我們展示了Chameleon在兩個具有挑戰(zhàn)性的基準測試中的有效性,顯著超越現(xiàn)有技術(shù)水平。

2、相關(guān)工作

組合推理

神經(jīng)模塊化和組合方法已被探索用于自動執(zhí)行所需的子任務(wù)分解,增強各種推理任務(wù)的可解釋性和適應(yīng)性。早期的工作[2, 3]認為復(fù)雜的推理任務(wù)本質(zhì)上是組合的,并提出了神經(jīng)模塊網(wǎng)絡(luò)(NMN)以將其分解為子任務(wù)。然而,這些方法依賴于脆弱的現(xiàn)成解析器,并受到模塊配置的限制。一些后來的工作[19, 15, 14, 21]通過端到端方式預(yù)測特定實例的網(wǎng)絡(luò)布局,利用強化學(xué)習(xí)[58]和弱監(jiān)督學(xué)習(xí),進一步推進了這一領(lǐng)域。在視覺推理中,提出了包含程序生成器和執(zhí)行引擎的模型,以結(jié)合深度表示學(xué)習(xí)和符號程序執(zhí)行[19, 61]。在數(shù)學(xué)推理領(lǐng)域,開發(fā)了一種可解釋的求解器,將定理知識作為條件規(guī)則逐步進行符號推理[31]。我們的工作從神經(jīng)模塊網(wǎng)絡(luò)中汲取靈感,但提供了幾個顯著的優(yōu)勢。首先,Chameleon 不需要昂貴的特定任務(wù)程序監(jiān)督來進行模型訓(xùn)練,而是生成由模塊組成的順序程序,這些程序易于推廣到各種領(lǐng)域和任務(wù),允許以即插即用的方式擴展新模塊。其次,Chameleon 不需要任何訓(xùn)練,而是利用大語言模型(LLMs)的上下文學(xué)習(xí)能力,通過自然語言指令和示例生成程序。

工具增強型語言模型

近年來,大型語言模型(LLMs)[48, 8, 9, 53, 4, 41, 42]的發(fā)展取得了巨大進展,并刺激了提示學(xué)習(xí)[57, 33, 22]和指令學(xué)習(xí)[53, 64, 46, 11]的研究。盡管LLMs表現(xiàn)出色,但它們存在固有的局限性,如無法訪問最新信息[26]、利用外部工具[49]或進行精確的數(shù)學(xué)推理[44, 35]。最近的基準測試,如ScienceQA和TabMWP[32, 33, 7, 54, 51, 30],已出現(xiàn)用于評估LLMs處理復(fù)雜推理挑戰(zhàn)的能力,特別是強調(diào)使用外部工具的能力。同時,利用外部工具和模塊化方法增強LLMs的興趣不斷增長。這些增強型LLMs可以通過網(wǎng)絡(luò)搜索引擎訪問實時信息[40],并利用外部資源的領(lǐng)域特定知識[62]。有些工作利用Python解釋器生成復(fù)雜程序,以更有效地執(zhí)行邏輯推理任務(wù)[55, 10, 6, 39, 18, 43, 36]。例如,Toolformer[49]構(gòu)建了工具使用增強的數(shù)據(jù),以訓(xùn)練語言模型選擇五種工具。在視覺工具領(lǐng)域,提出了各種方法來增強大型語言模型處理視覺任務(wù)的能力[60, 59, 52, 13, 50],這些方法結(jié)合了Hugging Face模型[50]、Azure模型[60]、視覺基礎(chǔ)模型[59]。我們在表1中將Chameleon與其他工具增強型語言模型進行了比較。許多這些方法要么受限于少量工具,要么局限于特定任務(wù)工具,這減少了它們在各種技能維度上的能力,并阻礙了它們對新任務(wù)的普適性。最近的一些工作依賴大量監(jiān)督[49, 26],并專注于生成命令[40]和程序[52, 13]以推斷工具的選擇。然而,這種方法需要為特定任務(wù)和特定工具精心設(shè)計提示,既不靈活也不適應(yīng)性強。相比之下,Chameleon通過自然語言指令指導(dǎo)LLMs,簡單描述每個模塊的角色并提供一些調(diào)用示例,消除了學(xué)習(xí)組合不同工具時對額外訓(xùn)練或工具特定提示的需求。更重要的是,Chameleon在工具類型和來源、更新底層LLMs、添加新工具和適應(yīng)新任務(wù)方面為用戶提供了靈活性。我們的工作與AutoGPT[47]的精神一致,AutoGPT是一種具備人工通用智能(AGI)雄心的自主GPT-4代理,旨在結(jié)合眾多工具以實現(xiàn)用戶定義的目標。雖然AutoGPT仍在開發(fā)中,但我們的工作是第一個具體實現(xiàn)這一理念并在廣泛研究的基準測試中驗證其有效性的。

表1:對使用工具增強大型語言模型的工作的比較。我們報告了工具的數(shù)量和工具類型,包括OpenAI ( ), Hugging Face ( ), Github ( ), Web搜索 ( ), 和代碼 ( )。我們比較了每種方法所具備的技能,例如圖像理解、瀏覽器搜索、知識檢索、數(shù)學(xué)推理和表格理解。有些模型可以組合各種工具,提出一個計劃器來推斷執(zhí)行相關(guān)工具,或者本質(zhì)上可以擴展到新工具。標簽“-”表示文獻中的不確定信息。

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

3、通用框架:Chameleon

為了應(yīng)對當前大型語言模型(LLMs)在利用多種工具方面的局限性,我們提出了Chameleon,一個新穎的即插即用組合推理框架,綜合多種工具的組合以適應(yīng)廣泛的問題。Chameleon由一個模塊庫和一個基于LLM的規(guī)劃器組成,其目的是將原始問題分解為可以由特定任務(wù)工具有效解決的子任務(wù)。與現(xiàn)有的工具增強型LLM方法[49, 13, 59, 50]不同,我們的模塊庫具有多種工具類型,如表2所示,使得Chameleon能夠展示多種推理能力,包括圖像理解、知識檢索、網(wǎng)絡(luò)搜索、復(fù)雜數(shù)學(xué)推理和表格理解。Chameleon并不生成特定領(lǐng)域的程序[40, 13, 52],而是采用基于LLM的規(guī)劃器創(chuàng)建類似自然語言的程序,遵循自然語言指令,這種方法更少出錯,易于擴展到新模塊,且對用戶友好。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表1:我們模塊庫中的不同工具

我們將規(guī)劃器形式化如下:給定輸入查詢x0、模塊庫M和約束G,基于自然語言的規(guī)劃器P選擇一組模塊,這些模塊可以按順序執(zhí)行,通過生成類似自然語言格式的程序來回答查詢。模塊庫M由一組預(yù)構(gòu)建模塊組成:{Mi},每個模塊對應(yīng)于不同類型的工具(見表2)。G是計劃生成的約束,例如模塊的并發(fā)關(guān)系和順序。在我們的工作中,規(guī)劃器P是一個通過少樣本設(shè)置生成模塊名稱序列的LLM。規(guī)劃器以自然語言進行提示,包含規(guī)劃任務(wù)指令I(lǐng)、模塊庫M的描述及相應(yīng)的約束G,以及一些示例D。從P生成的T長度計劃可以表示為p = M1, ..., MT,其中Mt表示生成計劃中的第t個元素,且Mt ∈ M。形式上,給定輸入查詢(問題陳述)x0,計劃p生成如下:

p←P(x0; I, M, G, D)

根據(jù)生成的計劃,各步驟對應(yīng)的模塊按順序執(zhí)行。該計劃是一個自然語言程序,每個模塊通過字符串匹配簡單綁定。在時間步驟t評估模塊Mt時,執(zhí)行的輸出yt計算如下:

yt ←Mt(xt-1; ct-1)

其中xt-1是當前模塊Mt的輸入, ct-1是緩存的信息(例如,圖像語義、檢索到的知識、生成的程序),這些信息來自模塊的執(zhí)行歷史。

接下來,通過以下方式分別更新下一個模塊Mt+1的輸入xt和緩存ct

xt←update_input(xt-1; yt)

ct←update_cache(ct-1; yt)

update_input和update_cache函數(shù)是為每個Mi手動設(shè)計的。具體來說,update_input應(yīng)用于輸入查詢中的元素,包括問題、表格上下文和圖像。這些元素在模塊執(zhí)行后會更新。update_cache對應(yīng)新信息的生成,如輸入圖像的描述或從外部資源檢索到的知識。最后,由最后一個模塊MT生成對查詢的響應(yīng)r:

r = yT←MT(xT-1; cT-1)


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖2:我們在TabMWP [33]上使用GPT4進行變色龍方法的兩個示例,這是一個具有表格上下文的數(shù)學(xué)推理基準。變色龍展示了在適應(yīng)需要各種推理能力的不同查詢時的靈活性和效率。

(注釋:

1. 示例1:

查詢:Wanda去野營旅行并記錄了她每天徒步的里程數(shù),問題是“這些數(shù)字的中位數(shù)是多少?”

表格數(shù)據(jù):顯示了她每天徒步的里程數(shù)。

周日:10

周一:9

周二:10

周三:5

周四:9

工具組合:

知識檢索:檢索相關(guān)知識,解釋中位數(shù)的定義和計算方法。

程序生成器:生成計算中位數(shù)的Python代碼。

程序驗證器:驗證生成的代碼。

程序執(zhí)行器:執(zhí)行代碼計算中位數(shù)。

答案生成器:生成最終答案。

答案:中位數(shù)為9。

2. 示例2:

查詢:根據(jù)以下時間表,公交車從火車站出發(fā)的時間是什么時候?

表格數(shù)據(jù):顯示了各個地點的到達和出發(fā)時間。

體育場:到達 10:20 A.M.,出發(fā) 10:25 A.M.

公園:到達 10:35 A.M.,出發(fā) 10:45 A.M.

酒店:到達 11:10 A.M.,出發(fā) 11:15 A.M.

機場:到達 12:05 P.M.,出發(fā) 12:10 P.M.

火車站:到達 12:25 P.M.,出發(fā) 12:35 P.M.

公交車站:到達 1:10 P.M.,出發(fā) 1:10 P.M.

選項:

(A) 12:35 P.M.

(B) 1:10 P.M.

(C) 1:10 P.M. (D) 10:45 A.M.

工具組合:

行查找:在時間表中找到火車站的相關(guān)行。

解決方案生成器:生成步驟解釋以找到答案。

答案生成器:生成最終答案。

答案:公交車從火車站出發(fā)的時間是12:35 P.M.

總結(jié):通過變色龍方法,系統(tǒng)能夠靈活地適應(yīng)具有不同上下文和要求的查詢,合成和組合各種工具以生成最終的答案。變色龍方法在具有表格數(shù)據(jù)的數(shù)學(xué)推理任務(wù)中展示了其強大的推理能力和效率,能夠提供詳細的步驟解釋和正確的答案。)

4、Chameleon的應(yīng)用

我們展示了Chameleon在兩個具有挑戰(zhàn)性的任務(wù)上的應(yīng)用:ScienceQA [32](第4.2節(jié))和TabMWP [33](第4.3節(jié)),使用第4.1節(jié)中介紹的模塊庫。更多實驗細節(jié)見附錄A.2。

4.1 模塊庫

為了適應(yīng)各種推理能力和多樣化的查詢,我們的系統(tǒng)利用了豐富的外部工具模塊庫。這里提供了該庫的高級概述,詳細實現(xiàn)見具體實驗。完整的模塊庫M如表2所示。每個庫中的工具定義如下:


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表2:我們模塊庫中的不同工具

- 知識檢索工具:此模塊檢索解決復(fù)雜問題所需的額外背景知識。它對科學(xué)和數(shù)學(xué)等專門領(lǐng)域特別有益,提供任務(wù)的上下文。例如,如果查詢涉及稅表,此模塊可以生成關(guān)于稅務(wù)程序的知識,提供有價值的背景信息。

- Bing搜索:類似“知識檢索”,但“Bing搜索”模塊旨在提供廣泛的任務(wù)相關(guān)知識。當需要來自多個來源的廣泛或最新信息時,它表現(xiàn)更好。使用搜索引擎API,此模塊根據(jù)輸入查詢返回相關(guān)搜索結(jié)果,隨后模塊解析并使用這些結(jié)果從多種來源獲取豐富的上下文信息,增強問題解決的效果。

- 查詢生成器:由于原始問題通常缺乏檢索任務(wù)相關(guān)信息的定制查詢,此模塊根據(jù)問題創(chuàng)建搜索引擎查詢,然后由“Bing搜索”模塊使用。通常,在使用“Bing搜索”之前,使用“查詢生成器”模塊是一個好策略。結(jié)合搜索引擎工具,生成更有針對性的查詢通常有助于提高檢索信息的召回率和精確度。

- 圖像說明生成器:旨在為圖像生成說明,此模塊為查詢提供重要的補充上下文。它在語義理解圖像時特別有價值,如識別場景中的物體和互動。使用預(yù)訓(xùn)練模型,它將視覺數(shù)據(jù)轉(zhuǎn)化為語言,促進對圖像內(nèi)容的有效理解和推理。

- 文本檢測器:此模塊旨在識別給定圖像中的文本。當問題需要從包含圖表、表格、地圖或其他視覺元素的圖像中提取文本信息時,通常使用“文本檢測器”。通過有效檢測各種格式的文本,此模塊有助于分析和理解基于圖像的內(nèi)容。

- 行查找:當查詢涉及表格上下文時,此模塊非常關(guān)鍵,因為通常需要定位相關(guān)的單元格。大型表格可能會分散系統(tǒng)注意力,因此“行查找”通過保留與查詢相關(guān)的行簡化表格。如果所有行都相關(guān),則返回原始表格。

- 列查找:類似“行查找”模塊,“列查找”通過關(guān)注相關(guān)列解決涉及表格上下文的問題。它通過保留相關(guān)列簡化表格,如果所有列都相關(guān),則返回原始表格。

- 表格語言化:將結(jié)構(gòu)化表格轉(zhuǎn)換為文本可能會增強下游模塊對表格信息的理解,如開放域問答[37]所示,這使得此模塊成為我們系統(tǒng)的重要部分。它將表格翻譯為易于理解的描述,特別適用于“程序生成器”和“解決方案生成器”等模塊,尤其對莖葉圖或函數(shù)表等小型、特定領(lǐng)域的表格有用。

- 程序生成器:程序輔助方法被證明可以增強LLMs的邏輯和數(shù)學(xué)推理能力[55, 10, 6, 39, 18, 43]?!俺绦蛏善鳌鄙蒔ython程序以有效解決查詢,這對于需要復(fù)雜計算或復(fù)雜邏輯操作(如“if-else”語句)的查詢特別有益。

- 程序驗證器:最近的研究強調(diào)了驗證以減少幻覺的重要性[45, 38]。因此,“程序驗證器”確保由“程序生成器”生成的程序的有效性和無錯誤性。它檢查語法和邏輯錯誤以及潛在的執(zhí)行問題,增強解決方案的可靠性和準確性。

- 程序執(zhí)行器:此模塊執(zhí)行由“程序生成器”生成的程序并產(chǎn)生結(jié)果,橋接程序生成和最終解決方案推導(dǎo)之間的差距。

- 解決方案生成器:此模塊利用所有緩存的信息生成輸入查詢的詳細解決方案。采用連鎖思維提示方法[57],確保連貫和結(jié)構(gòu)良好的響應(yīng)。如果規(guī)劃器能夠獨立解決查詢,尤其是對于較簡單的問題,可以直接使用此模塊而不是其他功能模塊。

- 答案生成器:此任務(wù)特定模塊使用基于規(guī)則的方法從“程序執(zhí)行器”或“解決方案生成器”的結(jié)果中提取和規(guī)范化答案。與提供詳細多步解決方案的“解決方案生成器”不同,“答案生成器”作為流水線中的最終模塊,提供簡明的任務(wù)特定答案。

4.2 科學(xué)問題解答

科學(xué)問題解答(ScienceQA [32])是一個多模式問題解答的多樣化基準,涵蓋一系列科學(xué)主題和背景。如圖1所示,這些問題的解答需要各種工具和技能,如圖像說明生成、文本檢測、知識檢索、在線資源搜索和多線索視覺推理。在生成使用工具的程序時,我們將搜索空間限制為相關(guān)的庫子集(見附錄中的表6)。如果程序的最后兩個元素不是“解決方案生成器”和“答案生成器”,則該程序被視為無效,并默認為這兩個元素的序列,遵循連鎖思維提示基線[57]。請參見附錄中的表8以了解構(gòu)建的自然語言規(guī)劃器提示。基于LLM的模塊(如“知識檢索”、“查詢生成器”和“解決方案生成器”的提示見附錄中的表10、11和12)。

4.3 表格數(shù)學(xué)推理

TabMWP [33] 是一個涉及各種表格上下文的數(shù)學(xué)推理任務(wù),如日程表、價格表、稅表、圖表和函數(shù)關(guān)系(見圖2)。它要求AI系統(tǒng)理解各種表格格式并進行精確的數(shù)值或符號計算。與ScienceQA類似,我們將程序搜索空間限制為兩種工具類型:1)幫助LLM更好地理解表格信息的工具(如“行查找”、“列查找”和“表格語言化”)和2)執(zhí)行準確符號計算的工具(如“程序生成器”、“程序驗證器”和“程序執(zhí)行器”),如表6所列。生成的程序必須符合一定的約束條件,例如包括“答案生成器”,并且將“程序生成器”置于“程序驗證器”和“程序執(zhí)行器”之前。不符合要求的程序默認為“程序生成器”、“程序驗證器”、“程序執(zhí)行器”和“答案生成器”的序列,符合帶有驗證的程序思維提示基線[6]。

5、實驗

我們評估了Chameleon在兩個復(fù)雜推理任務(wù)ScienceQA [32]和TabMWP [33]上的有效性和適應(yīng)性。實驗細節(jié)見附錄A.2。

5.1 實驗結(jié)果

ScienceQA。表3展示了現(xiàn)有基線和我們的方法Chameleon的結(jié)果,關(guān)鍵結(jié)果在圖3(a)中突出顯示。使用ChatGPT [41]作為基礎(chǔ)LLM,Chameleon達到了79.93%的準確率,比連鎖思維提示(CoT)[57]提示的ChatGPT高出1.62%。值得注意的是,Chameleon是CoT的廣義形式,其中生成的程序是“解決方案生成器”和“答案生成器”的序列。Chameleon受益于額外的工具使用,如“知識檢索”、“Bing搜索”、“圖像說明生成器”和“文本檢測器”?;贕PT-4 [42]時,我們的模型達到了86.54%的準確率,比GPT-4 CoT [32]高出2.55%,比GPT-3 CoT高出11.37%,在少樣本設(shè)置中創(chuàng)造了新的最先進水平。

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表3:ScienceQA [32] 測試集上的問答準確率(%)。我們報告了為此任務(wù)調(diào)優(yōu)的參數(shù)數(shù)量和整體準確率,以及不同問題類型的準確率,包括自然科學(xué)、社會科學(xué)和語言科學(xué)、文本、圖像和無上下文問題,以及1-6年級和7-12年級的問題。每部分和總體的最高分數(shù)分別用藍色和紅色突出顯示,我們最佳模型的結(jié)果用粗體標出。

TabMWP。表4展示了關(guān)鍵模型的結(jié)果,見圖3(b)。同樣,Chameleon在微調(diào)和少樣本模型上都顯示了顯著的改進。值得注意的是,CoT和程序思維(PoT)[6]可以看作是Chameleon的特例。除了“解決方案生成器”和“答案生成器”,CoT不使用任何工具,而PoT僅依賴于符號編程工具,如“程序生成器”和“程序執(zhí)行器”。Chameleon(ChatGPT)比ChatGPT CoT和ChatGPT PoT分別高出11.25%和3.79%,強調(diào)了我們豐富工具集的優(yōu)勢。使用GPT-4,Chameleon又獲得了5.50%的提升,達到了98.78%的準確率。值得注意的是,Chameleon(GPT-4)超過了Codex PoT-SC [6],即最好的已發(fā)布模型,高出17.0%,并超過了人類表現(xiàn)8.56%。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖3:主要基線和Chameleon的結(jié)果。虛線表示人類表現(xiàn)。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表4:TabMWP [33] 測試集上的問答準確率(%)。我們報告了為此任務(wù)調(diào)優(yōu)的參數(shù)數(shù)量和整體準確率,以及不同問題類型的準確率,包括自由文本問題、多選問題、整數(shù)答案、小數(shù)答案、抽取式答案、布爾答案、其他文本答案、1-6年級和7-8年級的問題。*表示結(jié)果的一個子集。

5.2 定性分析

工具使用規(guī)劃。圖4和圖5分別展示了Chameleon在ScienceQA和TabMWP中調(diào)用關(guān)鍵工具的比例。令人感興趣的是,ChatGPT和GPT-4表現(xiàn)出不同的規(guī)劃行為。一般而言,ChatGPT對使用或不使用某些工具有強烈的偏見,深受上下文示例的影響。例如,ChatGPT在72%的查詢中調(diào)用“知識檢索”,但在ScienceQA中僅在3%的情況下調(diào)用“Bing搜索”;在TabMWP中,ChatGPT嚴重依賴“行查找”(47%),但很少調(diào)用“列查找”(4%)。然而,GPT-4在工具選擇上表現(xiàn)得更加客觀和理性。例如,在回答ScienceQA的科學(xué)問題時,GPT-4更頻繁地調(diào)用“知識檢索”(81%對72%),并比ChatGPT更多地調(diào)用“Bing搜索”(11%對3%)。令人印象深刻的是,GPT-4通過觀察工具使用描述,一致地同時調(diào)用“查詢生成器”和“Bing搜索”,而ChatGPT缺乏這種推理能力。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖5:Chameleon在TabMWP上生成的程序中調(diào)用的工具。

禁用模塊的消融研究。我們研究了禁用生成程序中的關(guān)鍵模塊時Chameleon的準確率下降情況(見表5),使用ChatGPT作為基礎(chǔ)LLM和500個測試樣例。結(jié)果表明,“知識檢索”在兩項任務(wù)中都起到了重要作用。特定領(lǐng)域的工具,如ScienceQA的搜索引擎和視覺模型,以及TabMWP的程序工具,也被證明是重要的。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

模塊轉(zhuǎn)換。我們在圖7和圖8中分別展示了Chameleon(GPT-4)在ScienceQA和TabMWP上生成程序的模塊轉(zhuǎn)換圖。這些圖中的轉(zhuǎn)換概率是從測試集上觀察到的工具轉(zhuǎn)換中計算出來的。這些圖表明,GPT-4規(guī)劃器能夠在少樣本設(shè)置中很好地決定如何排序工具。例如,在ScienceQA中,Chameleon通常決定依賴“知識檢索”或“Bing搜索”,但很少同時使用。在TabMWP中,我們觀察到兩種主要模式:要么通過解決方案生成器模塊,要么通過程序生成器、驗證器和執(zhí)行器。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖7:Chameleon(GPT-4)在ScienceQA上生成的程序中模塊之間的轉(zhuǎn)換。START是起始符號,END是終止符號,其他為非終止符號。

圖8:Chameleon(GPT-4)在TabMWP上生成的程序中模塊之間的轉(zhuǎn)換。START是起始符號,END是終止符號,其他為非終止符號。

5.3 案例研究

ScienceQA的可視化示例。圖1中展示了Chameleon(GPT-4)在ScienceQA上的示例。Chameleon(GPT-4)能夠通過生成組合各種工具的程序并按順序執(zhí)行它們,以適應(yīng)不同的輸入查詢,從而獲得準確的響應(yīng)。例如,要回答第一個問題(①)“推動的方向是什么?”,系統(tǒng)調(diào)用圖像說明生成器模型從圖像中提取語義信息,并使用知識檢索模型收集背景知識以進行多模式推理。在第二個示例(②)中,自然語言規(guī)劃器推斷需要文本檢測工具來理解廣告的背景。第三個查詢(③;更多細節(jié)見附錄中的圖9)“哪種動物的皮膚適應(yīng)在寒冷地區(qū)生存?”涉及與動物生存相關(guān)的科學(xué)術(shù)語。規(guī)劃器決定調(diào)用Bing搜索引擎以訪問特定領(lǐng)域的知識,受益于眾多在線資源。

TabMWP的可視化示例。圖2中的示例展示了Chameleon在處理各種查詢方面的適應(yīng)性和多功能性。第一個示例(①)涉及稅表上的數(shù)學(xué)推理。Chameleon(1)調(diào)用知識檢索模型以回憶有助于理解該特定領(lǐng)域表格的基本知識,(2)以更易讀的自然語言格式描述表格,(3)最終依賴程序輔助工具進行精確計算。在第二個示例(②)中,系統(tǒng)生成的Python代碼與知識檢索模型提供的背景知識緊密一致。第三個示例(③)需要系統(tǒng)在給定輸入查詢的情況下定位大表格中的單元格。Chameleon調(diào)用行查找模型以幫助準確定位相關(guān)行,并通過LLM模型生成語言解決方案,而不是依賴于程序工具。

失敗案例和局限性。Chameleon(GPT-4)的失敗示例在附錄中的表19至24中展示。不準確的響應(yīng)可能源于當前模塊的局限性或由規(guī)劃器生成的次優(yōu)程序。此外,模塊庫可能缺乏能夠解決特定能力的工具。未來的方向可能包括升級模塊和規(guī)劃器,或擴展模塊庫以支持更廣泛的能力。更多局限性和更廣泛的影響分別在附錄的B和C節(jié)中討論。

5.4 錯誤分析

為了檢查基礎(chǔ)大型語言模型的錯誤來源,并了解我們的模型如何從不同方面減少錯誤,我們進行了錯誤分析,如圖6所示。我們從ScienceQA的ChatGPT基線中選取了50個錯誤示例作為評估集。我們統(tǒng)計了錯誤示例的數(shù)量,并分析了ChatGPT、我們的Chameleon(ChatGPT)方法和Chameleon(GPT-4)各自的錯誤類型類別。結(jié)果顯示,與ChatGPT相比,我們的Chameleon方法可以大幅減少錯誤數(shù)量。我們的模型具備圖像說明和知識檢索工具,因此ChatGPT在圖像理解類別中犯的錯誤由32個減少到Chameleon(ChatGPT)的10個和Chameleon(GPT-4)的19個;而ChatGPT在知識理解類別中犯的錯誤由37個減少到Chameleon(ChatGPT)的6個和Chameleon(GPT-4)的3個。受益于工具的順序執(zhí)行,解決方案生成導(dǎo)致的錯誤也顯著減少。此外,我們發(fā)現(xiàn)GPT-4的任務(wù)規(guī)劃遠遠優(yōu)于ChatGPT。

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖6:ScienceQA中不同類別的錯誤示例數(shù)量。圖像:圖像說明生成,知識:知識理解,解決方案:解決方案生成。

6、結(jié)論

總之,我們介紹了一種新穎的即插即用組合推理框架Chameleon,它通過以即插即用的方式增強當前大型語言模型的外部工具,解決了它們的局限性。我們的方法使用多樣化的工具集,并在兩個具有挑戰(zhàn)性的基準ScienceQA和TabMWP上展示了令人印象深刻的適應(yīng)性和有效性。通過在準確性上顯著超過現(xiàn)有的最先進模型,Chameleon展示了其在處理各個領(lǐng)域的實際查詢方面的潛力。

補充材料

Chameleon:即插即用組合推理的大型語言模型

# 附錄

## A.1 當前的工具增強型LLM

為了解決LLM的局限性,一個活躍的研究方向是通過訪問外部工具和資源來增強語言模型,并探索外部工具和即插即用模塊化方法的集成。例如,借助網(wǎng)絡(luò)搜索引擎和外部知識資源,LLM能夠訪問實時信息并利用領(lǐng)域特定的知識[40]。為了增強數(shù)學(xué)推理能力,最近的研究使用LLM[5]生成復(fù)雜程序以利用強大的計算資源,并更有效地執(zhí)行邏輯推理任務(wù)[55, 10, 6, 39, 18, 43]。另一類近期的工作,如ViperGPT[52]、Visual ChatGPT[59]、VisProg[13]和HuggingGPT[50],結(jié)合了一系列基礎(chǔ)計算機視覺模型,使LLM具備執(zhí)行視覺推理任務(wù)的能力。

## A.2 實驗細節(jié)

**模塊搜索空間**。ScienceQA和TabMWP的模塊庫子集如表6所示。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

規(guī)劃器實現(xiàn)。在構(gòu)建基于LLM的規(guī)劃器時,我們選擇了gpt-3.5-turbo引擎用于ChatGPT,選擇了gpt-4引擎用于GPT-4。生成程序的最大長度設(shè)置為128,溫度設(shè)置為0以實現(xiàn)最確定性的生成。ScienceQA和TabMWP的規(guī)劃器提示分別如表8和表9所示。

ScienceQA的模塊實現(xiàn)。默認情況下,基于LLM的模型使用四個上下文示例作為演示,溫度設(shè)置為0,允許的最大完成令牌數(shù)為512。其他具體實現(xiàn)細節(jié)如下:

- 知識檢索:提示由3個演示示例組成,模板見表10。

- 查詢生成器:提示模板見表11。最大完成令牌數(shù)設(shè)置為64。

- 解決方案生成器:提示由2個演示示例組成,模板見表12。

- 圖像說明生成器:我們使用圖像說明生成模型生成輸入圖像的文本描述。生成的說明最大長度設(shè)置為16,beam數(shù)為4,最大輸出令牌數(shù)為512。

- 文本檢測器:此模塊基于GitHub模型提取圖像中的文本內(nèi)容及其坐標。

- Bing搜索:此模塊調(diào)用Bing搜索API并返回文本查詢的前三個響應(yīng)。

- 答案生成器:此模塊從“解決方案生成器”提供的結(jié)果中提取答案片段,并從給定選項中選擇最相似的選項。

TabMWP的模塊實現(xiàn)。與ScienceQA類似,基于LLM的模塊默認使用四個上下文示例作為演示,溫度設(shè)置為0,允許的最大完成令牌數(shù)為512。其他實現(xiàn)細節(jié)如下:

- 知識檢索:提示由5個演示示例組成,模板見表13。

- 行查找:當有超過三行和18個表格單元時啟用,以加速推理。提示由7個演示示例組成,模板見表14。最大完成令牌數(shù)設(shè)置為256。

- 列查找:同樣,此模塊在有兩個或更多列和18個或更多表格單元時啟用。提示由6個演示示例組成,模板見表15。最大完成令牌數(shù)設(shè)置為256。

- 表格語言化:提示由7個演示示例組成,模板見表16。

- 程序生成器:提示模板見表17。最大完成令牌數(shù)設(shè)置為256。

- 解決方案生成器:提示由16個演示示例組成,模板見表18。

- 答案生成器:用于將答案標準化為兩位小數(shù)精度的問題,或為多選題選擇最相似的選項。

update_input 和 update_cache 的實現(xiàn)。update_input由特定工具的執(zhí)行觸發(fā),如‘Row_Lookup’,其修改或替換輸入中的元素以反映更新的狀態(tài)。工具如‘Image_Captioner’、‘Text_Detector’、‘Knowledge_Retrieval’、‘Web_Search’和‘Program_Generation’生成新元素。update_cache將這些新元素存儲在緩存中,使其可以被后續(xù)工具執(zhí)行時訪問。

## A.3 實驗結(jié)果

**生成程序統(tǒng)計**。Chameleon利用基于LLM的自然語言規(guī)劃器生成程序,即使用模塊(工具)的序列。我們報告了Chameleon生成的唯一程序數(shù)量和相應(yīng)工具序列的平均長度統(tǒng)計數(shù)據(jù),如表7所示。在ScienceQA和TabMWP上,使用GPT-4作為基礎(chǔ)LLM生成的獨特程序更少,即程序更一致,即使在規(guī)劃模型中給定完全相同的提示時也是如此。我們的結(jié)果與[42]中的發(fā)現(xiàn)一致,該研究發(fā)現(xiàn)GPT-4在理解長上下文、對齊人類指令和執(zhí)行高級推理方面比其他LLM(如ChatGPT)更具優(yōu)勢。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

## B 限制

雖然Chameleon在利用大型語言模型(LLM)進行即插即用組合推理方面代表了一個重要的進步,但仍有一些領(lǐng)域可以進一步優(yōu)化。一個這樣的領(lǐng)域是擴展其適應(yīng)性,以涵蓋更多樣的任務(wù)和領(lǐng)域,而不僅限于所展示的基準。負責(zé)合成程序和確定工具順序的基于LLM的規(guī)劃器引入了一種創(chuàng)新的方法,但它也提出了一些關(guān)于優(yōu)化工具選擇和順序過程的有趣研究問題。在當前系統(tǒng)設(shè)計中,基于LLM的規(guī)劃器的質(zhì)量可能會影響整體性能。此外,Chameleon在生成程序時是一步完成的,而沒有在程序處理模塊時加入重新規(guī)劃機制。此外,我們假設(shè)模塊列表及其描述能夠適應(yīng)LLM的上下文窗口,但這并不總是適用。隨著任務(wù)復(fù)雜性增加和模塊庫擴展,可能會出現(xiàn)計算需求激增或由于上下文限制而導(dǎo)致的限制,這表明未來可能需要進行優(yōu)化。然而,這些潛在的改進領(lǐng)域并不會削弱本文的核心成就,而是為未來的工作和研究提供了寶貴的方向。

## C 更廣泛的影響

本文所展示的Chameleon在社會上具有顯著的正面潛力。通過為大型語言模型(LLM)提供即插即用的組合推理模塊,Chameleon可以為復(fù)雜的多模式任務(wù)提供更準確的響應(yīng),使其成為各種應(yīng)用(包括但不限于教育、金融和決策支持系統(tǒng))中可能有價值的框架。此外,系統(tǒng)在不需要任何訓(xùn)練的情況下合成程序的能力,可以使非專家能夠在不同領(lǐng)域中利用AI技術(shù),從而實現(xiàn)AI技術(shù)的普及。隨著大型語言模型和工具集成的研究不斷推進,我們預(yù)計我們的框架將為進一步的創(chuàng)新奠定基礎(chǔ),推動更具普適性和效率的復(fù)雜推理任務(wù)解決方案的追求。

盡管Chameleon可能帶來負面的社會影響,如如果其利用的數(shù)據(jù)源和外部工具未被精心策劃,可能導(dǎo)致誤信息和隱私問題,我們相信這些風(fēng)險是可以通過仔細管理和最小化的。還有一個風(fēng)險是,過度依賴Chameleon的自主性可能會削弱批判性思維能力或工作職能。為了有效緩解這些問題,必須仔細策劃數(shù)據(jù)源和外部工具,并強烈致力于用戶數(shù)據(jù)保護。此外,應(yīng)將Chameleon的自主性視為增強人類能力的手段,而不是替代。因此,制定強有力的道德準則、透明機制和保障措施至關(guān)重要,體現(xiàn)了我們對社會責(zé)任性AI部署的承諾。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表8:為ScienceQA任務(wù)構(gòu)建的規(guī)劃器模型提示。提示包括描述規(guī)劃器模型角色的說明、將問題映射到模塊序列的上下文示例以及測試示例。

(翻譯:

## 規(guī)劃器模型說明

您需要作為策略模型,給定一個問題和一組模塊,確定可以順序執(zhí)行以解決問題的模塊序列。模塊定義如下:

- Query_Generator:此模塊為給定的問題生成搜索引擎查詢。通常,當問題涉及領(lǐng)域特定知識時,我們會考慮使用“Query_Generator”。

- Bing_Search:此模塊在網(wǎng)上搜索與問題相關(guān)的信息。通常,當問題涉及領(lǐng)域特定知識時,我們會考慮使用“Bing_Search”。

- Image_Captioner:此模塊為給定的圖像生成說明。通常,當問題涉及圖像的語義理解,且元數(shù)據(jù)中的“has_image”字段為真時,我們會考慮使用“Image_Captioner”。

- Text_Detector:此模塊檢測給定圖像中的文本。通常,當問題涉及展開圖像中的文本(如圖表、表格、地圖等)時,且元數(shù)據(jù)中的“has_image”字段為真時,我們會考慮使用“Text_Detector”。

- Knowledge_Retrieval:此模塊檢索作為提示的背景知識以解決給定問題。通常,當背景知識有助于指導(dǎo)解決方案時,我們會考慮使用“Knowledge_Retrieval”。

- Solution_Generator:此模塊基于提供的信息生成問題的詳細解決方案。通常,“Solution_Generator”會整合來自“Query_Generator”、“Bing_Search”、“Image_Captioner”、“Text_Detector”和“Knowledge_Retrieval”的信息。

- Answer_Generator:此模塊從解決方案或執(zhí)行結(jié)果中提取最終答案的簡短形式。此模塊通常是預(yù)測流水線中的最后一個模塊。

以下是將問題映射到模塊的一些示例。

## 上下文示例

問題:比較每個樣本中粒子的平均動能。哪個樣本的溫度更高?

上下文:下圖顯示了兩個相同封閉、剛性容器中的純氣體樣本。每個彩色球代表一個氣體粒子。兩個樣本的粒子數(shù)量相同。

選項: (A) 都不是;樣本的溫度相同 (B) 樣本A (C) 樣本B

元數(shù)據(jù):‘pid’: 19, ‘has_image’: True, ‘grade’: 8, ‘subject’: ‘自然科學(xué)’, ‘topic’: ‘物理’, ‘category’: ‘粒子運動和能量’, ‘skill’: ‘識別粒子運動如何影響溫度和壓力’

模塊:["Text_Detector", "Knowledge_Retrieval", "Solution_Generator", "Answer_Generator"])

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表9:為TabMWP任務(wù)構(gòu)建的規(guī)劃器模型提示。類似地,提示包括說明、上下文示例和測試示例。

(翻譯:

規(guī)劃器模型說明

給定一個問題和一組模塊,確定可以順序執(zhí)行以解決問題的模塊序列。

模塊定義如下:

- Program_Generator:此模塊生成可以解決給定問題的Python程序。它接收問題和可能的上下文,生成一個可以由“Program_Executor”模塊執(zhí)行的程序。通常,當問題和上下文涉及復(fù)雜計算(如多個數(shù)字的算術(shù)運算)或復(fù)雜邏輯操作(如“if-else”語句)時,我們會考慮使用“Program_Generator”。

- Program_Verifier:此模塊驗證“Program_Generator”生成的程序是否有效且無錯誤。它檢查語法錯誤、邏輯錯誤和程序執(zhí)行過程中可能出現(xiàn)的其他潛在問題。

- Program_Executor:此模塊執(zhí)行“Program_Generator”生成的程序,并生成可以由其他模塊(如“Question_Answering”)進一步處理的輸出。

- Row_Lookup:此模塊返回僅保留與問題相關(guān)行的簡化表格。它接收問題和表格,并返回簡化后的表格。如果所有行都相關(guān)或行數(shù)少于或等于三行,則返回原始表格。通常,當表格涉及超過三行且問題只需要少量行來回答時,我們會考慮使用“Row_Lookup”。

- Column_Lookup:此模塊返回僅保留與問題相關(guān)列的簡化表格。它接收問題和表格,并返回簡化后的表格。如果所有列都相關(guān)或列數(shù)只有兩列,則返回原始表格。通常,當表格涉及超過兩列且問題只需要少量列來回答時,我們會考慮使用“Column_Lookup”。

- Table_Verbalizer:此模塊將表格轉(zhuǎn)換為易于下游模塊(如“Program_Generator”、“Solution_Generator”、“Question_Answering”)理解的描述。通常,當表格涉及少量行和列且是特定領(lǐng)域的(如莖葉圖、函數(shù)表等)時,我們會考慮使用“Table_Verbalizer”。

- Knowledge_Retrieval:此模塊為給定的問題和表格檢索特定領(lǐng)域的知識。通常,當問題和表格涉及特定領(lǐng)域的知識(如莖葉圖、函數(shù)表、稅務(wù)表等)時,我們會考慮使用“Knowledge_Retrieval”。

- Solution_Generator:此模塊基于提供的信息生成問題的詳細解決方案。通常,當問題和表格涉及簡單計算(如單個數(shù)字的算術(shù)運算)時,我們會使用“Solution_Generator”。

- Answer_Generator:此模塊從解決方案或執(zhí)行結(jié)果中提取最終答案的簡短形式。此模塊通常在“Solution_Generator”或“Program_Executor”模塊之后使用。

以下是將問題映射到模塊的一些示例。

## 上下文示例

表格:

| designer watch | $8,141 |

| designer coat | $6,391 |

問題:設(shè)計師手表比設(shè)計師大衣貴多少?(單位:$)

模塊:["Program_Generator", "Program_Verifier", "Program_Executor", "Answer_Generator"]


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表10:為ScienceQA任務(wù)構(gòu)建的“知識檢索”模塊提示。

(翻譯:

### 說明

閱讀以下問題,并生成背景知識作為上下文信息,以幫助回答問題。

### 上下文示例

問題:這三個物體有什么共同的屬性?

選項:(A) 硬 (B) 軟 (C) 黃

元數(shù)據(jù):‘pid’: 43, ‘has_image’: True, ‘grade’: 4, ‘subject’: ‘自然科學(xué)’, ‘topic’: ‘物理’, ‘category’: ‘材料’, ‘skill’: ‘比較物體的屬性’

圖像中檢測到的文本:['手帕', '拖鞋', '休閑套裝']

知識

- 這個問題是關(guān)于比較三個物體的屬性:手帕、拖鞋和休閑套裝。

- 這些物體與物理學(xué)主題和比較物體屬性的技能相關(guān)。

- 物體的屬性可以包括物理特征,如顏色、質(zhì)地、形狀、大小、重量和材料。)

Lu P, Peng B, Cheng H, et al. Chameleon: Plug-and-play compositional reasoning with large language models[J]. Advances in Neural Information Processing Systems, 2024, 36.

1University of California, Los Angeles

2Microsoft Research, Redmond

?

本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??????https://mp.weixin.qq.com/s/K7J6zWaFYYZW_zHO9Y-aew???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦