自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="so1y1"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Chameleon：使用大型語言模型的即插即用組合推理原創(chuàng)

發(fā)布于 2024-7-25 19:40

瀏覽

0收藏

?摘要：大型語言模型（LLMs）在解決各種自然語言處理任務(wù)方面取得了顯著進展，這歸功于其突顯的推理能力。然而，LLMs本身存在固有的局限性，例如無法訪問最新信息（存儲在網(wǎng)絡(luò)或任務(wù)特定的知識庫中）、無法使用外部工具，以及無法進行精確的數(shù)學(xué)和邏輯推理。在本文中，我們提出了變色龍（Chameleon），一個通過增加即插即用模塊來增強LLMs進行組合推理的AI系統(tǒng)。變色龍通過組合各種工具（例如LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于啟發(fā)式的方法）來合成程序，以完成復(fù)雜的推理任務(wù)。變色龍的核心是一個基于LLM的計劃器，它組裝了一系列工具以生成最終的響應(yīng)。我們展示了變色龍在兩個多模態(tài)知識密集型推理任務(wù)上的有效性：ScienceQA和TabMWP。由GPT4驅(qū)動的變色龍在ScienceQA上實現(xiàn)了86.54%的總體準確率，比目前發(fā)表的最佳少樣本結(jié)果提高了11.37%。在TabMWP上，由GPT4驅(qū)動的變色龍將準確率提高了17.0%，將最新水平提升至98.78%。我們的分析還表明，與由ChatGPT驅(qū)動的計劃器相比，由GPT4驅(qū)動的計劃器通過推斷指令中的潛在約束，表現(xiàn)出更一致和合理的工具選擇。

1、引言

近年來，大型語言模型（LLMs）在各種自然語言處理任務(wù)中取得了顯著進展，代表性的例子包括 GPT3 [4]、PaLM [8]、LLaMA [64]、ChatGPT [41] 和最近開發(fā)的 GPT4 [42]。LLMs展示了新興的能力，如上下文學(xué)習(xí)和鏈式思維推理 [56]。這些模型能夠以零樣本方式解決各種任務(wù) [25]，或在少量示例的幫助下完成任務(wù) [57]，并且在規(guī)劃和決策方面展示了與人類類似的潛力 [17, 16]。盡管具有這些能力，LLMs面臨固有的局限，比如無法訪問最新信息 [26]，執(zhí)行精確的數(shù)學(xué)推理 [44, 35] 或利用專門的模型 [49]。因此，增強當前的LLMs，使其具備自動組合外部工具來解決現(xiàn)實世界任務(wù)的能力，對解決這些缺點至關(guān)重要。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖1：我們在ScienceQA [32]上使用GPT4進行變色龍方法的示例，這是一個科學(xué)領(lǐng)域的多模態(tài)問答基準。變色龍通過合成程序來組合各種工具并依次執(zhí)行它們以獲得最終答案，從而適應(yīng)不同的查詢。

（注釋：

1. 問題1：

查詢：給定一個包含棒球運動員打擊動作的圖像，問題是“這個推力的方向是什么？”選項是：(A) 遠離棒球棒 (B) 朝向棒球棒。

工具組合：使用圖像描述生成工具（Image Captioner）生成圖像描述，然后使用知識檢索工具（Knowledge Retrieval）查找相關(guān)信息，再使用解決方案生成工具（Solution Generator）分析答案。

答案生成：最終答案生成器（Answer Generator）得出答案。

2. 問題2：

查詢：給定一個環(huán)保廣告的圖像，問題是“這則廣告中主要使用的勸說手段是什么？”選項是：(A) 情感 (B) 人格 (C) 理性。

工具組合：使用文本檢測工具（Text Detector）提取廣告中的文本，然后使用知識檢索工具查找相關(guān)信息，再使用解決方案生成工具分析答案。

詳細解釋：

名詞提示：提供了廣告中提到的環(huán)保紙盤的詳細背景信息。

句子提示：描述了廣告中使用的勸說手段。

多模態(tài)提示：結(jié)合文本和圖像推理，提供了廣告的全面分析。

答案生成：最終答案生成器得出答案“ethos（人格）”。

3. 問題3：

查詢：給定一張動物的圖像，問題是“哪種動物的皮膚適應(yīng)在寒冷環(huán)境中生存？”選項是：(A) 歐亞猞猁 (B) 荊棘龍蜥。

工具組合：使用圖像描述生成工具生成圖像描述，然后使用查詢生成器（Query Generator）構(gòu)建查詢，接著通過Bing搜索引擎查找相關(guān)信息，再使用解決方案生成工具分析答案。

答案生成：最終答案生成器得出答案。

總結(jié)：通過變色龍方法，系統(tǒng)能夠適應(yīng)不同類型的查詢，合成和組合各種工具并依次執(zhí)行它們，以生成最終的答案。變色龍方法展示了其在多模態(tài)知識密集型推理任務(wù)中的有效性，并且能夠生成詳細、合理且一致的答案。）

考慮圖1中例子②的問題：“這則廣告中使用了哪種主要的說服手法？”。為了回答這個問題，需要進行以下步驟：1）推斷出廣告圖像中包含文本內(nèi)容并調(diào)用文本解碼器理解語義；2）檢索有關(guān)說服手法及其區(qū)別的背景知識；3）基于輸入查詢和前幾步驟的中間結(jié)果生成解決方案；以及4）最終以特定于任務(wù)的格式給出答案。

另一方面，當回答“哪種動物的皮膚適應(yīng)在寒冷地方生存（③）”時，可能需要調(diào)用諸如圖像標題生成器解析圖像信息和網(wǎng)絡(luò)搜索引擎檢索領(lǐng)域知識以理解科學(xué)術(shù)語。然而，目前的工具增強型LLMs在處理這些跨多種場景的現(xiàn)實世界查詢時仍面臨挑戰(zhàn)。大多數(shù)現(xiàn)有方法要么局限于少量工具 [39, 6, 55, 18, 43, 49]，要么依賴于特定領(lǐng)域的工具 [40, 60, 13, 59, 52]，因此難以推廣到新領(lǐng)域的查詢（詳見第2節(jié)和A.1節(jié)進一步討論）。在本文中，我們研究如何使LLMs能夠合成程序，以捕捉組合異構(gòu)工具的邏輯。

為了解決現(xiàn)有工作的挑戰(zhàn)，我們引入了Chameleon，一個即插即用的組合推理框架，利用LLMs合成程序并組合各種工具，以應(yīng)對廣泛的任務(wù)需求。與現(xiàn)有的工具增強型LLMs [49, 40, 60, 13, 59, 52] 不同，Chameleon使用更豐富的工具集，包括LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于啟發(fā)式的模塊。此外，Chameleon利用LLMs的上下文學(xué)習(xí)能力，以及將LLM作為自然語言規(guī)劃器的特性，無需任何訓(xùn)練或精心策劃的規(guī)則。根據(jù)工具描述和使用示例，規(guī)劃器推斷出一個由一系列工具組成的程序，以便執(zhí)行以生成用戶查詢的最終響應(yīng)。與生成特定領(lǐng)域語言的程序不同 [40, 52, 13]，Chameleon生成類似自然語言的（NL）程序（例如，[文本檢測器，知識檢索，解決方案生成器，答案生成器] 用于圖1中的第二個查詢）。NL程序易于理解和由編程經(jīng)驗有限的用戶調(diào)試，并且容易擴展到新模塊。在每個模塊的執(zhí)行過程中，模塊處理查詢和緩存的上下文，返回由模塊自身確定的結(jié)果，并更新后續(xù)執(zhí)行的查詢和上下文。通過將模塊組合成順序程序，后續(xù)模塊可以利用先前緩存的上下文和更新的查詢。

我們展示了Chameleon在兩個任務(wù)上的適應(yīng)性和效果：ScienceQA [32] 和TabMWP [33]。ScienceQA是一個跨多種上下文格式和各種科學(xué)主題的多模式問題回答基準，而TabMWP則涉及各種表格上下文的數(shù)學(xué)基準。這兩個基準作為評估Chameleon跨不同類型和領(lǐng)域協(xié)調(diào)各種工具能力的良好測試平臺。值得注意的是，Chameleon結(jié)合GPT4在ScienceQA上達到了86.54%的準確率，顯著優(yōu)于最佳已發(fā)表的少樣本模型達11.37%。在TabMWP上，使用GPT4作為基礎(chǔ)LLM，Chameleon相比鏈式思維（CoT）提示的GPT4 [57] 提升了7.97%，相比最佳已發(fā)表模型 [6] 提升了17.0%，將技術(shù)水平提升至98.78%。進一步研究表明，使用GPT4作為規(guī)劃器能夠展示更一致和理性的工具選擇，并能根據(jù)指令推斷出潛在約束，相較于其他LLMs如ChatGPT。

我們的貢獻如下：(1) 我們開發(fā)了一個即插即用的組合推理框架Chameleon，有效地組合外部工具以解決LLMs的固有限制，并應(yīng)對廣泛的推理任務(wù)。(2) 利用LLM作為自然語言規(guī)劃器生成程序，Chameleon成功地整合了包括LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于規(guī)則的模塊等多種工具，構(gòu)建了一個多功能且適應(yīng)性強的人工智能系統(tǒng)，能夠回答現(xiàn)實世界的查詢。(3) 我們展示了Chameleon在兩個具有挑戰(zhàn)性的基準測試中的有效性，顯著超越現(xiàn)有技術(shù)水平。

2、相關(guān)工作

組合推理

神經(jīng)模塊化和組合方法已被探索用于自動執(zhí)行所需的子任務(wù)分解，增強各種推理任務(wù)的可解釋性和適應(yīng)性。早期的工作[2, 3]認為復(fù)雜的推理任務(wù)本質(zhì)上是組合的，并提出了神經(jīng)模塊網(wǎng)絡(luò)（NMN）以將其分解為子任務(wù)。然而，這些方法依賴于脆弱的現(xiàn)成解析器，并受到模塊配置的限制。一些后來的工作[19, 15, 14, 21]通過端到端方式預(yù)測特定實例的網(wǎng)絡(luò)布局，利用強化學(xué)習(xí)[58]和弱監(jiān)督學(xué)習(xí)，進一步推進了這一領(lǐng)域。在視覺推理中，提出了包含程序生成器和執(zhí)行引擎的模型，以結(jié)合深度表示學(xué)習(xí)和符號程序執(zhí)行[19, 61]。在數(shù)學(xué)推理領(lǐng)域，開發(fā)了一種可解釋的求解器，將定理知識作為條件規(guī)則逐步進行符號推理[31]。我們的工作從神經(jīng)模塊網(wǎng)絡(luò)中汲取靈感，但提供了幾個顯著的優(yōu)勢。首先，Chameleon 不需要昂貴的特定任務(wù)程序監(jiān)督來進行模型訓(xùn)練，而是生成由模塊組成的順序程序，這些程序易于推廣到各種領(lǐng)域和任務(wù)，允許以即插即用的方式擴展新模塊。其次，Chameleon 不需要任何訓(xùn)練，而是利用大語言模型（LLMs）的上下文學(xué)習(xí)能力，通過自然語言指令和示例生成程序。

工具增強型語言模型

近年來，大型語言模型（LLMs）[48, 8, 9, 53, 4, 41, 42]的發(fā)展取得了巨大進展，并刺激了提示學(xué)習(xí)[57, 33, 22]和指令學(xué)習(xí)[53, 64, 46, 11]的研究。盡管LLMs表現(xiàn)出色，但它們存在固有的局限性，如無法訪問最新信息[26]、利用外部工具[49]或進行精確的數(shù)學(xué)推理[44, 35]。最近的基準測試，如ScienceQA和TabMWP[32, 33, 7, 54, 51, 30]，已出現(xiàn)用于評估LLMs處理復(fù)雜推理挑戰(zhàn)的能力，特別是強調(diào)使用外部工具的能力。同時，利用外部工具和模塊化方法增強LLMs的興趣不斷增長。這些增強型LLMs可以通過網(wǎng)絡(luò)搜索引擎訪問實時信息[40]，并利用外部資源的領(lǐng)域特定知識[62]。有些工作利用Python解釋器生成復(fù)雜程序，以更有效地執(zhí)行邏輯推理任務(wù)[55, 10, 6, 39, 18, 43, 36]。例如，Toolformer[49]構(gòu)建了工具使用增強的數(shù)據(jù)，以訓(xùn)練語言模型選擇五種工具。在視覺工具領(lǐng)域，提出了各種方法來增強大型語言模型處理視覺任務(wù)的能力[60, 59, 52, 13, 50]，這些方法結(jié)合了Hugging Face模型[50]、Azure模型[60]、視覺基礎(chǔ)模型[59]。我們在表1中將Chameleon與其他工具增強型語言模型進行了比較。許多這些方法要么受限于少量工具，要么局限于特定任務(wù)工具，這減少了它們在各種技能維度上的能力，并阻礙了它們對新任務(wù)的普適性。最近的一些工作依賴大量監(jiān)督[49, 26]，并專注于生成命令[40]和程序[52, 13]以推斷工具的選擇。然而，這種方法需要為特定任務(wù)和特定工具精心設(shè)計提示，既不靈活也不適應(yīng)性強。相比之下，Chameleon通過自然語言指令指導(dǎo)LLMs，簡單描述每個模塊的角色并提供一些調(diào)用示例，消除了學(xué)習(xí)組合不同工具時對額外訓(xùn)練或工具特定提示的需求。更重要的是，Chameleon在工具類型和來源、更新底層LLMs、添加新工具和適應(yīng)新任務(wù)方面為用戶提供了靈活性。我們的工作與AutoGPT[47]的精神一致，AutoGPT是一種具備人工通用智能（AGI）雄心的自主GPT-4代理，旨在結(jié)合眾多工具以實現(xiàn)用戶定義的目標。雖然AutoGPT仍在開發(fā)中，但我們的工作是第一個具體實現(xiàn)這一理念并在廣泛研究的基準測試中驗證其有效性的。

表1：對使用工具增強大型語言模型的工作的比較。我們報告了工具的數(shù)量和工具類型，包括OpenAI ( ), Hugging Face ( ), Github ( ), Web搜索 ( ), 和代碼 ( )。我們比較了每種方法所具備的技能，例如圖像理解、瀏覽器搜索、知識檢索、數(shù)學(xué)推理和表格理解。有些模型可以組合各種工具，提出一個計劃器來推斷執(zhí)行相關(guān)工具，或者本質(zhì)上可以擴展到新工具。標簽“-”表示文獻中的不確定信息。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

3、通用框架：Chameleon

為了應(yīng)對當前大型語言模型（LLMs）在利用多種工具方面的局限性，我們提出了Chameleon，一個新穎的即插即用組合推理框架，綜合多種工具的組合以適應(yīng)廣泛的問題。Chameleon由一個模塊庫和一個基于LLM的規(guī)劃器組成，其目的是將原始問題分解為可以由特定任務(wù)工具有效解決的子任務(wù)。與現(xiàn)有的工具增強型LLM方法[49, 13, 59, 50]不同，我們的模塊庫具有多種工具類型，如表2所示，使得Chameleon能夠展示多種推理能力，包括圖像理解、知識檢索、網(wǎng)絡(luò)搜索、復(fù)雜數(shù)學(xué)推理和表格理解。Chameleon并不生成特定領(lǐng)域的程序[40, 13, 52]，而是采用基于LLM的規(guī)劃器創(chuàng)建類似自然語言的程序，遵循自然語言指令，這種方法更少出錯，易于擴展到新模塊，且對用戶友好。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表1：我們模塊庫中的不同工具

我們將規(guī)劃器形式化如下：給定輸入查詢x₀、模塊庫M和約束G，基于自然語言的規(guī)劃器P選擇一組模塊，這些模塊可以按順序執(zhí)行，通過生成類似自然語言格式的程序來回答查詢。模塊庫M由一組預(yù)構(gòu)建模塊組成：{M_i}，每個模塊對應(yīng)于不同類型的工具（見表2）。G是計劃生成的約束，例如模塊的并發(fā)關(guān)系和順序。在我們的工作中，規(guī)劃器P是一個通過少樣本設(shè)置生成模塊名稱序列的LLM。規(guī)劃器以自然語言進行提示，包含規(guī)劃任務(wù)指令I(lǐng)、模塊庫M的描述及相應(yīng)的約束G，以及一些示例D。從P生成的T長度計劃可以表示為p = M¹, ..., M^T，其中M_t表示生成計劃中的第t個元素，且M^t ∈ M。形式上，給定輸入查詢（問題陳述）x₀，計劃p生成如下：

p←P(x₀; I, M, G, D)

根據(jù)生成的計劃，各步驟對應(yīng)的模塊按順序執(zhí)行。該計劃是一個自然語言程序，每個模塊通過字符串匹配簡單綁定。在時間步驟t評估模塊M^t時，執(zhí)行的輸出y^t計算如下：

y^t ←M^t(x^t-1; c^t-1)

其中x^t-1是當前模塊M^t的輸入， c^t-1是緩存的信息（例如，圖像語義、檢索到的知識、生成的程序），這些信息來自模塊的執(zhí)行歷史。

接下來，通過以下方式分別更新下一個模塊M^t+1的輸入x^t和緩存c^t：

x^t←update_input(x^t-1; y^t)

c^t←update_cache(c^t-1; y^t)

update_input和update_cache函數(shù)是為每個M_i手動設(shè)計的。具體來說，update_input應(yīng)用于輸入查詢中的元素，包括問題、表格上下文和圖像。這些元素在模塊執(zhí)行后會更新。update_cache對應(yīng)新信息的生成，如輸入圖像的描述或從外部資源檢索到的知識。最后，由最后一個模塊M^T生成對查詢的響應(yīng)r：

r = y^T←M^T(x^T-1; c^T-1)

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖2：我們在TabMWP [33]上使用GPT4進行變色龍方法的兩個示例，這是一個具有表格上下文的數(shù)學(xué)推理基準。變色龍展示了在適應(yīng)需要各種推理能力的不同查詢時的靈活性和效率。

（注釋：

1. 示例1：

查詢：Wanda去野營旅行并記錄了她每天徒步的里程數(shù)，問題是“這些數(shù)字的中位數(shù)是多少？”

表格數(shù)據(jù)：顯示了她每天徒步的里程數(shù)。

周日：10

周一：9

周二：10

周三：5

周四：9

工具組合：

知識檢索：檢索相關(guān)知識，解釋中位數(shù)的定義和計算方法。

程序生成器：生成計算中位數(shù)的Python代碼。

程序驗證器：驗證生成的代碼。

程序執(zhí)行器：執(zhí)行代碼計算中位數(shù)。

答案生成器：生成最終答案。

答案：中位數(shù)為9。

2. 示例2：

查詢：根據(jù)以下時間表，公交車從火車站出發(fā)的時間是什么時候？

表格數(shù)據(jù)：顯示了各個地點的到達和出發(fā)時間。

體育場：到達 10:20 A.M.，出發(fā) 10:25 A.M.

公園：到達 10:35 A.M.，出發(fā) 10:45 A.M.

酒店：到達 11:10 A.M.，出發(fā) 11:15 A.M.

機場：到達 12:05 P.M.，出發(fā) 12:10 P.M.

火車站：到達 12:25 P.M.，出發(fā) 12:35 P.M.

公交車站：到達 1:10 P.M.，出發(fā) 1:10 P.M.

選項：

(A) 12:35 P.M.

(B) 1:10 P.M.

(C) 1:10 P.M. (D) 10:45 A.M.

工具組合：

行查找：在時間表中找到火車站的相關(guān)行。

解決方案生成器：生成步驟解釋以找到答案。

答案生成器：生成最終答案。

答案：公交車從火車站出發(fā)的時間是12:35 P.M.

總結(jié)：通過變色龍方法，系統(tǒng)能夠靈活地適應(yīng)具有不同上下文和要求的查詢，合成和組合各種工具以生成最終的答案。變色龍方法在具有表格數(shù)據(jù)的數(shù)學(xué)推理任務(wù)中展示了其強大的推理能力和效率，能夠提供詳細的步驟解釋和正確的答案。）

4、Chameleon的應(yīng)用

我們展示了Chameleon在兩個具有挑戰(zhàn)性的任務(wù)上的應(yīng)用：ScienceQA [32]（第4.2節(jié)）和TabMWP [33]（第4.3節(jié)），使用第4.1節(jié)中介紹的模塊庫。更多實驗細節(jié)見附錄A.2。

4.1 模塊庫

為了適應(yīng)各種推理能力和多樣化的查詢，我們的系統(tǒng)利用了豐富的外部工具模塊庫。這里提供了該庫的高級概述，詳細實現(xiàn)見具體實驗。完整的模塊庫M如表2所示。每個庫中的工具定義如下：

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表2：我們模塊庫中的不同工具

- 知識檢索工具：此模塊檢索解決復(fù)雜問題所需的額外背景知識。它對科學(xué)和數(shù)學(xué)等專門領(lǐng)域特別有益，提供任務(wù)的上下文。例如，如果查詢涉及稅表，此模塊可以生成關(guān)于稅務(wù)程序的知識，提供有價值的背景信息。

- Bing搜索：類似“知識檢索”，但“Bing搜索”模塊旨在提供廣泛的任務(wù)相關(guān)知識。當需要來自多個來源的廣泛或最新信息時，它表現(xiàn)更好。使用搜索引擎API，此模塊根據(jù)輸入查詢返回相關(guān)搜索結(jié)果，隨后模塊解析并使用這些結(jié)果從多種來源獲取豐富的上下文信息，增強問題解決的效果。

- 查詢生成器：由于原始問題通常缺乏檢索任務(wù)相關(guān)信息的定制查詢，此模塊根據(jù)問題創(chuàng)建搜索引擎查詢，然后由“Bing搜索”模塊使用。通常，在使用“Bing搜索”之前，使用“查詢生成器”模塊是一個好策略。結(jié)合搜索引擎工具，生成更有針對性的查詢通常有助于提高檢索信息的召回率和精確度。

- 圖像說明生成器：旨在為圖像生成說明，此模塊為查詢提供重要的補充上下文。它在語義理解圖像時特別有價值，如識別場景中的物體和互動。使用預(yù)訓(xùn)練模型，它將視覺數(shù)據(jù)轉(zhuǎn)化為語言，促進對圖像內(nèi)容的有效理解和推理。

- 文本檢測器：此模塊旨在識別給定圖像中的文本。當問題需要從包含圖表、表格、地圖或其他視覺元素的圖像中提取文本信息時，通常使用“文本檢測器”。通過有效檢測各種格式的文本，此模塊有助于分析和理解基于圖像的內(nèi)容。

- 行查找：當查詢涉及表格上下文時，此模塊非常關(guān)鍵，因為通常需要定位相關(guān)的單元格。大型表格可能會分散系統(tǒng)注意力，因此“行查找”通過保留與查詢相關(guān)的行簡化表格。如果所有行都相關(guān)，則返回原始表格。

- 列查找：類似“行查找”模塊，“列查找”通過關(guān)注相關(guān)列解決涉及表格上下文的問題。它通過保留相關(guān)列簡化表格，如果所有列都相關(guān)，則返回原始表格。

- 表格語言化：將結(jié)構(gòu)化表格轉(zhuǎn)換為文本可能會增強下游模塊對表格信息的理解，如開放域問答[37]所示，這使得此模塊成為我們系統(tǒng)的重要部分。它將表格翻譯為易于理解的描述，特別適用于“程序生成器”和“解決方案生成器”等模塊，尤其對莖葉圖或函數(shù)表等小型、特定領(lǐng)域的表格有用。

- 程序生成器：程序輔助方法被證明可以增強LLMs的邏輯和數(shù)學(xué)推理能力[55, 10, 6, 39, 18, 43]?！俺绦蛏善鳌鄙蒔ython程序以有效解決查詢，這對于需要復(fù)雜計算或復(fù)雜邏輯操作（如“if-else”語句）的查詢特別有益。

- 程序驗證器：最近的研究強調(diào)了驗證以減少幻覺的重要性[45, 38]。因此，“程序驗證器”確保由“程序生成器”生成的程序的有效性和無錯誤性。它檢查語法和邏輯錯誤以及潛在的執(zhí)行問題，增強解決方案的可靠性和準確性。

- 程序執(zhí)行器：此模塊執(zhí)行由“程序生成器”生成的程序并產(chǎn)生結(jié)果，橋接程序生成和最終解決方案推導(dǎo)之間的差距。

- 解決方案生成器：此模塊利用所有緩存的信息生成輸入查詢的詳細解決方案。采用連鎖思維提示方法[57]，確保連貫和結(jié)構(gòu)良好的響應(yīng)。如果規(guī)劃器能夠獨立解決查詢，尤其是對于較簡單的問題，可以直接使用此模塊而不是其他功能模塊。

- 答案生成器：此任務(wù)特定模塊使用基于規(guī)則的方法從“程序執(zhí)行器”或“解決方案生成器”的結(jié)果中提取和規(guī)范化答案。與提供詳細多步解決方案的“解決方案生成器”不同，“答案生成器”作為流水線中的最終模塊，提供簡明的任務(wù)特定答案。

4.2 科學(xué)問題解答

科學(xué)問題解答（ScienceQA [32]）是一個多模式問題解答的多樣化基準，涵蓋一系列科學(xué)主題和背景。如圖1所示，這些問題的解答需要各種工具和技能，如圖像說明生成、文本檢測、知識檢索、在線資源搜索和多線索視覺推理。在生成使用工具的程序時，我們將搜索空間限制為相關(guān)的庫子集（見附錄中的表6）。如果程序的最后兩個元素不是“解決方案生成器”和“答案生成器”，則該程序被視為無效，并默認為這兩個元素的序列，遵循連鎖思維提示基線[57]。請參見附錄中的表8以了解構(gòu)建的自然語言規(guī)劃器提示。基于LLM的模塊（如“知識檢索”、“查詢生成器”和“解決方案生成器”的提示見附錄中的表10、11和12）。

4.3 表格數(shù)學(xué)推理

TabMWP [33] 是一個涉及各種表格上下文的數(shù)學(xué)推理任務(wù)，如日程表、價格表、稅表、圖表和函數(shù)關(guān)系（見圖2）。它要求AI系統(tǒng)理解各種表格格式并進行精確的數(shù)值或符號計算。與ScienceQA類似，我們將程序搜索空間限制為兩種工具類型：1）幫助LLM更好地理解表格信息的工具（如“行查找”、“列查找”和“表格語言化”）和2）執(zhí)行準確符號計算的工具（如“程序生成器”、“程序驗證器”和“程序執(zhí)行器”），如表6所列。生成的程序必須符合一定的約束條件，例如包括“答案生成器”，并且將“程序生成器”置于“程序驗證器”和“程序執(zhí)行器”之前。不符合要求的程序默認為“程序生成器”、“程序驗證器”、“程序執(zhí)行器”和“答案生成器”的序列，符合帶有驗證的程序思維提示基線[6]。

5、實驗

我們評估了Chameleon在兩個復(fù)雜推理任務(wù)ScienceQA [32]和TabMWP [33]上的有效性和適應(yīng)性。實驗細節(jié)見附錄A.2。

5.1 實驗結(jié)果

ScienceQA。表3展示了現(xiàn)有基線和我們的方法Chameleon的結(jié)果，關(guān)鍵結(jié)果在圖3（a）中突出顯示。使用ChatGPT [41]作為基礎(chǔ)LLM，Chameleon達到了79.93%的準確率，比連鎖思維提示（CoT）[57]提示的ChatGPT高出1.62%。值得注意的是，Chameleon是CoT的廣義形式，其中生成的程序是“解決方案生成器”和“答案生成器”的序列。Chameleon受益于額外的工具使用，如“知識檢索”、“Bing搜索”、“圖像說明生成器”和“文本檢測器”?；贕PT-4 [42]時，我們的模型達到了86.54%的準確率，比GPT-4 CoT [32]高出2.55%，比GPT-3 CoT高出11.37%，在少樣本設(shè)置中創(chuàng)造了新的最先進水平。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表3：ScienceQA [32] 測試集上的問答準確率（%）。我們報告了為此任務(wù)調(diào)優(yōu)的參數(shù)數(shù)量和整體準確率，以及不同問題類型的準確率，包括自然科學(xué)、社會科學(xué)和語言科學(xué)、文本、圖像和無上下文問題，以及1-6年級和7-12年級的問題。每部分和總體的最高分數(shù)分別用藍色和紅色突出顯示，我們最佳模型的結(jié)果用粗體標出。

TabMWP。表4展示了關(guān)鍵模型的結(jié)果，見圖3（b）。同樣，Chameleon在微調(diào)和少樣本模型上都顯示了顯著的改進。值得注意的是，CoT和程序思維（PoT）[6]可以看作是Chameleon的特例。除了“解決方案生成器”和“答案生成器”，CoT不使用任何工具，而PoT僅依賴于符號編程工具，如“程序生成器”和“程序執(zhí)行器”。Chameleon（ChatGPT）比ChatGPT CoT和ChatGPT PoT分別高出11.25%和3.79%，強調(diào)了我們豐富工具集的優(yōu)勢。使用GPT-4，Chameleon又獲得了5.50%的提升，達到了98.78%的準確率。值得注意的是，Chameleon（GPT-4）超過了Codex PoT-SC [6]，即最好的已發(fā)布模型，高出17.0%，并超過了人類表現(xiàn)8.56%。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖3：主要基線和Chameleon的結(jié)果。虛線表示人類表現(xiàn)。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表4：TabMWP [33] 測試集上的問答準確率（%）。我們報告了為此任務(wù)調(diào)優(yōu)的參數(shù)數(shù)量和整體準確率，以及不同問題類型的準確率，包括自由文本問題、多選問題、整數(shù)答案、小數(shù)答案、抽取式答案、布爾答案、其他文本答案、1-6年級和7-8年級的問題。*表示結(jié)果的一個子集。

5.2 定性分析

工具使用規(guī)劃。圖4和圖5分別展示了Chameleon在ScienceQA和TabMWP中調(diào)用關(guān)鍵工具的比例。令人感興趣的是，ChatGPT和GPT-4表現(xiàn)出不同的規(guī)劃行為。一般而言，ChatGPT對使用或不使用某些工具有強烈的偏見，深受上下文示例的影響。例如，ChatGPT在72%的查詢中調(diào)用“知識檢索”，但在ScienceQA中僅在3%的情況下調(diào)用“Bing搜索”；在TabMWP中，ChatGPT嚴重依賴“行查找”（47%），但很少調(diào)用“列查找”（4%）。然而，GPT-4在工具選擇上表現(xiàn)得更加客觀和理性。例如，在回答ScienceQA的科學(xué)問題時，GPT-4更頻繁地調(diào)用“知識檢索”（81%對72%），并比ChatGPT更多地調(diào)用“Bing搜索”（11%對3%）。令人印象深刻的是，GPT-4通過觀察工具使用描述，一致地同時調(diào)用“查詢生成器”和“Bing搜索”，而ChatGPT缺乏這種推理能力。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖5：Chameleon在TabMWP上生成的程序中調(diào)用的工具。

禁用模塊的消融研究。我們研究了禁用生成程序中的關(guān)鍵模塊時Chameleon的準確率下降情況（見表5），使用ChatGPT作為基礎(chǔ)LLM和500個測試樣例。結(jié)果表明，“知識檢索”在兩項任務(wù)中都起到了重要作用。特定領(lǐng)域的工具，如ScienceQA的搜索引擎和視覺模型，以及TabMWP的程序工具，也被證明是重要的。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

模塊轉(zhuǎn)換。我們在圖7和圖8中分別展示了Chameleon（GPT-4）在ScienceQA和TabMWP上生成程序的模塊轉(zhuǎn)換圖。這些圖中的轉(zhuǎn)換概率是從測試集上觀察到的工具轉(zhuǎn)換中計算出來的。這些圖表明，GPT-4規(guī)劃器能夠在少樣本設(shè)置中很好地決定如何排序工具。例如，在ScienceQA中，Chameleon通常決定依賴“知識檢索”或“Bing搜索”，但很少同時使用。在TabMWP中，我們觀察到兩種主要模式：要么通過解決方案生成器模塊，要么通過程序生成器、驗證器和執(zhí)行器。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖7：Chameleon（GPT-4）在ScienceQA上生成的程序中模塊之間的轉(zhuǎn)換。START是起始符號，END是終止符號，其他為非終止符號。

圖8：Chameleon（GPT-4）在TabMWP上生成的程序中模塊之間的轉(zhuǎn)換。START是起始符號，END是終止符號，其他為非終止符號。

5.3 案例研究

ScienceQA的可視化示例。圖1中展示了Chameleon（GPT-4）在ScienceQA上的示例。Chameleon（GPT-4）能夠通過生成組合各種工具的程序并按順序執(zhí)行它們，以適應(yīng)不同的輸入查詢，從而獲得準確的響應(yīng)。例如，要回答第一個問題（①）“推動的方向是什么？”，系統(tǒng)調(diào)用圖像說明生成器模型從圖像中提取語義信息，并使用知識檢索模型收集背景知識以進行多模式推理。在第二個示例（②）中，自然語言規(guī)劃器推斷需要文本檢測工具來理解廣告的背景。第三個查詢（③；更多細節(jié)見附錄中的圖9）“哪種動物的皮膚適應(yīng)在寒冷地區(qū)生存？”涉及與動物生存相關(guān)的科學(xué)術(shù)語。規(guī)劃器決定調(diào)用Bing搜索引擎以訪問特定領(lǐng)域的知識，受益于眾多在線資源。

TabMWP的可視化示例。圖2中的示例展示了Chameleon在處理各種查詢方面的適應(yīng)性和多功能性。第一個示例（①）涉及稅表上的數(shù)學(xué)推理。Chameleon（1）調(diào)用知識檢索模型以回憶有助于理解該特定領(lǐng)域表格的基本知識，（2）以更易讀的自然語言格式描述表格，（3）最終依賴程序輔助工具進行精確計算。在第二個示例（②）中，系統(tǒng)生成的Python代碼與知識檢索模型提供的背景知識緊密一致。第三個示例（③）需要系統(tǒng)在給定輸入查詢的情況下定位大表格中的單元格。Chameleon調(diào)用行查找模型以幫助準確定位相關(guān)行，并通過LLM模型生成語言解決方案，而不是依賴于程序工具。

失敗案例和局限性。Chameleon（GPT-4）的失敗示例在附錄中的表19至24中展示。不準確的響應(yīng)可能源于當前模塊的局限性或由規(guī)劃器生成的次優(yōu)程序。此外，模塊庫可能缺乏能夠解決特定能力的工具。未來的方向可能包括升級模塊和規(guī)劃器，或擴展模塊庫以支持更廣泛的能力。更多局限性和更廣泛的影響分別在附錄的B和C節(jié)中討論。

5.4 錯誤分析

為了檢查基礎(chǔ)大型語言模型的錯誤來源，并了解我們的模型如何從不同方面減少錯誤，我們進行了錯誤分析，如圖6所示。我們從ScienceQA的ChatGPT基線中選取了50個錯誤示例作為評估集。我們統(tǒng)計了錯誤示例的數(shù)量，并分析了ChatGPT、我們的Chameleon（ChatGPT）方法和Chameleon（GPT-4）各自的錯誤類型類別。結(jié)果顯示，與ChatGPT相比，我們的Chameleon方法可以大幅減少錯誤數(shù)量。我們的模型具備圖像說明和知識檢索工具，因此ChatGPT在圖像理解類別中犯的錯誤由32個減少到Chameleon（ChatGPT）的10個和Chameleon（GPT-4）的19個；而ChatGPT在知識理解類別中犯的錯誤由37個減少到Chameleon（ChatGPT）的6個和Chameleon（GPT-4）的3個。受益于工具的順序執(zhí)行，解決方案生成導(dǎo)致的錯誤也顯著減少。此外，我們發(fā)現(xiàn)GPT-4的任務(wù)規(guī)劃遠遠優(yōu)于ChatGPT。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖6：ScienceQA中不同類別的錯誤示例數(shù)量。圖像：圖像說明生成，知識：知識理解，解決方案：解決方案生成。

6、結(jié)論

總之，我們介紹了一種新穎的即插即用組合推理框架Chameleon，它通過以即插即用的方式增強當前大型語言模型的外部工具，解決了它們的局限性。我們的方法使用多樣化的工具集，并在兩個具有挑戰(zhàn)性的基準ScienceQA和TabMWP上展示了令人印象深刻的適應(yīng)性和有效性。通過在準確性上顯著超過現(xiàn)有的最先進模型，Chameleon展示了其在處理各個領(lǐng)域的實際查詢方面的潛力。

補充材料

Chameleon：即插即用組合推理的大型語言模型

# 附錄

## A.1 當前的工具增強型LLM

為了解決LLM的局限性，一個活躍的研究方向是通過訪問外部工具和資源來增強語言模型，并探索外部工具和即插即用模塊化方法的集成。例如，借助網(wǎng)絡(luò)搜索引擎和外部知識資源，LLM能夠訪問實時信息并利用領(lǐng)域特定的知識[40]。為了增強數(shù)學(xué)推理能力，最近的研究使用LLM[5]生成復(fù)雜程序以利用強大的計算資源，并更有效地執(zhí)行邏輯推理任務(wù)[55, 10, 6, 39, 18, 43]。另一類近期的工作，如ViperGPT[52]、Visual ChatGPT[59]、VisProg[13]和HuggingGPT[50]，結(jié)合了一系列基礎(chǔ)計算機視覺模型，使LLM具備執(zhí)行視覺推理任務(wù)的能力。

## A.2 實驗細節(jié)

**模塊搜索空間**。ScienceQA和TabMWP的模塊庫子集如表6所示。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

規(guī)劃器實現(xiàn)。在構(gòu)建基于LLM的規(guī)劃器時，我們選擇了gpt-3.5-turbo引擎用于ChatGPT，選擇了gpt-4引擎用于GPT-4。生成程序的最大長度設(shè)置為128，溫度設(shè)置為0以實現(xiàn)最確定性的生成。ScienceQA和TabMWP的規(guī)劃器提示分別如表8和表9所示。

ScienceQA的模塊實現(xiàn)。默認情況下，基于LLM的模型使用四個上下文示例作為演示，溫度設(shè)置為0，允許的最大完成令牌數(shù)為512。其他具體實現(xiàn)細節(jié)如下：

- 知識檢索：提示由3個演示示例組成，模板見表10。

- 查詢生成器：提示模板見表11。最大完成令牌數(shù)設(shè)置為64。

- 解決方案生成器：提示由2個演示示例組成，模板見表12。

- 圖像說明生成器：我們使用圖像說明生成模型生成輸入圖像的文本描述。生成的說明最大長度設(shè)置為16，beam數(shù)為4，最大輸出令牌數(shù)為512。

- 文本檢測器：此模塊基于GitHub模型提取圖像中的文本內(nèi)容及其坐標。

- Bing搜索：此模塊調(diào)用Bing搜索API并返回文本查詢的前三個響應(yīng)。

- 答案生成器：此模塊從“解決方案生成器”提供的結(jié)果中提取答案片段，并從給定選項中選擇最相似的選項。

TabMWP的模塊實現(xiàn)。與ScienceQA類似，基于LLM的模塊默認使用四個上下文示例作為演示，溫度設(shè)置為0，允許的最大完成令牌數(shù)為512。其他實現(xiàn)細節(jié)如下：

- 知識檢索：提示由5個演示示例組成，模板見表13。

- 行查找：當有超過三行和18個表格單元時啟用，以加速推理。提示由7個演示示例組成，模板見表14。最大完成令牌數(shù)設(shè)置為256。

- 列查找：同樣，此模塊在有兩個或更多列和18個或更多表格單元時啟用。提示由6個演示示例組成，模板見表15。最大完成令牌數(shù)設(shè)置為256。

- 表格語言化：提示由7個演示示例組成，模板見表16。

- 程序生成器：提示模板見表17。最大完成令牌數(shù)設(shè)置為256。

- 解決方案生成器：提示由16個演示示例組成，模板見表18。

- 答案生成器：用于將答案標準化為兩位小數(shù)精度的問題，或為多選題選擇最相似的選項。

update_input 和 update_cache 的實現(xiàn)。update_input由特定工具的執(zhí)行觸發(fā)，如‘Row_Lookup’，其修改或替換輸入中的元素以反映更新的狀態(tài)。工具如‘Image_Captioner’、‘Text_Detector’、‘Knowledge_Retrieval’、‘Web_Search’和‘Program_Generation’生成新元素。update_cache將這些新元素存儲在緩存中，使其可以被后續(xù)工具執(zhí)行時訪問。

## A.3 實驗結(jié)果

**生成程序統(tǒng)計**。Chameleon利用基于LLM的自然語言規(guī)劃器生成程序，即使用模塊（工具）的序列。我們報告了Chameleon生成的唯一程序數(shù)量和相應(yīng)工具序列的平均長度統(tǒng)計數(shù)據(jù)，如表7所示。在ScienceQA和TabMWP上，使用GPT-4作為基礎(chǔ)LLM生成的獨特程序更少，即程序更一致，即使在規(guī)劃模型中給定完全相同的提示時也是如此。我們的結(jié)果與[42]中的發(fā)現(xiàn)一致，該研究發(fā)現(xiàn)GPT-4在理解長上下文、對齊人類指令和執(zhí)行高級推理方面比其他LLM（如ChatGPT）更具優(yōu)勢。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

## B 限制

雖然Chameleon在利用大型語言模型（LLM）進行即插即用組合推理方面代表了一個重要的進步，但仍有一些領(lǐng)域可以進一步優(yōu)化。一個這樣的領(lǐng)域是擴展其適應(yīng)性，以涵蓋更多樣的任務(wù)和領(lǐng)域，而不僅限于所展示的基準。負責(zé)合成程序和確定工具順序的基于LLM的規(guī)劃器引入了一種創(chuàng)新的方法，但它也提出了一些關(guān)于優(yōu)化工具選擇和順序過程的有趣研究問題。在當前系統(tǒng)設(shè)計中，基于LLM的規(guī)劃器的質(zhì)量可能會影響整體性能。此外，Chameleon在生成程序時是一步完成的，而沒有在程序處理模塊時加入重新規(guī)劃機制。此外，我們假設(shè)模塊列表及其描述能夠適應(yīng)LLM的上下文窗口，但這并不總是適用。隨著任務(wù)復(fù)雜性增加和模塊庫擴展，可能會出現(xiàn)計算需求激增或由于上下文限制而導(dǎo)致的限制，這表明未來可能需要進行優(yōu)化。然而，這些潛在的改進領(lǐng)域并不會削弱本文的核心成就，而是為未來的工作和研究提供了寶貴的方向。

## C 更廣泛的影響

本文所展示的Chameleon在社會上具有顯著的正面潛力。通過為大型語言模型（LLM）提供即插即用的組合推理模塊，Chameleon可以為復(fù)雜的多模式任務(wù)提供更準確的響應(yīng)，使其成為各種應(yīng)用（包括但不限于教育、金融和決策支持系統(tǒng)）中可能有價值的框架。此外，系統(tǒng)在不需要任何訓(xùn)練的情況下合成程序的能力，可以使非專家能夠在不同領(lǐng)域中利用AI技術(shù)，從而實現(xiàn)AI技術(shù)的普及。隨著大型語言模型和工具集成的研究不斷推進，我們預(yù)計我們的框架將為進一步的創(chuàng)新奠定基礎(chǔ)，推動更具普適性和效率的復(fù)雜推理任務(wù)解決方案的追求。

盡管Chameleon可能帶來負面的社會影響，如如果其利用的數(shù)據(jù)源和外部工具未被精心策劃，可能導(dǎo)致誤信息和隱私問題，我們相信這些風(fēng)險是可以通過仔細管理和最小化的。還有一個風(fēng)險是，過度依賴Chameleon的自主性可能會削弱批判性思維能力或工作職能。為了有效緩解這些問題，必須仔細策劃數(shù)據(jù)源和外部工具，并強烈致力于用戶數(shù)據(jù)保護。此外，應(yīng)將Chameleon的自主性視為增強人類能力的手段，而不是替代。因此，制定強有力的道德準則、透明機制和保障措施至關(guān)重要，體現(xiàn)了我們對社會責(zé)任性AI部署的承諾。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表8：為ScienceQA任務(wù)構(gòu)建的規(guī)劃器模型提示。提示包括描述規(guī)劃器模型角色的說明、將問題映射到模塊序列的上下文示例以及測試示例。

（翻譯：

## 規(guī)劃器模型說明

您需要作為策略模型，給定一個問題和一組模塊，確定可以順序執(zhí)行以解決問題的模塊序列。模塊定義如下：

- Query_Generator：此模塊為給定的問題生成搜索引擎查詢。通常，當問題涉及領(lǐng)域特定知識時，我們會考慮使用“Query_Generator”。

- Bing_Search：此模塊在網(wǎng)上搜索與問題相關(guān)的信息。通常，當問題涉及領(lǐng)域特定知識時，我們會考慮使用“Bing_Search”。

- Image_Captioner：此模塊為給定的圖像生成說明。通常，當問題涉及圖像的語義理解，且元數(shù)據(jù)中的“has_image”字段為真時，我們會考慮使用“Image_Captioner”。

- Text_Detector：此模塊檢測給定圖像中的文本。通常，當問題涉及展開圖像中的文本（如圖表、表格、地圖等）時，且元數(shù)據(jù)中的“has_image”字段為真時，我們會考慮使用“Text_Detector”。

- Knowledge_Retrieval：此模塊檢索作為提示的背景知識以解決給定問題。通常，當背景知識有助于指導(dǎo)解決方案時，我們會考慮使用“Knowledge_Retrieval”。

- Solution_Generator：此模塊基于提供的信息生成問題的詳細解決方案。通常，“Solution_Generator”會整合來自“Query_Generator”、“Bing_Search”、“Image_Captioner”、“Text_Detector”和“Knowledge_Retrieval”的信息。

- Answer_Generator：此模塊從解決方案或執(zhí)行結(jié)果中提取最終答案的簡短形式。此模塊通常是預(yù)測流水線中的最后一個模塊。

以下是將問題映射到模塊的一些示例。

## 上下文示例

問題：比較每個樣本中粒子的平均動能。哪個樣本的溫度更高？

上下文：下圖顯示了兩個相同封閉、剛性容器中的純氣體樣本。每個彩色球代表一個氣體粒子。兩個樣本的粒子數(shù)量相同。

選項： (A) 都不是；樣本的溫度相同 (B) 樣本A (C) 樣本B

元數(shù)據(jù)：‘pid’: 19, ‘has_image’: True, ‘grade’: 8, ‘subject’: ‘自然科學(xué)’, ‘topic’: ‘物理’, ‘category’: ‘粒子運動和能量’, ‘skill’: ‘識別粒子運動如何影響溫度和壓力’

模塊：["Text_Detector", "Knowledge_Retrieval", "Solution_Generator", "Answer_Generator"]）

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表9：為TabMWP任務(wù)構(gòu)建的規(guī)劃器模型提示。類似地，提示包括說明、上下文示例和測試示例。

（翻譯：

規(guī)劃器模型說明

給定一個問題和一組模塊，確定可以順序執(zhí)行以解決問題的模塊序列。

模塊定義如下：

- Program_Generator：此模塊生成可以解決給定問題的Python程序。它接收問題和可能的上下文，生成一個可以由“Program_Executor”模塊執(zhí)行的程序。通常，當問題和上下文涉及復(fù)雜計算（如多個數(shù)字的算術(shù)運算）或復(fù)雜邏輯操作（如“if-else”語句）時，我們會考慮使用“Program_Generator”。

- Program_Verifier：此模塊驗證“Program_Generator”生成的程序是否有效且無錯誤。它檢查語法錯誤、邏輯錯誤和程序執(zhí)行過程中可能出現(xiàn)的其他潛在問題。

- Program_Executor：此模塊執(zhí)行“Program_Generator”生成的程序，并生成可以由其他模塊（如“Question_Answering”）進一步處理的輸出。

- Row_Lookup：此模塊返回僅保留與問題相關(guān)行的簡化表格。它接收問題和表格，并返回簡化后的表格。如果所有行都相關(guān)或行數(shù)少于或等于三行，則返回原始表格。通常，當表格涉及超過三行且問題只需要少量行來回答時，我們會考慮使用“Row_Lookup”。

- Column_Lookup：此模塊返回僅保留與問題相關(guān)列的簡化表格。它接收問題和表格，并返回簡化后的表格。如果所有列都相關(guān)或列數(shù)只有兩列，則返回原始表格。通常，當表格涉及超過兩列且問題只需要少量列來回答時，我們會考慮使用“Column_Lookup”。

- Table_Verbalizer：此模塊將表格轉(zhuǎn)換為易于下游模塊（如“Program_Generator”、“Solution_Generator”、“Question_Answering”）理解的描述。通常，當表格涉及少量行和列且是特定領(lǐng)域的（如莖葉圖、函數(shù)表等）時，我們會考慮使用“Table_Verbalizer”。

- Knowledge_Retrieval：此模塊為給定的問題和表格檢索特定領(lǐng)域的知識。通常，當問題和表格涉及特定領(lǐng)域的知識（如莖葉圖、函數(shù)表、稅務(wù)表等）時，我們會考慮使用“Knowledge_Retrieval”。

- Solution_Generator：此模塊基于提供的信息生成問題的詳細解決方案。通常，當問題和表格涉及簡單計算（如單個數(shù)字的算術(shù)運算）時，我們會使用“Solution_Generator”。

- Answer_Generator：此模塊從解決方案或執(zhí)行結(jié)果中提取最終答案的簡短形式。此模塊通常在“Solution_Generator”或“Program_Executor”模塊之后使用。

以下是將問題映射到模塊的一些示例。

## 上下文示例

表格：

| designer watch | $8,141 |

| designer coat | $6,391 |

問題：設(shè)計師手表比設(shè)計師大衣貴多少？（單位：$）

模塊：["Program_Generator", "Program_Verifier", "Program_Executor", "Answer_Generator"]）

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表10：為ScienceQA任務(wù)構(gòu)建的“知識檢索”模塊提示。

（翻譯：

### 說明

閱讀以下問題，并生成背景知識作為上下文信息，以幫助回答問題。

### 上下文示例

問題：這三個物體有什么共同的屬性？

選項：(A) 硬 (B) 軟 (C) 黃

元數(shù)據(jù)：‘pid’: 43, ‘has_image’: True, ‘grade’: 4, ‘subject’: ‘自然科學(xué)’, ‘topic’: ‘物理’, ‘category’: ‘材料’, ‘skill’: ‘比較物體的屬性’

圖像中檢測到的文本：['手帕', '拖鞋', '休閑套裝']

知識：

- 這個問題是關(guān)于比較三個物體的屬性：手帕、拖鞋和休閑套裝。

- 這些物體與物理學(xué)主題和比較物體屬性的技能相關(guān)。

- 物體的屬性可以包括物理特征，如顏色、質(zhì)地、形狀、大小、重量和材料。）

Lu P, Peng B, Cheng H, et al. Chameleon: Plug-and-play compositional reasoning with large language models[J]. Advances in Neural Information Processing Systems, 2024, 36.

1University of California, Los Angeles

2Microsoft Research, Redmond

?

本文轉(zhuǎn)載自公眾號AIRoobt ，作者：AIRoobt

原文鏈接：??????https://mp.weixin.qq.com/s/K7J6zWaFYYZW_zHO9Y-aew???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型

sbf_2000 ? 3393瀏覽 ? 0回復(fù)
即插即用！“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法

angel ? 4559瀏覽 ? 0回復(fù)
即插即用，快速適配！港大FlashST：簡單通用的智慧交通時空預(yù)測模型 | ICML 2024

duhorse ? 2064瀏覽 ? 0回復(fù)
檢索增強型多模態(tài)思維鏈推理用于大型語言模型

AIRoobt ? 3402瀏覽 ? 0回復(fù)
使用“反事實任務(wù)”評估大型語言模型

lintoms ? 3106瀏覽 ? 0回復(fù)
大型語言模型（LLM）的歷史與未來

51CTO內(nèi)容精選 ? 3167瀏覽 ? 0回復(fù)
簡潔思考：輸出長度對大型語言模型推理和成本的影響

sbf_2000 ? 3466瀏覽 ? 0回復(fù)
即插即用 | 時間編碼+LSTM+全局注意力

Tang_Lan ? 3680瀏覽 ? 0回復(fù)
大型語言模型的知識融合（ICLR2024）

AIRoobt ? 2511瀏覽 ? 0回復(fù)
騰訊&新加坡國立發(fā)布IFAdapter：即插即用，提升文生圖模型實例特征和位置生成準確性

angel ? 2531瀏覽 ? 0回復(fù)
使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強大型語言模型(LLM)

Halo咯咯 ? 2075瀏覽 ? 0回復(fù)
圖上的推理：忠實且可解釋的大型語言模型推理（ICLR2024)

AIRoobt ? 2477瀏覽 ? 0回復(fù)
即插即用，無痛增強模型生成美感！字節(jié)跳動提出VMix:細粒度美學(xué)控制，光影、色彩全搞定

angel ? 1727瀏覽 ? 0回復(fù)
即插即用，無縫集成各種模型，港科大&螞蟻等發(fā)布Edicho：圖像編輯一致性最新成果！

angel ? 1908瀏覽 ? 0回復(fù)
探索基于大型語言模型的智能體：定義、方法與前景

AIRoobt ? 4061瀏覽 ? 0回復(fù)
大型語言模型是否解決了搜索問題？

51CTO內(nèi)容精選 ? 1945瀏覽 ? 0回復(fù)
DyPRAG：即插即用動態(tài)將上下文轉(zhuǎn)化為參數(shù)知識，有效緩解RAG幻覺

大模型自然語言處理 ? 1562瀏覽 ? 0回復(fù)
大型語言模型的推理經(jīng)濟學(xué)：平衡性能與計算成本的新范式

頓數(shù)AI ? 862瀏覽 ? 0回復(fù)
S1-Bench：評估大型推理模型中的系統(tǒng) 1 思維

芝士AI吃魚 ? 478瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ChatDiT：一個用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴散變換器 1天前發(fā)布
大型語言模型容易被無關(guān)上下文分散注意力(ICLM) 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：思維樹：利用大型語言模型深思熟慮地解決問題

下一篇：多模態(tài)大模型的構(gòu)成式思維鏈提示

社區(qū)精華內(nèi)容

目錄

<cite id="amomh"></cite>