自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MACT:如何用多Agent框架思路實(shí)現(xiàn)表格問答

發(fā)布于 2025-1-14 12:10
瀏覽
0收藏

1. 表格問答的現(xiàn)狀

表格問答(TQA,Table Question Answering)是指依據(jù)表格形式的數(shù)據(jù)來回答問題。表格問答任務(wù)的任務(wù)也越來越復(fù)雜,要解決這些復(fù)雜任務(wù),就得執(zhí)行多個(gè)推理步驟(多步驟)或者運(yùn)用不同的推理策略(多類別)。。

處理 TQA 中這些復(fù)雜實(shí)例的一種常見方法是規(guī)劃,生成詳細(xì)的逐步計(jì)劃并引導(dǎo)推理過程。該方向有兩種方法:

? 針對開源大型語言模型(LLMs)進(jìn)行微調(diào),但微調(diào)需要高質(zhì)量的數(shù)據(jù),通常難以獲取

? 使用閉源的商業(yè) LLMs,閉源商業(yè) LLMs 成本高

為了解決以上問題,作者提出了一個(gè)結(jié)合工具使用的多智能體協(xié)作框架(MACT,Multi-Agent Collaboration with Tool)。既不依賴閉源 LLMs,也無需微調(diào)。

2. 什么是MACT?

MACT是一個(gè)為 TQA 配備了一組工具的多智能體協(xié)作框架。如下圖所示,包含了四個(gè)主要模塊:內(nèi)存、規(guī)劃智能體、編碼智能體、工具集。

MACT:如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū)圖片

MACT包括五個(gè)核心階段動作:動作生成、動作選擇、工具選擇/代碼創(chuàng)建、觀察計(jì)算以及內(nèi)存狀態(tài)更新。

2.1 動作生成(Action Generation)

作者參考了ReAct方法,鑒于之前有研究表明生成動作時(shí),一同生成想法能帶來性能的提升,所以作者采用了完整的ReAct方法:即想法、動作和觀察一起生成。

把一個(gè)動作定義為兩部分:意圖和指令。

例如,“檢索 [檢索法國和德國的出口數(shù)量]”。意圖是動作的目的,比如“檢索”就是從輸入表中提取信息。指令(用括號標(biāo)記)詳細(xì)說明了意圖。

MACT:如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū)圖片

上表展示了框架中定義的六種意圖類型及其對應(yīng)的指令示例。

? 檢索:執(zhí)行從表中提取信息的所有操作,包括直接查詢、過濾和分組。

? 計(jì)算:需要計(jì)算、計(jì)數(shù)或比較的指令則由“計(jì)算”來處理。

? 搜索:為了滿足表或文本上下文中不存在的外部(事實(shí)性)知識的需求,增加了“搜索”意圖。

? 讀?。汉w了表-文本問答中對上下文推理的需求,指的是從作為TQA實(shí)例提供的文本中提取信息的指令。

? 完成:規(guī)劃智能體停止生成更多動作,并結(jié)束迭代執(zhí)行,提供相應(yīng)的指令中的最終答案。

? 詢問:基于規(guī)劃智能體的內(nèi)部知識來檢索答案.

2.2 動作選擇(Action Selection)

運(yùn)用選擇函數(shù)從動作集合中挑選最有潛力的動作。選擇函數(shù)采用了自洽性(self-consistency),從采樣動作集合中輸出最頻繁的動作。若出現(xiàn)平局,則選擇最先采樣的那個(gè)最頻繁動作。

2.3 工具選擇與使用

為了滿足【搜索】、【計(jì)算】、【檢索】這些意圖,作者引入了一組工具:Wiki百科搜索工具、計(jì)算器工具、Python代碼工具。

? Wiki百科搜索工具:維基百科搜索API,接收指令中指定的目標(biāo)實(shí)體,并返回相應(yīng)維基百科條目的第一段。

? 計(jì)算器工具:由Python解釋器驅(qū)動,接受生成的公式,并輸出答案?!坝?jì)算”的指令也可以是文本描述,比如“計(jì)算表中每個(gè)國家的平均獎牌數(shù)量”。

? Python代碼工具:【檢索】意圖由Python代碼工具完成,根據(jù)指令生成的Python代碼檢索表中的目標(biāo)單元格,返回執(zhí)行結(jié)果。

對于“讀取”“詢問”和“完成”,不使用工具。

3. 效果評估

對 MACT 在四個(gè) TQA 基準(zhǔn)上的性能與 SoTA TQA 系統(tǒng)進(jìn)行了對比評估。

3.1 與其他TQA模型(框架)相比

MACT:如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū)圖片

如上圖所示,當(dāng)GPT-3.5作為底層模型時(shí),MACT超越了所有的TQA模型(除在 WTQ 上的 Mix-SC)。表明與單代理 TQA 模型相比,代理策略是有效的。

猜測MACT與 Mix-SC 之間的性能差距源于 Mix-SC 中特定于數(shù)據(jù)的表清理和答案格式控制。相比之下,MACT 不包含任何特定于數(shù)據(jù)集的預(yù)處理或后處理步驟,從而能普遍適用于任何數(shù)據(jù)集。

MACT 在各個(gè)數(shù)據(jù)集中都優(yōu)于各種開源 LLM,證明了智能體的有效性。

MACT:如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū)圖片

上表還給出了使用不同模型作為不同智能體部分的MACT的結(jié)果。

比如:MACT (Qw + CL)是指 Qwen 作為規(guī)劃代理,CodeLLaMA 作為編碼代理。

MACT (Qw + CL)比單獨(dú)使用 Qwen 和 CodeLLaMA 獲得了更高的 EM 分?jǐn)?shù),證明使用多個(gè)智能體進(jìn)行規(guī)劃和編碼的有效性。

MACT (Qw + CL)在所有數(shù)據(jù)集中平均比 _SC(Qw + CL)高出約 6 個(gè) EM 點(diǎn),凸顯了我們的協(xié)作技術(shù)相對于簡單采用兩個(gè)獨(dú)立代理的最頻繁預(yù)測的優(yōu)越性。我們還發(fā)現(xiàn),擁有用于代碼生成的專家編碼代理(MACT (Qw + Qw)與 MACT (Qw + CL))顯著提高了性能。

3.2 與微調(diào)的TQA模型相比

MACT 在數(shù)據(jù)集之間的泛化能力優(yōu)于微調(diào)的 TQA 系統(tǒng)。

MACT:如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū)圖片

上表展示了與先前微調(diào)的 TQA 模型進(jìn)行了比較。通常,微調(diào)模型在用于微調(diào)的數(shù)據(jù)集上的性能相當(dāng)高,但在其他數(shù)據(jù)集上測試時(shí) EM 會大幅下降。

相比之下,MACT 不使用微調(diào)模型,因此能夠應(yīng)用于任何具有良好泛化性能的數(shù)據(jù)集。當(dāng)使用 LlaMA-7b 作為規(guī)劃代理時(shí),MACT 展現(xiàn)出了與 Protrix 相當(dāng)?shù)慕Y(jié)果,盡管它未進(jìn)行微調(diào)。使用更好的規(guī)劃代理會帶來更好的結(jié)果。這也體現(xiàn)了 MACT 在骨干模型方面的穩(wěn)健性。

3.3 MACT調(diào)用LLM次數(shù)對比

MACT:如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū)圖片

上表展示了MACT與其他方法調(diào)用LLM次數(shù)對比。對于 Binder 和 Dater,無論問題復(fù)雜程度如何,SC 都執(zhí)行固定次數(shù)。導(dǎo)致每個(gè)實(shí)例的提示數(shù)量很多,因而效率低下。

相比之下,MACT 在生成方面具有靈活性,因?yàn)榈螖?shù)取決于問題的復(fù)雜性。例如,對于 WTQ,大多數(shù)問題可以在三步內(nèi)解決,使得每個(gè)實(shí)例最多總共提示 25 次。如果結(jié)合效率優(yōu)化模塊,這可能節(jié)省多達(dá)三分之一的迭代,每個(gè)實(shí)例的生成總數(shù)甚至更低(約 15 次),使 MACT 在效率方面與其他方法相當(dāng)。MACT 的迭代性質(zhì)可能導(dǎo)致更高的生成上限。然而,它也能處理更復(fù)雜的問題,使該方法更貼合現(xiàn)實(shí)生活的需求。

3.4 多智能體協(xié)作與工具使用的效果

通過三種情形展開消融研究,探究 MACT 中專業(yè)智能體和工具使用的有效性。

MACT:如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū)圖片

上表結(jié)果表明,工具和編碼工具均對框架性能有所貢獻(xiàn)。然而,它們對最終性能的貢獻(xiàn)各異。

比如,去除搜索工具對結(jié)果幾乎無影響,而進(jìn)一步去除編碼代理和 Python 解釋器時(shí),性能大幅下降?;蛟S是由于工具和編碼代理的使用頻率所致。

發(fā)現(xiàn)搜索工具幾乎未被使用,而編碼代理在幾乎每次查詢中都會被調(diào)用??赡苡捎诰S基百科是 LLM 常見的預(yù)訓(xùn)練語料庫,多數(shù)信息可能已被編碼。不過,鑒于 LLM 已知會出現(xiàn)幻覺且編碼知識可能未及時(shí)更新,搜索工具仍可能有所幫助。

消融操作對 WTQ 和 TAT 的影響大于 CRT 和 SCITAB??赡軞w因于數(shù)據(jù)集特征:CRT 包含眾多是非問題,SCITAB 由三元分類數(shù)據(jù)集轉(zhuǎn)換而來。因此,在諸如 WTQ 和 TAT 這類答案分布更豐富的數(shù)據(jù)集上,猜測正確最終答案的幾率高于前者。通過評估 CRT 中除是非答案之外的實(shí)例,發(fā)現(xiàn)當(dāng)消融工具和編碼代理時(shí),性能下降 8.23 。

3.5 錯(cuò)誤分析

從每個(gè)數(shù)據(jù)集中隨機(jī)抽取 MACT 失敗的 50 個(gè)實(shí)例并進(jìn)行錯(cuò)誤分析。

? 約一半的錯(cuò)誤源自編碼代理生成的無效或錯(cuò)誤代碼。要么是未能理解指令從而生成錯(cuò)誤代碼,要么因復(fù)雜的表數(shù)據(jù)類型導(dǎo)致代碼執(zhí)行不成功。這表明表預(yù)處理的重要性。

? 第二種錯(cuò)誤類型可歸因于評估。發(fā)現(xiàn)約三分之一的失敗源于嚴(yán)格的評估指標(biāo)(精確匹配準(zhǔn)確率)。這對 TAT 數(shù)據(jù)集上 MACT 的性能影響最大,因?yàn)槠浯鸢笧殚L文本字符串。

? 其余錯(cuò)誤情況在很大程度上可歸咎于規(guī)劃代理的失敗。意味著規(guī)劃代理未能正確分解問題。

4. 局限性

? 由于具備多表復(fù)雜推理的數(shù)據(jù)集稀缺,MACT 主要在單表設(shè)置下進(jìn)行評估。雖然該框架通過在輸入中連接多個(gè)表能夠輕松擴(kuò)展以處理多表情況,但在多表設(shè)置中的效果尚不明確。

? 僅在英語語境中研究 TQA,然而存在眾多多語言 TQA 基準(zhǔn)和挑戰(zhàn)。

本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??,作者:HuggingAGI

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦