自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答

大語言模型論文跟蹤

發(fā)布于 2025-1-14 12:10

瀏覽

0收藏

1. 表格問答的現(xiàn)狀

表格問答（TQA，Table Question Answering）是指依據(jù)表格形式的數(shù)據(jù)來回答問題。表格問答任務(wù)的任務(wù)也越來越復(fù)雜，要解決這些復(fù)雜任務(wù)，就得執(zhí)行多個(gè)推理步驟（多步驟）或者運(yùn)用不同的推理策略（多類別）。。

處理 TQA 中這些復(fù)雜實(shí)例的一種常見方法是規(guī)劃，生成詳細(xì)的逐步計(jì)劃并引導(dǎo)推理過程。該方向有兩種方法：

? 針對開源大型語言模型（LLMs）進(jìn)行微調(diào)，但微調(diào)需要高質(zhì)量的數(shù)據(jù)，通常難以獲取

? 使用閉源的商業(yè) LLMs，閉源商業(yè) LLMs 成本高

為了解決以上問題，作者提出了一個(gè)結(jié)合工具使用的多智能體協(xié)作框架（MACT，Multi-Agent Collaboration with Tool）。既不依賴閉源 LLMs，也無需微調(diào)。

2. 什么是MACT？

MACT是一個(gè)為 TQA 配備了一組工具的多智能體協(xié)作框架。如下圖所示，包含了四個(gè)主要模塊：內(nèi)存、規(guī)劃智能體、編碼智能體、工具集。

MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū) 圖片

MACT包括五個(gè)核心階段動作：動作生成、動作選擇、工具選擇/代碼創(chuàng)建、觀察計(jì)算以及內(nèi)存狀態(tài)更新。

2.1 動作生成（Action Generation）

作者參考了ReAct方法，鑒于之前有研究表明生成動作時(shí)，一同生成想法能帶來性能的提升，所以作者采用了完整的ReAct方法：即想法、動作和觀察一起生成。

把一個(gè)動作定義為兩部分：意圖和指令。

例如，“檢索 [檢索法國和德國的出口數(shù)量]”。意圖是動作的目的，比如“檢索”就是從輸入表中提取信息。指令（用括號標(biāo)記）詳細(xì)說明了意圖。

MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū) 圖片

上表展示了框架中定義的六種意圖類型及其對應(yīng)的指令示例。

? 檢索：執(zhí)行從表中提取信息的所有操作，包括直接查詢、過濾和分組。

? 計(jì)算：需要計(jì)算、計(jì)數(shù)或比較的指令則由“計(jì)算”來處理。

? 搜索：為了滿足表或文本上下文中不存在的外部（事實(shí)性）知識的需求，增加了“搜索”意圖。

? 讀?。汉w了表-文本問答中對上下文推理的需求，指的是從作為TQA實(shí)例提供的文本中提取信息的指令。

? 完成：規(guī)劃智能體停止生成更多動作，并結(jié)束迭代執(zhí)行，提供相應(yīng)的指令中的最終答案。

? 詢問：基于規(guī)劃智能體的內(nèi)部知識來檢索答案.

2.2 動作選擇（Action Selection）

運(yùn)用選擇函數(shù)從動作集合中挑選最有潛力的動作。選擇函數(shù)采用了自洽性（self-consistency），從采樣動作集合中輸出最頻繁的動作。若出現(xiàn)平局，則選擇最先采樣的那個(gè)最頻繁動作。

2.3 工具選擇與使用

為了滿足【搜索】、【計(jì)算】、【檢索】這些意圖，作者引入了一組工具：Wiki百科搜索工具、計(jì)算器工具、Python代碼工具。

? Wiki百科搜索工具：維基百科搜索API，接收指令中指定的目標(biāo)實(shí)體，并返回相應(yīng)維基百科條目的第一段。

? 計(jì)算器工具：由Python解釋器驅(qū)動，接受生成的公式，并輸出答案?！坝?jì)算”的指令也可以是文本描述，比如“計(jì)算表中每個(gè)國家的平均獎牌數(shù)量”。

? Python代碼工具：【檢索】意圖由Python代碼工具完成，根據(jù)指令生成的Python代碼檢索表中的目標(biāo)單元格，返回執(zhí)行結(jié)果。

對于“讀取”“詢問”和“完成”，不使用工具。

3. 效果評估

對 MACT 在四個(gè) TQA 基準(zhǔn)上的性能與 SoTA TQA 系統(tǒng)進(jìn)行了對比評估。

3.1 與其他TQA模型（框架）相比

MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū) 圖片

如上圖所示，當(dāng)GPT-3.5作為底層模型時(shí)，MACT超越了所有的TQA模型（除在 WTQ 上的 Mix-SC）。表明與單代理 TQA 模型相比，代理策略是有效的。

猜測MACT與 Mix-SC 之間的性能差距源于 Mix-SC 中特定于數(shù)據(jù)的表清理和答案格式控制。相比之下，MACT 不包含任何特定于數(shù)據(jù)集的預(yù)處理或后處理步驟，從而能普遍適用于任何數(shù)據(jù)集。

MACT 在各個(gè)數(shù)據(jù)集中都優(yōu)于各種開源 LLM，證明了智能體的有效性。

MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū) 圖片

上表還給出了使用不同模型作為不同智能體部分的MACT的結(jié)果。

比如：MACT （Qw + CL）是指 Qwen 作為規(guī)劃代理，CodeLLaMA 作為編碼代理。

MACT （Qw + CL）比單獨(dú)使用 Qwen 和 CodeLLaMA 獲得了更高的 EM 分?jǐn)?shù)，證明使用多個(gè)智能體進(jìn)行規(guī)劃和編碼的有效性。

MACT （Qw + CL）在所有數(shù)據(jù)集中平均比 _SC（Qw + CL）高出約 6 個(gè) EM 點(diǎn)，凸顯了我們的協(xié)作技術(shù)相對于簡單采用兩個(gè)獨(dú)立代理的最頻繁預(yù)測的優(yōu)越性。我們還發(fā)現(xiàn)，擁有用于代碼生成的專家編碼代理（MACT （Qw + Qw）與 MACT （Qw + CL））顯著提高了性能。

3.2 與微調(diào)的TQA模型相比

MACT 在數(shù)據(jù)集之間的泛化能力優(yōu)于微調(diào)的 TQA 系統(tǒng)。

MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū) 圖片

上表展示了與先前微調(diào)的 TQA 模型進(jìn)行了比較。通常，微調(diào)模型在用于微調(diào)的數(shù)據(jù)集上的性能相當(dāng)高，但在其他數(shù)據(jù)集上測試時(shí) EM 會大幅下降。

相比之下，MACT 不使用微調(diào)模型，因此能夠應(yīng)用于任何具有良好泛化性能的數(shù)據(jù)集。當(dāng)使用 LlaMA-7b 作為規(guī)劃代理時(shí)，MACT 展現(xiàn)出了與 Protrix 相當(dāng)?shù)慕Y(jié)果，盡管它未進(jìn)行微調(diào)。使用更好的規(guī)劃代理會帶來更好的結(jié)果。這也體現(xiàn)了 MACT 在骨干模型方面的穩(wěn)健性。

3.3 MACT調(diào)用LLM次數(shù)對比

MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū) 圖片

上表展示了MACT與其他方法調(diào)用LLM次數(shù)對比。對于 Binder 和 Dater，無論問題復(fù)雜程度如何，SC 都執(zhí)行固定次數(shù)。導(dǎo)致每個(gè)實(shí)例的提示數(shù)量很多，因而效率低下。

相比之下，MACT 在生成方面具有靈活性，因?yàn)榈螖?shù)取決于問題的復(fù)雜性。例如，對于 WTQ，大多數(shù)問題可以在三步內(nèi)解決，使得每個(gè)實(shí)例最多總共提示 25 次。如果結(jié)合效率優(yōu)化模塊，這可能節(jié)省多達(dá)三分之一的迭代，每個(gè)實(shí)例的生成總數(shù)甚至更低（約 15 次），使 MACT 在效率方面與其他方法相當(dāng)。MACT 的迭代性質(zhì)可能導(dǎo)致更高的生成上限。然而，它也能處理更復(fù)雜的問題，使該方法更貼合現(xiàn)實(shí)生活的需求。

3.4 多智能體協(xié)作與工具使用的效果

通過三種情形展開消融研究，探究 MACT 中專業(yè)智能體和工具使用的有效性。

MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答-AI.x社區(qū) 圖片

上表結(jié)果表明，工具和編碼工具均對框架性能有所貢獻(xiàn)。然而，它們對最終性能的貢獻(xiàn)各異。

比如，去除搜索工具對結(jié)果幾乎無影響，而進(jìn)一步去除編碼代理和 Python 解釋器時(shí)，性能大幅下降?；蛟S是由于工具和編碼代理的使用頻率所致。

發(fā)現(xiàn)搜索工具幾乎未被使用，而編碼代理在幾乎每次查詢中都會被調(diào)用?？赡苡捎诰S基百科是 LLM 常見的預(yù)訓(xùn)練語料庫，多數(shù)信息可能已被編碼。不過，鑒于 LLM 已知會出現(xiàn)幻覺且編碼知識可能未及時(shí)更新，搜索工具仍可能有所幫助。

消融操作對 WTQ 和 TAT 的影響大于 CRT 和 SCITAB?？赡軞w因于數(shù)據(jù)集特征：CRT 包含眾多是非問題，SCITAB 由三元分類數(shù)據(jù)集轉(zhuǎn)換而來。因此，在諸如 WTQ 和 TAT 這類答案分布更豐富的數(shù)據(jù)集上，猜測正確最終答案的幾率高于前者。通過評估 CRT 中除是非答案之外的實(shí)例，發(fā)現(xiàn)當(dāng)消融工具和編碼代理時(shí)，性能下降 8.23 。

3.5 錯(cuò)誤分析

從每個(gè)數(shù)據(jù)集中隨機(jī)抽取 MACT 失敗的 50 個(gè)實(shí)例并進(jìn)行錯(cuò)誤分析。

? 約一半的錯(cuò)誤源自編碼代理生成的無效或錯(cuò)誤代碼。要么是未能理解指令從而生成錯(cuò)誤代碼，要么因復(fù)雜的表數(shù)據(jù)類型導(dǎo)致代碼執(zhí)行不成功。這表明表預(yù)處理的重要性。

? 第二種錯(cuò)誤類型可歸因于評估。發(fā)現(xiàn)約三分之一的失敗源于嚴(yán)格的評估指標(biāo)（精確匹配準(zhǔn)確率）。這對 TAT 數(shù)據(jù)集上 MACT 的性能影響最大，因?yàn)槠浯鸢笧殚L文本字符串。

? 其余錯(cuò)誤情況在很大程度上可歸咎于規(guī)劃代理的失敗。意味著規(guī)劃代理未能正確分解問題。

4. 局限性

? 由于具備多表復(fù)雜推理的數(shù)據(jù)集稀缺，MACT 主要在單表設(shè)置下進(jìn)行評估。雖然該框架通過在輸入中連接多個(gè)表能夠輕松擴(kuò)展以處理多表情況，但在多表設(shè)置中的效果尚不明確。

? 僅在英語語境中研究 TQA，然而存在眾多多語言 TQA 基準(zhǔn)和挑戰(zhàn)。

本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??，作者：HuggingAGI

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Advanced RAG 07：在 RAG 系統(tǒng)中進(jìn)行表格數(shù)據(jù)處理的新思路

Baihai_IDP ? 4913瀏覽 ? 0回復(fù)
如何用ai生成寵物圖片？一鍵實(shí)現(xiàn)ai寵物圖片創(chuàng)作自由！

行走的小非 ? 5480瀏覽 ? 0回復(fù)
BabyAGI Agent：LLM如何實(shí)現(xiàn)？

探索AGI ? 1907瀏覽 ? 0回復(fù)
大模型ReAct框架——打造AI Agent的代碼實(shí)現(xiàn)——基于LLM + Function Call構(gòu)建Agent

AI探索時(shí)代 ? 5538瀏覽 ? 0回復(fù)
AutoGPT Agent：LLM如何實(shí)現(xiàn)？

探索AGI ? 2127瀏覽 ? 0回復(fù)
表格場景RAG怎么做？TableRAG：一種增強(qiáng)大規(guī)模表格理解框架

大模型自然語言處理 ? 2434瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：Agent框架的構(gòu)建

一起AI技術(shù) ? 1914瀏覽 ? 0回復(fù)
Agent 智能體開發(fā)框架如何優(yōu)雅選型？

玄姐聊AGI ? 2277瀏覽 ? 0回復(fù)
文本文字識別、公式識別、表格文字識別核心算法及思路及實(shí)踐-DBNet、CRNN、TrOCR

大模型自然語言處理 ? 2467瀏覽 ? 0回復(fù)
如何使用AutoGen AI技術(shù)實(shí)現(xiàn)多代理對話

51CTO內(nèi)容精選 ? 1937瀏覽 ? 0回復(fù)
smolagents：Hugging Face 開源的Agent框架，用代碼驅(qū)動 Agent 的新思路

Syrupup ? 2983瀏覽 ? 0回復(fù)
如何用 AI Agent 提升交易系統(tǒng)研發(fā)效率

ermulong ? 2010瀏覽 ? 0回復(fù)
多模態(tài)大模型在表格解析任務(wù)上效果如何？親身經(jīng)歷全是淚！

NLP工作站 ? 1549瀏覽 ? 0回復(fù)
2025年，AI Agent 智能體開發(fā)框架如何優(yōu)雅選型？

玄姐聊AGI ? 2279瀏覽 ? 0回復(fù)
簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR

大模型自然語言處理 ? 1761瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語言處理 ? 1635瀏覽 ? 0回復(fù)
IBM提出多模式圖像文本到文本模型SmolDocling，可實(shí)現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標(biāo)題高效轉(zhuǎn)換！

AIGCStudio ? 1165瀏覽 ? 0回復(fù)
從0到$2500萬ARR：Lovable如何用LangSmith實(shí)現(xiàn)AI智能體高效監(jiān)控與調(diào)試？

ermulong ? 1110瀏覽 ? 0回復(fù)
服務(wù)3.4億用戶的電信巨頭 如何用AI實(shí)現(xiàn)數(shù)據(jù)運(yùn)營革命？LangChain+LangGraph實(shí)戰(zhàn)揭秘

ermulong ? 236瀏覽 ? 0回復(fù)

大語言模型論文跟蹤

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型 8天前發(fā)布
Hybrid-RRF：動態(tài)權(quán)重混合檢索RAG方案 8天前發(fā)布

熱門推薦

Hybrid-RRF：動態(tài)權(quán)重混合檢索RAG方案 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： HybGRAG：Hit@1 的平均相對提升率達(dá)到 51%的新思路

下一篇： OmniThink：如何讓 LLM 寫出有更有深度的文章

社區(qū)精華內(nèi)容

目錄

<sub id="wtctp"></sub>

^{<blockquote id="wtctp"></blockquote>}