T-Eval:大模型智能體能力評測基準(zhǔn)解讀 | ACL 2024
AI Agent(智能體)作為大模型的重要應(yīng)用模式,能夠通過使用外部工具來執(zhí)行復(fù)雜任務(wù),完成多步驟的工作流程。為了能全面評估模型的工具使用能力,司南及合作伙伴團(tuán)隊(duì)推出了 T-Eval 評測基準(zhǔn),相關(guān)成果論文已被ACL 2024主會錄用。
查看原文:https://arxiv.org/abs/2312.14033?
PART1為什么需要 T-Eval?
使用了工具的大語言模型有著驚艷的問題解決能力,但是如何評估模型的工具使用能力還有很大的探索空間?,F(xiàn)有評估方法通常只關(guān)注模型處理單步驟任務(wù)時的工具調(diào)用表現(xiàn),缺少在多步驟復(fù)雜任務(wù)場景下模型使用工具能力的評估。
因此,為了更全面地評估大語言模型的工具使用能力,司南及合作伙伴團(tuán)隊(duì)推出了 T-Eval (a step-by-step Tool Evaluation benchmark for LLMs) 評測基準(zhǔn),相較于之前整體評估模型的方式,論文中將大模型的工具使用分解為多個子過程,包括:規(guī)劃、推理、檢索、理解、指令跟隨和審查。
- 規(guī)劃(PLAN):將用戶問題分解為多個子問題,制定行動計劃。
- 推理(REASON):對上個狀態(tài)的完成情況的判斷,下一步行動的思考。
- 檢索(RETRIEVE):從給定的工具列表中選擇合適的工具。
- 理解(UNDERSTAND):正確理解工具使用的參考文檔和所需參數(shù)。
- 指令跟隨(INSTRUCT):生成指定格式的工具調(diào)用請求。
- 審查(REVIEW):評估每個工具調(diào)用執(zhí)行的結(jié)果,確保回答滿足預(yù)期目標(biāo)。
PART2T-Eval 構(gòu)建過程
T-Eval 的構(gòu)建主要包括 3 個階段:工具收集、指令生成和參考答案標(biāo)注。
首先,我們根據(jù)可用性和使用率,挑選了15種基本工具,涵蓋了研究、旅行、娛樂、網(wǎng)絡(luò)、生活和金融等多個領(lǐng)域。此外,還為每個工具生成了詳細(xì)的API文檔,以減少因工具描述不充分而導(dǎo)致的工具調(diào)用失敗案例。
然后,我們利用 GPT-3.5 生成了初始問題,并通過 GPT-4 進(jìn)一步完善問題。之后,我們開發(fā)了一個多智能體框架,利用所提供的工具解決問題,同時收集解決方案路徑和工具響應(yīng)。最后,我們使用人類專家來挑選高質(zhì)量樣本。
PART3T-Eval 主要貢獻(xiàn)
細(xì)粒度評測:T-Eval將評測過程分解為多個子任務(wù),分別評估模型在工具使用上的細(xì)粒度能力。
多智能體數(shù)據(jù)生成:使用了由人類專家驗(yàn)證的多智能體數(shù)據(jù)生成流程,顯著減少了外部因素的影響,使評測結(jié)果更加穩(wěn)定、公平。
廣泛實(shí)驗(yàn):通過在各種大模型上的廣泛實(shí)驗(yàn),驗(yàn)證了T-Eval的有效性和普適性,為當(dāng)前大語言模型的工具使用能力瓶頸提供了寶貴的見解,并為改進(jìn)工具使用能力提供了新的視角。
PART4T-Eval 評測結(jié)果
我們在 T-Eval 上對 20 種大語言模型進(jìn)行了評測,包括基于 API 的商業(yè)模型和開源模型。結(jié)果顯示,GPT-4 在整體評分上取得了最高分,顯示出其卓越的工具使用能力。對于開源模型,我們對三種不同規(guī)模的模型進(jìn)行了實(shí)驗(yàn),它們的尺寸大約是7B、13B和70B,可以發(fā)現(xiàn),隨著模型參數(shù)的增加,其表現(xiàn)也更加優(yōu)秀。特別是 Qwen-72B 模型,其總得分已接近 API 模型水平。
? ?
