浙大&通義全面評(píng)測(cè)智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025
大模型智能體正在迅速發(fā)展,能力已不再局限于 API 調(diào)用。
諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與界面交互,執(zhí)行復(fù)雜操作。
在處理這類復(fù)雜任務(wù)的過(guò)程中,大模型智能體將問(wèn)題分解為可執(zhí)行的工作流(Workflow)是關(guān)鍵的一步。然而,這一核心能力目前缺乏完善的評(píng)測(cè)基準(zhǔn)。
現(xiàn)有的數(shù)據(jù)集和評(píng)估框架存在明顯局限性:要么僅關(guān)注規(guī)劃任務(wù)的端到端性能,要么在場(chǎng)景覆蓋范圍、工作流結(jié)構(gòu)的復(fù)雜性以及評(píng)估標(biāo)準(zhǔn)的全面性上存在不足。完善的工作流評(píng)測(cè)基準(zhǔn)對(duì)于推動(dòng)大模型智能體在真實(shí)場(chǎng)景中的應(yīng)用和性能提升至關(guān)重要。
為解決上述問(wèn)題,浙大通義聯(lián)合發(fā)布WorfBench——一個(gè)涵蓋多場(chǎng)景和復(fù)雜圖結(jié)構(gòu)工作流的統(tǒng)一基準(zhǔn),以及WorfEval——一套系統(tǒng)性評(píng)估協(xié)議,通過(guò)子序列和子圖匹配算法精準(zhǔn)量化大模型生成工作流的能力。這一研究不僅填補(bǔ)了現(xiàn)有評(píng)估體系的空白,還為未來(lái)大模型智能體在復(fù)雜任務(wù)中的應(yīng)用提供了重要的參考。
該工作已被人工智能頂級(jí)會(huì)議ICLR 2025錄用。
WorfBench構(gòu)建與評(píng)估
WorfBench利用GPT自動(dòng)化構(gòu)建多場(chǎng)景任務(wù),包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓(xùn)練樣本、2146測(cè)試樣本和723個(gè)OOD的評(píng)測(cè)數(shù)據(jù)集。作者將工作流建模為有向無(wú)環(huán)圖(DAG),以更精確地表示現(xiàn)實(shí)世界中的復(fù)雜串行或并行智能體工作流。
為了確保數(shù)據(jù)質(zhì)量,作者引入了節(jié)點(diǎn)鏈作為中間結(jié)構(gòu),并采用拓?fù)渑判颍═opological Sorting)算法對(duì)圖結(jié)構(gòu)進(jìn)行質(zhì)量過(guò)濾,并在測(cè)試集上進(jìn)行人工驗(yàn)證。
WorfEval則通過(guò)子序列和子圖匹配算法,分別從鏈結(jié)構(gòu)和圖結(jié)構(gòu)兩個(gè)維度對(duì)大模型生成的工作流進(jìn)行量化評(píng)估,從而精準(zhǔn)衡量模型的線性規(guī)劃和圖規(guī)劃能力。
基準(zhǔn)評(píng)測(cè)結(jié)果
作者在WorfBench上對(duì)18種不同規(guī)模的主流大模型進(jìn)行了全面評(píng)估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實(shí)驗(yàn)結(jié)果顯示,與線性結(jié)構(gòu)相比,模型在圖結(jié)構(gòu)工作流預(yù)測(cè)上的能力遠(yuǎn)未達(dá)到現(xiàn)實(shí)需求,即使是性能卓越的GPT-4,其圖結(jié)構(gòu)工作流的平均性能也僅為52.47%。
此外,作者還對(duì)兩個(gè)開源模型進(jìn)行了訓(xùn)練,并在OOD任務(wù)上評(píng)估其泛化能力。結(jié)果表明,盡管在訓(xùn)練集上表現(xiàn)出色,但在未見(jiàn)過(guò)的任務(wù)上,模型的泛化能力仍有待提高。這表明,僅通過(guò)數(shù)據(jù)擬合目前仍難以實(shí)現(xiàn)結(jié)構(gòu)化工作流規(guī)劃能力的有效學(xué)習(xí)。
工作流生成分析
通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的深入分析,作者發(fā)現(xiàn)大模型在工作流生成中存在顯著的線性規(guī)劃與圖規(guī)劃能力差距,且圖規(guī)劃能力與模型規(guī)模并非完全正相關(guān)。例如,部分7B模型在某些任務(wù)上超越了13B模型,這可能與模型訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量有關(guān)。
此外,作者還發(fā)現(xiàn),即使提供標(biāo)簽節(jié)點(diǎn)鏈以簡(jiǎn)化圖結(jié)構(gòu)預(yù)測(cè)任務(wù),模型的圖規(guī)劃性能仍不理想,這表明圖規(guī)劃的復(fù)雜性在于對(duì)任務(wù)依賴關(guān)系的理解。
進(jìn)一步的錯(cuò)誤分析顯示,大模型在工作流生成中的典型錯(cuò)誤主要集中在任務(wù)分解的粒度、任務(wù)描述的明確性、圖結(jié)構(gòu)的正確性以及輸出格式的規(guī)范性四個(gè)方面。這些錯(cuò)誤大多源于模型對(duì)環(huán)境知識(shí)的缺乏。
因此,未來(lái)的研究方向可能包括優(yōu)化提示策略、采用多智能體架構(gòu),以及將世界知識(shí)或世界模型更深入地融入大模型中,以提升其對(duì)現(xiàn)實(shí)世界的理解能力。
工作流知識(shí)增強(qiáng)智能體
作者探討了工作流在智能體規(guī)劃中的重要作用。研究發(fā)現(xiàn),工作流不僅可以作為一種流程先驗(yàn)知識(shí)直接指導(dǎo)智能體的規(guī)劃過(guò)程,幫助其在復(fù)雜任務(wù)中更高效地執(zhí)行,還可以作為鏈?zhǔn)剿伎迹–hain-of-Thought, CoT)的增強(qiáng)手段,通過(guò)為智能體提供更相關(guān)的API選擇,減輕其在多步任務(wù)中的負(fù)擔(dān)。
此外,工作流的圖結(jié)構(gòu)特性能夠?qū)崿F(xiàn)并行任務(wù)執(zhí)行,顯著減少推理時(shí)間,同時(shí)減少智能體在規(guī)劃過(guò)程中的步驟數(shù),提升任務(wù)完成效率。這些結(jié)果表明,工作流不僅是連接任務(wù)與具體執(zhí)行動(dòng)作的橋梁,還能顯著提升智能體在復(fù)雜任務(wù)中的表現(xiàn)和效率。