三個Agent頂個GPT-4,基于開源小模型的那種
真·“三個臭皮匠,頂個諸葛亮”——
基于開源小模型的三個Agent協(xié)作,比肩GPT-4的工具調(diào)用效果!
話不多說,直接來看兩個系統(tǒng)執(zhí)行記錄。
用戶表示自己是一個音樂愛好者,想探索不同的音樂流派以及音樂家。于是指定模型使用Deezer和Shazam的API來搜尋一些音樂曲目以及相應(yīng)藝術(shù)家信息。
之后“飾演”三個不同的角色的Agent分工協(xié)作,在兩步之內(nèi)完成了任務(wù)。
更難一點的,不指定工具,讓模型找一個最受歡迎的風(fēng)景畫教程視頻以及上傳該視頻的頻道詳情。
在這種情況下,模型通常會遇到工具狀態(tài)變化,出現(xiàn)工具被下架或工具所需參數(shù)定義變化的問題。
然而使用上述方法,模型在第0步試圖使用video_for_simple_youtube_search來獲取視頻詳細信息,但發(fā)現(xiàn)這個API已經(jīng)被破壞,無法調(diào)用。
因此飾演planner角色的Agent轉(zhuǎn)換思路,告訴飾演caller角色的Agent需要嘗試另外一個API,并最終通過嘗試新的API發(fā)現(xiàn)了詳細信息,解決了用戶的任務(wù)。
這就是中山大學(xué)、阿里通義實驗室聯(lián)合提出的一種基于開源小模型的多模型協(xié)作Agent框架——α-UMi。
α-UMi通過微調(diào)多個開源小模型,實現(xiàn)協(xié)同作戰(zhàn),在工具調(diào)用等數(shù)據(jù)集效果比肩GPT-4。
總的來說,相比于其他的基于閉源API框架,α-UMi的優(yōu)勢有以下幾點:
- 基于α-UMi多模型協(xié)同框架,通過三個小模型:planner、caller和summarizer分別負責(zé)路徑規(guī)劃、工具調(diào)用和總結(jié)回復(fù),對小模型進行工作負荷的卸載。
- 相比單模型Agent支持更靈活的prompt設(shè)計。其在ToolBench,ToolAlpaca corpus等多個benchmark上超過單模型Agent框架,獲得比肩GPT-4的性能。
- 提出了一種“全局-局部”的多階段微調(diào)范式(GLPFT),該范式成功在開源小模型上訓(xùn)練了多模型協(xié)作框架,實驗結(jié)果表明這種兩階段范式為目前探索出的最佳訓(xùn)練多模型協(xié)作Agent范式,可以被廣泛應(yīng)用。
多模型協(xié)作框架α-UMi長啥樣?
目前,基于大模型調(diào)用API、function和代碼解釋器的工具學(xué)習(xí)Agent,例如OpenAI code interpretor、AutoGPT等項目,在工業(yè)界和學(xué)術(shù)界均引起了廣泛關(guān)注。
在外部工具的加持下,大模型能夠自主完成例如網(wǎng)頁瀏覽、數(shù)據(jù)分析、地址導(dǎo)航等更復(fù)雜的任務(wù),因此AI Agent也被譽為大模型落地的一個重要方向。
但上述一些主流項目主要基于閉源ChatGPT、GPT-4大模型,其本身在推理、步驟規(guī)劃、調(diào)用請求生成和總結(jié)回復(fù)等能力上已經(jīng)足夠強。
相比之下開源小模型,由于模型容量和預(yù)訓(xùn)練能力獲取的限制,單個模型無法在推理和規(guī)劃、工具調(diào)用、回復(fù)生成等任務(wù)上同時獲得比肩大模型等性能。
為了解決這一問題,本文研究人員提出了α-UMi。
α-UMi包含三個小模型planner、caller和summarizer。
其中planner模型為系統(tǒng)的核心大腦,負責(zé)在某一Agent執(zhí)行步驟內(nèi)激活caller或summarizer,并給予對應(yīng)的推理(rationale)指導(dǎo);
而caller和summarizer則分別負責(zé)接收planner的指導(dǎo)完成該步后續(xù)工作,caller負責(zé)生成于工具交互的指令,summarizer負責(zé)總結(jié)最終的回復(fù)反饋給用戶。
這三個模型都是基于開源小模型進行不同類型數(shù)據(jù)微調(diào)實現(xiàn)的。
此外,研究人員提出了全局-局部多階段微調(diào)范式——GLPFT。
基于開源小模型,實現(xiàn)多模型協(xié)作框架并非一件簡單的事,有兩個作用截然相反的影響因素:
一是生成Rationale,Action和Final Answer三個任務(wù)在訓(xùn)練中可以相互促進的,同時也能增強模型對于Agent任務(wù)的全局理解。因此目前大部分工作均訓(xùn)練單個模型同時生成rationale, action和final answer。
二是模型容量,不同任務(wù)的數(shù)據(jù)配比等也限制了我們很難訓(xùn)練單個模型同時在三個任務(wù)上獲得表現(xiàn)峰值。
下圖中,單模型Agent在各項指標(biāo)上達到峰值所需的數(shù)據(jù)量是不同的,很難找到一個在所有指標(biāo)上達到峰值的數(shù)據(jù)量和模型檢查點。
而通過多模型協(xié)作,可以解決這個問題。
綜合考慮上述兩點,研究人員提出了一種“全局-局部”的多階段訓(xùn)練方法,目標(biāo)在于利用充分利用Rationale,Action和Final Answer在訓(xùn)練中相互促進的優(yōu)勢,獲得一個較好的單模型初始化,再進行多模型微調(diào),專攻子任務(wù)性能的提升。
上圖展示了這種多階段微調(diào)的流程,在第一階段中,使用預(yù)訓(xùn)練LLM在完成工具調(diào)用Agent任務(wù)上微調(diào),獲得一個單模型的Agent LLM初始化。
接著,在第二階段中,研究人員對工具調(diào)用Agent任務(wù)的訓(xùn)練數(shù)據(jù)進行重構(gòu),分解成生成rationale,生成工具交互action和生成最終回復(fù)三個子任務(wù),并將第一階段訓(xùn)練好的Single-LLM Agent底座復(fù)制三份,分別在不同子任務(wù)上進一步微調(diào)。
性能比肩GPT-4
靜態(tài)評估
在靜態(tài)評估中,本文將所有對比baseline的輸出結(jié)果與標(biāo)注輸出進行對比,可以看到:
- α-UMi系統(tǒng)表現(xiàn)顯著超過了ChatGPT和工具調(diào)用開源模型ToolLLaMA,性能與GPT-4比肩。
值得一提的是,ToolLLaMA需要8192的輸出長度以獲得令人滿意的結(jié)果,而α-UMi只需要4096的輸入長度,得益于多模型框架帶來的更靈活的prompt設(shè)計。
- 在多模型協(xié)作框架模型的微調(diào)方案對比上,直接微調(diào)三個模型、或單個模型多任務(wù)微調(diào)均無法使多模型協(xié)作框架發(fā)揮效果,只有使用多階段微調(diào)GLPFT才能達到最佳性能,為后續(xù)多模型協(xié)同訓(xùn)練打開了思路。
真實API調(diào)用評估
作者也在ToolBench數(shù)據(jù)集上引入了一種真實API調(diào)用的評估方式,實驗結(jié)果如下:
在真實API調(diào)用實驗結(jié)果中,α-UMi 依然戰(zhàn)勝了ChatGPT和ToolLLaMA,并在成功率上取得了與GPT-4比肩的結(jié)果。
模型開銷
看到這可能有人問了,多模型協(xié)作會不會引入更多成本?作者也探究了多模型協(xié)作框架在訓(xùn)練、推理及儲存階段的開銷對比:
總體來說,多模型協(xié)作框架確實會在訓(xùn)練和模型參數(shù)儲存上引入更高的開銷,但其推理速度與單模型框架相當(dāng)。
當(dāng)然,考慮到多模型協(xié)作Agent框架使用7B底座的性能遠超13B單模型Agent性能,總開銷也更少。這意味著可以選擇小模型為底座的多模型協(xié)作Agent框架來降低開銷,并超過大模型的單模型Agent框架。
最后研究人員總結(jié)道,多智能體協(xié)作是未來智能體發(fā)展的趨勢,而如何訓(xùn)練提升開源小模型的多智能體協(xié)作能力,是實際落地很關(guān)鍵的一環(huán),本文為基于開源小模型的多智能體協(xié)作打開了新思路,并在多個工具調(diào)用benchmark上取得了超過單模型Agent baseline,比肩GPT-4的工具調(diào)用結(jié)果。
后續(xù)將會增強planner的泛化性,使其使用于更廣泛的Agent任務(wù)場景,進行caller模型的本地私有化,使其專注于本地工具調(diào)用任務(wù),以及云端大模型結(jié)合本地小模型的“大-小”模型協(xié)同框架。