自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

三個Agent頂個GPT-4，基于開源小模型的那種

作者：量子位 2024-02-07 12:34:00

人工智能新聞

本文為基于開源小模型的多智能體協(xié)作打開了新思路，并在多個工具調(diào)用benchmark上取得了超過單模型Agent baseline，比肩GPT-4的工具調(diào)用結(jié)果。

真·“三個臭皮匠，頂個諸葛亮”——

基于開源小模型的三個Agent協(xié)作，比肩GPT-4的工具調(diào)用效果！

話不多說，直接來看兩個系統(tǒng)執(zhí)行記錄。

用戶表示自己是一個音樂愛好者，想探索不同的音樂流派以及音樂家。于是指定模型使用Deezer和Shazam的API來搜尋一些音樂曲目以及相應(yīng)藝術(shù)家信息。

之后“飾演”三個不同的角色的Agent分工協(xié)作，在兩步之內(nèi)完成了任務(wù)。

更難一點的，不指定工具，讓模型找一個最受歡迎的風(fēng)景畫教程視頻以及上傳該視頻的頻道詳情。

在這種情況下，模型通常會遇到工具狀態(tài)變化，出現(xiàn)工具被下架或工具所需參數(shù)定義變化的問題。

然而使用上述方法，模型在第0步試圖使用video_for_simple_youtube_search來獲取視頻詳細信息，但發(fā)現(xiàn)這個API已經(jīng)被破壞，無法調(diào)用。

因此飾演planner角色的Agent轉(zhuǎn)換思路，告訴飾演caller角色的Agent需要嘗試另外一個API，并最終通過嘗試新的API發(fā)現(xiàn)了詳細信息，解決了用戶的任務(wù)。

這就是中山大學(xué)、阿里通義實驗室聯(lián)合提出的一種基于開源小模型的多模型協(xié)作Agent框架——α-UMi。

α-UMi通過微調(diào)多個開源小模型，實現(xiàn)協(xié)同作戰(zhàn)，在工具調(diào)用等數(shù)據(jù)集效果比肩GPT-4。

總的來說，相比于其他的基于閉源API框架，α-UMi的優(yōu)勢有以下幾點：

基于α-UMi多模型協(xié)同框架，通過三個小模型：planner、caller和summarizer分別負責(zé)路徑規(guī)劃、工具調(diào)用和總結(jié)回復(fù)，對小模型進行工作負荷的卸載。
相比單模型Agent支持更靈活的prompt設(shè)計。其在ToolBench，ToolAlpaca corpus等多個benchmark上超過單模型Agent框架，獲得比肩GPT-4的性能。
提出了一種“全局-局部”的多階段微調(diào)范式（GLPFT），該范式成功在開源小模型上訓(xùn)練了多模型協(xié)作框架，實驗結(jié)果表明這種兩階段范式為目前探索出的最佳訓(xùn)練多模型協(xié)作Agent范式，可以被廣泛應(yīng)用。

多模型協(xié)作框架α-UMi長啥樣？

目前，基于大模型調(diào)用API、function和代碼解釋器的工具學(xué)習(xí)Agent，例如OpenAI code interpretor、AutoGPT等項目，在工業(yè)界和學(xué)術(shù)界均引起了廣泛關(guān)注。

在外部工具的加持下，大模型能夠自主完成例如網(wǎng)頁瀏覽、數(shù)據(jù)分析、地址導(dǎo)航等更復(fù)雜的任務(wù)，因此AI Agent也被譽為大模型落地的一個重要方向。

但上述一些主流項目主要基于閉源ChatGPT、GPT-4大模型，其本身在推理、步驟規(guī)劃、調(diào)用請求生成和總結(jié)回復(fù)等能力上已經(jīng)足夠強。

相比之下開源小模型，由于模型容量和預(yù)訓(xùn)練能力獲取的限制，單個模型無法在推理和規(guī)劃、工具調(diào)用、回復(fù)生成等任務(wù)上同時獲得比肩大模型等性能。

為了解決這一問題，本文研究人員提出了α-UMi。

α-UMi包含三個小模型planner、caller和summarizer。

其中planner模型為系統(tǒng)的核心大腦，負責(zé)在某一Agent執(zhí)行步驟內(nèi)激活caller或summarizer，并給予對應(yīng)的推理（rationale）指導(dǎo)；

而caller和summarizer則分別負責(zé)接收planner的指導(dǎo)完成該步后續(xù)工作，caller負責(zé)生成于工具交互的指令，summarizer負責(zé)總結(jié)最終的回復(fù)反饋給用戶。

這三個模型都是基于開源小模型進行不同類型數(shù)據(jù)微調(diào)實現(xiàn)的。

此外，研究人員提出了全局-局部多階段微調(diào)范式——GLPFT。

基于開源小模型，實現(xiàn)多模型協(xié)作框架并非一件簡單的事，有兩個作用截然相反的影響因素：

一是生成Rationale，Action和Final Answer三個任務(wù)在訓(xùn)練中可以相互促進的，同時也能增強模型對于Agent任務(wù)的全局理解。因此目前大部分工作均訓(xùn)練單個模型同時生成rationale, action和final answer。

二是模型容量，不同任務(wù)的數(shù)據(jù)配比等也限制了我們很難訓(xùn)練單個模型同時在三個任務(wù)上獲得表現(xiàn)峰值。

下圖中，單模型Agent在各項指標(biāo)上達到峰值所需的數(shù)據(jù)量是不同的，很難找到一個在所有指標(biāo)上達到峰值的數(shù)據(jù)量和模型檢查點。

而通過多模型協(xié)作，可以解決這個問題。

綜合考慮上述兩點，研究人員提出了一種“全局-局部”的多階段訓(xùn)練方法，目標(biāo)在于利用充分利用Rationale，Action和Final Answer在訓(xùn)練中相互促進的優(yōu)勢，獲得一個較好的單模型初始化，再進行多模型微調(diào)，專攻子任務(wù)性能的提升。

上圖展示了這種多階段微調(diào)的流程，在第一階段中，使用預(yù)訓(xùn)練LLM在完成工具調(diào)用Agent任務(wù)上微調(diào)，獲得一個單模型的Agent LLM初始化。

接著，在第二階段中，研究人員對工具調(diào)用Agent任務(wù)的訓(xùn)練數(shù)據(jù)進行重構(gòu)，分解成生成rationale，生成工具交互action和生成最終回復(fù)三個子任務(wù)，并將第一階段訓(xùn)練好的Single-LLM Agent底座復(fù)制三份，分別在不同子任務(wù)上進一步微調(diào)。

性能比肩GPT-4

靜態(tài)評估

在靜態(tài)評估中，本文將所有對比baseline的輸出結(jié)果與標(biāo)注輸出進行對比，可以看到：

α-UMi系統(tǒng)表現(xiàn)顯著超過了ChatGPT和工具調(diào)用開源模型ToolLLaMA，性能與GPT-4比肩。

值得一提的是，ToolLLaMA需要8192的輸出長度以獲得令人滿意的結(jié)果，而α-UMi只需要4096的輸入長度，得益于多模型框架帶來的更靈活的prompt設(shè)計。

在多模型協(xié)作框架模型的微調(diào)方案對比上，直接微調(diào)三個模型、或單個模型多任務(wù)微調(diào)均無法使多模型協(xié)作框架發(fā)揮效果，只有使用多階段微調(diào)GLPFT才能達到最佳性能，為后續(xù)多模型協(xié)同訓(xùn)練打開了思路。

真實API調(diào)用評估

作者也在ToolBench數(shù)據(jù)集上引入了一種真實API調(diào)用的評估方式，實驗結(jié)果如下：

在真實API調(diào)用實驗結(jié)果中，α-UMi 依然戰(zhàn)勝了ChatGPT和ToolLLaMA，并在成功率上取得了與GPT-4比肩的結(jié)果。

模型開銷

看到這可能有人問了，多模型協(xié)作會不會引入更多成本？作者也探究了多模型協(xié)作框架在訓(xùn)練、推理及儲存階段的開銷對比：

總體來說，多模型協(xié)作框架確實會在訓(xùn)練和模型參數(shù)儲存上引入更高的開銷，但其推理速度與單模型框架相當(dāng)。

當(dāng)然，考慮到多模型協(xié)作Agent框架使用7B底座的性能遠超13B單模型Agent性能，總開銷也更少。這意味著可以選擇小模型為底座的多模型協(xié)作Agent框架來降低開銷，并超過大模型的單模型Agent框架。

最后研究人員總結(jié)道，多智能體協(xié)作是未來智能體發(fā)展的趨勢，而如何訓(xùn)練提升開源小模型的多智能體協(xié)作能力，是實際落地很關(guān)鍵的一環(huán)，本文為基于開源小模型的多智能體協(xié)作打開了新思路，并在多個工具調(diào)用benchmark上取得了超過單模型Agent baseline，比肩GPT-4的工具調(diào)用結(jié)果。

后續(xù)將會增強planner的泛化性，使其使用于更廣泛的Agent任務(wù)場景，進行caller模型的本地私有化，使其專注于本地工具調(diào)用任務(wù)，以及云端大模型結(jié)合本地小模型的“大-小”模型協(xié)同框架。

責(zé)任編輯：張燕妮來源：量子位

模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營