蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調(diào)用,網(wǎng)友:Siri也要努力 | 開源
蘋果團(tuán)隊(duì),又發(fā)布了新的開源成果——一套關(guān)于大模型工具調(diào)用能力的Benchmark。
這套Benchmark創(chuàng)新性地采用了場景化測評方法,可以更好體現(xiàn)模型在真實(shí)環(huán)境中的水平。
而且還引入了對話交互、狀態(tài)依賴等傳統(tǒng)標(biāo)準(zhǔn)中沒有關(guān)注到的重要場景。
這套測試基準(zhǔn)名叫ToolSandbox,蘋果基礎(chǔ)模型團(tuán)隊(duì)負(fù)責(zé)人龐若鳴也參與了研究工作。
ToolSandbox彌補(bǔ)了現(xiàn)有測試標(biāo)準(zhǔn)缺乏場景化評估的不足,縮小了測試條件與實(shí)際應(yīng)用之間的差距。
而且在交互上,作者讓GPT-4o扮演用戶和被測模型進(jìn)行對話,從而模擬真實(shí)世界中的場景。
比如告訴GPT-4o你不再是一個助理,而是要扮演正在和用戶B對話的用戶A,然后提出一系列具體要求。
另外,作者也利用ToolSandbox對一些主流模型進(jìn)行了測試,結(jié)果整體上看閉源比開源模型分?jǐn)?shù)更高,其中最強(qiáng)的是GPT-4o。
iOS應(yīng)用開發(fā)者Nick Dobos表示,蘋果的這套標(biāo)準(zhǔn)簡潔明了。
同時他指出,現(xiàn)在ChatGPT面對三個工具就已經(jīng)有些捉襟見肘,Siri要想管理好手機(jī)中幾十上百個應(yīng)用,也需要提高工具調(diào)用能力。
言外之意,ToolSandbox的研究,或許是為了給Siri之后的研發(fā)探明方向。
在場景中測試模型
如前文所述,ToolSandbox采用了場景化、交互式的測試方法。
具體來說,ToolSandbox中一共包括了單/多工具調(diào)用、單/多輪對話、狀態(tài)依賴、標(biāo)準(zhǔn)化和信息不足等七種類型的近2000個場景。
前面的相對比較好理解,這里針對后面的三種場景類型這里做一下解釋:
- 狀態(tài)依賴:工具的執(zhí)行依賴于某些全局狀態(tài),需要先通過其他工具對該狀態(tài)進(jìn)行修改;
- 規(guī)范化:將自然語言表達(dá)轉(zhuǎn)換為工具需要的標(biāo)準(zhǔn)形式,過程中可能需要借助其他工具;
- 信息不足:故意缺失完成任務(wù)所需的關(guān)鍵工具,考察模型能否識別無法完成的情況。
在這些場景下,ToolSandbox會關(guān)注模型的三個指標(biāo):
- 整體表現(xiàn),即各類場景下的與預(yù)設(shè)答案的平均相似度
- 魯棒性,用多種方式對工具進(jìn)行魔改、干擾,觀察模型在這種環(huán)境下的表現(xiàn)
- 效率,也就是平均任務(wù)完成輪次
工具方面,作者選用了34個可組合的Python函數(shù)作為工具,與真實(shí)場景的復(fù)雜性相當(dāng)。
其中既有原生Python工具,也集成了部分RapidAPI工具,功能覆蓋搜索、對話、導(dǎo)航、天氣、圖像處理等多個常見領(lǐng)域。
流程上,首先是準(zhǔn)備測試場景,研究人員會定義初始世界狀態(tài)并存儲,同時使用經(jīng)過校準(zhǔn)的GPT-4o模型生成初始用戶消息。
然后進(jìn)入交互式執(zhí)行階段,系統(tǒng)首先初始化Message Bus作為角色間的通信渠道,并配置好扮演用戶的模型以及被測模型。
對話循環(huán)開始后,模擬用戶的模型發(fā)送初始消息,被測模型接收這條消息并決定下一步行動——直接回復(fù)用戶,或調(diào)用工具與環(huán)境交互。
如果模型選擇調(diào)用工具,它會以JSON格式提供必要的參數(shù),執(zhí)行環(huán)境隨后解釋并執(zhí)行這個調(diào)用,可能會更新世界狀態(tài),并處理潛在的并行調(diào)用條件。
執(zhí)行結(jié)果返回給被測模型后,被測模型再次決定下一步行動,這個過程持續(xù)進(jìn)行,直到用戶模擬器認(rèn)為任務(wù)完成(或無法完成),此時它會調(diào)用end_conversation工具結(jié)束對話。
在整個交互過程中,系統(tǒng)記錄所有的消息和狀態(tài)變化,形成一個完整的“對話軌跡”,這個“軌跡”隨后進(jìn)入評估階段。
評估則使用預(yù)定義的“里程碑”和“雷區(qū)”來衡量代理模型的表現(xiàn)。
里程碑定義了完成任務(wù)的關(guān)鍵事件,形成一個有向無環(huán)圖來反映時間依賴關(guān)系。
系統(tǒng)會尋找軌跡中事件與里程碑之間的最佳匹配,同時保持里程碑的拓?fù)漤樞颉?/p>
雷區(qū)則定義了禁止發(fā)生的事件,主要用于檢測模型是否在信息不足的情況下產(chǎn)生幻覺。
舉個例子,下圖展示了“不充分信息”場景下一個地雷場(Minefield)評估的例子。
在這個任務(wù)中,由于當(dāng)前時間戳不可用,模型不應(yīng)該調(diào)用timestamp_diff工具,但模型錯誤地猜測了當(dāng)前時間戳并調(diào)用了工具,導(dǎo)致這一輪得分為0。
最終,系統(tǒng)計(jì)算出一個綜合得分,這個得分是平均里程碑匹配分?jǐn)?shù)與雷區(qū)懲罰的乘積。
此外,系統(tǒng)還會統(tǒng)計(jì)完成任務(wù)所需的平均輪次,作為評估模型效率的補(bǔ)充指標(biāo)。
復(fù)雜交互場景仍然是挑戰(zhàn)
從整體上看,閉源模型在工具調(diào)用上的表現(xiàn)要好于開源模型。
平均分最高的是GPT-4o,成績是73.0,唯一一個超過了70,且在作者設(shè)置的七個場景中的四個里都取得了最高成績。
而且GPT-4o魯棒性也極強(qiáng),作者用了8種方法對工具進(jìn)行魔改,GPT-4o對其中的其中都有最高的魯棒性評分。
緊隨其后的是Claude 3-Opus,平均分為69.2,在信息不足 的場景當(dāng)中表現(xiàn)還超過了GPT-4o,再然后就是GPT和Claude的一些其他版本。
谷歌的Gemini則相對落后,1.5 Pro的成績?yōu)?0.4,剛剛及格,還不如GPT-3.5,不過在信息不足這個單項(xiàng)上表現(xiàn)不錯。
開源模型的最高平均分就只有31.4了,其中比較有名的Mistral-7B得分是29.8,但在信息不足這個單項(xiàng)上取得了76.8的最好成績。
甚至其中的Gorilla、Command-R等部分開源模型根本無法處理工具響應(yīng),或者只能勉強(qiáng)完成單輪工具調(diào)用。
進(jìn)一步分析表明,開源模型在識別何時該調(diào)用工具方面表現(xiàn)不佳,更傾向于將問題當(dāng)作純文本生成任務(wù)。
從任務(wù)維度上看,大模型在單/多工具調(diào)用和單輪用戶請求上表現(xiàn)優(yōu)異,但在多輪對話和狀態(tài)依賴任務(wù)上優(yōu)勢減弱。
在GPT、Claude、Gemini等家族中,更大的模型在多工具調(diào)用和多輪對話任務(wù)上的優(yōu)勢更明顯;但在狀態(tài)依賴任務(wù)上,中小模型(如GPT-3.5、Claude-3-Sonnet)反而比大模型(GPT-4、Claude-3-Opus)表現(xiàn)更好。
另外,規(guī)范化是所有模型的一大挑戰(zhàn),尤其是需要借助工具進(jìn)行規(guī)范化的場景,以及時間相關(guān)參數(shù)的規(guī)范化也十分困難。
針對魯棒性的研究表明,模型對工具描述、參數(shù)信息等變化的敏感程度差異較大,沒有發(fā)現(xiàn)明顯的規(guī)律。
效率上,更強(qiáng)的模型通常更高效,但也有例外,比如Claude系列模型的效率普遍優(yōu)于GPT。
總之,大模型在工具使用方面,應(yīng)對現(xiàn)實(shí)世界的復(fù)雜交互場景時仍面臨諸多挑戰(zhàn)。
作者簡介
ToolSandbox團(tuán)隊(duì)成員來自蘋果公司的機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、基礎(chǔ)大模型等多個團(tuán)隊(duì)。
第一作者是華人機(jī)器學(xué)習(xí)工程師Jiarui Lu,本科畢業(yè)于清華大學(xué),就讀期間還在朱軍教授實(shí)驗(yàn)室中擔(dān)任研究助理。
隨后,Lu在卡內(nèi)基梅隆大學(xué)取得了機(jī)器學(xué)習(xí)碩士學(xué)位,畢業(yè)后于2020年加入蘋果公司。
包括Lu在內(nèi),署名的12位作者當(dāng)中有10位都是華人,而且都有名校背景。
其中也包括基礎(chǔ)大模型團(tuán)隊(duì)負(fù)責(zé)人龐若鳴(Ruoming Pang)。
另外,在蘋果工作了8年的工程主管Bernhard Aumayer也參與了這一項(xiàng)目。
論文地址:https://arxiv.org/abs/2408.04682