快手Agents系統(tǒng)、模型、數(shù)據(jù)全部開源!
7B 大小的模型也能玩轉(zhuǎn) AI Agents 了?近期,快手開源了「KwaiAgents」,問它周末滑雪問題,它不但幫你找到場地,連當(dāng)天的天氣都幫你考慮周到了。
大家都知道大語言模型(LLM)通過對語言的建模而掌握了大量知識,并具備一定認(rèn)知和推理能力。但即使是當(dāng)前最強的 GPT-4,單獨使用的情況下,依然會一本正經(jīng)地胡說八道,無法跟世界保持實時的交互。AI Agents 就是解決這個問題的道路之一,通過激發(fā)大模型任務(wù)規(guī)劃、反思、調(diào)用工具等能力,使大模型能夠借助現(xiàn)實世界工具提升生成內(nèi)容的準(zhǔn)確性,甚至有能力解決復(fù)雜問題。這一次,快手聯(lián)合哈爾濱工業(yè)大學(xué)研發(fā)的「KwaiAgents」,使 7B/13B 的 “小” 大模型也能達(dá)到超越 GPT-3.5 的效果,并且這些系統(tǒng)、模型、數(shù)據(jù)、評測都開源了!
- 技術(shù)報告:https://arxiv.org/abs/2312.04889
- 項目主頁:https://github.com/KwaiKEG/KwaiAgents
從「KwaiAgents」的 Github 主頁中可以看到,本次開源內(nèi)容包含:
- 系統(tǒng)(KAgentSys-Lite):輕量級 AI Agents 系統(tǒng),并配備事實、時效性工具集;
- 模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其訓(xùn)練數(shù)據(jù);
- 評測(KAgentBench):開箱即用的 Agent 能力自動化評測 Benchmark 與人工評測結(jié)果。
系統(tǒng)
KAgentSys 系統(tǒng),是基于大模型作為認(rèn)知內(nèi)核,配以記憶機制、工具庫,形成的迭代式自動化系統(tǒng)。其主要包含:
- 記憶機制:包含知識庫、對話、任務(wù)歷史三類記憶,依托于混合向量檢索、關(guān)鍵詞檢索等技術(shù)的檢索框架,在每一次規(guī)劃路徑中檢索所需的信息。
- 工具集:包含事實性增強工具集,異構(gòu)的搜索和瀏覽機制能夠匯集網(wǎng)頁、文本百科、視頻百科等多個來源的知識;包含日歷、節(jié)日、時間差、天氣等常見的時效性增強工具集。
- 自動化 Loop:在一輪對話中,用戶會給予一個問題,可選知識庫及額外人設(shè)整體進(jìn)行輸入,系統(tǒng)會先進(jìn)行記憶的更新和檢索,再調(diào)用大模型進(jìn)行任務(wù)的規(guī)劃,如果需要調(diào)用工具則進(jìn)行調(diào)用,如果不用則進(jìn)入總結(jié)階段,大模型綜合歷史的信息給出符合預(yù)期的回答。
本次開源 KAgentSys 的部分能力,系統(tǒng)將逐步進(jìn)行升級和開放。
模型
為了避免訓(xùn)練中單一模板引起的過擬合問題,團隊提出 Meta-Agent Tuning (MAT) 的方法,通過在訓(xùn)練數(shù)據(jù)中引入更多 Agent Prompt 模板,從而提升大模型在 Agent 能力上的通用性,并提升了效果。
Meta-Agent Tuning (MAT) 分為兩階段:
- 模板生成階段:通過設(shè)計 Meta-Agent,對特定問題集合,生成實例化的 Agent Prompt 模板(上右圖為一個例子)候選;并在相同的實驗環(huán)境下,生成模板產(chǎn)出的候選結(jié)果,與開源模板(如 ReAct,AutoGPT 等)產(chǎn)出的高置信結(jié)果,用打分模型進(jìn)行對比打分,從而篩選出高質(zhì)量的 Agent Prompt 模板庫。通過引入這些多元的模板,能夠顯著降低模型微調(diào)時對模板的依賴,提純更本質(zhì)的 Agents 在任務(wù)規(guī)劃、工具使用、反思等能力,從而提高模型的泛化性和有效性。
- 指令微調(diào)階段:基于上萬的模板,構(gòu)建了超過 20 萬的 Agent 調(diào)優(yōu)指令微調(diào)數(shù)據(jù)。團隊調(diào)優(yōu)了一些熱門開源模型如 Qwen-7B、Baichuan2-13B 等,供大家使用和參考,后續(xù)還會陸續(xù)放出其他熱門模型。
評測
KAgentBench 通過人工精細(xì)化標(biāo)注的上千條數(shù)據(jù),做到了開箱即用,讓大家能夠用一行命令評測一個大模型在不同模板下各方面的 Agents 能力。
如上圖所示,在 KAgentBench 中,會對不同種類的能力構(gòu)造輸入,每個 query 配備多個模板和多個人工編輯的真實回答,旨在綜合評測準(zhǔn)確性和泛化性,下表顯示了經(jīng)過 MAT 調(diào)優(yōu)后,7B-13B 模型各項能力的提升,且超越了 GPT-3.5 的效果:
同時,該研究還請人類標(biāo)注者在 200 個事實性和時效性的問題(如 “劉德華今年幾歲了”),對不同的大模型和 Agent 系統(tǒng)進(jìn)行了交叉評估,可以看到 KAgentSys 系統(tǒng)和 MAT 之后模型提升顯著(百分號前為正確率,括號內(nèi)為 5 分制均分)。
通常僅依賴網(wǎng)頁搜索對一些長尾問題和熱門問題返回結(jié)果不佳。比如問到 “安東內(nèi)拉比梅西大多少天?” 這類長尾問題,往往搜索結(jié)果返回的都是一些兩者的八卦新聞,而返回不了一些關(guān)鍵信息。而 KAgentSys 通過調(diào)用百科搜索工具獲取精準(zhǔn)的出生日期,再調(diào)用 time_delta 時間差工具算出年齡差,就能精準(zhǔn)回答這個問題了。
團隊表示,AI Agents 是一條非常有潛力的道路,未來一方面會在這個方向持之以恒地沉淀核心技術(shù),并為整個社區(qū)不斷地注入新的活力;另一方面也會積極探索 Agents 技術(shù)與快手業(yè)務(wù)的結(jié)合,嘗試更多有趣、有價值的創(chuàng)新應(yīng)用落地。