清華版「AutoGPT」登GitHub熱榜!復(fù)雜任務(wù)輕松搞定,還能自己訓(xùn)練模型
清華開源通用智能體XAgent,登上GitHub熱榜,狂攬1400+??
各種任務(wù)都能做,讓它使用python來分析給定的數(shù)據(jù),分分鐘搞定:
數(shù)學(xué)題也難不倒它:
編制最有影響力的心理學(xué)讀書清單,并對(duì)每本書做簡要總結(jié)這種操作就更不在話下:
(上圖中的翻譯均為機(jī)器翻譯)
通過展示可以看到,XAgent在回答問題時(shí)會(huì)分條縷析,逐步給出回答,這是開發(fā)專門為其設(shè)計(jì)的雙循環(huán)機(jī)制。
這種設(shè)計(jì)下,XAgent的自主性非常高,處理復(fù)雜任務(wù)也“得心應(yīng)手”,關(guān)鍵安全性也很高。
在各項(xiàng)基準(zhǔn)測(cè)試下,XAgent表現(xiàn)都完全優(yōu)于AutoGPT、GPT-4。
更多細(xì)節(jié)我們接著往下看。
各種任務(wù)都能做
將一個(gè)數(shù)據(jù)包上傳到XAgent,讓它分析數(shù)據(jù)并生成一個(gè)報(bào)告,它就能迅速將任務(wù)分解為數(shù)據(jù)理解、驗(yàn)證Python環(huán)境、編寫數(shù)據(jù)分析代碼、編寫報(bào)告4個(gè)子任務(wù)。
最后繪制出來的圖是這樣?jì)饍旱模?/p>
再來讓XAgent推薦一些適合好友聚會(huì)的餐廳,但這次故意不提供具體細(xì)節(jié)。XAgent識(shí)別到提供的信息不足,立刻采用了“請(qǐng)求人類幫助”工具,讓用戶介入表明自己喜歡的位置、預(yù)算限制、烹飪偏好、有無忌口等。
如此一來,XAgent就能生成一份定制化的餐廳推薦名單。
此外,XAgent處理起復(fù)雜任務(wù)也是有兩把刷子在身上的,比如訓(xùn)練模型。
開發(fā)者展示了一個(gè)希望XAgent分析電影評(píng)論并評(píng)估特定電影周圍公眾情感的情景。收到這一指令,XAgent迅速啟動(dòng)下載IMDB數(shù)據(jù)集,訓(xùn)練一款先進(jìn)的BERT模型。
擁有了這個(gè)訓(xùn)練有素的BERT模型,XAgent就能夠輕松應(yīng)對(duì)電影評(píng)論的復(fù)雜細(xì)節(jié),提供關(guān)于公眾對(duì)各種電影看法的見解性預(yù)測(cè)。
總的來說,開發(fā)者表示XAgent具有五大特點(diǎn):自主性、安全性、可擴(kuò)展性、GUI、人機(jī)協(xié)同。
自主性是指XAgent可以在沒有人類參與的情況下自動(dòng)解決各種任務(wù)。
而安全性則是因?yàn)樗乃行袨槎急辉O(shè)計(jì)限制在一個(gè)docker容器(ToolServer )內(nèi),不用擔(dān)心主機(jī)環(huán)境會(huì)受影響。
docker容器內(nèi)包含了可以寫入、讀取和修改文件的文件編輯器,可運(yùn)行Python代碼的Python筆記本,可搜索和訪問網(wǎng)頁的網(wǎng)頁瀏覽器,還有一個(gè)bash shell工具以及Rapid API。
所以,使用者也可以輕松地添加新工具來增強(qiáng)智能體的能力,甚至打造一個(gè)全新智能體。
開發(fā)者還為用戶提供了友好的圖形用戶界面來與XAgent交互,當(dāng)然也可以使用命令行界面。
人機(jī)協(xié)同這方面主要是指XAgent不僅有能力按照人類的要求來解決復(fù)雜的任務(wù),而且在遇到挑戰(zhàn)時(shí)還可以尋求用戶幫助。
能夠擁有這些特點(diǎn),還要得益于XAgent的核心設(shè)計(jì)。XAgent主要由三大部分組成:
- 調(diào)度器:負(fù)責(zé)動(dòng)態(tài)實(shí)例化和分派任務(wù)給不同的智能體,允許用戶添加新的智能體以及改進(jìn)智能體的能力。
- 規(guī)劃器:負(fù)責(zé)為任務(wù)生成和校正計(jì)劃,將任務(wù)分解為子任務(wù),并為它們生成步驟,使智能體能夠逐步解決任務(wù)。
- 行動(dòng)者:負(fù)責(zé)采取行動(dòng)實(shí)現(xiàn)目標(biāo)和完成子任務(wù)。行動(dòng)者利用各種工具來解決子任務(wù),也可以與人類合作來解決任務(wù)。
設(shè)計(jì)上,開發(fā)者刻意避免將人類的先驗(yàn)知識(shí)注入到XAgent系統(tǒng)設(shè)計(jì)中,而是賦予了智能體自己規(guī)劃、決策過程的能力,進(jìn)一步發(fā)掘智能體的潛力。
另外,XAgent框架設(shè)計(jì)還采用了雙循環(huán)機(jī)制:外循環(huán)(Outer-Loop)用于高級(jí)任務(wù)管理,內(nèi)循環(huán)(Inner-Loop)用于低級(jí)任務(wù)執(zhí)行。
外循環(huán)使智能體能夠識(shí)別總體任務(wù),然后將其劃分為更小、更具可操作性的子任務(wù)。相比之下,內(nèi)循環(huán)過程作為詳細(xì)的執(zhí)行器,專注于處理被劃分的任務(wù)。
開發(fā)者表示:
XAgent反映了人類采用的自然認(rèn)知層次結(jié)構(gòu),并可以根據(jù)執(zhí)行結(jié)果反復(fù)迭代優(yōu)化計(jì)劃。
全面優(yōu)于AutoGPT
開發(fā)者還對(duì)基于GPT-4所打造的XAgent進(jìn)行了一套基準(zhǔn)測(cè)試,主要測(cè)試XAgent推理、規(guī)劃和使用外部工具的能力。
測(cè)試內(nèi)容包括:在FreshQA和HotpotQA上測(cè)試Web搜索問答能力;在MBPP上測(cè)試Python編程能力;在MATH上測(cè)試數(shù)學(xué)推理能力;在InterCode上測(cè)試交互式編碼能力;在ALFWorld上測(cè)試文本游戲中的具身推理。
以下是與原版GPT-4的比較,XAgent全面優(yōu)于GPT-4:
考慮到缺乏合適的針對(duì)AI智能體的高質(zhì)量基準(zhǔn)測(cè)試,開發(fā)者還手動(dòng)策劃了50條復(fù)雜的指令,可以分為5個(gè)類別:搜索與報(bào)告,編碼與開發(fā),數(shù)據(jù)分析,數(shù)學(xué)和生活助手。
然后將指令它們輸給了XAgent和AutoGPT,并邀請(qǐng)了多位專家來評(píng)估對(duì)XAgent和AutoGPT輸出結(jié)果的偏好(勝率)。
結(jié)果XAgent全面取勝,不僅在傳統(tǒng)的AI基準(zhǔn)測(cè)試中表現(xiàn)出色,而且還在處理復(fù)雜指令方面表現(xiàn)出卓越的適應(yīng)性、效率和精度。
GitHub鏈接:https://github.com/OpenBMB/XAgent