AI Agent滿級進化!騎馬種田、辦公修圖,樣樣精通,昆侖萬維等發(fā)布通用Agent新框架
近日,昆侖萬維攜手北京智源人工智能研究院、新加坡南洋理工大學(xué)、北京大學(xué)等頂尖名校機構(gòu),聯(lián)合提出了迄今為止第一個既能玩多種商業(yè)游戲又能操作各種軟件應(yīng)用的AI框架——Cradle。
在這個全新的通用計算機控制框架加持下,AI Agent無需訓(xùn)練便能像人一樣直接控制鍵盤鼠標(biāo),不依賴任何內(nèi)部API,實現(xiàn)任意開閉源軟件交互。
目前,Cradle的論文、項目、代碼均已開源。
論文地址:https://arxiv.org/abs/2403.03186
項目主頁:https://baai-agents.github.io/Cradle
代碼鏈接:https://github.com/BAAI-Agents/Cradle
Cradle:真正的全能AI Agent
在游戲中,Cradle不僅能在《荒野大鏢客2》里完成長達40分鐘主線劇情還能在開放世界自由探索。
在《星露谷物語》里清理農(nóng)場,種地,去商店購物。
在《城市天際線》中建造出千人小鎮(zhèn)。
甚至,還能在《當(dāng)鋪人生2》中和客戶討價還價,并實現(xiàn)最高87%的周收益率!
不僅如此,發(fā)推、瀏覽網(wǎng)頁、下載論文,Cradle是樣樣精通。
撰寫、回復(fù)、查找郵件也不在話下。
此外,Cradle還能在美圖秀秀里修圖。
在剪映里剪視頻。
在飛書里日常辦公。
堪稱是一個真正的全能AI Agent。
GCC:通用計算機控制
隨著大模型的發(fā)展,越來越多的智能體(AI Agents)研究關(guān)注計算機控制,包括瀏覽網(wǎng)頁、操作智能手機、玩游戲等。
然而,已有研究依賴軟件內(nèi)部API獲取輸入,并輸出預(yù)先定義好的動作,無法真正像人類一樣通過眼、腦、手的配合操控計算機。
要構(gòu)建能完成計算機上一切任務(wù)的通用智能體,必須使用最通用和最標(biāo)準(zhǔn)的輸入輸出與計算機進行交互。
因此,通用計算機控制使用統(tǒng)一的輸入和輸出,從而讓智能體的通用性變?yōu)榭赡堋?/span>
但通用性帶來了操作上的難度:
(1)使用計算機屏幕作為輸入對智能體的視頻理解能力提出了更高的要求,例如由于沒有內(nèi)部API,需要通過視覺信息判斷動作是否執(zhí)行成功;
(2)使用鍵盤和鼠標(biāo)操作作為輸出使得智能體需要更高的時空操作精度,比如鍵盤按鍵和鼠標(biāo)點擊通常額外涉及時間維度;
(3)許多計算機上的復(fù)雜任務(wù)往往需要連續(xù)執(zhí)行成百上千次的正確操作才能完成,是智能體的長程規(guī)劃決策和歷史信息維護處理能力的一大挑戰(zhàn);
(4)虛擬世界中多如繁星的環(huán)境和任務(wù)是對智能體高效探索并自我提升實現(xiàn)通用性的一大考驗。
這些難題成為了構(gòu)建通用計算機控制智能體(GCC Agents)的挑戰(zhàn)。
六大模塊,三大環(huán)節(jié)
Cradle一共由6個模塊組成:信息收集、自我反思、任務(wù)推斷、技能管理、行動規(guī)劃,以及記憶模塊。
Cradle高度的通用性,來源于其對和電腦交互過程中的原始輸入輸出的合理封裝和抽象。
以從屏幕中顯示的視頻圖像作為輸入,提取其中的文本和視覺信息進行決策,并且輸出最底層的操作系統(tǒng)中控制鍵盤和鼠標(biāo)的信號去和電腦交互,使其可以不依賴于任何假設(shè)和任何內(nèi)部API進行交互。
同時,Cradle強大的決策推理模塊讓其得以自發(fā)和軟件進行交互并且完成任務(wù),這個過程可以被簡單地總結(jié)為:反思過去,總結(jié)現(xiàn)在,規(guī)劃未來。
反思過去:Cradle使用執(zhí)行過往動作過程的視頻作為輸入,分別提取出其中關(guān)鍵的文本和視覺信息,通過反思來判斷上一步動作是否執(zhí)行成功任務(wù)是否完成以及如何改進。
總結(jié)現(xiàn)在:反思完之后,Cradle需要總結(jié)當(dāng)前情況,并且以此為根據(jù)來決定是否更換任務(wù)目標(biāo)或是修改任務(wù)內(nèi)容。
規(guī)劃未來:最后Cradle會根據(jù)當(dāng)前任務(wù)以及現(xiàn)狀生成或者更新自身的技能,并且從已經(jīng)學(xué)會的技能中檢索一部分和當(dāng)前任務(wù)相關(guān)的技能作為備選,然后從中選取合適的技能實例化為動作去執(zhí)行。
在決策推理的同時,Cradle還會周期性地總結(jié)和維護儲存在情境記憶中的歷史信息以及儲存在周期性記憶中的技能。
在此過程中,Cradle為其添加了記憶,總結(jié)和反思的功能,進一步提升了其對于決策過程中的觀察和行為的理解。
Cradle能直接根據(jù)游戲內(nèi)的提示和教程或是自我探索的方式生成對應(yīng)的操作鍵鼠的可執(zhí)行代碼作為技能,一步步豐富自己的技能庫,并在之后的游戲中重復(fù)使用這些技能。
游戲辦公全精通
為了驗證Cradle的通用性,研究者們選擇了4款風(fēng)格迥異,操作各不相同的經(jīng)典游戲進行測試——
從第三視角的3D角色扮演類游戲《荒野大鏢客2》到2D固定視角的模擬經(jīng)營類游戲《星露谷物語》到俯視角的城市規(guī)劃類游戲《城市天際線》再到側(cè)重交易策略的模擬經(jīng)營類游戲《當(dāng)鋪人生2》,并分別設(shè)計了不同的任務(wù)。
在通用軟件方面,Cradle團隊也同樣選擇了5款常用軟件進行測試,包括Chrome、Outlook、CapCut(剪映)、Meitu(美圖秀秀)和Feishu(飛書)。
首先,Cradle能夠勝任游戲中的各種任務(wù):
在《荒野大鏢客2》的主線劇情以及開放世界中均有出色表現(xiàn),能夠連續(xù)完成長達40分鐘的2個完整主線任務(wù),騎馬、戰(zhàn)斗、購物樣樣在行。
- 在《城市天際線》中修路、保障水電供應(yīng),合理劃分居民、商業(yè)和工業(yè)區(qū),建立起千人小鎮(zhèn);
- 在《星露谷物語》中清理農(nóng)場雜物、種地收獲作物、購買種子;
- 在《當(dāng)鋪人生2》中在和客戶討價還價近2輪后以93.6%的交易成功率達成了平均39.6%的周收益率。
表1:Cradle在各游戲中的表現(xiàn),所有任務(wù)均測試5次,4/5表示5次測試中成功4次
其次,Cradle在日常軟件應(yīng)用的各項任務(wù)執(zhí)行上表現(xiàn)不俗,如論文下載、發(fā)郵件、修圖、剪視頻、發(fā)送飛書文件等。
同時,Cradle在非常有挑戰(zhàn)性的benchmark OSWorld上也同樣擊敗了使用真值作為標(biāo)簽的基線方法。
表2:Cradle在OSWorld各類任務(wù)上的成功率(%)以及和基線方法的對比
最后,Cradle也同樣擊敗了眾多常見基線方法,證明了框架各個模塊的合理性和必要性。
表3:Cradle和各種基線的對比的消融實驗,所有任務(wù)均測試5次,括號前數(shù)字表示完成任務(wù)的平均步數(shù),括號中數(shù)字表示5次測試中成功的次數(shù),N/A表示5次全部失敗
通往AGI之路
此前,大量關(guān)于AI智能體的研究都依賴于計算機內(nèi)部API的信息獲取,無法讓AI真正「像人類一樣」通過眼、腦、手的配合與計算機進行互動,其環(huán)境、行為、動作都相對固定,難以實現(xiàn)跨軟件、跨平臺的通用智能。
Cradle極大程度地擴展了智能體可以交互的范圍,并且證明了將一切軟件轉(zhuǎn)化為測試智能體不同能力的testbed的可能性。
它所提出的通用計算機控制的設(shè)定統(tǒng)一了輸入輸出的接口,促進了統(tǒng)一粒度數(shù)據(jù)的搜集,為未來Agent在各個環(huán)境中交互并且自我提升打下了堅實的基礎(chǔ)。
面向數(shù)字世界的通用人工智能,正在加速到來。