北大等發(fā)布最新AI智能體Jarvis-1,制霸「我的世界」
智能體研究又取得了新成績!
最近,來自北大、北郵、UCLA和BIGAI的研究團隊聯(lián)合發(fā)表了一篇論文,介紹了一個叫做Jarvis-1的智能體。
論文地址:https://arxiv.org/pdf/2311.05997.pdf
從論文標題來看,Jarvis-1的Buff可謂拉滿了。
它是個多模態(tài)+記憶增強+多任務處理的開放世界語言模型,玩兒「我的世界」游戲堪稱一絕。
圖為Jarvis-1解鎖我的世界科技樹
在論文摘要中,研究人員表示,在開放世界,通過多模態(tài)來觀測并實現(xiàn)類人的規(guī)劃能力以及控制能力,是功能更強的通用智能體的一個重要里程碑。
要知道,用現(xiàn)有的方法確實可以處理開放世界中的某些長線任務。然而,開放世界中的任務數(shù)量可能是無限的,這種情況下傳統(tǒng)方法就會很吃力,而且還缺乏隨著游戲時間的推移,逐步提高任務完成度的能力。
Jarvis-1則不一樣。它能感知多模態(tài)輸入(包括自我觀察以及人類指令),生成復雜的計劃并執(zhí)行嵌入式控制。所有這些過程都可以在開放的「我的世界」游戲中實現(xiàn)。
下面咱們就來看一看,Jarvis-1和別的智能體究竟有什么不一樣。
實現(xiàn)過程
具體來說,研究人員會在預先訓練好的多模態(tài)語言模型基礎上開發(fā)Jarvis-1,將觀察和文本指令映射到計劃中。
這些計劃最終會分派給目標條件控制器。研究人員為Jarvis-1 配備了多模態(tài)的存儲器,這樣它就能利用預先訓練好的知識和實際游戲的經(jīng)驗進行相應規(guī)劃。
在研究人員的實驗中,Jarvis-1在「我的世界」基準的200多個不同任務(初級到中級)中表現(xiàn)出了近乎完美的性能。
舉例來說,Jarvis-1在合成鉆石鎬的長線任務中,完成率達到了驚人的12.5%。
這個數(shù)據(jù)表明,和之前的記錄相比,Jarvis-1在鉆石鎬任務中的完成率大幅提高了5倍,遠遠超過之前SOTA級別的VPT處理這個任務的完成率。
此外,論文中還展示了Jarvis-1通過多模態(tài)記憶,能做到在終身學習范式下進行自我完善,從而激發(fā)出更廣泛的智能并提高自主性。
在文章開頭的那個解鎖技能樹圖片里,Jarvis-1可以穩(wěn)定獲得「我的世界」主科技樹上的大量高級物品,如鉆石、紅石和黃金等等。
要知道,想要獲得這些物品需要收集10多種不同的中間物品才可以。
下圖更加直觀地展示了開放世界的環(huán)境中有哪些挑戰(zhàn),以及Jarvis-1是如何應對這些挑戰(zhàn)。
最左側(cè),與不采用情境感知規(guī)劃的GPT相比,采用該方法的Jarvis-1大幅提高了在獲取鉆石任務中的成功率,這個任務十分具有挑戰(zhàn)性。藍色的是人類的完成率,受實驗條件所限,只統(tǒng)計了10分鐘。
中間的圖示是隨著任務復雜度的增加(石頭→鐵礦→鉆石),Jarvis-1通過交互式規(guī)劃表現(xiàn)出了顯著的優(yōu)勢。和GPT的表現(xiàn)相比好出太多。
右側(cè)為Jarvis-1從多模態(tài)記憶中檢索到的其它任務(y軸所示)的上下文經(jīng)驗,在選定任務(x軸所示)上的成功率提高了多少(用顏色的深淺來表示)。
可以看出,通過終身的學習和記憶,Jarvis-1可以利用先前在相關(guān)任務上的經(jīng)驗來改進對當前任務的規(guī)劃。
說了這么多性能上的優(yōu)勢,Jarvis-1有如此好的表現(xiàn)以及超越GPT的性能,歸功于以下三點:
- 從LLM到MLM
首先,我們知道,感知多模態(tài)感官輸入的能力,對于在動態(tài)和開放世界中模型進行規(guī)劃至關(guān)重要。
Jarvis-1通過將多模態(tài)基礎模型與LLM相結(jié)合,實現(xiàn)了這一點。與盲目生成計劃的LLM相比,MLM能夠自然地理解當前情況并制定相應的計劃。
此外,還可以通過多模態(tài)感知獲得豐富的環(huán)境反饋,從而幫助規(guī)劃者進行自我檢查和自我解釋,發(fā)現(xiàn)并修復計劃中可能存在的錯誤,實現(xiàn)更強的交互式規(guī)劃。
- 多模態(tài)記憶
過去的一些研究表明,記憶機制在通用智能體的運作中發(fā)揮著至關(guān)重要的作用。
研究人員通過為Jarvis-1配備多模態(tài)記憶,可以有效地讓它利用預先訓練的知識和實際經(jīng)驗進行規(guī)劃,從而顯著提高規(guī)劃的正確性和一致性。
與典型的RL或具有探索能力的智能體相比,Jarvis-1中的多模態(tài)記憶使其能夠以非文本的方式利用這些經(jīng)驗,因此無需額外的模型更新步驟。
- 自我指導和自我完善
通用智能體的一個標志,就是能夠主動獲取的新經(jīng)驗并不斷進行自我完善。在多模態(tài)記憶與探索經(jīng)驗的配合下,研究人員觀察到了Jarvis-1的持續(xù)進步,尤其是在完成更復雜的任務時更是如此。
Jarvis-1的自主學習能力標志著這項研究向通用智能體邁出了關(guān)鍵一步,這種智能體可以在極少的外部干預下不斷學習、適應和改進。
主要挑戰(zhàn)
當然,在實現(xiàn)開放世界游戲的過程中,肯定也會遇到很多困難。研究人員表示,困難主要有三個。
第一,開放世界就意味著,想要完成任務并不是只有一條通路。比方說,任務是做一張床,智能體既可以從羊身上收集羊毛來做,也可以收集蜘蛛網(wǎng),甚至還可以直接和游戲里的村民NPC交換。
那么究竟在當下的情況下選擇哪種途徑,就需要智能體具有審時度勢的能力。換言之,要對當下的情況有一個比較不錯的把握,即情景感知(situation-aware planning)。
在實驗過程中,智能體有些時候會出現(xiàn)判斷有誤,導致任務完成效率不高甚至失敗的情況出現(xiàn)。
第二,在執(zhí)行一些高復雜度的任務時,一個任務往往由大量小任務組合而成(20+個)。而每個小任務的達成也不是那么容易的事,條件往往比較苛刻。
比如上圖中,做一個附魔臺,就需要用鉆石搞挖三個黑曜石。而怎么做鉆石鎬又是個麻煩事。
第三,就是終身學習(lifelong learning)的問題。
畢竟,開放世界中的任務數(shù)不勝數(shù),讓智能體預先全部習得顯然不現(xiàn)實。這就需要智能體不斷在規(guī)劃的過程中進行學習,即終身學習。而Jarvis-1在這方面的表現(xiàn)已經(jīng)在上一部分有所提及。
整體框架
Jarvis-1的整體框架如下圖所示。
下圖左側(cè)包括一個記憶增強的多模態(tài)語言模型(MLM)和一個低級的行動控制器(controller),前者可以生成計劃。
同時,Jarvis-1還能利用多模態(tài)存儲器存儲和獲取經(jīng)驗,作為進一步規(guī)劃的參考。
可以看到,下圖中間部分就是Jarvis-1如何利用MLM生成計劃的流程圖,十分簡潔易懂。
在收到任務后,MLM開始提供一些建議,發(fā)到planner,最終生成計劃。而多模態(tài)記憶庫可以被隨時調(diào)用,新生成的計劃也會被作為學習的內(nèi)容儲存進去。
最右側(cè)即為Jarvis-1自我學習的流程圖。
舉個例子來看,現(xiàn)在輸入一個獲取鉆石礦的任務。
MLM這就開始計劃了——右側(cè)最上部的綠框即為初始計劃,自檢后發(fā)現(xiàn)有物品的缺失,于是調(diào)整了計劃,更正了要獲取的物品的數(shù)量。
接著多模態(tài)模型進行反饋,執(zhí)行的過程中發(fā)現(xiàn)任務失敗,隨機自檢當下的狀態(tài),比如鎬子壞了。再一看庫存,還有能生成鎬子的原料,開干。當然,這一步還有個自我解釋的環(huán)節(jié)(self-explain)。
最終,生成新計劃,任務終于完成。
下圖展示了Jarvis-1是如何生成查詢結(jié)果的。
首先會考察當下的觀察結(jié)果和任務,Jarvis-1會首先進行逆向思維,找出所需的中間子目標。
當然,推理的深度是有限的。記憶中的子目標將與當前的觀察結(jié)果結(jié)合起來,再形成最終的查詢結(jié)果。
再將與文本查詢相匹配的條目根據(jù)其狀態(tài)與觀察查詢的感知距離進行排序,而后只有每個子目標中最靠前的條目才會被檢索到。
在實驗環(huán)節(jié),研究人員選用的任務都出自最近推出的「我的世界」基準。
實驗開始前,相關(guān)設置如下:
環(huán)境設置~為確保游戲逼真,智能體需要利用與人類類似的觀察和行動空間。研究人員沒有像以往的方法那樣為模型與環(huán)境交互手動設計自定義界面,而是選擇使用了「我的世界」提供的原生人類界面。
這既適用于智能體進行觀察,也適用于行動。該模型以每秒20幀的速度運行,而且與人類圖形用戶界面交互時需要使用鼠標和鍵盤界面。
- 任務設置
在「我的世界」中,玩家可以獲得數(shù)千種物品,每種物品都有特定的獲取要求或配方。在生存模式中,玩家必須從環(huán)境中獲取各類物品,或者用材料制作/熔煉物品。
研究人員從 「我的世界」基準中選擇了200多個任務進行評估。為便于統(tǒng)計,研究人員根據(jù)「我的世界」中的推薦類別將其分為 11 組,如下圖所示。
由于這些任務的復雜程度不同,團隊對每個任務采用了不同的最大游戲持續(xù)時間。
- 評估指標
在默認情況下,智能始終玩生存模式,初始庫存為空。
如果在指定時間內(nèi)獲得目標對象,則視為任務成功。由于「我的世界」的開放性特點,智能體啟動時所處的世界和初始位置可能會有很大不同。
因此,研究人員使用不同的種子(類似于一個地圖生成碼)對每個任務進行了至少 30次的測試,并反饋平均成功率,以確保進行更加全面的評估。
下圖左側(cè)展示了Jarvis-1的游戲成功率。還和VPT模型進行了比較。
右側(cè)則展示了Jarvis-1在執(zhí)行任務中,一些中間物品的獲取成功率??梢钥吹?,隨著時間的推進,成功率還是非常高的。