自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北大等發(fā)布最新AI智能體Jarvis-1,制霸「我的世界」

人工智能 新聞
北大、北郵、UCLA和BIGAI的研究團隊聯(lián)合發(fā)布,智能體新突破——Jarvis-1.

智能體研究又取得了新成績!

最近,來自北大、北郵、UCLA和BIGAI的研究團隊聯(lián)合發(fā)表了一篇論文,介紹了一個叫做Jarvis-1的智能體。

論文地址:https://arxiv.org/pdf/2311.05997.pdf

從論文標題來看,Jarvis-1的Buff可謂拉滿了。

它是個多模態(tài)+記憶增強+多任務處理的開放世界語言模型,玩兒「我的世界」游戲堪稱一絕。

圖為Jarvis-1解鎖我的世界科技樹

在論文摘要中,研究人員表示,在開放世界,通過多模態(tài)來觀測并實現(xiàn)類人的規(guī)劃能力以及控制能力,是功能更強的通用智能體的一個重要里程碑。

要知道,用現(xiàn)有的方法確實可以處理開放世界中的某些長線任務。然而,開放世界中的任務數(shù)量可能是無限的,這種情況下傳統(tǒng)方法就會很吃力,而且還缺乏隨著游戲時間的推移,逐步提高任務完成度的能力。

Jarvis-1則不一樣。它能感知多模態(tài)輸入(包括自我觀察以及人類指令),生成復雜的計劃并執(zhí)行嵌入式控制。所有這些過程都可以在開放的「我的世界」游戲中實現(xiàn)。

下面咱們就來看一看,Jarvis-1和別的智能體究竟有什么不一樣。

實現(xiàn)過程

具體來說,研究人員會在預先訓練好的多模態(tài)語言模型基礎上開發(fā)Jarvis-1,將觀察和文本指令映射到計劃中。

這些計劃最終會分派給目標條件控制器。研究人員為Jarvis-1 配備了多模態(tài)的存儲器,這樣它就能利用預先訓練好的知識和實際游戲的經(jīng)驗進行相應規(guī)劃。

在研究人員的實驗中,Jarvis-1在「我的世界」基準的200多個不同任務(初級到中級)中表現(xiàn)出了近乎完美的性能。

舉例來說,Jarvis-1在合成鉆石鎬的長線任務中,完成率達到了驚人的12.5%。

這個數(shù)據(jù)表明,和之前的記錄相比,Jarvis-1在鉆石鎬任務中的完成率大幅提高了5倍,遠遠超過之前SOTA級別的VPT處理這個任務的完成率。

此外,論文中還展示了Jarvis-1通過多模態(tài)記憶,能做到在終身學習范式下進行自我完善,從而激發(fā)出更廣泛的智能并提高自主性。

在文章開頭的那個解鎖技能樹圖片里,Jarvis-1可以穩(wěn)定獲得「我的世界」主科技樹上的大量高級物品,如鉆石、紅石和黃金等等。

要知道,想要獲得這些物品需要收集10多種不同的中間物品才可以。

下圖更加直觀地展示了開放世界的環(huán)境中有哪些挑戰(zhàn),以及Jarvis-1是如何應對這些挑戰(zhàn)。

最左側(cè),與不采用情境感知規(guī)劃的GPT相比,采用該方法的Jarvis-1大幅提高了在獲取鉆石任務中的成功率,這個任務十分具有挑戰(zhàn)性。藍色的是人類的完成率,受實驗條件所限,只統(tǒng)計了10分鐘。

中間的圖示是隨著任務復雜度的增加(石頭→鐵礦→鉆石),Jarvis-1通過交互式規(guī)劃表現(xiàn)出了顯著的優(yōu)勢。和GPT的表現(xiàn)相比好出太多。

右側(cè)為Jarvis-1從多模態(tài)記憶中檢索到的其它任務(y軸所示)的上下文經(jīng)驗,在選定任務(x軸所示)上的成功率提高了多少(用顏色的深淺來表示)。

可以看出,通過終身的學習和記憶,Jarvis-1可以利用先前在相關(guān)任務上的經(jīng)驗來改進對當前任務的規(guī)劃。

說了這么多性能上的優(yōu)勢,Jarvis-1有如此好的表現(xiàn)以及超越GPT的性能,歸功于以下三點:

- 從LLM到MLM

首先,我們知道,感知多模態(tài)感官輸入的能力,對于在動態(tài)和開放世界中模型進行規(guī)劃至關(guān)重要。

Jarvis-1通過將多模態(tài)基礎模型與LLM相結(jié)合,實現(xiàn)了這一點。與盲目生成計劃的LLM相比,MLM能夠自然地理解當前情況并制定相應的計劃。

此外,還可以通過多模態(tài)感知獲得豐富的環(huán)境反饋,從而幫助規(guī)劃者進行自我檢查和自我解釋,發(fā)現(xiàn)并修復計劃中可能存在的錯誤,實現(xiàn)更強的交互式規(guī)劃。

- 多模態(tài)記憶

過去的一些研究表明,記憶機制在通用智能體的運作中發(fā)揮著至關(guān)重要的作用。

研究人員通過為Jarvis-1配備多模態(tài)記憶,可以有效地讓它利用預先訓練的知識和實際經(jīng)驗進行規(guī)劃,從而顯著提高規(guī)劃的正確性和一致性。

與典型的RL或具有探索能力的智能體相比,Jarvis-1中的多模態(tài)記憶使其能夠以非文本的方式利用這些經(jīng)驗,因此無需額外的模型更新步驟。

- 自我指導和自我完善

通用智能體的一個標志,就是能夠主動獲取的新經(jīng)驗并不斷進行自我完善。在多模態(tài)記憶與探索經(jīng)驗的配合下,研究人員觀察到了Jarvis-1的持續(xù)進步,尤其是在完成更復雜的任務時更是如此。

Jarvis-1的自主學習能力標志著這項研究向通用智能體邁出了關(guān)鍵一步,這種智能體可以在極少的外部干預下不斷學習、適應和改進。

主要挑戰(zhàn)

當然,在實現(xiàn)開放世界游戲的過程中,肯定也會遇到很多困難。研究人員表示,困難主要有三個。

第一,開放世界就意味著,想要完成任務并不是只有一條通路。比方說,任務是做一張床,智能體既可以從羊身上收集羊毛來做,也可以收集蜘蛛網(wǎng),甚至還可以直接和游戲里的村民NPC交換。

那么究竟在當下的情況下選擇哪種途徑,就需要智能體具有審時度勢的能力。換言之,要對當下的情況有一個比較不錯的把握,即情景感知(situation-aware planning)。

在實驗過程中,智能體有些時候會出現(xiàn)判斷有誤,導致任務完成效率不高甚至失敗的情況出現(xiàn)。

第二,在執(zhí)行一些高復雜度的任務時,一個任務往往由大量小任務組合而成(20+個)。而每個小任務的達成也不是那么容易的事,條件往往比較苛刻。

比如上圖中,做一個附魔臺,就需要用鉆石搞挖三個黑曜石。而怎么做鉆石鎬又是個麻煩事。

第三,就是終身學習(lifelong learning)的問題。

畢竟,開放世界中的任務數(shù)不勝數(shù),讓智能體預先全部習得顯然不現(xiàn)實。這就需要智能體不斷在規(guī)劃的過程中進行學習,即終身學習。而Jarvis-1在這方面的表現(xiàn)已經(jīng)在上一部分有所提及。

整體框架

Jarvis-1的整體框架如下圖所示。

下圖左側(cè)包括一個記憶增強的多模態(tài)語言模型(MLM)和一個低級的行動控制器(controller),前者可以生成計劃。

同時,Jarvis-1還能利用多模態(tài)存儲器存儲和獲取經(jīng)驗,作為進一步規(guī)劃的參考。

可以看到,下圖中間部分就是Jarvis-1如何利用MLM生成計劃的流程圖,十分簡潔易懂。

在收到任務后,MLM開始提供一些建議,發(fā)到planner,最終生成計劃。而多模態(tài)記憶庫可以被隨時調(diào)用,新生成的計劃也會被作為學習的內(nèi)容儲存進去。

最右側(cè)即為Jarvis-1自我學習的流程圖。

圖片

舉個例子來看,現(xiàn)在輸入一個獲取鉆石礦的任務。

MLM這就開始計劃了——右側(cè)最上部的綠框即為初始計劃,自檢后發(fā)現(xiàn)有物品的缺失,于是調(diào)整了計劃,更正了要獲取的物品的數(shù)量。

接著多模態(tài)模型進行反饋,執(zhí)行的過程中發(fā)現(xiàn)任務失敗,隨機自檢當下的狀態(tài),比如鎬子壞了。再一看庫存,還有能生成鎬子的原料,開干。當然,這一步還有個自我解釋的環(huán)節(jié)(self-explain)。

最終,生成新計劃,任務終于完成。

下圖展示了Jarvis-1是如何生成查詢結(jié)果的。

首先會考察當下的觀察結(jié)果和任務,Jarvis-1會首先進行逆向思維,找出所需的中間子目標。

當然,推理的深度是有限的。記憶中的子目標將與當前的觀察結(jié)果結(jié)合起來,再形成最終的查詢結(jié)果。

再將與文本查詢相匹配的條目根據(jù)其狀態(tài)與觀察查詢的感知距離進行排序,而后只有每個子目標中最靠前的條目才會被檢索到。

在實驗環(huán)節(jié),研究人員選用的任務都出自最近推出的「我的世界」基準。

實驗開始前,相關(guān)設置如下:

環(huán)境設置~為確保游戲逼真,智能體需要利用與人類類似的觀察和行動空間。研究人員沒有像以往的方法那樣為模型與環(huán)境交互手動設計自定義界面,而是選擇使用了「我的世界」提供的原生人類界面。

這既適用于智能體進行觀察,也適用于行動。該模型以每秒20幀的速度運行,而且與人類圖形用戶界面交互時需要使用鼠標和鍵盤界面。

- 任務設置

在「我的世界」中,玩家可以獲得數(shù)千種物品,每種物品都有特定的獲取要求或配方。在生存模式中,玩家必須從環(huán)境中獲取各類物品,或者用材料制作/熔煉物品。

研究人員從 「我的世界」基準中選擇了200多個任務進行評估。為便于統(tǒng)計,研究人員根據(jù)「我的世界」中的推薦類別將其分為 11 組,如下圖所示。

由于這些任務的復雜程度不同,團隊對每個任務采用了不同的最大游戲持續(xù)時間。

- 評估指標

在默認情況下,智能始終玩生存模式,初始庫存為空。

如果在指定時間內(nèi)獲得目標對象,則視為任務成功。由于「我的世界」的開放性特點,智能體啟動時所處的世界和初始位置可能會有很大不同。

因此,研究人員使用不同的種子(類似于一個地圖生成碼)對每個任務進行了至少 30次的測試,并反饋平均成功率,以確保進行更加全面的評估。

下圖左側(cè)展示了Jarvis-1的游戲成功率。還和VPT模型進行了比較。

右側(cè)則展示了Jarvis-1在執(zhí)行任務中,一些中間物品的獲取成功率??梢钥吹?,隨著時間的推進,成功率還是非常高的。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-10-30 15:30:00

智能體視覺模型

2024-11-05 14:40:00

智能體AI

2024-09-04 13:19:16

2024-09-10 15:10:00

智能強化學習框架

2024-11-04 08:45:00

2016-03-14 09:43:47

androidview總結(jié)

2019-09-18 15:23:32

AI 數(shù)據(jù)人工智能

2025-03-14 08:14:44

2024-09-18 10:32:00

AI智能體模型

2023-07-06 13:50:47

AI智能

2024-03-04 07:00:00

地圖虛擬智能

2023-08-17 13:35:44

OpenAI收購

2024-08-27 13:00:10

2023-05-29 09:55:11

GPT-4英偉達

2018-10-11 17:01:01

華為云

2023-08-10 14:01:08

開源虛擬

2024-04-18 11:59:10

2024-09-13 09:18:49

2023-05-29 16:08:47

人工智能模型
點贊
收藏

51CTO技術(shù)棧公眾號