自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<xmp id="yjmse"></xmp>

<legend id="yjmse"><track id="yjmse"><menuitem id="yjmse"></menuitem></track></legend>

<sub id="yjmse"><rt id="yjmse"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

北大等發(fā)布最新AI智能體Jarvis-1，制霸「我的世界」

作者：新智元 2023-12-08 14:16:00

人工智能新聞

北大、北郵、UCLA和BIGAI的研究團隊聯(lián)合發(fā)布，智能體新突破——Jarvis-1.

智能體研究又取得了新成績！

最近，來自北大、北郵、UCLA和BIGAI的研究團隊聯(lián)合發(fā)表了一篇論文，介紹了一個叫做Jarvis-1的智能體。

論文地址：https://arxiv.org/pdf/2311.05997.pdf

從論文標題來看，Jarvis-1的Buff可謂拉滿了。

它是個多模態(tài)+記憶增強+多任務處理的開放世界語言模型，玩兒「我的世界」游戲堪稱一絕。

圖為Jarvis-1解鎖我的世界科技樹

在論文摘要中，研究人員表示，在開放世界，通過多模態(tài)來觀測并實現(xiàn)類人的規(guī)劃能力以及控制能力，是功能更強的通用智能體的一個重要里程碑。

要知道，用現(xiàn)有的方法確實可以處理開放世界中的某些長線任務。然而，開放世界中的任務數(shù)量可能是無限的，這種情況下傳統(tǒng)方法就會很吃力，而且還缺乏隨著游戲時間的推移，逐步提高任務完成度的能力。

Jarvis-1則不一樣。它能感知多模態(tài)輸入（包括自我觀察以及人類指令），生成復雜的計劃并執(zhí)行嵌入式控制。所有這些過程都可以在開放的「我的世界」游戲中實現(xiàn)。

下面咱們就來看一看，Jarvis-1和別的智能體究竟有什么不一樣。

實現(xiàn)過程

具體來說，研究人員會在預先訓練好的多模態(tài)語言模型基礎上開發(fā)Jarvis-1，將觀察和文本指令映射到計劃中。

這些計劃最終會分派給目標條件控制器。研究人員為Jarvis-1 配備了多模態(tài)的存儲器，這樣它就能利用預先訓練好的知識和實際游戲的經(jīng)驗進行相應規(guī)劃。

在研究人員的實驗中，Jarvis-1在「我的世界」基準的200多個不同任務（初級到中級）中表現(xiàn)出了近乎完美的性能。

舉例來說，Jarvis-1在合成鉆石鎬的長線任務中，完成率達到了驚人的12.5%。

這個數(shù)據(jù)表明，和之前的記錄相比，Jarvis-1在鉆石鎬任務中的完成率大幅提高了5倍，遠遠超過之前SOTA級別的VPT處理這個任務的完成率。

此外，論文中還展示了Jarvis-1通過多模態(tài)記憶，能做到在終身學習范式下進行自我完善，從而激發(fā)出更廣泛的智能并提高自主性。

在文章開頭的那個解鎖技能樹圖片里，Jarvis-1可以穩(wěn)定獲得「我的世界」主科技樹上的大量高級物品，如鉆石、紅石和黃金等等。

要知道，想要獲得這些物品需要收集10多種不同的中間物品才可以。

下圖更加直觀地展示了開放世界的環(huán)境中有哪些挑戰(zhàn)，以及Jarvis-1是如何應對這些挑戰(zhàn)。

最左側(cè)，與不采用情境感知規(guī)劃的GPT相比，采用該方法的Jarvis-1大幅提高了在獲取鉆石任務中的成功率，這個任務十分具有挑戰(zhàn)性。藍色的是人類的完成率，受實驗條件所限，只統(tǒng)計了10分鐘。

中間的圖示是隨著任務復雜度的增加（石頭→鐵礦→鉆石），Jarvis-1通過交互式規(guī)劃表現(xiàn)出了顯著的優(yōu)勢。和GPT的表現(xiàn)相比好出太多。

右側(cè)為Jarvis-1從多模態(tài)記憶中檢索到的其它任務（y軸所示）的上下文經(jīng)驗，在選定任務（x軸所示）上的成功率提高了多少（用顏色的深淺來表示）。

可以看出，通過終身的學習和記憶，Jarvis-1可以利用先前在相關(guān)任務上的經(jīng)驗來改進對當前任務的規(guī)劃。

說了這么多性能上的優(yōu)勢，Jarvis-1有如此好的表現(xiàn)以及超越GPT的性能，歸功于以下三點：

- 從LLM到MLM

首先，我們知道，感知多模態(tài)感官輸入的能力，對于在動態(tài)和開放世界中模型進行規(guī)劃至關(guān)重要。

Jarvis-1通過將多模態(tài)基礎模型與LLM相結(jié)合，實現(xiàn)了這一點。與盲目生成計劃的LLM相比，MLM能夠自然地理解當前情況并制定相應的計劃。

此外，還可以通過多模態(tài)感知獲得豐富的環(huán)境反饋，從而幫助規(guī)劃者進行自我檢查和自我解釋，發(fā)現(xiàn)并修復計劃中可能存在的錯誤，實現(xiàn)更強的交互式規(guī)劃。

- 多模態(tài)記憶

過去的一些研究表明，記憶機制在通用智能體的運作中發(fā)揮著至關(guān)重要的作用。

研究人員通過為Jarvis-1配備多模態(tài)記憶，可以有效地讓它利用預先訓練的知識和實際經(jīng)驗進行規(guī)劃，從而顯著提高規(guī)劃的正確性和一致性。

與典型的RL或具有探索能力的智能體相比，Jarvis-1中的多模態(tài)記憶使其能夠以非文本的方式利用這些經(jīng)驗，因此無需額外的模型更新步驟。

- 自我指導和自我完善

通用智能體的一個標志，就是能夠主動獲取的新經(jīng)驗并不斷進行自我完善。在多模態(tài)記憶與探索經(jīng)驗的配合下，研究人員觀察到了Jarvis-1的持續(xù)進步，尤其是在完成更復雜的任務時更是如此。

Jarvis-1的自主學習能力標志著這項研究向通用智能體邁出了關(guān)鍵一步，這種智能體可以在極少的外部干預下不斷學習、適應和改進。

主要挑戰(zhàn)

當然，在實現(xiàn)開放世界游戲的過程中，肯定也會遇到很多困難。研究人員表示，困難主要有三個。

第一，開放世界就意味著，想要完成任務并不是只有一條通路。比方說，任務是做一張床，智能體既可以從羊身上收集羊毛來做，也可以收集蜘蛛網(wǎng)，甚至還可以直接和游戲里的村民NPC交換。

那么究竟在當下的情況下選擇哪種途徑，就需要智能體具有審時度勢的能力。換言之，要對當下的情況有一個比較不錯的把握，即情景感知（situation-aware planning）。

在實驗過程中，智能體有些時候會出現(xiàn)判斷有誤，導致任務完成效率不高甚至失敗的情況出現(xiàn)。

第二，在執(zhí)行一些高復雜度的任務時，一個任務往往由大量小任務組合而成（20+個）。而每個小任務的達成也不是那么容易的事，條件往往比較苛刻。

比如上圖中，做一個附魔臺，就需要用鉆石搞挖三個黑曜石。而怎么做鉆石鎬又是個麻煩事。

第三，就是終身學習（lifelong learning）的問題。

畢竟，開放世界中的任務數(shù)不勝數(shù)，讓智能體預先全部習得顯然不現(xiàn)實。這就需要智能體不斷在規(guī)劃的過程中進行學習，即終身學習。而Jarvis-1在這方面的表現(xiàn)已經(jīng)在上一部分有所提及。

整體框架

Jarvis-1的整體框架如下圖所示。

下圖左側(cè)包括一個記憶增強的多模態(tài)語言模型（MLM）和一個低級的行動控制器（controller），前者可以生成計劃。

同時，Jarvis-1還能利用多模態(tài)存儲器存儲和獲取經(jīng)驗，作為進一步規(guī)劃的參考。

可以看到，下圖中間部分就是Jarvis-1如何利用MLM生成計劃的流程圖，十分簡潔易懂。

在收到任務后，MLM開始提供一些建議，發(fā)到planner，最終生成計劃。而多模態(tài)記憶庫可以被隨時調(diào)用，新生成的計劃也會被作為學習的內(nèi)容儲存進去。

最右側(cè)即為Jarvis-1自我學習的流程圖。

舉個例子來看，現(xiàn)在輸入一個獲取鉆石礦的任務。

MLM這就開始計劃了——右側(cè)最上部的綠框即為初始計劃，自檢后發(fā)現(xiàn)有物品的缺失，于是調(diào)整了計劃，更正了要獲取的物品的數(shù)量。

接著多模態(tài)模型進行反饋，執(zhí)行的過程中發(fā)現(xiàn)任務失敗，隨機自檢當下的狀態(tài)，比如鎬子壞了。再一看庫存，還有能生成鎬子的原料，開干。當然，這一步還有個自我解釋的環(huán)節(jié)（self-explain）。

最終，生成新計劃，任務終于完成。

下圖展示了Jarvis-1是如何生成查詢結(jié)果的。

首先會考察當下的觀察結(jié)果和任務，Jarvis-1會首先進行逆向思維，找出所需的中間子目標。

當然，推理的深度是有限的。記憶中的子目標將與當前的觀察結(jié)果結(jié)合起來，再形成最終的查詢結(jié)果。

再將與文本查詢相匹配的條目根據(jù)其狀態(tài)與觀察查詢的感知距離進行排序，而后只有每個子目標中最靠前的條目才會被檢索到。

在實驗環(huán)節(jié)，研究人員選用的任務都出自最近推出的「我的世界」基準。

實驗開始前，相關(guān)設置如下：

環(huán)境設置~為確保游戲逼真，智能體需要利用與人類類似的觀察和行動空間。研究人員沒有像以往的方法那樣為模型與環(huán)境交互手動設計自定義界面，而是選擇使用了「我的世界」提供的原生人類界面。

這既適用于智能體進行觀察，也適用于行動。該模型以每秒20幀的速度運行，而且與人類圖形用戶界面交互時需要使用鼠標和鍵盤界面。

- 任務設置

在「我的世界」中，玩家可以獲得數(shù)千種物品，每種物品都有特定的獲取要求或配方。在生存模式中，玩家必須從環(huán)境中獲取各類物品，或者用材料制作/熔煉物品。

研究人員從「我的世界」基準中選擇了200多個任務進行評估。為便于統(tǒng)計，研究人員根據(jù)「我的世界」中的推薦類別將其分為 11 組，如下圖所示。

由于這些任務的復雜程度不同，團隊對每個任務采用了不同的最大游戲持續(xù)時間。

- 評估指標

在默認情況下，智能始終玩生存模式，初始庫存為空。

如果在指定時間內(nèi)獲得目標對象，則視為任務成功。由于「我的世界」的開放性特點，智能體啟動時所處的世界和初始位置可能會有很大不同。

因此，研究人員使用不同的種子（類似于一個地圖生成碼）對每個任務進行了至少 30次的測試，并反饋平均成功率，以確保進行更加全面的評估。

下圖左側(cè)展示了Jarvis-1的游戲成功率。還和VPT模型進行了比較。

右側(cè)則展示了Jarvis-1在執(zhí)行任務中，一些中間物品的獲取成功率?？梢钥吹?，隨著時間的推進，成功率還是非常高的。

責任編輯：張燕妮來源：新智元

AI 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="gn14x"><p id="gn14x"><li id="gn14x"></li></p></sub>

<sub id="gn14x"><p id="gn14x"></p></sub>

<legend id="gn14x"><track id="gn14x"></track></legend>