2000 億次開放學(xué)習(xí)后,DeepMind 的智能體“成精”了
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
有這樣一批智能體,在完全沒有見過的游戲任務(wù)里,也學(xué)會了游刃有余地解決目標(biāo)。
譬如面對下面這樣一個高地,它們要取到上面的紫色金字塔。
沒有跳躍功能的它們,看似開始“焦躁”地亂扔起東西來,實則其中一塊板子正好被“扔”成了樓梯,這不就巧了,目標(biāo)完成!
你可能會說這只是“瞎貓撞死耗子”罷了,但多次實驗發(fā)現(xiàn),該智能體可以復(fù)現(xiàn)該方法的!
而且它還會不止一種方法,“我不上去,你下來”—— 直接借助板子把目標(biāo)扒拉下來了!
這也行?
而這些成精了的智能體來自 DeepMind。
現(xiàn)在,為了讓 AI 更加多才多藝、舉一反三,他們專門給智能體打造了一個包含了數(shù)十億游戲任務(wù)的“元宇宙”XLand:讓智能體在不斷擴展、升級的開放世界中通過上億次的訓(xùn)練練就了不俗的泛化能力。
最終效果就像前面看到的,無需在新游戲中從頭訓(xùn)練,它們就能自主解決任務(wù)!
DeepMind 也因此發(fā)表了一篇論文,就叫做:《從開放學(xué)習(xí)走出來的通用智能體》。
如何做到的呢?
“元宇宙”XLand
最功不可沒之一的就是這個龐大的“元宇宙”模擬空間。
這是一個“游戲星系”,里面有無數(shù)個“游戲星球”,每個星球上的游戲按競爭性、平衡性、可選項、探索難度四個緯度進行區(qū)分。
比如圖左上介紹的“搶方塊”游戲:藍色智能體需要把黃色的立方體放到白色區(qū)域,紅色智能體需要把同一個立方體放在藍色區(qū)域。
啊想想就頭大,所以這個游戲的競爭性值都拉滿了,而由于雙方的條件/目標(biāo)都一樣,所以平衡性值也很高,因為需要定位目標(biāo)區(qū)域,所以探索難度并不小。
再比如圖右上的“將球體和立方體配對”:藍色/紅色智能體要將幾何體按顏色歸類到一起,完成任意一組配對就行。這個游戲的可選性值就拉滿了,但競爭性就沒那么強。
ps. 藍色游戲代表是完全競爭性的,粉色為完全合作性的。
不管是哪種游戲任務(wù),這批智能體都從最簡單的開始(比如僅“靠近紫色立方體”這種),一步步解鎖復(fù)雜度升級的游戲(比如和另一個智能體“捉迷藏”),其中每一項游戲都有獎勵,智能體們的目標(biāo)就是將拿到的獎勵最大化。
而智能體“玩家”們是通過閱讀收到的目標(biāo)的文字描述、觀察 RGB 圖像來感知周圍環(huán)境來完成任務(wù)。
生成的新任務(wù)要基于舊任務(wù),且難度要剛剛好
除了上面這個開放式的學(xué)習(xí)環(huán)境,訓(xùn)練方法也很重要。
研究人員使用的神經(jīng)網(wǎng)絡(luò)訓(xùn)練架構(gòu)提供了一種針對智能體內(nèi)部循環(huán)狀態(tài)的注意力機制 —— 通過估計所玩游戲的子目標(biāo),來持續(xù)引導(dǎo)智能體的注意力。
這種策略讓智能體學(xué)習(xí)到更具普遍能力的策略。
還有一個問題:如此廣闊的游戲環(huán)境,什么樣的游戲任務(wù)分布能產(chǎn)出最善于泛化的智能體呢?
研究人員通過持續(xù)調(diào)整每個智能體的游戲分布發(fā)現(xiàn),每個新任務(wù)都要基于通關(guān)的舊任務(wù)生成,不能太難,也不能太容易。
這個也基本符合一般認知。
它們先經(jīng)歷了四次迭代:
每個任務(wù)由多個智能體參與競爭,在舊任務(wù)上適應(yīng)得好的智能體,會帶著權(quán)重、瞬時任務(wù)分布、超參數(shù)等參與到新一輪任務(wù)中繼續(xù)學(xué)習(xí)。此時也會加入新的智能體讓競爭“活”起來。
智能體表現(xiàn)出明顯的零樣本學(xué)習(xí)能力
最后生成的第五代智能體,在 XLand 4000 多個“星球”里玩了大約 70 萬個游戲,每一個智能體都經(jīng)歷了 2000 億次訓(xùn)練,完成了 340 萬個獨特任務(wù)。
到了這個時候,這些智能體已經(jīng)能夠順利完成每一項評估任務(wù)(除了少數(shù)即使是人類也不可能完成的)。
整個實驗也最終表明,通過開發(fā)像 XLand 這樣的環(huán)境和這樣開放式地訓(xùn)練方法,一些基于 RL 的智能體已表現(xiàn)出明顯的零樣本學(xué)習(xí)能力 (0-shot)。
比如使用工具、打攔(ridge-fencing)、“捉迷藏”、找立方體、數(shù)數(shù)、合作或競爭等。
研究人員也觀察到智能體們面對新任務(wù)時不知道“什么是最好的解決辦法”,但它們會不斷地試驗直到達到目標(biāo)。
這個過程中出現(xiàn)的有趣的”緊急啟發(fā)式行為”,除了開頭提到的搭梯子,還有這個臨時更換更簡易目標(biāo)的例子 ——
在一個游戲中該智能體需要從 3 個目標(biāo)中任選一個完成:
1、將黑色金字塔放到黃色球體旁邊;
2、將紫色球體放到黃色金字塔旁邊;
3、將黑色金字塔放到橙色區(qū)域。
它一開始找到了一個黑色金字塔,想去完成目標(biāo) 3,但在搬運過程中看到了黃色球體,于是它就在 1 秒內(nèi)改變了主意,選擇直接將金字塔放在黃色球體旁邊完成目標(biāo) 1。(整個過程一共耗時 6 秒)
最后,看完了 DeepMind 的研究,再拋給大家一個問題:我們離真正的通用人工智能還有多遠?
(ps. 你發(fā)現(xiàn)了嗎,文章最開頭高臺取金字塔任務(wù)中的小紅智障體就不行,一直打轉(zhuǎn),面對小藍搭好的梯子甚至直接毀掉)
論文地址:
https://arxiv.org/abs/2107.12808