自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為了讓AI不斷打怪升級,DeepMind打造了一個“元宇宙”

新聞 人工智能
像DeepMind之前開發(fā)的AlphaZero,盡管可以玩轉(zhuǎn)圍棋、國際象棋和日本將棋,但對每種棋牌游戲都只能從頭開始訓(xùn)練。

 

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

DeepMind又冷不丁給了我們一個小驚喜。

我們都知道,強(qiáng)化學(xué)習(xí)苦于泛化能力差,經(jīng)常只能針對單個任務(wù)來從頭開始學(xué)習(xí)。

像DeepMind之前開發(fā)的AlphaZero,盡管可以玩轉(zhuǎn)圍棋、國際象棋和日本將棋,但對每種棋牌游戲都只能從頭開始訓(xùn)練。

泛化能力差也是AI一直被詬病為人工智障的一大原因。人類智能厲害的一點就是,可以借鑒之前的經(jīng)驗,迅速適應(yīng)新環(huán)境,比如你不會因為是第一次吃川菜,就看著一口鴛鴦鍋不知所措,你吃過潮汕火鍋嘛,不都是涮一下的事情嘛。

但是,泛化能力也不是一蹴而就的,就像我們玩游戲的時候,也是先做簡單任務(wù),然后逐步升級到復(fù)雜任務(wù)。在游戲《空洞騎士》中,一開始你只需要隨意走動揮刀砍怪就行,但在噩夢級難度的“苦痛之路”關(guān)卡中,沒有前面一點點積累的爛熟于心的技巧,只能玩?zhèn)€寂寞。

[[414006]]

1、多任務(wù)元宇宙

DeepMind此次就采用了這種“課程學(xué)習(xí)”思路,讓智能體在不斷擴(kuò)展、升級的開放世界中學(xué)習(xí)。也就是說,AI的新任務(wù)(訓(xùn)練數(shù)據(jù))是基于舊任務(wù)不斷生成的。

在這個世界中,智能體可以盡情鍛煉自己,簡單的比如“靠近紫色立方體”,復(fù)雜一點的比如“靠近紫色立方體或?qū)ⅫS色球體放在紅色地板上”,甚至還可以和其他智能體玩耍,比如捉迷藏——“找到對方,并且不要被對方找到”。

每個小游戲存在于世界的一個小角落,千千萬萬個小角落拼接成了一個龐大的物理模擬世界,比如下圖中的幾何“地球”。

總體來說這個世界的任務(wù)由三個要素構(gòu)成,即任務(wù)=游戲+世界+玩家,并根據(jù)三個要素的不同關(guān)系,決定任務(wù)的復(fù)雜度。

復(fù)雜度的判斷有四個維度:競爭性,平衡性,可選項,探索難度。

比如在“搶方塊”游戲中,藍(lán)色智能體需要把黃色方塊放到白色區(qū)域,紅色智能體需要把黃色方塊放到藍(lán)色區(qū)域。這兩個目標(biāo)是矛盾的,因此競爭性比較強(qiáng);同時雙方條件對等,平衡性比較高;因為目標(biāo)簡單,所以可選項少;這里DeepMind把探索難度評為中上,可能是因為定位區(qū)域算是比較復(fù)雜的場景。

再例如,在“球球喜歡和方塊一起玩”游戲中,藍(lán)色和紅色智能體都有一個共同的目標(biāo),讓相同顏色的球體和方塊放在相近的位置。

這時候,競爭性自然很低;平衡性毋庸置疑是很高的;可選項相比上面的游戲會高很多;至于探索難度,這里沒有定位區(qū)域,智能體隨便把球體和方塊放哪里都行,難度就變小了。

基于這四個維度,DeepMind打造了一個任務(wù)空間的、超大規(guī)模的“元宇宙”,幾何“地球”也只是這個元宇宙的一個小角落,限定于這個四維任務(wù)空間的一個點。DeepMind將這個“元宇宙”命名為Xland,它包含了數(shù)十億個任務(wù)。

來看看XLand的全貌,它由一系列游戲組成,每個游戲都可以在許多不同的模擬世界中進(jìn)行,這些世界的拓?fù)浜吞卣髌交刈兓?nbsp;

2、終生學(xué)習(xí) 

數(shù)據(jù)有了,那么接下來就得找到合適的算法。DeepMind發(fā)現(xiàn),目標(biāo)注意網(wǎng)絡(luò) (GOAT) 可以學(xué)習(xí)更通用的策略。

具體來說,智能體的輸入包括第一視角的RGB圖像、本體感覺以及目標(biāo)。經(jīng)過初步處理后,生成中間輸出,傳遞給GOAT模塊,該模塊會根據(jù)智能體的當(dāng)前目標(biāo)處理中間輸出的特定部分,并對目標(biāo)進(jìn)行邏輯分析。

所謂邏輯分析是指,對每個游戲,可以通過一些方法,來構(gòu)建另一個游戲,并限制策略的價值函數(shù)的最優(yōu)值上限或者下限。

到這里,DeepMind向我們提出了一個問題:對于每個智能體,什么樣的任務(wù)集合才是最好的呢?換句話說,在打怪升級中,什么樣的關(guān)卡設(shè)置才會讓玩家能順利地升級為“真”高手,而不是一刀9999?

DeepMind給出的答案是,每個新任務(wù)都基于舊任務(wù)生成,“不會太難,也不會太容易”。其實,這恰好是讓人類學(xué)習(xí)時感到“爽”的興奮點。

[[414008]]

在訓(xùn)練開始時,太難或太容易的任務(wù)可能會鼓勵早期學(xué)習(xí),但會導(dǎo)致訓(xùn)練后期的學(xué)習(xí)飽和或停滯。

實際上,我們不要求智能體在一個任務(wù)上非常優(yōu)秀,而是鼓勵其終身學(xué)習(xí),即不斷去適應(yīng)新任務(wù)。

而所謂太難、太容易其實是比較模糊的描述。我們需要的是一個量化方法,在新任務(wù)和舊任務(wù)之間做彈性連接。

怎么不讓智能體在新任務(wù)中因為不適應(yīng)而“暴死”呢?進(jìn)化學(xué)習(xí)就提供了很好的靈活性??傮w來說,新任務(wù)和舊任務(wù)是同時進(jìn)行的,并且每個任務(wù)有多個智能體參與“競爭”。在舊任務(wù)上適應(yīng)得好的智能體,會被選拔到新任務(wù)上繼續(xù)學(xué)習(xí)。

在新任務(wù)中,舊任務(wù)的優(yōu)秀智能體的權(quán)重、瞬時任務(wù)分布、超參數(shù)都會被復(fù)制,參與新一輪“競爭”。

并且,除了舊任務(wù)中的優(yōu)秀智能體,還有很多新人參與,這就引進(jìn)了隨機(jī)性、創(chuàng)新性、靈活性,不用擔(dān)心“暴死”問題。

當(dāng)然,在每個任務(wù)中不會只有一種優(yōu)秀智能體。因為任務(wù)也是不斷在生成的、動態(tài)變化的,一個任務(wù)可以訓(xùn)練出有不同長處的智能體,并往不同的方向演化(隨著智能體的相對性能和魯棒性進(jìn)行)。

最終,每個智能體都會形成不同的擅長任務(wù)的集合,像極了春秋戰(zhàn)國時期的“百家爭鳴”。說打怪升級顯得格局小了,這簡直是在模擬地球嘛。

DeepMind表示,“這種組合學(xué)習(xí)系統(tǒng)的迭代特性是,不優(yōu)化有界性能指標(biāo),而是優(yōu)化迭代定義的通用能力范圍,這使得智能體可以開放式地學(xué)習(xí),僅受環(huán)境空間和智能體的神經(jīng)網(wǎng)絡(luò)表達(dá)能力的限制。”

3、智能初現(xiàn)

最終,在這個復(fù)雜“元宇宙”中升級、進(jìn)化、分流的智能體形成了什么優(yōu)秀物種呢?

DeepMind說道,智能體有很明顯的零樣本學(xué)習(xí)能力,比如使用工具、打圍、數(shù)數(shù)、合作&競爭等等。 

來看幾個具體的例子。

首先是,智能體學(xué)會了臨場應(yīng)變。它的目標(biāo)有三個:

  • 將黑色金字塔放到黃色球體旁邊;
  • 將紫色球體放到黃色金字塔旁邊;
  • 將黑色金字塔放到橙色地板上。

AI一開始找到了一個黑色金字塔,想著把它拿到橙色地板上(目標(biāo)3),但在搬運過程中瞄見了一個黃色球體,瞬間改變主意,“我可以實現(xiàn)目標(biāo)1啦”,將黑色金字塔放到了黃色球體旁邊。

第二個例子是,不會跳高,怎么拿到高臺上的紫色金字塔?

在這個任務(wù)中,智能體需要想辦法突破障礙,取到高臺上的紫色金字塔,高臺周邊并沒有類似階梯、斜坡一樣的路徑。

因為不會調(diào)高,所以智能體急的“掀桌子”,把周邊的幾塊豎起來的板子都弄倒了。然后,巧的是,一塊黑色石板倒在高臺邊上,“咦,等等,這不就是我要的階梯嗎?”

這個過程是否體現(xiàn)了智能體的智能,還無法肯定,可能只是一時的幸運罷了。關(guān)鍵還是,要看統(tǒng)計數(shù)據(jù)。

經(jīng)過5代訓(xùn)練,智能體在 XLand 的 4,000 個獨立世界中玩大約 700,000 個獨立游戲,涉及340 萬個獨立任務(wù)的結(jié)果,最后一代的每個智能體都經(jīng)歷了 2000 億次訓(xùn)練步驟。

目前,智能體已經(jīng)能夠順利參與幾乎每個評估任務(wù),除了少數(shù)即使是人類也無法完成的任務(wù)。

DeepMind的這項研究,或許一定程度上體現(xiàn)了“密集學(xué)習(xí)”的重要性。也就是說,不僅是數(shù)據(jù)量要大,任務(wù)量也要大。這也使得智能體在泛化能力上有很好的表現(xiàn),比如數(shù)據(jù)顯示,只需對一些新的復(fù)雜任務(wù)進(jìn)行 30 分鐘的集中訓(xùn)練,智能體就可以快速適應(yīng),而從頭開始用強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體根本無法學(xué)習(xí)這些任務(wù)。

在往后,我們也期待這個“元宇宙”變得更加復(fù)雜和生機(jī)勃勃,AI經(jīng)過不斷演化,不斷給我們帶來驚喜(細(xì)思極恐)的體驗。

[[414011]]

 

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2021-08-05 18:30:48

AI 數(shù)據(jù)人工智能

2022-04-28 13:56:10

元宇宙虛擬交易NFT

2021-12-12 18:18:15

代碼元宇宙Python

2022-04-12 14:00:05

元宇宙人工智能安全

2022-08-14 14:46:58

元宇宙Web3.0虛擬宇宙

2023-03-13 14:02:31

元宇宙

2021-11-12 09:12:49

元宇宙VRAR

2021-09-03 08:38:45

元宇宙數(shù)據(jù)安全平行時空

2023-02-03 17:50:29

元宇宙資本

2022-05-30 22:54:08

元宇宙工具情緒

2021-02-03 07:56:08

版本游戲邏輯

2022-07-06 23:28:53

元宇宙Web3.0

2020-05-22 10:35:07

CPU線程操作系統(tǒng)

2024-12-09 08:25:47

Springsave方法

2018-04-27 09:52:38

2021-12-27 14:12:52

元宇宙VR平行時空

2022-06-01 13:31:26

元宇宙AI虛擬兒童

2022-03-13 19:37:13

元宇宙安全隱私

2023-06-12 14:50:11

元宇宙蘋果MR

2022-06-27 14:31:20

元宇宙品牌運營推廣
點贊
收藏

51CTO技術(shù)棧公眾號