驚呆了!訓(xùn)練7萬(wàn)小時(shí)后,OpenAI的模型竟然學(xué)會(huì)在「我的世界」里刨木頭
最近,似乎早已把GPT拋在腦后的OpenAI又整了個(gè)新活。
在經(jīng)過(guò)海量無(wú)標(biāo)注視頻以及一點(diǎn)點(diǎn)標(biāo)注過(guò)的數(shù)據(jù)訓(xùn)練之后,AI終于學(xué)會(huì)了在「我的世界」(Minecraft)里制作鉆石鎬。
而整套流程需要一個(gè)骨灰級(jí)玩家至少20分鐘的時(shí)間才能完成,總計(jì)要操作24000次。
這個(gè)東西吧,看似簡(jiǎn)單,但對(duì)AI來(lái)說(shuō)卻非常困難。
7歲小孩看10分鐘就能學(xué)會(huì)
對(duì)于最簡(jiǎn)單的木鎬,讓人類玩家從頭開(kāi)始學(xué)過(guò)程并不太難。
一個(gè)死宅不到3分鐘用單個(gè)視頻就能教會(huì)下一個(gè)。
演示視頻全長(zhǎng)2分52秒
然而,鉆石鎬的制作就復(fù)雜多了。
不過(guò)即便如此,一個(gè)7歲小孩也只需看上十分鐘的演示視頻,就能學(xué)會(huì)了。
這個(gè)任務(wù)的難點(diǎn),主要在如何挖到鉆石礦。
過(guò)程大概可以概括為12個(gè)步驟:先徒手刨下像素塊「木頭」,再由原木合成木塊,木塊制作木棍,木棍制作工坊裝具臺(tái),工臺(tái)造木鎬,木鎬敲石塊,石塊加木棍做石鎬,石鎬打造煉爐,煉爐加工鐵礦,鐵礦熔鑄鐵錠,鐵錠制作鐵鎬,鐵鎬去挖鉆石。
現(xiàn)在,壓力來(lái)到了AI這邊。
正巧,CMU、OpenAI、DeepMind、Microsoft Research等機(jī)構(gòu)自2019年起,就搞了一個(gè)相關(guān)的比賽——MineRL。
參賽選手需要自研出一個(gè)「自主從零開(kāi)始打造工具、自動(dòng)尋找并挖掘鉆石礦」的人工智能體,而獲勝條件也很簡(jiǎn)單—最快者勝出。
結(jié)果如何?
在首屆MineRL比賽結(jié)束之后,「7歲小孩看10分鐘視頻就學(xué)會(huì),AI用了8百萬(wàn)步還搞不定」,可是上了Nature雜志的。
數(shù)據(jù)雖多,但我用不上啊
「我的世界」作為沙盒建筑游戲,其玩家策略、游戲內(nèi)虛擬環(huán)境的高開(kāi)放性,特別適合作為各種AI模型學(xué)習(xí)、決策能力的測(cè)試場(chǎng)和試金石。
而且作為一款「國(guó)民級(jí)」的游戲,想在網(wǎng)上找到和「我的世界」相關(guān)的視頻簡(jiǎn)直易如反掌。
然而,不管是搭建教程,還是炫耀自己的作品,從某種程度上來(lái)說(shuō)都只是在畫(huà)面上呈現(xiàn)出的結(jié)果。
換句話說(shuō),看視頻的人只能知道up主干了個(gè)啥,干的怎么樣,但沒(méi)法知道是怎么干的。
更具體點(diǎn),電腦屏幕上呈現(xiàn)出來(lái)的只是結(jié)果,而操作步驟是up主在鍵盤上的不停點(diǎn)擊,以及鼠標(biāo)的不停移動(dòng),這部分是看不到的。
甚至,連這個(gè)過(guò)程都是經(jīng)過(guò)剪輯的,人看了估計(jì)都學(xué)不會(huì),更別說(shuō)AI了。
雪上加霜的是,不少玩家抱怨在游戲里刨木頭的枯燥度,太像做作業(yè)完成任務(wù)。結(jié)果一波更新之后,有不少工具可以直接白撿……這下,連數(shù)據(jù)都不好找了。
而OpenAI想要讓AI學(xué)會(huì)玩兒「我的世界」,就必須找到一個(gè)辦法,能夠讓這些海量的未標(biāo)注的視頻數(shù)據(jù)派上用場(chǎng)。
視頻預(yù)訓(xùn)練模型——VPT
于是,VPT應(yīng)運(yùn)而出。
論文地址:https://cdn.openai.com/vpt/Paper.pdf
這東西說(shuō)新也新,但是卻并不復(fù)雜,是一種半監(jiān)督式的模仿學(xué)習(xí)方法。
首先,收集一波數(shù)據(jù)標(biāo)注外包們玩游戲的數(shù)據(jù),其中包含視頻和鍵鼠操作的記錄。
VPT方法概述
然后,研究人員用這些數(shù)據(jù)搞了個(gè)逆動(dòng)力學(xué)模型(inverse dynamics model,IDM),可以推測(cè)出視頻中每一步進(jìn)行的時(shí)候,鍵鼠都是怎么動(dòng)的。
這樣一來(lái),整個(gè)任務(wù)就變得簡(jiǎn)單多了,只需要比原來(lái)少很多的數(shù)據(jù)就可以實(shí)現(xiàn)目的。
用一小撮外包數(shù)據(jù)搞完IDM之后,就可以用IDM接下來(lái)標(biāo)注更大規(guī)模的無(wú)標(biāo)記數(shù)據(jù)集了。
基礎(chǔ)模型訓(xùn)練數(shù)據(jù)對(duì)微調(diào)的影響
在訓(xùn)練了70000個(gè)小時(shí)以后,OpenAI的行為克隆模型就能實(shí)現(xiàn)各種別的模型做不到的工作了。
模型學(xué)會(huì)了怎么砍樹(shù)收集木頭,怎么用木頭做木條,怎么用木條做桌子。而這一套事兒需要一個(gè)比較熟練的玩家操作小50秒的時(shí)間。
除了做桌子,模型還能游泳,打獵,吃東西。
甚至還有「跑跳搭」的騷操作,也就是起跳的時(shí)候腳下放個(gè)磚塊或者木塊,跳著跳著就能搭個(gè)柱子。這屬于是骨灰級(jí)玩家的必修課了。
制作桌子(0 shot)
打獵(0 shot)
「跑跳搭」簡(jiǎn)陋版(0 shot)
而為了讓模型能完成一些更精細(xì)的任務(wù),一般還會(huì)把數(shù)據(jù)集微調(diào)成更小的規(guī)模,區(qū)分細(xì)小的方向。
OpenAI做了一項(xiàng)研究,展示了用VPT訓(xùn)練過(guò)的模型,再經(jīng)過(guò)了微調(diào)之后,有多適應(yīng)下游的數(shù)據(jù)集。
研究人員邀請(qǐng)人玩兒了10分鐘的「我的世界」,用基礎(chǔ)材料搭了個(gè)房子。他們希望通過(guò)這種方式可以加強(qiáng)模型執(zhí)行一些游戲初期的任務(wù)的能力,比如說(shuō)搭一個(gè)工作臺(tái)。
當(dāng)對(duì)該數(shù)據(jù)集進(jìn)行完微調(diào)以后,研究人員不僅發(fā)現(xiàn)模型在執(zhí)行初期任務(wù)時(shí)更加得心應(yīng)手,還發(fā)現(xiàn)模型自個(gè)兒研究明白了怎么分別做出一張木制的工作臺(tái),和一張石制的工具臺(tái)。
有時(shí)候,研究人員還能看到模型自己搭建簡(jiǎn)陋的避難所,搜查村子,還有搶箱子。
制作一把石鎬的全過(guò)程(下方標(biāo)注的時(shí)間是一名熟練玩家執(zhí)行同樣的任務(wù)的耗時(shí))
制作石鎬
然后我們來(lái)看看,OpenAI的專家們是怎么進(jìn)行的微調(diào)。
他們使用的辦法是,強(qiáng)化學(xué)習(xí)(RL)。
大多數(shù)RL方法通過(guò)隨機(jī)探索先驗(yàn)來(lái)解決這些挑戰(zhàn),例如模型通常被激勵(lì)通過(guò)熵獎(jiǎng)勵(lì)隨機(jī)行動(dòng)。VPT 模型應(yīng)該是RL更好的先驗(yàn)?zāi)P?,因?yàn)槟M人類行為可能比采取隨機(jī)行動(dòng)更有幫助。
研究人員將模型設(shè)置為收集鉆石鎬這類艱巨任務(wù),這是「我的世界」中前所未有的功能,因?yàn)閳?zhí)行整個(gè)任務(wù)時(shí)使用本機(jī)人機(jī)界面時(shí)會(huì)變得更加困難。
制作鉆石鎬需要一系列漫長(zhǎng)而復(fù)雜的子任務(wù)。為了使這項(xiàng)任務(wù)易于處理,研究人員為序列中的每個(gè)項(xiàng)目獎(jiǎng)勵(lì)智能體。
他們發(fā)現(xiàn),從隨機(jī)初始化(標(biāo)準(zhǔn)RL方法)訓(xùn)練的RL策略幾乎沒(méi)有獲得任何獎(jiǎng)勵(lì),從不學(xué)習(xí)收集日志,而且很少收集木棍。
與之形成鮮明對(duì)比的是,VPT模型的微調(diào)不僅可以學(xué)習(xí)如何制作鉆石鎬,而且在收集所有物品方面的成功率,甚至達(dá)到人類水平。
而這是第一次有人展示能夠在「我的世界」中制作鉆石工具的計(jì)算機(jī)模型。