自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

碾壓99.8%人類(lèi)對(duì)手，星際AI登上Nature，技術(shù)首次完整披露

作者：乾明魚(yú)羊栗子 2019-10-31 14:37:55

新聞人工智能

AlphaStar，已經(jīng)超越了99.8%的人類(lèi)玩家，在神族、人族和蟲(chóng)族三個(gè)種族上都達(dá)到了宗師（Grandmaster）級(jí)別。

僅剩0.2%的星際2玩家，還沒(méi)有被AI碾壓。

這是匿名混入天梯的AlphaStar，交出的最新成績(jī)單。

同時(shí)，DeepMind也在Nature上完整披露了AlphaStar的當(dāng)前戰(zhàn)力和全套技術(shù)：

AlphaStar，已經(jīng)超越了99.8%的人類(lèi)玩家，在神族、人族和蟲(chóng)族三個(gè)種族上都達(dá)到了宗師（Grandmaster）級(jí)別。

ç¢¾åŽ‹99.8%äººç±»å¯¹æ‰‹ï¼Œä¸‰ç§æ—éƒ½è¾¾å®—å¸ˆçº§ï¼æ˜Ÿé™…AIç™»ä¸ŠNatureï¼ŒæŠ€æœ¯é¦–æ¬¡å®Œæ•´æŠ«éœ²

在論文里，我們還發(fā)現(xiàn)了特別的訓(xùn)練姿勢(shì)：

不是所有智能體都為了贏

DeepMind在博客里說(shuō)，發(fā)表在Nature上的AlphaStar有四大主要更新：

一是約束：現(xiàn)在AI視角和人類(lèi)一樣，動(dòng)作頻率的限制也更嚴(yán)了。

二是人族神族蟲(chóng)族都能1v1了，每個(gè)種族都是一個(gè)自己的神經(jīng)網(wǎng)絡(luò)。

三是聯(lián)賽訓(xùn)練完全是自動(dòng)的，是從監(jiān)督學(xué)習(xí)的智能體開(kāi)始訓(xùn)練的，不是從已經(jīng)強(qiáng)化學(xué)習(xí)過(guò)的智能體開(kāi)始的。

四是戰(zhàn)網(wǎng)成績(jī)，AlphaStar在三個(gè)種族中都達(dá)到了宗師水平，用的是和人類(lèi)選手一樣的地圖，所有比賽都有回放可看。

具體到AI的學(xué)習(xí)過(guò)程，DeepMind強(qiáng)調(diào)了特別的訓(xùn)練目標(biāo)設(shè)定：

不是每個(gè)智能體都追求贏面的最大化。

ç¢¾åŽ‹99.8%äººç±»å¯¹æ‰‹ï¼Œä¸‰ç§æ—éƒ½è¾¾å®—å¸ˆçº§ï¼æ˜Ÿé™…AIç™»ä¸ŠNatureï¼ŒæŠ€æœ¯é¦–æ¬¡å®Œæ•´æŠ«éœ²

因?yàn)槟菢又悄荏w在自我對(duì)戰(zhàn) (Self-Play) 過(guò)程中，很容易陷入某種特定的策略，只在特定的情況下有效，那面對(duì)復(fù)雜的游戲環(huán)境時(shí)，表現(xiàn)就會(huì)不穩(wěn)定了。

于是，團(tuán)隊(duì)參考了人類(lèi)選手的訓(xùn)練方法，就是和其他玩家一起做針對(duì)性訓(xùn)練：一只智能體可以通過(guò)自身的操作，把另一只智能體的缺陷暴露出來(lái)，這樣便能幫對(duì)方練出某些想要的技能。

這樣便有了目標(biāo)不同的智能體：第一種是主要智能體，目標(biāo)就是贏，第二種負(fù)責(zé)挖掘主要智能體的不足，幫它們變得更強(qiáng)，而不專(zhuān)注于提升自己的贏率。DeepMind把第二種稱(chēng)作“剝削者 (Exploiter) ”，我們索性叫它“陪練”。

AlphaStar學(xué)到的各種復(fù)雜策略，都是在這樣的過(guò)程中修煉得來(lái)的。

比如，藍(lán)色是主要玩家，負(fù)責(zé)贏，紅色是幫它成長(zhǎng)的陪練。小紅發(fā)現(xiàn)了一種cannon rush技能，小藍(lán)沒(méi)能抵擋?。?/p>

[[280921]]

然后，一只新的主要玩家 (小綠) 就學(xué)到了，怎樣才能成功抵御小紅的cannon rush技能：

[[280922]]

同時(shí)，小綠也能打敗之前的主要玩家小藍(lán)了，是通過(guò)經(jīng)濟(jì)優(yōu)勢(shì)，以及單位組合與控制來(lái)達(dá)成的：

[[280923]]

后面，又來(lái)了另一只新的陪練 (小棕) ，找到了主要玩家小綠的新弱點(diǎn)，用隱刀打敗了它：

[[280924]]

循環(huán)往復(fù)，AlphaStar變得越來(lái)越強(qiáng)大。

至于算法細(xì)節(jié)，這次也完整展現(xiàn)了出來(lái)。

AlphaStar技術(shù)，最完整披露

許多現(xiàn)實(shí)生活中的AI應(yīng)用，都涉及到多個(gè)智能體在復(fù)雜環(huán)境中的相互競(jìng)爭(zhēng)和協(xié)調(diào)合作。

而針對(duì)星際爭(zhēng)霸這樣的即時(shí)戰(zhàn)略（RTS）游戲的研究，就是解決這個(gè)大問(wèn)題過(guò)程中的一個(gè)小目標(biāo)。

也就是說(shuō)，星際爭(zhēng)霸的挑戰(zhàn)，實(shí)際上就是一種多智能體強(qiáng)化學(xué)習(xí)算法的挑戰(zhàn)。

AlphaStar學(xué)會(huì)打星際，還是靠深度神經(jīng)網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)從原始游戲界面接收數(shù)據(jù) (輸入) ，然后輸出一系列指令，組成游戲中的某一個(gè)動(dòng)作。

AlphaStar會(huì)通過(guò)概覽地圖和單位列表觀察游戲。

采取行動(dòng)前，智能體會(huì)輸出要發(fā)出的行動(dòng)類(lèi)型（例如，建造），將該動(dòng)作應(yīng)用于誰(shuí)，目標(biāo)是什么，以及何時(shí)發(fā)出下一個(gè)行動(dòng)。

動(dòng)作會(huì)通過(guò)限制動(dòng)作速率的監(jiān)視層發(fā)送到游戲中。

而訓(xùn)練，則是通過(guò)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來(lái)完成的。

最開(kāi)始，訓(xùn)練用的是監(jiān)督學(xué)習(xí)，素材來(lái)自暴雪發(fā)布的匿名人類(lèi)玩家的游戲?qū)崨r。

這些資料可以讓AlphaStar通過(guò)模仿星際天梯選手的操作，來(lái)學(xué)習(xí)游戲的宏觀和微觀策略。

最初的智能體，游戲內(nèi)置的精英級(jí) (Elite) AI就能擊敗，相當(dāng)于人類(lèi)的黃金段位 (95%) 。

而這個(gè)早期的智能體，就是強(qiáng)化學(xué)習(xí)的種子。

在它的基礎(chǔ)之上，一個(gè)連續(xù)聯(lián)賽 (Continuous League) 被創(chuàng)建出來(lái)，相當(dāng)于為智能體準(zhǔn)備了一個(gè)競(jìng)技場(chǎng)，里面的智能體互為競(jìng)爭(zhēng)對(duì)手，就好像人類(lèi)在天梯上互相較量一樣：

從現(xiàn)有的智能體上造出新的分支，就會(huì)有越來(lái)越多的選手不斷加入比賽。新的智能體再?gòu)呐c對(duì)手的競(jìng)爭(zhēng)中學(xué)習(xí)。

這種新的訓(xùn)練形式，是把從前基于種群 (Population-Based) 的強(qiáng)化學(xué)習(xí)思路又深化了一些，制造出一種可以對(duì)巨大的策略空間進(jìn)行持續(xù)探索的過(guò)程。

這個(gè)方法，在保證智能體在策略強(qiáng)大的對(duì)手面前表現(xiàn)優(yōu)秀的同時(shí)，也不忘怎樣應(yīng)對(duì)不那么強(qiáng)大的早期對(duì)手。

隨著智能體聯(lián)賽不斷進(jìn)行，新智能體的出生，就會(huì)出現(xiàn)新的反擊策略 (Counter Strategies) ，來(lái)應(yīng)對(duì)早期的游戲策略。

一部分新智能體執(zhí)行的策略，只是早期策略稍稍改進(jìn)后的版本；而另一部分智能體，可以探索出全新的策略，完全不同的建造順序，完全不同的單位組合，完全不同的微觀微操方法。

除此之外，要鼓勵(lì)聯(lián)賽中智能體的多樣性，所以每個(gè)智能體都有不同的學(xué)習(xí)目標(biāo)：比如一個(gè)智能體的目標(biāo)應(yīng)該設(shè)定成打擊哪些對(duì)手，比如該用哪些內(nèi)部動(dòng)機(jī)來(lái)影響一個(gè)智能體的偏好。

△聯(lián)盟訓(xùn)練的魯棒性

而且，智能體的學(xué)習(xí)目標(biāo)會(huì)適應(yīng)環(huán)境不斷改變。

神經(jīng)網(wǎng)絡(luò)給每一個(gè)智能體的權(quán)重，也是隨著強(qiáng)化學(xué)習(xí)過(guò)程不斷變化的。而不斷變化的權(quán)重，就是學(xué)習(xí)目標(biāo)演化的依據(jù)。

權(quán)重更新的規(guī)則，是一個(gè)新的off-policy強(qiáng)化學(xué)習(xí)算法，里面包含了經(jīng)驗(yàn)重播 (Experience Replay) ，自我模仿學(xué)習(xí) (Self-Imitation Learning) 以及策略蒸餾 (Policy Distillation) 等等機(jī)制。

歷時(shí)15年，AI制霸星際

《星際爭(zhēng)霸》作為最有挑戰(zhàn)的即時(shí)戰(zhàn)略（RTS）游戲之一，游戲中不僅需要協(xié)調(diào)短期和長(zhǎng)期目標(biāo)，還要應(yīng)對(duì)意外情況，很早就成為了AI研究的“試金石”。

因?yàn)槠涿媾R的是不完美信息博弈局面，挑戰(zhàn)難度巨大，研究人員需要花費(fèi)大量的時(shí)間，去克服其中的問(wèn)題。

DeepMind在Twitter中表示，AlphaStar能夠取得當(dāng)前的成績(jī)，研究人員已經(jīng)在《星際爭(zhēng)霸》系列游戲上工作了15年。

但DeepMind的工作真正為人所知，也就是這兩年的事情。

2017年，AlphaGo打敗李世石的第二年后，DeepMind與暴雪合作發(fā)布了一套名為PySC2的開(kāi)源工具，在此基礎(chǔ)上，結(jié)合工程和算法突破，進(jìn)一步加速對(duì)星際游戲的研究。

之后，也有不少學(xué)者圍繞星際爭(zhēng)霸進(jìn)行了不少研究。比如南京大學(xué)的俞揚(yáng)團(tuán)隊(duì)、騰訊AI Lab、加州大學(xué)伯克利分校等等。

到今年1月，AlphaStar迎來(lái)了AlphaGo時(shí)刻。

在與星際2職業(yè)選手的比賽中，AlphaStar以總比分10-1的成績(jī)制霸全場(chǎng)，人類(lèi)職業(yè)選手LiquidMaNa只在它面前堅(jiān)持了5分36秒，就GG了。

全能職業(yè)選手TLO在落敗后感嘆，和AlphaStar比賽很難，不像和人在打，有種手足無(wú)措的感覺(jué)。

半年后，AlphaStar再度迎來(lái)進(jìn)化。

DeepMind將其APM (手速) 、視野都跟人類(lèi)玩家保持一致的情況下，實(shí)現(xiàn)了對(duì)神族、人族、蟲(chóng)族完全駕馭，還解鎖了許多地圖。

與此同時(shí)，并宣布了一個(gè)最新動(dòng)態(tài)：AlphaStar將登錄游戲平臺(tái)戰(zhàn)網(wǎng)，匿名進(jìn)行天梯匹配。

現(xiàn)在，伴隨著最新論文發(fā)布，AlphaStar的最新戰(zhàn)力也得到公布：擊敗了99.8%的選手，拿到了大師級(jí)稱(chēng)號(hào)。

DeepMind在博客中表示，這些結(jié)果提供了強(qiáng)有力的證據(jù)，證明了通用學(xué)習(xí)技術(shù)可以擴(kuò)展人工智能系統(tǒng)，使之在復(fù)雜動(dòng)態(tài)的、涉及多個(gè)參與者的環(huán)境中工作。

而伴隨著星際2取得如此亮眼的成績(jī)，DeepMind也開(kāi)始將目光投向更加復(fù)雜的任務(wù)上了。

CEO哈薩比斯說(shuō)：

星際爭(zhēng)霸15年來(lái)一直是AI研究人員面臨的巨大挑戰(zhàn)，因此看到這項(xiàng)工作被《自然》雜志認(rèn)可是非常令人興奮的。

這些令人印象深刻的成果，標(biāo)志著我們朝目標(biāo)——創(chuàng)造可加速科學(xué)發(fā)現(xiàn)的智能系統(tǒng)——邁出了重要的一步。

那么，DeepMind下一步要做什么？

哈薩比斯也多次說(shuō)過(guò)，星際爭(zhēng)霸“只是”一個(gè)非常復(fù)雜的游戲，但他對(duì)AlphaStar背后的技術(shù)更感興趣。

但也有人認(rèn)為，這一技術(shù)非常適合應(yīng)用到軍事用途中。

不過(guò)，從谷歌與DeepMind 的態(tài)度中，這一技術(shù)更多的會(huì)聚焦在科學(xué)研究上。

其中包含的超長(zhǎng)序列的預(yù)測(cè)，比如天氣預(yù)測(cè)、氣候建模。

或許對(duì)于這樣的方向，最近你不會(huì)陌生。

因?yàn)楣雀鑴倓倢?shí)現(xiàn)的量子優(yōu)越性，應(yīng)用方向最具潛力的也是氣候等大問(wèn)題。

現(xiàn)在量子計(jì)算大突破，DeepMind AI更進(jìn)一步。

未來(lái)更值得期待。你說(shuō)呢？

One more thing

雖然AlphaStar戰(zhàn)績(jī)斐然，但有些人它還打不贏。

當(dāng)時(shí)AlphaStar剛進(jìn)天梯的時(shí)候，人類(lèi)大魔王Serral就公開(kāi)嘲諷，它就是來(lái)搞笑的。

但人家的確有實(shí)力，現(xiàn)在依舊能正面剛AI。

不過(guò)，敢這樣說(shuō)話(huà)的高手，全球就只有一個(gè)。

責(zé)任編輯：張燕妮來(lái)源：量子位

技術(shù)人工智能開(kāi)發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)