自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細節(jié)

新聞 人工智能
最新消息,騰訊又圍繞王者榮耀AI“絕悟”發(fā)表了新論文,已經(jīng)被AI頂會AAAI 2020收錄。

 [[286697]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

最新消息,騰訊又圍繞王者榮耀AI“絕悟”發(fā)表了新論文,已經(jīng)被AI頂會AAAI 2020收錄。

這是繼今年8月份絕悟在5v5比賽中擊敗職業(yè)戰(zhàn)隊后,騰訊首次披露AI背后的技術(shù)細節(jié)。

騰訊研究人員表示,將AI執(zhí)行動作時間限制在業(yè)余高手玩家相同的水平上(間隔為133ms),絕悟已經(jīng)能夠單挑頂級職業(yè)選手,并在其擅長的英雄上實現(xiàn)碾壓,15場比賽中職業(yè)選手只贏了1場,并且最多堅持不到8分鐘。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細節(jié)

在今年8月份的公開測試中,這一王者榮耀1V1的AI與大量頂級業(yè)余玩家進行了2100場對戰(zhàn)。AI勝率達到99.81%。

在貂蟬(法師)、狄仁杰(射手)、花木蘭(上單/戰(zhàn)士)、露娜(打野/刺客)、魯班(射手)等英雄上,勝率都是100%。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細節(jié)

如此AI是怎么訓練出來的?我們且看騰訊最新論文中披露的最新細節(jié)。

30小時達到王者水平,70小時比肩職業(yè)玩家

首先需要指明的是,騰訊的這篇新論文關(guān)注的是 1v1 游戲AI,并不是 5v5 游戲AI。

研究人員在論文中解釋稱,后者更注重所有智能體的團隊合作策略,而不是單個智能體的動作決策。

[[286698]]

考慮到這一點,1v1游戲更適合用來研究游戲中的復雜動作決策問題,也能夠更加全面系統(tǒng)的研究游戲 AI 智能體的構(gòu)建。

AI的整體架構(gòu)一共分為4個模塊:強化學習學習器(RL Learner)、人工智能服務器(AI Server)、分發(fā)模塊(Dispatch Module)和記憶池(Memory Pool)。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細節(jié)

這是一種高可擴展低耦合的系統(tǒng)架構(gòu),可以用來構(gòu)建數(shù)據(jù)并行化。主要考慮的是復雜智能體的動作決策問題可能引入高方差的隨機梯度,所以有必要采用較大的批大小以加快訓練速度。

其中,AI服務器實現(xiàn)的是 AI 模型與環(huán)境的交互方式。分發(fā)模塊是用于樣本收集、壓縮和傳輸?shù)墓ぷ髡?。記憶池是?shù)據(jù)存儲模塊,能為 RL 學習器提供訓練實例。

這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設計和環(huán)境邏輯上。這樣的系統(tǒng)設計也可用于其它的多智能體競爭問題。

在強化學習學習器中,他們還實現(xiàn)了一個 actor-critic 神經(jīng)網(wǎng)絡,用于建模1v1 游戲中的動作依賴關(guān)系。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細節(jié)

為了應對游戲中的多個場景決策,研究人員們還提出了一系列算法策略,來實現(xiàn)更高效率的訓練:

  • 為了幫助AI在戰(zhàn)斗中選擇目標,引入目標注意力機制;
  • 為了學習英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害,使用了LSTM;
  • 用于構(gòu)建多標簽近端策略優(yōu)化(PPO)目標,采用動作依賴關(guān)系的解耦;
  • 為了引導強化學習過程中的探索,開發(fā)了基于游戲知識的剪枝方法;
  • 為了確保使用大和有偏差的數(shù)據(jù)批進行訓練時的收斂性,改進 PPO 算法提出dual-clip PPO,其示意圖如下所示:
單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細節(jié)

研究人員在論文中指出,基于這樣的方法訓練一個英雄,使用48個P40 GPU卡和18000個CPU 內(nèi)核,訓練一天相當于人類打500年,訓練30個小時就能達到王者段位水平,70個小時比肩職業(yè)玩家,其表現(xiàn)要顯著優(yōu)于多種baseline方法。

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細節(jié)

而且如前所述,在與人類選手交戰(zhàn)的測試中,獲得了非常亮眼的成績。

如果你想了解關(guān)于這一AI更多的細節(jié),我們將論文鏈接放到了文末~

來自騰訊AI Lab和天美工作室,還在打造開放平臺

單挑碾壓頂尖職業(yè)選手,騰訊公開王者榮耀AI最新細節(jié)

與2018年12月份發(fā)布的王者榮耀AI論文作者單位相比,這次多了“天美工作室”——王者榮耀的開發(fā)團隊。

[[286700]]

除了研究,騰訊AI Lab與王者榮耀還將聯(lián)合推出“開悟”AI+游戲開放平臺。

王者榮耀會開放游戲數(shù)據(jù)、游戲核心集群(Game Core)和工具,騰訊AI Lab會開放強化學習、模仿學習的計算平臺和算力,邀請高校與研究機構(gòu)共同推進相關(guān)AI研究,并通過平臺定期測評,來展示多智能體決策研究實力。

目前“開悟”平臺已啟動高校內(nèi)測,預計在2020年5月全面開放高校測試,并且在測試環(huán)境上,支持1v1,5v5等多種模式。

騰訊透露,計劃在2020年12月舉辦首屆AI在王者榮耀應用的水平測試。

 

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-08-05 08:00:04

AI 數(shù)據(jù)人工智能

2021-09-03 16:17:11

服貿(mào)會騰訊

2020-08-25 15:07:49

騰訊云KPL王者榮耀

2017-08-30 12:17:02

Python王者榮耀套路

2020-05-02 15:10:53

AI 王者榮耀人工智能

2023-04-06 09:37:22

谷歌AI

2022-05-13 15:19:51

程序員

2025-02-14 08:30:00

模型AI訓練

2020-04-03 09:05:43

麻將 AI Suphx神經(jīng)網(wǎng)絡

2017-08-18 12:04:34

2016-09-26 17:06:29

2020-12-30 14:03:29

騰訊AI人工智能

2015-06-24 09:18:22

谷歌SDN

2017-11-27 11:02:46

高并發(fā)突發(fā)池系統(tǒng)架構(gòu)王者榮耀

2017-10-30 08:20:16

王者榮耀騰訊云游戲

2017-12-25 16:20:40

Python自動化王者榮耀

2017-07-10 14:20:45

2017-06-09 18:31:00

電競手游王者榮耀

2020-09-01 10:46:55

微服務架構(gòu)服務器

2020-07-10 08:27:55

王者榮耀微服務架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號