打王者到踢足球,騰訊絕悟AI再進(jìn)化
12月30日,騰訊宣布其人工智能球隊(duì)摘得首屆谷歌足球Kaggle競(jìng)賽冠軍。該冠軍球隊(duì)來自騰訊AI Lab研發(fā)的絕悟WeKick版本,憑借1785.8的總分在與全球頂級(jí)技術(shù)團(tuán)隊(duì)的競(jìng)技中以顯著優(yōu)勢(shì)勝出。
今年11月底,騰訊AI Lab與王者榮耀聯(lián)合研發(fā)的策略協(xié)作型AI絕悟升級(jí)為完全體,首次讓AI精通了所有英雄的所有技能。此次絕悟WeKick版本的整體設(shè)計(jì)正是基于絕悟完全體遷移得到,并針對(duì)足球任務(wù)進(jìn)行了一些針對(duì)性的調(diào)整,展現(xiàn)了絕悟AI背后深度強(qiáng)化學(xué)習(xí)方法的通用能力。
Kaggle 競(jìng)賽 Google Football 排行榜前十名,
來自 https://www.kaggle.com/c/google-football/leaderboard
Kaggle創(chuàng)立于2010年,是全球最大的數(shù)據(jù)科學(xué)社區(qū)和數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)。此次足球AI比賽由Google Research與英超曼城俱樂部在Kaggle平臺(tái)上聯(lián)合舉辦。
一直以來,足球運(yùn)動(dòng)團(tuán)隊(duì)策略以其復(fù)雜性、多樣性和高難度,成為長期困擾世界頂尖AI研究團(tuán)隊(duì)的難題,更加稀疏的游戲激勵(lì)也使得其成為比MOBA游戲更難攻克的目標(biāo)。今年Kaggle首次針對(duì)足球AI領(lǐng)域發(fā)布賽題,為深度強(qiáng)化學(xué)習(xí)多智能體技術(shù)競(jìng)技和基準(zhǔn)評(píng)測(cè)提供了一個(gè)全新舞臺(tái)。
比賽使用Google Research Football強(qiáng)化學(xué)習(xí)環(huán)境,基于開源足球游戲Gameplay Football開發(fā),采取11vs11的賽制,參賽團(tuán)隊(duì)需要控制其中1個(gè)智能體與10個(gè)內(nèi)置智能體組成球隊(duì),兼具挑戰(zhàn)性和趣味性。一經(jīng)推出,便吸引了來自世界頂級(jí)院校和研究機(jī)構(gòu)的1100多支科研強(qiáng)隊(duì)參與挑戰(zhàn)。
“11 個(gè)強(qiáng)化學(xué)習(xí)智能體的合作與對(duì)抗”
Google Football(on Kaggle)以流行的足球游戲?yàn)槟P?,就像是一款由AI操作的FIFA游戲,智能體控制足球隊(duì)中的一個(gè)或所有足球運(yùn)動(dòng)員,學(xué)習(xí)如何在他們之間傳球,并設(shè)法克服對(duì)手的防守以進(jìn)球。其競(jìng)賽規(guī)則與普通足球比賽類似,比如目標(biāo)都是將球踢入對(duì)方球門以及越位、黃牌和紅牌規(guī)則。
不同于常見足球視頻游戲的統(tǒng)一調(diào)控式NPC球隊(duì),在本次Kaggle競(jìng)賽中,每個(gè)球員都各由一個(gè)單獨(dú)的智能體控制,而參賽的AI模型則根據(jù)比賽情況控制其中一個(gè)智能體,與其他10個(gè)內(nèi)置智能體配合。這要求每個(gè)球員不僅需要觀察對(duì)手的行為,還需要留意己方隊(duì)員的情況,背后需要非常復(fù)雜的團(tuán)隊(duì)協(xié)作和競(jìng)爭策略作為支撐。
WeKick(黃色球衣) vs SaltyFish(本次競(jìng)賽第二名)近期的一局比賽實(shí)錄(射門)
舉個(gè)例子,當(dāng)對(duì)方球員控球時(shí),己方智能體不僅要根據(jù)球場(chǎng)上雙方球員的分布位置預(yù)測(cè)控球球員的下一步動(dòng)作,還需要與己方其他球員協(xié)同如何合規(guī)地奪取足球的控制權(quán)。且由于球場(chǎng)動(dòng)態(tài)瞬息萬變,因此高速的實(shí)時(shí)決策能力也是必需的。
此外,從零開始完全采用強(qiáng)化學(xué)習(xí)方法來訓(xùn)練完整的足球AI實(shí)際上也相當(dāng)困難。與MOBA游戲中不斷有經(jīng)濟(jì)、血量、經(jīng)驗(yàn)等實(shí)時(shí)學(xué)習(xí)信號(hào)不同,足球的游戲激勵(lì)非常稀疏,基本只能依靠進(jìn)球,而稀疏激勵(lì)一直是目前強(qiáng)化學(xué)習(xí)一大難題。
絕悟AI如何走上冠軍之路
得益于深度強(qiáng)化學(xué)習(xí)在游戲領(lǐng)域突飛猛進(jìn)的發(fā)展,從Atari游戲到圍棋再到多種不同的視頻游戲,AI智能體在不斷的迭代演化中變得越來越強(qiáng)大,而足球運(yùn)動(dòng)團(tuán)隊(duì)策略的難關(guān)也得以被攻克。
絕悟WeKick版本首先采用了強(qiáng)化學(xué)習(xí)和自博弈(Self-Play)來從零開始訓(xùn)練模型,并部署了一種異步的分布式強(qiáng)化學(xué)習(xí)框架。雖然該異步架構(gòu)犧牲了訓(xùn)練階段的部分實(shí)時(shí)性能,但靈活性卻得到顯著提升,而且還支持在訓(xùn)練過程中按需調(diào)整計(jì)算資源,使其能適應(yīng) 11 智能體足球游戲訓(xùn)練環(huán)境。
由于MOBA游戲和足球游戲任務(wù)目標(biāo)的差異,絕悟WeKick版本采用了生成對(duì)抗模擬學(xué)習(xí)(GAIL)與人工設(shè)計(jì)的獎(jiǎng)勵(lì)結(jié)合,在特征與獎(jiǎng)勵(lì)設(shè)計(jì)上進(jìn)行了擴(kuò)展和創(chuàng)新。該方案利用了生成對(duì)抗訓(xùn)練機(jī)制來擬合專家行為的狀態(tài)和動(dòng)作分布,使得絕悟WeKick版本可以從其它球隊(duì)學(xué)習(xí)。然后,再將 GAIL 訓(xùn)練的模型作為固定對(duì)手進(jìn)行進(jìn)一步自博弈訓(xùn)練,進(jìn)一步提升策略的穩(wěn)健性。
GAIL 的優(yōu)勢(shì)(WeKick 的獎(jiǎng)勵(lì)設(shè)計(jì)綜合了 Reward Shaping 和 GAIL 兩種方案)
但這種通過自博弈強(qiáng)化學(xué)習(xí)得到的模型有一個(gè)天然的缺點(diǎn):很容易收斂到單一風(fēng)格。在實(shí)際比賽的時(shí)候單一風(fēng)格的模型很容易發(fā)生由于沒見過某種打法而表現(xiàn)失常,最終導(dǎo)致成績不佳的情況。因此,為了提升策略的多樣性和穩(wěn)健性,絕悟還采用了針對(duì)多智能體學(xué)習(xí)任務(wù)的League(若干策略池)多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案。
這種League多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案的主要流程可簡單總結(jié)為先專精后綜合。
首先訓(xùn)練一個(gè)具備一定程度競(jìng)技能力的基礎(chǔ)模型,比如運(yùn)球過人、傳球配合、射門得分;接著基于基礎(chǔ)模型訓(xùn)練出多個(gè)風(fēng)格化模型,每個(gè)模型專注一種風(fēng)格打法,在風(fēng)格化模型訓(xùn)練的過程中會(huì)定期加入主模型作為對(duì)手,避免過度堅(jiān)持風(fēng)格,丟失基本能力;最后基于多個(gè)基礎(chǔ)模型訓(xùn)練一個(gè)主模型,主模型除了以自己的歷史模型為對(duì)手以外,還會(huì)定期加入所有風(fēng)格化對(duì)手的最新模型作為對(duì)手,確保主模型能夠適應(yīng)風(fēng)格完全不同的對(duì)手。
內(nèi)部能力評(píng)分系統(tǒng)顯示,加入對(duì)手池訓(xùn)練以后的主模型,可以在基礎(chǔ)模型的基礎(chǔ)上提高200分,比最強(qiáng)的風(fēng)格化打法高80分。
最終,基于絕悟完全體的架構(gòu)遷移,定制化的框架改進(jìn),加上關(guān)鍵性的生成對(duì)抗模擬學(xué)習(xí)(GAIL)方案和 League (若干策略池)多風(fēng)格強(qiáng)化學(xué)習(xí)訓(xùn)練方案,使得絕悟?qū)崿F(xiàn)了優(yōu)于其它競(jìng)爭AI球隊(duì)的優(yōu)勢(shì),最終成就了冠軍之路。
WeKick(黃色球衣) vs SaltyFish(本次競(jìng)賽第二名)近期的一局比賽實(shí)錄(傳球)
此次絕悟WeKick版本奪冠,意味著在絕悟繼完全體升級(jí)后,其背后的深度強(qiáng)化學(xué)習(xí)方案又訓(xùn)練出了適應(yīng)復(fù)雜足球競(jìng)技場(chǎng)景的AI模型,展現(xiàn)了騰訊AI Lab在前沿AI技術(shù)上的研發(fā)實(shí)力,也驗(yàn)證了騰訊絕悟AI底層架構(gòu)與方法的通用性。
據(jù)了解,絕悟團(tuán)隊(duì)的研究方向正在從足球比賽中的單個(gè)智能體控制向11個(gè)智能體同時(shí)控制、協(xié)同作戰(zhàn)深入,當(dāng)完整的足球獨(dú)立智能體個(gè)數(shù)達(dá)到11個(gè),強(qiáng)化學(xué)習(xí)的難度將隨著智能體個(gè)數(shù)的增長呈現(xiàn)指數(shù)級(jí)的爆炸增長,同時(shí)足球智能體之間差距不大,如何自動(dòng)形成角色分工以及在不同角色間的激勵(lì)分配也一直是多智能體強(qiáng)化的難題。在此前5v5形式(多智能體)的谷歌天梯比賽Google Research Football League中,騰訊絕悟團(tuán)隊(duì)也摘得冠軍,展現(xiàn)了絕悟AI的巨大潛力。
從圍棋AI絕藝到MOBA游戲AI絕悟再到如今的AI足球隊(duì)WeKick,騰訊AI Lab的深度強(qiáng)化學(xué)習(xí)智能體正在步步進(jìn)化,逐漸向更復(fù)雜更多樣化的問題遷移,騰訊也正在向通用人工智能的終極目標(biāo)堅(jiān)定邁進(jìn)。長遠(yuǎn)來看,絕悟背后的研發(fā)經(jīng)驗(yàn)和算法積累,未來還將在AI與農(nóng)業(yè)、醫(yī)療及智慧城市等廣闊領(lǐng)域的結(jié)合上展現(xiàn)巨大潛力,創(chuàng)造出更大的實(shí)用價(jià)值。