微軟麻將 AI 論文發(fā)布,首次公開技術(shù)細(xì)節(jié)
場景描述:還記得去年 8 月微軟發(fā)布的「雀神 AI」Suphx 嗎?今天,該研究團(tuán)隊在 arXiv 上發(fā)布了更新版的論文,進(jìn)一步介紹了 Suphx 背后的技術(shù)。
2019 年 8 月 29 日,微軟發(fā)布了一個名為 Suphx(超級鳳凰)的「麻將 AI」,在專業(yè)的麻將競技平臺上,Suphx 的實力勝過了頂級人類選手的平均水平。
當(dāng)時一經(jīng)發(fā)布,Suphx 便引起了廣泛的關(guān)注,不僅是人工智能領(lǐng)域,不少麻將愛好者也都趕來圍觀討論。
麻將的信息集數(shù)目和信息集平均大小超過了橋牌、德?lián)浜蛧?/p>
人們評價該系統(tǒng)比戰(zhàn)勝了職業(yè)圍棋手的 AlphaGo 更復(fù)雜,被譽為「最強(qiáng)日麻人工智能」。
今天,該系統(tǒng)的研發(fā)團(tuán)隊在 arXiv 上發(fā)表了論文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》(《Suphx:掌握麻將與深度強(qiáng)化學(xué)習(xí)》),更深一步地講解了 Suphx 背后的技術(shù)。
《Suphx:掌握麻將與深度強(qiáng)化學(xué)習(xí)》
論文地址:https://arxiv.org/pdf/2003.13590.pdf
Suphx 愈戰(zhàn)愈勇:已超越 99.99% 玩家
此前我們已經(jīng)介紹過,Suphx 系統(tǒng)利用深度強(qiáng)化學(xué)習(xí),從 5000 場比賽中學(xué)習(xí)、吸取經(jīng)驗之后,在日本專業(yè)的麻將競技平臺「天鳳」上擊敗了眾多麻將玩家,取得平臺「特上房」的最高段位十段。
Suphx 在天鳳平臺的段位,遠(yuǎn)高于其它麻將 AI
這樣一個強(qiáng)悍的麻將 AI,究竟是如何打造的?來自微軟亞洲研究院、京都大學(xué)、中國科學(xué)技術(shù)大學(xué)、清華大學(xué)以及南開大學(xué)的研究團(tuán)隊,在最新版的論文中,進(jìn)行了深入的介紹。
從論文中,我們也得知,Suphx 在進(jìn)一步的學(xué)習(xí)下,水平也更進(jìn)一步。在擁有超過 35 萬位玩家的「天鳳」平臺上,被官方評為水平超越 99.99% 以上玩家,這是計算機(jī)程序首次超過麻將中大多數(shù)頂級人類玩家。
五大模型與強(qiáng)化學(xué)習(xí),造就雀神 AI
Suphx 包含一系列卷積神經(jīng)網(wǎng)絡(luò),它學(xué)習(xí)了五種模型來處理不同的場景,包括 discard(丟棄模型)、Riichi 模型、chow 模型、Pong 模型和 Kong 模型。
discard 模型(上)與其它四個模型的架構(gòu)(下)
在此基礎(chǔ)上,Suphx 采用另一種基于規(guī)則的模型,來決定是否宣布贏家并進(jìn)行下一輪,檢查是否贏牌可以從其他玩家丟棄的牌中來判斷,或者從排墻上抽出來的牌來判斷。
據(jù)介紹,Suphx 的訓(xùn)練過程一共分為三步。
首先,它的 5 個模型都使用從「天鳳」平臺收集的頂級人類玩家的日志進(jìn)行訓(xùn)練。
然后,使用包含一套基于 CPU 的麻將模擬器和基于 GPU 的軌跡生成推理引擎,通過自我博弈強(qiáng)化學(xué)習(xí)對系統(tǒng)進(jìn)行微調(diào)。
最后,在在線游戲期間,使用運行時策略調(diào)整被用來觀察當(dāng)前輪的結(jié)果,從而使系統(tǒng)執(zhí)行得更好。
Suphx 中的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)
由于麻將牌局中,對手的信息都是未知的,因此,Suphx 嘗試了先知教練技術(shù)來提升強(qiáng)化學(xué)習(xí)的效果。在自我博弈的訓(xùn)練階段,利用隱藏信息引導(dǎo)模型訓(xùn)練方向 ,從而增強(qiáng) AI 模型對可見信息的理解,并找到有效的決策依據(jù)。
評估 :5760 場角逐,創(chuàng)造十段紀(jì)錄
在實驗之前,團(tuán)隊在 44 個 GPU (包括 4 個 Nvidia Titan XPs 用于參數(shù)服務(wù)器,40 個 K80s 用于自我博弈玩家)上,使用 150 萬次牌局,對每個模型進(jìn)行了為期兩天的訓(xùn)練。
該團(tuán)隊對 20 個 Nvidia Tesla K80 GPU 上的 Suphx 進(jìn)行了評估。為了減小穩(wěn)定排名的方差,他們從 100 多萬場的麻將牌局?jǐn)?shù)據(jù)集中,隨機(jī)抽取了 80 萬牌局的數(shù)據(jù),并從中進(jìn)行了 1000 次取樣。
評估結(jié)果為,在「天鳳」平臺與人類玩家進(jìn)行了超過 5760 場比賽后,Suphx 創(chuàng)造了十段的紀(jì)錄——大約只有 180 個玩家曾經(jīng)達(dá)到過這個水平。而 Suphx 穩(wěn)定的排名是 8.74 段(人類玩家最高水平是 7.4 段)。
強(qiáng)化學(xué)習(xí) agent 最終穩(wěn)定排名統(tǒng)計
在不斷優(yōu)化中,RL-2 最終取得更好的表現(xiàn)
有趣的是,研究人員寫道,Suphx 的防守「非常強(qiáng)」,放胡的概率很低,只有 10.06%,而且它開發(fā)了自己的游戲風(fēng)格,可以保證牌的安全,并以半平手取勝。
AI 玩家(南方)會選擇保守打法
放棄籃筐內(nèi)的六筒,因為牌桌上已有該牌
此外,論文的合著者寫道,大多數(shù)現(xiàn)實世界的問題,如金融市場預(yù)測和物流優(yōu)化與麻將有相同的特點。比如復(fù)雜的操作/獎勵規(guī)則、非完美信息問題等等。
作者相信,在 Suphx 中設(shè)計的麻將技術(shù),包括全局獎勵預(yù)測、先知引導(dǎo)以及政策調(diào)整等,都有巨大的潛力,將來可廣泛應(yīng)用于現(xiàn)實世界,幫助解決真實而復(fù)雜的實際問題。
看到這里,你也躍躍欲試了嗎?天鳳麻將對戰(zhàn)平臺:https://tenhou.net/, 一起來一局呀!