中國(guó)AI麻將打出新高度!戰(zhàn)勝真人職業(yè)選手,鵝廠「絕藝」刷新戰(zhàn)績(jī)
不愧是中國(guó)AI,打麻將“輕松”登頂。
騰訊最新消息,旗下棋牌類AI“絕藝”LuckyJ在日本麻將平臺(tái)“天鳳”上,刷新AI在麻將領(lǐng)域最好成績(jī)。
僅需1321盤對(duì)局,絕藝LuckyJ就達(dá)到了AI最高段位,比第二名Suphx減少了4052盤對(duì)局。
而且它的能力穩(wěn)定在十段,要知道人類頂級(jí)選手的平均穩(wěn)定段位也只有7.4。
圖片
在日本麻將天鳳平臺(tái)上,絕藝LuckyJ也成為僅有的27個(gè)達(dá)到十段的玩家之一(包括AI),而該平臺(tái)的平均活躍人數(shù)在23.8萬(wàn)。
不止是日本麻將,在國(guó)標(biāo)麻將中,絕藝LuckyJ也曾擊敗過(guò)六位職業(yè)選手,成為首個(gè)戰(zhàn)勝國(guó)標(biāo)麻將職業(yè)選手的麻將AI。
圖片
其中一位國(guó)標(biāo)麻將選手作出了這樣的評(píng)價(jià)。
我們通常所謂的妙手、靈光一現(xiàn),甚至是基于經(jīng)驗(yàn)和感覺(jué)做出的置之死地而后生的選擇,對(duì)于AI來(lái)說(shuō)可能都是常規(guī)操作了。
在絕藝LuckyJ拿下日本麻將十段后,還有不少網(wǎng)友前來(lái)祝賀。
圖片
圖片
畢竟在AI打麻將背后,提升的其實(shí)是AI在問(wèn)題決策上的能力,這也有利于讓AI去解決更多現(xiàn)實(shí)生活中復(fù)雜的問(wèn)題。
所以絕藝LuckyJ是怎么做到的?
打麻將AI需要學(xué)會(huì)更平衡的策略
先來(lái)看AI打麻將難在哪。
對(duì)于AI來(lái)說(shuō),玩游戲是一種極佳的檢驗(yàn)其能力的方式,常見(jiàn)形式比如下象棋、下圍棋、打王者榮耀等。
在這其中,圍棋和象棋等屬于完美信息博弈。即游戲雙方在每次落子前都能看到全局信息,也就是相互能看到彼此的情況。
這對(duì)AI來(lái)說(shuō)難度并不高,因?yàn)樗梢酝ㄟ^(guò)強(qiáng)大算力暴力求解,找到一個(gè)最優(yōu)解。
但是打麻將的情況就復(fù)雜了。
玩家之間不僅無(wú)法看到多個(gè)其他玩家的牌,還有大量信息隱藏在沒(méi)有揭開(kāi)的牌里,這就是典型的非完美信息博弈。
也就是說(shuō)AI和人類玩家在最開(kāi)始時(shí)都只能看到自己手里的13張牌,另外有一百多張牌未知。而且在每次打牌時(shí)要做一系列復(fù)雜的決策,比如是否吃牌、碰牌、胡牌等,做出的決策還要兼顧進(jìn)攻和防守。
與此同時(shí),其他玩家的吃碰杠操作都會(huì)改變接下來(lái)的摸牌順序,決策更加復(fù)雜。
在這樣一個(gè)橫坐標(biāo)表示可觀察信息量、縱坐標(biāo)表示隱藏信息量的圖標(biāo)中,可以看到麻將包含的隱藏信息遠(yuǎn)遠(yuǎn)高于其他棋牌游戲。
圖片
所以該怎么辦?
騰訊AI Lab提出了一種基于強(qiáng)化學(xué)習(xí)和遺憾值最小化的自我博弈技術(shù)。
這使得AI能從零開(kāi)始自我學(xué)習(xí)和提升能力,并最終收斂到一個(gè)最強(qiáng)的混合策略,在實(shí)際對(duì)戰(zhàn)過(guò)程中可以具備更加平衡的策略能力。
同時(shí)考慮到傳統(tǒng)的非完美信息搜索算法在麻將面前很難發(fā)揮太大作用,研究人員還基于樂(lè)觀價(jià)值估計(jì)的思想,提出了一種高效的非完美搜索方法,使得AI能在海量隱藏信息的游戲狀態(tài)中,實(shí)時(shí)調(diào)整當(dāng)前策略,更好應(yīng)對(duì)多變的戰(zhàn)局。
據(jù)研究員介紹,相比人類,AI在麻將游戲中,擁有更加平衡的策略,對(duì)局勢(shì)的計(jì)算非常精確,其中包括打每張牌的期望收益、未來(lái)可能胡哪些番型等等。在這樣的“策略”訓(xùn)練下,AI之后也能更快速進(jìn)入到其他行業(yè)中去。
在具體實(shí)戰(zhàn)測(cè)試中,絕藝LuckyJ是在“天鳳”中對(duì)決。
這是一個(gè)老牌日本麻將游戲平臺(tái),創(chuàng)建于2006年。
從bootstrap分布來(lái)看,絕藝LuckyJ顯著強(qiáng)于另外兩個(gè)日本麻將AI(Suphx、NAGA):LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05。
圖片
另外在國(guó)標(biāo)麻將將近2000場(chǎng)對(duì)局中,絕藝LuckyJ的平均贏番達(dá)到1.76番。
(這里番表示國(guó)標(biāo)麻將的結(jié)算單位,數(shù)值越大說(shuō)明贏得越多)
圖片
圖片
游戲AI已經(jīng)跨行應(yīng)用了
不過(guò),這么費(fèi)勁提升AI的打麻將能力,當(dāng)然不是只想讓它打麻將。
騰訊 AI Lab 研究員介紹,在游戲環(huán)境中推進(jìn)決策AI的能力,最終是希望AI能從虛擬走向現(xiàn)實(shí),解決真實(shí)世界的復(fù)雜問(wèn)題。
在現(xiàn)實(shí)世界中充滿了需要在非完美信息狀態(tài)下做決策的場(chǎng)景,比如金融交易、自動(dòng)駕駛、交通物流、拍賣系統(tǒng)等。
而且騰訊AI Lab也已經(jīng)有了實(shí)際案例。
其旗下另一個(gè)決策AI絕悟,就學(xué)會(huì)了識(shí)別病理全片掃描圖像中的病灶位置,效率是傳統(tǒng)方法的400%。
圖片
這個(gè)AI找尋最優(yōu)看片路徑的方法,是基于強(qiáng)化學(xué)習(xí)。
它避免了用傳統(tǒng)的窮舉方式去分析局部圖像切塊,而是先決策找到有觀察價(jià)值的區(qū)域,并通過(guò)跨多個(gè)分辨率級(jí)別獲得代表性特征,以加速完成全片判讀。
通過(guò)模仿人類的思維方式,不僅提高了看片效率,還做到了節(jié)約成本。
綜上,會(huì)玩《我的世界》的絕悟已經(jīng)能懸壺濟(jì)世了,也讓人期待會(huì)打麻將的絕藝之后能跨行干啥呢?
你覺(jué)得絕藝LuckyJ有哪些可應(yīng)用的方向?