顫抖吧人類!阿爾法狗之后又有了冷撲大師
恐怕大家都是從阿爾法狗擊敗李世乭這條熱文,才開始關(guān)注AI的吧,然而現(xiàn)在不光有了阿爾法狗,還出了一個冷撲大師,專攻德?lián)涞囊豢預I機器人。
首先先來了解下德州撲克與棋類的區(qū)別。圍棋是一種“完美信息游戲”,場面上所有的情況都黑白分明地擺在棋面上,雙方掌握對等的信息。然而,德?lián)渲须[藏了很多信息,是一種“非完美信息游戲”。玩家不知道對手手中是什么牌,不知道五張公共牌會開出怎樣的結(jié)果,也不知道對手猜測自己握有怎樣的手牌。因此,雖然一盤德?lián)涞臎Q策點數(shù)量是10的160次方,要少于圍棋,但光靠搜索是打不了德?lián)涞?。德?lián)溆纱颂隽嗽谒阉髁可系妮^量,對AI提出了另一個方向上的考驗:應對隱藏的信息。
阿爾法狗的幾個基本原理,分別為:走棋網(wǎng)絡(Policy Network),給定當前局面,預測和采樣下一步的走棋;快速走子(Fast rollout),在適當犧牲走棋質(zhì)量的條件下提高速度;價值網(wǎng)絡(Value Network),給定當前局面,估計雙方勝率;蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上三個部分串聯(lián)成一個完整的系統(tǒng)。
冷撲大師的算法則主要基于:納什均衡、虛擬遺憾最小化算法(Counterfactual Regret Minimization,CFR)、殘局解算器(end-game solver)和自我強化學習等模塊。
然而對于用戶來說,阿爾法狗和冷撲大師除了能讓我們看看新聞以外,哪個又更有用呢?
在現(xiàn)實生活中,我們遇到的事情會更像玩德?lián)洌荷虡I(yè)談判時對方未知的底牌、房屋拍賣時競爭對手難測的舉動、股票交易中一些隱藏的內(nèi)部消息。桑德霍姆認為,德?lián)銩I打開了靠人工智能解決隨機事件和隱藏信息的大門。這樣的AI,才有望離開虛擬的棋牌世界,成為人類在現(xiàn)實生活中談判、博弈和投資的好幫手。