自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AlphaZero黑箱終于被打開!登頂5年后,人類揭開它學(xué)會下棋的奧秘

人工智能
AlphaZero于2017年由DeepMind發(fā)布并一鳴驚人。這是一種神經(jīng)網(wǎng)絡(luò)驅(qū)動的強(qiáng)化學(xué)習(xí)器,專精于棋類,內(nèi)部包含了殘差網(wǎng)絡(luò)(ResNet)骨干網(wǎng)及分離的策略及價值heads。

AI如何學(xué)到知識的?科學(xué)家敲開了它的腦殼看了看。

這兩天,DeepMind及谷歌大腦一篇文章被《美國國家科學(xué)院院刊》(PNAS)收錄,其內(nèi)容正是以5年前發(fā)布的AlphaZero為例,研究神經(jīng)網(wǎng)絡(luò)如何獲取并理解國際象棋知識。

圖片

在內(nèi)容中,研究者重點(diǎn)關(guān)注了「神經(jīng)網(wǎng)絡(luò)是如何學(xué)習(xí)的」「知識又如何被量化表示」等問題。

有意思的是,他們發(fā)現(xiàn):

在沒有人類對弈指導(dǎo)下,AlphaZero仍形成了一套類似專業(yè)棋手才懂的概念體系。研究者還進(jìn)一步探尋了這些概念何時何處形成。

此外,他們還對比了AlphaZero與人類開局棋風(fēng)的不同。

有網(wǎng)友感慨,這是個影響深遠(yuǎn)的工作:

圖片

也有人感慨,AlphaZero能計算任何人類行為特征了?!

圖片

欲知更多觀察結(jié)果,往下看。

掀起了神經(jīng)網(wǎng)絡(luò)的頭蓋骨

AlphaZero于2017年由DeepMind發(fā)布并一鳴驚人。

這是一種神經(jīng)網(wǎng)絡(luò)驅(qū)動的強(qiáng)化學(xué)習(xí)器,專精于棋類,內(nèi)部包含了殘差網(wǎng)絡(luò)(ResNet)骨干網(wǎng)及分離的策略及價值heads。

其輸出函數(shù)可表示如下,z為國際象棋排布情況:

圖片

為研究AlphaZero如何「學(xué)習(xí)」的,研究者構(gòu)建了一個人類理解國際象棋的函數(shù)c(z0)。其中,z0為一個象棋特定排布概念,c(z0)以專業(yè)國際象棋引擎Stockfish 8評估分?jǐn)?shù)作為參考。

再從AlphaZero角度,設(shè)一個廣義線性函數(shù)g(zd),作為在不同層取值的探針。訓(xùn)練設(shè)定下,g(zd)將不斷趨近??(??0),研究者通過觀察g(zd)與??(??0)近似情況,以確認(rèn)系統(tǒng)是否理解相關(guān)概念。

圖片

接著,研究團(tuán)隊隨機(jī)抽取了10萬盤游戲作為訓(xùn)練集,觀察AlphaZero表現(xiàn)。

情況如下圖,結(jié)果顯示,隨著訓(xùn)練步數(shù)(step)及ResNet網(wǎng)絡(luò)塊數(shù)(block)越來越多,AlphaZero表現(xiàn)出來的分?jǐn)?shù)越來越高(圖A),對弈過程中,每一步對敵方威脅性的也隨之增加(圖C)。

圖片

由于實(shí)驗(yàn)中出現(xiàn)了異常值,研究者探討了其背后的潛在語義。

如下圖,少數(shù)紅色點(diǎn)位置遠(yuǎn)離主流分布,殘差值也在紅虛線之上,說明人類對棋局判斷c函數(shù)與g函數(shù)有明顯差異。

研究團(tuán)隊發(fā)現(xiàn),這些值對應(yīng)棋局中,人類判斷為白方有利,同時,黑方皇后都能在兌子(exchange)過程中被進(jìn)一步吃掉。

研究者推斷認(rèn)為,這是源于AlphaZero的Value Head與參考評價函數(shù)編碼方式與參考系統(tǒng)的不同。

圖片

此外,研究者還觀察了人類棋手及國際象棋編程所看重的重要參數(shù),隨訓(xùn)練過程的變化,其中包括:國王安全度(King Safety)、一方棋子總戰(zhàn)力(Material)、機(jī)動性(Mobility)、走棋威脅性(Threats)等。

結(jié)果顯示,它們在初始情況下幾乎為零,但隨著訓(xùn)練不斷往下進(jìn)行,以國王安全度(King Safety)、一方棋子總戰(zhàn)力(Material)為代表,部分參數(shù)在模型中的權(quán)重明顯上升。

這讓研究者相信,通過訓(xùn)練過程,AlphaZero已經(jīng)逐漸掌握了原本沒有教給它的相關(guān)重要概念或者說知識。

圖片

最后,研究者還著重看了看開局演變與下棋風(fēng)格,發(fā)現(xiàn)AlphaZero隨時間推移,下棋路徑選擇范圍在縮小,而人類下棋偏好和路徑在變多。

科研人員表示,目前原因尚不清楚,但它反應(yīng)了人與機(jī)器神經(jīng)網(wǎng)絡(luò)之間的根本差異。

圖片

關(guān)于后續(xù)研究方向,作者提出,下一步希望能探索AI模型能否超越人類的認(rèn)知概念范圍,去掌握學(xué)會新的東西。

團(tuán)隊介紹

本文一作Thomas McGrath 來自DeepMind,博士畢業(yè)于倫敦帝國學(xué)院,主要研究領(lǐng)域包括ML、人工智能安全及可解釋性。

二作Andrei Kapishnikov,來自Google Brain,主攻人工智能應(yīng)用領(lǐng)域,早前曾在VMware及Oracle從事技術(shù)工作。

圖片

值得一提的是,國際象棋大師Vladimir Kramnik也參與了該項目的研究。

參考鏈接:[1]?https://twitter.com/weballergy/status/1461281358324588544[2]?https://www.pnas.org/doi/10.1073/pnas.2206625119

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2022-11-18 18:39:03

AI神經(jīng)網(wǎng)絡(luò)

2023-02-24 15:56:24

AI象棋

2023-05-22 09:19:19

2012-02-08 10:26:50

筆記本評測

2012-08-24 09:23:00

Windows Log

2025-03-21 13:17:38

2023-02-20 15:00:44

2009-12-03 09:19:41

Linux系統(tǒng)奧秘

2015-08-18 15:14:47

2023-05-23 14:17:01

云原生百度知乎

2021-06-29 18:45:18

Windows 11微軟控制面板

2019-06-06 15:33:59

GitHub微軟開發(fā)者

2012-07-02 16:55:48

4G

2013-10-11 15:25:43

華為存儲華為

2012-12-18 09:16:21

IBM計算機(jī)感官

2020-08-31 11:10:57

編程語言PythonJava

2025-01-16 08:20:00

2009-05-25 10:02:47

SanDisk摩爾定律失效

2013-05-21 14:45:42

BYOD網(wǎng)絡(luò)管理員工自帶設(shè)備

2019-10-30 10:42:42

CIO數(shù)字化轉(zhuǎn)型開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號