自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="rkpvo"></pre>

<meter id="rkpvo"><dfn id="rkpvo"><thead id="rkpvo"></thead></dfn></meter>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

吳恩達(dá)力贊！哈佛、MIT學(xué)者用下棋證明：大型語言模型確實「理解」了世界

作者：新智元 2023-09-07 13:22:00

人工智能新聞

大型語言模型理解世界了嗎？那要看你怎么理解「理解世界」。

2021年，華盛頓大學(xué)語言學(xué)家Emily M. Bender發(fā)表了一篇論文，認(rèn)為大型語言模型不過是「隨機鸚鵡」（stochastic parrots）而已，它們并不理解真實世界，只是統(tǒng)計某個詞語出現(xiàn)的概率，然后像鸚鵡一樣隨機產(chǎn)生看起來合理的字句。

由于神經(jīng)網(wǎng)絡(luò)的不可解釋性，學(xué)術(shù)界也弄不清楚語言模型到底是不是隨機鸚鵡，各方觀點差異分歧極大。

由于缺乏廣泛認(rèn)可的測試，模型是否能「理解世界」也成為了哲學(xué)問題而非科學(xué)問題。

最近，來自哈佛大學(xué)、麻省理工學(xué)院的研究人員共同發(fā)表了一項新研究Othello-GPT，在簡單的棋盤游戲中驗證了內(nèi)部表征的有效性，他們認(rèn)為語言模型的內(nèi)部確實建立了一個世界模型，而不只是單純的記憶或是統(tǒng)計，不過其能力來源還不清楚。

論文鏈接：https://arxiv.org/pdf/2210.13382.pdf

實驗過程非常簡單，在沒有任何奧賽羅規(guī)則先驗知識的情況下，研究人員發(fā)現(xiàn)模型能夠以非常高的準(zhǔn)確率預(yù)測出合法的移動操作，捕捉棋盤的狀態(tài)。

吳恩達(dá)在「來信」欄目中對該研究表示高度認(rèn)可，他認(rèn)為基于該研究，有理由相信大型語言模型構(gòu)建出了足夠復(fù)雜的世界模型，在某種程度上來說，確實理解了世界。

博客鏈接：https://www.deeplearning.ai/the-batch/does-ai-understand-the-world/

不過吳恩達(dá)也表示，雖然哲學(xué)很重要，但這樣的爭論可能會無休無止，所以不如編程去吧！

棋盤世界模型

如果把棋盤想象成一個簡單的「世界」，并要求模型在對局中不斷決策，就可以初步測試出序列模型是否能夠?qū)W習(xí)到世界表征。

研究人員選擇一個簡單的黑白棋游戲奧賽羅（Othllo）作為實驗平臺，其規(guī)則是在8*8棋盤的中心位置，先放入四個棋子，黑白各兩個；然后雙方輪流下子，在直線或斜線方向，己方兩子之間的所有敵子（不能包含空格）全部變?yōu)榧鹤樱ǚQ為吃子），每次落子必須有吃子；最后棋盤全部占滿，子多者為勝。

相比國際象棋來說，奧賽羅的規(guī)則簡單得多；同時棋類游戲的搜索空間足夠大，模型無法通過記憶完成序列生成，所以很適合測試模型的世界表征學(xué)習(xí)能力。

Othello語言模型

研究人員首先訓(xùn)練了一個GPT變體版語言模型（Othello-GPT），將游戲腳本（玩家做出的一系列棋子移動操作）輸入到模型中，但模型沒有關(guān)于游戲及相關(guān)規(guī)則的先驗知識。

模型也沒有被明確訓(xùn)練以追求策略提升、贏得對局等，只是在生成合法奧賽羅移動操作時準(zhǔn)確率比較高。

數(shù)據(jù)集

研究人員使用了兩組訓(xùn)練數(shù)據(jù)：

錦標(biāo)賽（Championship）更關(guān)注數(shù)據(jù)質(zhì)量，主要是從兩個奧賽羅錦標(biāo)賽中專業(yè)的人類玩家采用的、更具戰(zhàn)略思考的移動步驟，但分別只收集到7605個和132921個游戲樣本，兩個數(shù)據(jù)集合并后以8：2的比例隨機分成訓(xùn)練集（2000萬個樣本）和驗證集（379.6萬個）。

合成（Synthetic）更關(guān)注數(shù)據(jù)的規(guī)模，由隨機的、合法的移動操作組成，數(shù)據(jù)分布不同于錦標(biāo)賽數(shù)據(jù)集，而是均勻地從奧賽羅游戲樹上采樣獲得，其中2000萬個樣本用于訓(xùn)練，379.6萬個樣本用于驗證。

每場游戲的描述由一串token組成，詞表大小為60（8*8-4）

模型和訓(xùn)練

模型的架構(gòu)為8層GPT模型，具有8個頭，隱藏維度為512

模型的權(quán)重完全隨機初始化，包括word embedding層，雖然表示棋盤位置的詞表內(nèi)存在幾何關(guān)系（如C4低于B4），但這種歸納偏置并沒有明確表示出來，而是留給模型學(xué)習(xí)。

預(yù)測合法移動

模型的主要評估指標(biāo)就是模型預(yù)測的移動操作是否符合奧賽羅的規(guī)則。

在合成數(shù)據(jù)集上訓(xùn)練的Othello-GPT錯誤率為0.01%，在錦標(biāo)賽數(shù)據(jù)集上的錯誤率為5.17%，相比之下，未經(jīng)訓(xùn)練的Othello-GPT的錯誤率為93.29%，也就是說這兩個數(shù)據(jù)集都一定程度上讓模型學(xué)會了游戲規(guī)則。

一個可能的解釋是，模型記住了奧賽羅游戲的所有移動操作。

為了驗證這個猜想，研究人員合成了一個新的數(shù)據(jù)集：在每場比賽開始時，奧賽羅有四種可能的開局棋位置（C5、D6、E3和F4），將所有C5開局的走法移除后作為訓(xùn)練集，再將C5開局的數(shù)據(jù)作為測試，也就是移除了近1/4的博弈樹，結(jié)果發(fā)現(xiàn)模型錯誤率仍然只有0.02%

所以O(shè)thello-GPT的高性能并不是因為記憶，因為測試數(shù)據(jù)是訓(xùn)練過程中完全沒見過的，那到底是什么讓模型成功預(yù)測？

探索內(nèi)部表征

一個常用的神經(jīng)網(wǎng)絡(luò)內(nèi)部表征探測工具就是探針（probe），每個探針是一個分類器或回歸器，其輸入由網(wǎng)絡(luò)的內(nèi)部激活組成，并經(jīng)過訓(xùn)練以預(yù)測感興趣的特征。

在這個任務(wù)中，為了檢測Othello-GPT的內(nèi)部激活是否包含當(dāng)前棋盤狀態(tài)的表征，輸入移動序列后，用內(nèi)部激活向量對下一個移動步驟進(jìn)行預(yù)測。

當(dāng)使用線性探針時，訓(xùn)練后的Othello-GPT內(nèi)部表征只比隨機猜測的準(zhǔn)確率高了一點點。

當(dāng)使用非線性探針（兩層MLP）時，錯誤率大幅下降，證明了棋盤狀態(tài)并不是以一種簡單的方式存儲在網(wǎng)絡(luò)激活中。

干預(yù)實驗

為了確定模型預(yù)測和涌現(xiàn)世界表征之間的因果關(guān)系，即棋盤狀態(tài)是否確實影響了網(wǎng)絡(luò)的預(yù)測結(jié)果，研究人員進(jìn)行了一組干預(yù)（intervention）試驗，并測量由此產(chǎn)生的影響程度。

給定來自O(shè)thello-GPT的一組激活，用探針預(yù)測棋盤狀態(tài)，記錄相關(guān)聯(lián)的移動預(yù)測，然后修改激活，讓探針預(yù)測更新的棋盤狀態(tài)。

干預(yù)操作包括將某個位置的棋子從白色變成黑色等，一個小的修改就會導(dǎo)致模型結(jié)果發(fā)現(xiàn)內(nèi)部表征能夠可靠地完成預(yù)測，即內(nèi)部表征與模型預(yù)測之間存在因果影響。

可視化

除了干預(yù)實驗驗證內(nèi)部表征的有效性外，研究人員還將預(yù)測結(jié)果可視化，比如說對于棋盤上的每個棋子，可以詢問模型如果用干預(yù)技術(shù)將該棋子改變，模型的預(yù)測結(jié)果將如何變化，對應(yīng)預(yù)測結(jié)果的顯著性。

然后根據(jù)當(dāng)前棋盤狀態(tài)的top1預(yù)測的顯著性對牌進(jìn)行著色可視化，因為繪制出來的圖是基于網(wǎng)絡(luò)的潛空間而輸入，所以也可以叫做潛在顯著性圖（latent saliency map）。

可以看到，在合成和錦標(biāo)賽數(shù)據(jù)集上訓(xùn)練的Othello-GPTs的top1預(yù)測的潛顯著性圖中都展現(xiàn)出了清晰的模式。

合成版Othello-GPT在合法操作位置中顯示出了更高的顯著性值，非法操作的顯著性值明顯更低，稍微有點經(jīng)驗的棋手都能看出模型的意圖；

錦標(biāo)賽版的顯著圖更復(fù)雜，雖然合法操作位置的顯著性值比較高，但其他位置也顯示出較高的顯著性，可能是因為奧賽羅高手考慮更多的是全局特征。

責(zé)任編輯：張燕妮來源：新智元

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="fibbk"></blockquote>

<style id="fibbk"></style>