自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="viffv"></bdo>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型是否有推理能力？DeepMind數(shù)月前的論文讓AI社區(qū)吵起來了

作者：機器之心 2024-10-22 13:28:53

人工智能新聞

這篇論文題為「Grandmaster-Level Chess Without Search」。文中介紹說，DeepMind 的研究者訓(xùn)練了一個參數(shù)量為 2.7 億的 Transformer 模型，這個模型無需依賴復(fù)雜的搜索算法或啟發(fā)式算法就能達到「特級大師（ Grandmaster-Level ）」的國際象棋水平。

最近，DeepMind 今年 2 月份的一篇論文在社交媒體上掀起了一些波瀾。

關(guān)于該論文的早期報道。

這篇論文題為「Grandmaster-Level Chess Without Search」。文中介紹說，DeepMind 的研究者訓(xùn)練了一個參數(shù)量為 2.7 億的 Transformer 模型，這個模型無需依賴復(fù)雜的搜索算法或啟發(fā)式算法就能達到「特級大師（ Grandmaster-Level ）」的國際象棋水平，優(yōu)于 AlphaZero 的策略和價值網(wǎng)絡(luò)（不含 MCTS）以及 GPT-3.5-turbo-instruct 模型。

這一結(jié)果非常有趣，也很容易激發(fā)想象力，因為到目前為止，能達到這個級別的計算機國際象棋系統(tǒng) —— 無論是否基于機器學(xué)習(xí) —— 都使用了搜索組件。而 DeepMind 模型不依賴搜索似乎就能達到如此強大的下棋水平。

很多人將其解讀為：這表明 Transformer 不是簡單的「隨機鸚鵡」，而是具有一定的推理和規(guī)劃能力。就連該論文的作者也在「結(jié)論」部分寫道：「我們的工作為快速增長的文獻增添了新的內(nèi)容，這些文獻表明，復(fù)雜而精密的算法可以被蒸餾為前饋 transformer，這意味著一種范式的轉(zhuǎn)變，即從將大型 transformer 視為單純的統(tǒng)計模式識別器，轉(zhuǎn)變?yōu)閷⑵湟暈橥ㄓ盟惴ń频膹姶蠹夹g(shù)?！?/span>

不過，這種解讀也引來了一些爭議。比如，Meta FAIR 研究科學(xué)家主任田淵棟指出，論文采用的評估方法 ——「blitz」可能存在一些局限。「blitz」字面意思是閃電戰(zhàn)，在國際象棋中指超快棋。在這種棋賽中，對局每方僅有幾分鐘的時間思考，玩家往往依賴直覺而非深入的搜索和解決問題的能力。此外，模型與機器人對弈時的分數(shù)比與人類對弈時的分數(shù)要低。田淵棟認為這可能是因為人類在有限的時間內(nèi)可能沒有機器人那么擅長發(fā)現(xiàn)戰(zhàn)術(shù)上的失誤。所以，這種比賽可能并不足以用來測試模型是否擁有推理能力。

一向喜歡唱反調(diào)的紐約大學(xué)教授 Gary Marcus 這次也沒有缺席，他也認為論文的結(jié)論被夸大了，模型的泛化能力存在嚴重問題。

其實，在今年 2 月份論文剛出來的時候，就有一些研究者寫過關(guān)于該論文的質(zhì)疑文章，有興趣的讀者可以點開閱讀。

博客鏈接：https://arjunpanickssery.substack.com/p/skepticism-about-deepminds-grandmaster

博客鏈接：https://gist.github.com/yoavg/8b98bbd70eb187cf1852b3485b8cda4f#user-content-fnref-3-b6ec0872d32c5df9324eccad8269953b

論文概覽

人工智能最具標(biāo)志性的成功之一是 IBM 的深藍（Deep Blue）在 1997 年擊敗了國際象棋冠軍 Garry Kasparov。人們普遍認為，這證明了機器能夠在需要復(fù)雜理性推理和戰(zhàn)略規(guī)劃的智力領(lǐng)域中超越人類 —— 而這些智力領(lǐng)域一直被認為只有人類才能涉足。

深藍是一個專家系統(tǒng)，它結(jié)合了廣泛的象棋知識和啟發(fā)式規(guī)則以及強大的樹搜索算法（alpha-beta 剪枝）。幾乎所有當(dāng)代且更強大的象棋引擎都遵循類似的模式，目前世界上最強大的（公開可用的）引擎是 Stockfish 16。

值得注意的例外是 DeepMind 的 AlphaZero，以及它的開源復(fù)制品 Leela Chess Zero（它目前在象棋電腦比賽中經(jīng)常排名第二），它們使用搜索和自學(xué)的啟發(fā)式規(guī)則，但不依賴人類的象棋知識。

最近，人工智能系統(tǒng)在擴展方面取得了突破性進展，這使其在認知領(lǐng)域取得了巨大進步，而這些領(lǐng)域?qū)τ谙瘛干钏{」這樣的早期系統(tǒng)來說仍然具有挑戰(zhàn)性。推動這一進步的是通用技術(shù)，特別是在專家數(shù)據(jù)上進行（自）監(jiān)督訓(xùn)練，并大規(guī)模應(yīng)用基于注意力的架構(gòu)。在此過程中，研究者們開發(fā)出了具有令人印象深刻的認知能力的 LLM，如 OpenAI 的 GPT 系列、LLaMA 模型系列或谷歌 DeepMind 的 Chinchilla 和 Gemini。

然而，目前還不清楚同樣的技術(shù)是否適用于國際象棋這樣的領(lǐng)域，因為在這一領(lǐng)域，成功的策略通常依賴于復(fù)雜的算法推理（搜索、動態(tài)規(guī)劃）和復(fù)雜的啟發(fā)式規(guī)則。因此，本文的主要問題是：是否有可能利用監(jiān)督學(xué)習(xí)來獲得一種國際象棋策略，這種策略能很好地泛化到新棋局，而不需要顯式搜索？

為了研究這一問題，作者將大規(guī)模通用監(jiān)督訓(xùn)練的成功秘訣應(yīng)用于國際象棋（見圖 1）。

作者使用基于注意力的標(biāo)準(zhǔn)架構(gòu)和標(biāo)準(zhǔn)監(jiān)督訓(xùn)練協(xié)議來學(xué)習(xí)預(yù)測棋盤的動作 - 值（action-value，對應(yīng)勝率）。因此，由此產(chǎn)生的國際象棋策略的強度完全取決于底層行動值預(yù)測器的強度。

為了獲得大量「真實」動作 - 值的數(shù)據(jù)庫，作者使用 Stockfish 16 作為預(yù)言機，對數(shù)百萬個棋盤狀態(tài)進行注釋，這些棋盤狀態(tài)來自 lichess.org 上隨機抽取的人類對弈棋局。正如論文中展示的那樣，這將產(chǎn)生一個強大的特級大師級國際象棋策略（在 Lichess 平臺上的閃擊戰(zhàn)中，該模型對陣人類玩家的 Elo 評分為 2895 分）。該策略由一個當(dāng)代 transformer 驅(qū)動，無需任何顯式搜索即可預(yù)測動作 - 值。該策略優(yōu)于 GPT-3.5- turbo-instruct（也優(yōu)于 GPT-4）和 AlphaZero 的策略和價值網(wǎng)絡(luò)，后者的 Elo 評分分別為 1755、1620 和 1853。

因此，這項工作表明，通過標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)，有可能在足夠大的規(guī)模上將 Stockfish 16 的良好近似值蒸餾到前饋神經(jīng)網(wǎng)絡(luò)中 —— 正如 1921 年至 1927 年國際象棋世界冠軍 José Raúl Capablanca 所言：「我只看到前面的一步棋，但它總是正確的一步」。

論文地址：https://arxiv.org/pdf/2402.04494

方法介紹

數(shù)據(jù)。為了構(gòu)建數(shù)據(jù)集，作者從 2023 年 2 月開始在 Lichess (lichess.org) 下載了 1000 萬場游戲。并從這些游戲中提取所有棋盤狀態(tài) s，并使用 Stockfish 16 估計每個狀態(tài)的狀態(tài)值，時間限制為每局 50 毫秒。

方法。對于預(yù)測器，作者使用僅有解碼器的 transformer 作為主干來參數(shù)化離散概率分布，并對 transformer 的輸出應(yīng)用 log-softmax 層進行歸一化。因此，模型輸出對數(shù)概率。

在動作 - 值預(yù)測中，上下文大小為 79，而在狀態(tài) - 值預(yù)測和行為克隆中，上下文大小為 78。對于動作和狀態(tài) - 值預(yù)測，輸出大小為 ??，對于行為克隆，輸出大小為 1968（所有可能合法動作的數(shù)量）。之后作者使用學(xué)習(xí)到的位置編碼，從而保持輸入序列的長度是恒定的。最大的模型大約有 2.7 億個參數(shù)。

Token 化。棋盤狀態(tài)??被編碼為 FEN 字符串，作者將其轉(zhuǎn)換為固定長度為 77 個字符的字符串，其中每個字符的 ASCII 碼即為一個 token。FEN 字符串描述了棋盤上所有棋子的位置、當(dāng)前輪到哪方、雙方玩家的易位、半步計時器和全步計數(shù)器。

作者采用 FEN 字符串中任何可變長度的字段，在必要時用填充的方法，將其轉(zhuǎn)換為固定長度的子字符串。對于動作，作者以 UCI 表示法存儲動作。為了對其進行 Token 化，作者確定了所有可能的合法動作總共有 1968 個，按字母數(shù)字順序（區(qū)分大小寫）排序，并取動作的索引作為 token，這意味著動作是由單一 token 描述的。

預(yù)測器協(xié)議

預(yù)測器是離散分布的，根據(jù)預(yù)測目標(biāo)，作者將任務(wù)分成三類（參見上圖 1）：動作 - 值預(yù)測 (AV， Action-value ) 、狀態(tài) - 值預(yù)測 (SV， State-value ) 以及行為克隆 (BC， Behavioral cloning )。

基準(zhǔn)

作者將本方法與 Stockfish 16、AlphaZero 的三種變體進行了比較，但并沒有和 GPT-4 進行比較，因為他們發(fā)現(xiàn) GPT-4 很難在不做出非法動作的情況下玩完整個游戲。

實驗結(jié)果

表 1 主要評估了具有 9M、136M 和 270M 參數(shù)的三個 Transformer 模型。結(jié)果表明，這三個模型都表現(xiàn)出對新棋盤的非凡泛化能力，并且可以成功解決大部分謎題。

在所有指標(biāo)中，擁有更大的模型可以持續(xù)提高得分，這證實了模型規(guī)模對于國際象棋表現(xiàn)至關(guān)重要。最大的模型在與人類玩家的比賽中取得了 2895 Elo，達到大師級別。

圖 2 中作者將 270M 參數(shù)模型與 Stockfish 16、GPT-3.5-turbo-instruct 和 AlphaZero 價值網(wǎng)絡(luò)的性能進行了比較。實驗中使用了 10k 個謎題的大型謎題集進行實驗。

Stockfish 16 在所有難度類別中表現(xiàn)最佳，其次是本文的 270M 模型。

作者強調(diào)，解決謎題需要正確的移動順序，并且由于本文的策略無法明確提前規(guī)劃，因此解決謎題序列完全依賴于良好的值估計。

圖 3 展示了對數(shù)據(jù)集和模型大小進行擴展的分析。

對于較小的訓(xùn)練集大小（10k 個游戲），較大的架構(gòu)（≥ 7M）隨著訓(xùn)練的進行開始過度擬合。

當(dāng)數(shù)據(jù)集大小增加到 100k 和 1M 場游戲時，這種影響會消失。

結(jié)果還表明，隨著數(shù)據(jù)集大小的增加，模型的最終準(zhǔn)確率會提高（在模型大小之間保持一致）。同樣，作者觀察到架構(gòu)大小增加的總體趨勢是無論數(shù)據(jù)集大小如何，整體性能都會提高。

通過下表 2 可以得出以下幾點：

動作 - 值預(yù)測器在動作排名、動作準(zhǔn)確率和謎題準(zhǔn)確率方面更勝一籌。

模型的性能隨著深度的增加而增加，但似乎在 8 層左右達到飽和，這表明深度很重要，但不能超過某個點。

責(zé)任編輯：張燕妮來源：機器之心

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="p1wak"></center>

<sub id="p1wak"></sub>