大模型是否有推理能力?DeepMind數(shù)月前的論文讓AI社區(qū)吵起來了
最近,DeepMind 今年 2 月份的一篇論文在社交媒體上掀起了一些波瀾。
關(guān)于該論文的早期報道。
這篇論文題為「Grandmaster-Level Chess Without Search」。文中介紹說,DeepMind 的研究者訓(xùn)練了一個參數(shù)量為 2.7 億的 Transformer 模型,這個模型無需依賴復(fù)雜的搜索算法或啟發(fā)式算法就能達到「特級大師( Grandmaster-Level )」的國際象棋水平,優(yōu)于 AlphaZero 的策略和價值網(wǎng)絡(luò)(不含 MCTS)以及 GPT-3.5-turbo-instruct 模型。
這一結(jié)果非常有趣,也很容易激發(fā)想象力,因為到目前為止,能達到這個級別的計算機國際象棋系統(tǒng) —— 無論是否基于機器學(xué)習(xí) —— 都使用了搜索組件。而 DeepMind 模型不依賴搜索似乎就能達到如此強大的下棋水平。
很多人將其解讀為:這表明 Transformer 不是簡單的「隨機鸚鵡」,而是具有一定的推理和規(guī)劃能力。就連該論文的作者也在「結(jié)論」部分寫道:「我們的工作為快速增長的文獻增添了新的內(nèi)容,這些文獻表明,復(fù)雜而精密的算法可以被蒸餾為前饋 transformer,這意味著一種范式的轉(zhuǎn)變,即從將大型 transformer 視為單純的統(tǒng)計模式識別器,轉(zhuǎn)變?yōu)閷⑵湟暈橥ㄓ盟惴ń频膹姶蠹夹g(shù)?!?/span>
不過,這種解讀也引來了一些爭議。比如,Meta FAIR 研究科學(xué)家主任田淵棟指出,論文采用的評估方法 ——「blitz」可能存在一些局限。「blitz」字面意思是閃電戰(zhàn),在國際象棋中指超快棋。在這種棋賽中,對局每方僅有幾分鐘的時間思考,玩家往往依賴直覺而非深入的搜索和解決問題的能力。此外,模型與機器人對弈時的分數(shù)比與人類對弈時的分數(shù)要低。田淵棟認為這可能是因為人類在有限的時間內(nèi)可能沒有機器人那么擅長發(fā)現(xiàn)戰(zhàn)術(shù)上的失誤。所以,這種比賽可能并不足以用來測試模型是否擁有推理能力。
一向喜歡唱反調(diào)的紐約大學(xué)教授 Gary Marcus 這次也沒有缺席,他也認為論文的結(jié)論被夸大了,模型的泛化能力存在嚴重問題。
其實,在今年 2 月份論文剛出來的時候,就有一些研究者寫過關(guān)于該論文的質(zhì)疑文章,有興趣的讀者可以點開閱讀。
博客鏈接:https://arjunpanickssery.substack.com/p/skepticism-about-deepminds-grandmaster
博客鏈接:https://gist.github.com/yoavg/8b98bbd70eb187cf1852b3485b8cda4f#user-content-fnref-3-b6ec0872d32c5df9324eccad8269953b
論文概覽
人工智能最具標(biāo)志性的成功之一是 IBM 的深藍(Deep Blue)在 1997 年擊敗了國際象棋冠軍 Garry Kasparov。人們普遍認為,這證明了機器能夠在需要復(fù)雜理性推理和戰(zhàn)略規(guī)劃的智力領(lǐng)域中超越人類 —— 而這些智力領(lǐng)域一直被認為只有人類才能涉足。
深藍是一個專家系統(tǒng),它結(jié)合了廣泛的象棋知識和啟發(fā)式規(guī)則以及強大的樹搜索算法(alpha-beta 剪枝)。幾乎所有當(dāng)代且更強大的象棋引擎都遵循類似的模式,目前世界上最強大的(公開可用的)引擎是 Stockfish 16。
值得注意的例外是 DeepMind 的 AlphaZero,以及它的開源復(fù)制品 Leela Chess Zero(它目前在象棋電腦比賽中經(jīng)常排名第二),它們使用搜索和自學(xué)的啟發(fā)式規(guī)則,但不依賴人類的象棋知識。
最近,人工智能系統(tǒng)在擴展方面取得了突破性進展,這使其在認知領(lǐng)域取得了巨大進步,而這些領(lǐng)域?qū)τ谙瘛干钏{」這樣的早期系統(tǒng)來說仍然具有挑戰(zhàn)性。推動這一進步的是通用技術(shù),特別是在專家數(shù)據(jù)上進行(自)監(jiān)督訓(xùn)練,并大規(guī)模應(yīng)用基于注意力的架構(gòu)。在此過程中,研究者們開發(fā)出了具有令人印象深刻的認知能力的 LLM,如 OpenAI 的 GPT 系列、LLaMA 模型系列或谷歌 DeepMind 的 Chinchilla 和 Gemini。
然而,目前還不清楚同樣的技術(shù)是否適用于國際象棋這樣的領(lǐng)域,因為在這一領(lǐng)域,成功的策略通常依賴于復(fù)雜的算法推理(搜索、動態(tài)規(guī)劃)和復(fù)雜的啟發(fā)式規(guī)則。因此,本文的主要問題是:是否有可能利用監(jiān)督學(xué)習(xí)來獲得一種國際象棋策略,這種策略能很好地泛化到新棋局,而不需要顯式搜索?
為了研究這一問題,作者將大規(guī)模通用監(jiān)督訓(xùn)練的成功秘訣應(yīng)用于國際象棋(見圖 1)。
作者使用基于注意力的標(biāo)準(zhǔn)架構(gòu)和標(biāo)準(zhǔn)監(jiān)督訓(xùn)練協(xié)議來學(xué)習(xí)預(yù)測棋盤的動作 - 值(action-value,對應(yīng)勝率)。因此,由此產(chǎn)生的國際象棋策略的強度完全取決于底層行動值預(yù)測器的強度。
為了獲得大量「真實」動作 - 值的數(shù)據(jù)庫,作者使用 Stockfish 16 作為預(yù)言機,對數(shù)百萬個棋盤狀態(tài)進行注釋,這些棋盤狀態(tài)來自 lichess.org 上隨機抽取的人類對弈棋局。正如論文中展示的那樣,這將產(chǎn)生一個強大的特級大師級國際象棋策略(在 Lichess 平臺上的閃擊戰(zhàn)中,該模型對陣人類玩家的 Elo 評分為 2895 分)。該策略由一個當(dāng)代 transformer 驅(qū)動,無需任何顯式搜索即可預(yù)測動作 - 值。該策略優(yōu)于 GPT-3.5- turbo-instruct(也優(yōu)于 GPT-4)和 AlphaZero 的策略和價值網(wǎng)絡(luò),后者的 Elo 評分分別為 1755、1620 和 1853。
因此,這項工作表明,通過標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí),有可能在足夠大的規(guī)模上將 Stockfish 16 的良好近似值蒸餾到前饋神經(jīng)網(wǎng)絡(luò)中 —— 正如 1921 年至 1927 年國際象棋世界冠軍 José Raúl Capablanca 所言:「我只看到前面的一步棋,但它總是正確的一步」。
論文地址:https://arxiv.org/pdf/2402.04494
方法介紹
數(shù)據(jù)。為了構(gòu)建數(shù)據(jù)集,作者從 2023 年 2 月開始在 Lichess (lichess.org) 下載了 1000 萬場游戲。并從這些游戲中提取所有棋盤狀態(tài) s,并使用 Stockfish 16 估計每個狀態(tài)的狀態(tài)值,時間限制為每局 50 毫秒。
方法。對于預(yù)測器,作者使用僅有解碼器的 transformer 作為主干來參數(shù)化離散概率分布,并對 transformer 的輸出應(yīng)用 log-softmax 層進行歸一化。因此,模型輸出對數(shù)概率。
在動作 - 值預(yù)測中,上下文大小為 79,而在狀態(tài) - 值預(yù)測和行為克隆中,上下文大小為 78。對于動作和狀態(tài) - 值預(yù)測,輸出大小為 ??,對于行為克隆,輸出大小為 1968(所有可能合法動作的數(shù)量)。之后作者使用學(xué)習(xí)到的位置編碼,從而保持輸入序列的長度是恒定的。最大的模型大約有 2.7 億個參數(shù)。
Token 化。棋盤狀態(tài)??被編碼為 FEN 字符串,作者將其轉(zhuǎn)換為固定長度為 77 個字符的字符串,其中每個字符的 ASCII 碼即為一個 token。FEN 字符串描述了棋盤上所有棋子的位置、當(dāng)前輪到哪方、雙方玩家的易位、半步計時器和全步計數(shù)器。
作者采用 FEN 字符串中任何可變長度的字段,在必要時用填充的方法,將其轉(zhuǎn)換為固定長度的子字符串。對于動作,作者以 UCI 表示法存儲動作。為了對其進行 Token 化,作者確定了所有可能的合法動作總共有 1968 個,按字母數(shù)字順序(區(qū)分大小寫)排序,并取動作的索引作為 token,這意味著動作是由單一 token 描述的。
預(yù)測器協(xié)議
預(yù)測器是離散分布的,根據(jù)預(yù)測目標(biāo),作者將任務(wù)分成三類(參見上圖 1):動作 - 值預(yù)測 (AV, Action-value ) 、 狀態(tài) - 值預(yù)測 (SV, State-value ) 以及行為克隆 (BC, Behavioral cloning )。
基準(zhǔn)
作者將本方法與 Stockfish 16、AlphaZero 的三種變體進行了比較,但并沒有和 GPT-4 進行比較,因為他們發(fā)現(xiàn) GPT-4 很難在不做出非法動作的情況下玩完整個游戲。
實驗結(jié)果
表 1 主要評估了具有 9M、136M 和 270M 參數(shù)的三個 Transformer 模型。結(jié)果表明,這三個模型都表現(xiàn)出對新棋盤的非凡泛化能力,并且可以成功解決大部分謎題。
在所有指標(biāo)中,擁有更大的模型可以持續(xù)提高得分,這證實了模型規(guī)模對于國際象棋表現(xiàn)至關(guān)重要。最大的模型在與人類玩家的比賽中取得了 2895 Elo,達到大師級別。
圖 2 中作者將 270M 參數(shù)模型與 Stockfish 16、GPT-3.5-turbo-instruct 和 AlphaZero 價值網(wǎng)絡(luò)的性能進行了比較。實驗中使用了 10k 個謎題的大型謎題集進行實驗。
Stockfish 16 在所有難度類別中表現(xiàn)最佳,其次是本文的 270M 模型。
作者強調(diào),解決謎題需要正確的移動順序,并且由于本文的策略無法明確提前規(guī)劃,因此解決謎題序列完全依賴于良好的值估計。
圖 3 展示了對數(shù)據(jù)集和模型大小進行擴展的分析。
對于較小的訓(xùn)練集大小(10k 個游戲),較大的架構(gòu)(≥ 7M)隨著訓(xùn)練的進行開始過度擬合。
當(dāng)數(shù)據(jù)集大小增加到 100k 和 1M 場游戲時,這種影響會消失。
結(jié)果還表明,隨著數(shù)據(jù)集大小的增加,模型的最終準(zhǔn)確率會提高(在模型大小之間保持一致)。同樣,作者觀察到架構(gòu)大小增加的總體趨勢是無論數(shù)據(jù)集大小如何,整體性能都會提高。
通過下表 2 可以得出以下幾點:
動作 - 值預(yù)測器在動作排名、動作準(zhǔn)確率和謎題準(zhǔn)確率方面更勝一籌。
模型的性能隨著深度的增加而增加,但似乎在 8 層左右達到飽和,這表明深度很重要,但不能超過某個點。