自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICML 2024演講爆火!Meta朱澤園揭秘大模型內(nèi)心世界:不同于人類的2級(jí)推理

人工智能 新聞
與 99% 以上的研究 LLM 行為過(guò)程(behavior process)的論文不同,本文作者另辟蹊徑,揭示了 LLM 在解決數(shù)學(xué)問(wèn)題時(shí)的心理過(guò)程(mental process),為理解 LLM 的智能提供了新的視角。

大語(yǔ)言模型 (LLM) 是如何解數(shù)學(xué)題的?是通過(guò)模板記憶,還是真的學(xué)會(huì)了推理思維?模型的心算過(guò)程是怎樣的?能學(xué)會(huì)怎樣的推理技能?與人類相同,還是超越了人類?只學(xué)一種類型的數(shù)學(xué)題,是會(huì)對(duì)通用智能的發(fā)展產(chǎn)生幫助?LLM 為什么會(huì)犯推理錯(cuò)誤?多大多深的 LLM 才能做推理?

圖片

論文地址:https://arxiv.org/abs/2407.20311

近日,來(lái)自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠(chéng)、李遠(yuǎn)志、朱澤園四人團(tuán)隊(duì)最新公布 arXiv 論文《語(yǔ)言模型物理學(xué) Part 2.1:小學(xué)數(shù)學(xué)與隱藏的推理過(guò)程》用可控實(shí)驗(yàn),巧妙地回答上述問(wèn)題。推特網(wǎng)友 @xlr8harder 評(píng)價(jià),「這一結(jié)果將一勞永逸地平息關(guān)于 LLM 是否具有推理能力,或者只是隨機(jī)鸚鵡的爭(zhēng)論?!?/span>

編者注:《語(yǔ)言模型物理學(xué)》全系列受邀于 7 月 22 日在 ICML 2024 國(guó)際機(jī)器學(xué)習(xí)頂級(jí)大會(huì)上進(jìn)行了兩小時(shí)的專題報(bào)告,反響熱烈,據(jù)悉現(xiàn)場(chǎng)掌聲不斷。這里為大家呈現(xiàn)系列中的 Part 2.1。

圖 1

論文詳解

首先,根據(jù)本系列的慣例,作者認(rèn)為不應(yīng)通過(guò)與 GPT-4 等大模型對(duì)話來(lái)猜測(cè)其思維方式,這類似于動(dòng)物行為學(xué),雖可行但不夠嚴(yán)謹(jǐn),無(wú)法科學(xué)地揭示 GPT-4 的內(nèi)心思考過(guò)程。

此外,從數(shù)據(jù)角度看,只有完全訪問(wèn)模型的預(yù)訓(xùn)練集(pretrain data),才能明確哪些題目是模型見(jiàn)過(guò)的,哪些是通過(guò)推理學(xué)會(huì)的。即使模型在 GSM8k(包含 8000 道小學(xué)數(shù)學(xué)題的基準(zhǔn)測(cè)試集)上獲得高分,也難以判斷它是否見(jiàn)過(guò)這些題目的變體(如不同語(yǔ)言或 GPT-4 改寫(xiě)后的變體)。

為此,作者創(chuàng)建了 iGSM,一個(gè)人工合成的、模擬小學(xué)數(shù)學(xué)級(jí)別的思維題集,并讓模型從零開(kāi)始在 iGSM 上預(yù)訓(xùn)練,以控制模型接觸的問(wèn)題類別。值得注意的是,iGSM 不包含常識(shí)信息,只包含 mod 23 范圍內(nèi)的加減乘,并且所有計(jì)算都使用 CoT 逐步進(jìn)行。通過(guò) iGSM,可進(jìn)行可控實(shí)驗(yàn),專門(mén)研究模型的推理能力,而忽略了其他因素(如大整數(shù)運(yùn)算)。圖 2 展示了一個(gè)簡(jiǎn)單的例題。

圖片圖 2

通過(guò)這個(gè)數(shù)據(jù)集,作者首先測(cè)試了 GPT2(RoPE 版)的表現(xiàn)。用 op 代表解題所需的數(shù)學(xué)運(yùn)算步數(shù),作者發(fā)現(xiàn),當(dāng)在 op≤21 的題目上進(jìn)行訓(xùn)練時(shí),模型不僅能達(dá)到 99% 正確率,還能在更高難度的題目(如 op=32)上保持 83% 的正確率(見(jiàn)圖 3)。這表明模型學(xué)會(huì)了某種推理技能,畢竟它從未見(jiàn)過(guò) op>21 的題。(順帶一提,GPT-4o 在該數(shù)據(jù)集上僅能應(yīng)對(duì) op=10 的題目,超過(guò)這個(gè)難度就如同盲猜,文末我們會(huì)討論這個(gè)問(wèn)題。)

那模型究竟學(xué)會(huì)了怎樣的推理技能呢?解決 iGSM 的數(shù)學(xué)題至少有兩種思路。一種是作者稱為「0 級(jí)推理」,即「暴力計(jì)算能算則算」。由于題目中的變量可能存在復(fù)雜的依賴關(guān)系,有些可以直接計(jì)算,有些則需要先算出其他變量 —— 譬如小張比小王多 3 倍的水果,那么就要先算出小王有多少蘋(píng)果、梨子并求和,才可以開(kāi)始計(jì)算小張的水果數(shù)?!? 級(jí)推理」就是盡可能枚舉所有變量,每次隨機(jī)找到一個(gè)可計(jì)算的變量,算出結(jié)果并繼續(xù)。

與之對(duì)應(yīng)的是「1 級(jí)推理」:通過(guò)拓?fù)渑判颍瑥膯?wèn)題開(kāi)始反推,確定哪些變量需要計(jì)算,然后從葉子節(jié)點(diǎn)開(kāi)始向上計(jì)算,力求「最短解答」。常見(jiàn)的數(shù)學(xué)題解通常采用 1 級(jí)推理,不會(huì)去計(jì)算「不必要的變量」。例如小張比小王多 3 倍的水果,問(wèn)小張有多少水果,那小李的蘋(píng)果數(shù)就是不必要的變量,而小王的蘋(píng)果、梨子數(shù)都是必要的。

如圖 3 所示,作者發(fā)現(xiàn),GPT-2 可以學(xué)會(huì) 1 級(jí)推理,幾乎每次都給出最短解答。這非常不簡(jiǎn)單!因?yàn)樵谀P蜕傻谝痪湓捴?,必須已?jīng)在腦海中完成了整個(gè)拓?fù)渑判?—— 否則它怎么知道哪個(gè)變量是不必要的?如果模型一開(kāi)始就生成了「小李的蘋(píng)果有 7 個(gè)」,那就無(wú)法回頭,得不到最短解答。

圖片圖 3

那么,模型是如何學(xué)會(huì)「1 級(jí)推理」的?為此,作者對(duì)模型的內(nèi)部參數(shù)進(jìn)行了探針 probing 研究(見(jiàn)圖 4)。結(jié)論顯示(具體探針?lè)椒ㄔ斠?jiàn)論文),在模型生成第一句話之前,它已經(jīng)通過(guò)心算確定了哪些變量 A 是「必要的」(nece (A)=True)。同時(shí),模型在說(shuō)每句話之后,也心算出了接下來(lái)所有「可計(jì)算的」的變量 A(cannext (A)=True)。因此,模型只需對(duì) nece 和 cannext 不斷進(jìn)行邏輯與(AND)運(yùn)算,就能從葉子節(jié)點(diǎn)開(kāi)始,一步步給出完整的計(jì)算過(guò)程。

值得注意的是,這些復(fù)雜的心算能力并沒(méi)有顯現(xiàn)在訓(xùn)練集中。模型只接觸過(guò) iGSM 數(shù)據(jù),只見(jiàn)過(guò)「語(yǔ)言」部分(題目和答案),但它卻自主學(xué)會(huì)了類似人類的思維過(guò)程(mental process),并得出了最優(yōu)解!換言之,這項(xiàng)研究反駁了我們一周前在《語(yǔ)言≠思維,大模型學(xué)不了推理:一篇 Nature 讓 AI 社區(qū)炸鍋了》中的報(bào)道,用科學(xué)方法證明了大模型通過(guò)語(yǔ)言確實(shí)能學(xué)會(huì)思維。

更神奇的是,模型學(xué)到的不止如此。在圖 4 中,作者還發(fā)現(xiàn)模型會(huì)心算許多對(duì)解題無(wú)用的信息。比如,在變量關(guān)系剛被描述完,甚至在問(wèn)題尚未提出之前,模型已經(jīng)知道任意兩個(gè)變量 A 和 B 之間是否存在遞歸依賴 —— 即使這些變量與解題無(wú)關(guān)。對(duì)人類來(lái)說(shuō),我們通常會(huì)從問(wèn)題開(kāi)始反推,忽略不必要的變量,而 GPT-2 這樣的語(yǔ)言模型則會(huì)將整個(gè)關(guān)系圖梳理一遍,以應(yīng)對(duì)將來(lái)可能被問(wèn)及的任何問(wèn)題。作者將這種能力稱為「2 級(jí)推理」。

雖然「2 級(jí)推理」對(duì)解題不必須,但它確實(shí)是一種更通用的技能。模型利用并行能力,對(duì)信息進(jìn)行大量因果梳理。這一能力是語(yǔ)言模型在學(xué)習(xí)解題中自行掌握的,沒(méi)有人 (數(shù)據(jù)) 教過(guò)它這么做。作者猜測(cè),這或許是通用人工智能(AGI)中「通用」一詞的潛在來(lái)源,即語(yǔ)言模型可以超越數(shù)據(jù)集所教的技能,學(xué)會(huì)更為通用的能力。

圖片圖 4

接下來(lái),作者研究了模型為何會(huì)犯錯(cuò)??偨Y(jié)來(lái)看,在 iGSM 數(shù)據(jù)集上,模型幾乎只會(huì)犯兩類錯(cuò)誤:一是計(jì)算不必要的變量,二是計(jì)算當(dāng)前不可算的變量,如圖 5 所示。

對(duì)于前者,作者發(fā)現(xiàn),如果模型在生成答案之前就心算出錯(cuò),誤認(rèn)為某個(gè)變量 A 是 「必要的」(nece (A)=True),那么模型在生成答案時(shí)很可能會(huì)對(duì) A 強(qiáng)行計(jì)算,從而產(chǎn)生非最短解答。這一發(fā)現(xiàn)非常有趣,它表明許多錯(cuò)誤是系統(tǒng)性的,在生成第一個(gè) token 之前,模型還沒(méi)張嘴就可以確信它會(huì)犯錯(cuò)(通過(guò)探針的方法)。這類錯(cuò)誤與模型生成過(guò)程中的隨機(jī)性或 beam search 無(wú)關(guān)。

至于后者,作者也將其歸因于心算錯(cuò)誤,并將用一整篇的后續(xù) Part 2.2 論文,來(lái)針對(duì)性提高模型的心算能力,以最終提高解題正確率。該論文尚未發(fā)布,我們會(huì)在公眾號(hào)中繼續(xù)關(guān)注并報(bào)道。

圖片圖 5

下一個(gè)結(jié)論是,作者反駁了大模型縮放定律(scaling law)中強(qiáng)調(diào)的「唯大獨(dú)尊」,即模型的表現(xiàn)只與參數(shù)數(shù)量相關(guān),而與寬度或深度無(wú)關(guān)。這一觀點(diǎn)最早由 OpenAI 的縮放定律論文提出,并在后續(xù)幾乎所有研究中得到遵循。

作者通過(guò) iGSM 數(shù)據(jù)集進(jìn)行了一個(gè)可控實(shí)驗(yàn),如圖 6 所示。通過(guò)對(duì)比更小更深的模型與更大更寬的模型,發(fā)現(xiàn)對(duì)于解決 iGSM 中的數(shù)學(xué)題,模型的深度顯然比寬度更為重要。例如,一個(gè) 20 層、9 個(gè) head 的模型,表現(xiàn)遠(yuǎn)好于 4 層、30 個(gè) head 的模型,盡管后者有兩倍的參數(shù)。

更進(jìn)一步,作者發(fā)現(xiàn)對(duì)深度的依賴源于模型心算的復(fù)雜性。通過(guò)對(duì)模型不同深度的探針研究,作者發(fā)現(xiàn),對(duì)于那些與問(wèn)題較遠(yuǎn)的變量 A,心算 nece (A) 往往需要更多層數(shù)。具體來(lái)說(shuō),若變量 A 與問(wèn)題變量的距離為 t,則需要進(jìn)行 t 步心算才能知道 nece (A)=True。t 越大,模型所需的層數(shù)也越多,如圖 6 所示。

作者強(qiáng)調(diào),模型對(duì)深度的依賴無(wú)法通過(guò)思維鏈(Chain-of-Thought, CoT)來(lái)抵消。事實(shí)上,iGSM 中的數(shù)學(xué)題解已經(jīng)盡可能地使用了 CoT,即所有計(jì)算都被拆解為一步一步。即便如此,模型仍需要通過(guò)心算來(lái)規(guī)劃 CoT 的第一步該算什么 —— 這個(gè)心算過(guò)程可能依然需要多個(gè)步驟。這解釋了模型對(duì)深度依賴的原因。

圖片圖 6

綜上所述,與 99% 以上的研究 LLM 行為過(guò)程(behavior process)的論文不同,本文作者另辟蹊徑,揭示了 LLM 在解決數(shù)學(xué)問(wèn)題時(shí)的心理過(guò)程(mental process),為理解 LLM 的智能提供了新的視角。

文章最后作者指出,即便是 GPT-4,在 iGSM 數(shù)據(jù)集上也只能進(jìn)行最多 10 步的推理。這表明,即使是當(dāng)前最強(qiáng)的模型,利用了據(jù)稱所有的互聯(lián)網(wǎng)數(shù)據(jù),仍無(wú)法精準(zhǔn)地完成超過(guò) 10 步推理。這暗示現(xiàn)有大模型使用的預(yù)訓(xùn)練數(shù)據(jù)集(pretrain data)可能還有很大的改進(jìn)空間。通過(guò)本文的方法,建立人工合成數(shù)據(jù)來(lái)增強(qiáng)模型的推理能力以及信息梳理能力,或許是一種新的可能。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-09-09 09:00:00

2010-03-01 15:08:05

WCF單向操作

2010-03-11 14:13:20

Python編程

2023-03-27 08:17:48

2025-04-21 08:42:00

模型開(kāi)源AI

2013-03-20 10:05:01

英特爾逆襲ARM

2023-02-06 14:37:44

LeCun模型

2024-03-07 13:23:20

谷歌模型Sora

2016-07-15 10:37:37

云性能云計(jì)算

2010-07-22 16:50:00

2025-01-16 08:40:00

2024-02-01 08:34:30

大模型推理框架NVIDIA

2023-11-26 17:54:00

AI科學(xué)

2023-05-25 13:59:12

ChatGPT模型

2020-02-11 17:17:54

RSAC信息安全會(huì)議RSA大會(huì)

2022-02-13 08:36:46

數(shù)字人民幣支付寶微信錢(qián)包

2023-06-15 14:01:00

模型筆記

2022-04-11 15:40:34

機(jī)器學(xué)習(xí)研究推理

2025-03-11 08:50:00

2023-10-04 19:52:33

模型論文
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)