推演大模型局限與發(fā)展脈絡(luò)
圖片
概括為:1、重整化從海量語(yǔ)料中提取出范疇,2、持續(xù)重整化驅(qū)動(dòng)范疇解構(gòu)重組結(jié)晶,3、生成過(guò)程于范疇中采樣做變分推理。
進(jìn)一步,從這個(gè)數(shù)理原理出發(fā),可以推演出大模型未來(lái)可能的發(fā)展脈絡(luò),潛在的能力,以及可能的脆弱點(diǎn),最近不少文獻(xiàn)分別印證了這幾點(diǎn)。
一、訓(xùn)練語(yǔ)料的顆粒度、覆蓋面受限,無(wú)法囊括人類現(xiàn)有的所有知識(shí),甚至都無(wú)法包含某個(gè)單一領(lǐng)域的完備的知識(shí),重整化出來(lái)的內(nèi)部世界模型的結(jié)晶可能是局部的,相對(duì)于完備的外部世界,存在眾多空洞缺失或不連貫性;
來(lái)自哈佛、MIT等學(xué)者,提出了評(píng)估生成模型中的世界模型的指標(biāo)【文獻(xiàn)1】,研究表明,生成模型的世界模型遠(yuǎn)不如看起來(lái)那么連貫。
這種不連貫性造成了脆弱性:使用生成模型來(lái)解決相關(guān)但略有不同的任務(wù)可能會(huì)導(dǎo)致失敗。構(gòu)建有意義地捕獲領(lǐng)域的底層邏輯的生成模型將非常有價(jià)值。
二、目前預(yù)訓(xùn)練無(wú)法做到動(dòng)態(tài)、持續(xù)、實(shí)時(shí),而且無(wú)法控制持續(xù)重整化結(jié)晶的對(duì)稱性破缺,因而結(jié)晶的范疇是滯后于當(dāng)前時(shí)間狀態(tài)的,某種意義上看都是基于陳舊的信息看問(wèn)題,無(wú)異于推理上的“刻舟求劍”;
生成擴(kuò)散過(guò)程與統(tǒng)計(jì)力學(xué)概念有著深刻聯(lián)系。提升數(shù)據(jù)集規(guī)模和神經(jīng)網(wǎng)絡(luò)容量,模型行為已知會(huì)從聯(lián)想記憶過(guò)渡到泛化,即玻璃態(tài)相變【文獻(xiàn)2】。
學(xué)者們利用統(tǒng)計(jì)力學(xué)技術(shù),將生成擴(kuò)散中的記憶理論擴(kuò)展到支持流形的數(shù)據(jù),理論和實(shí)驗(yàn)結(jié)果表明,由于記憶效應(yīng),不同的切空間會(huì)在不同的臨界時(shí)間和數(shù)據(jù)集規(guī)模下丟失,取決于數(shù)據(jù)沿各個(gè)方向的局部方差。
在某些條件下,高方差的子空間會(huì)由于記憶效應(yīng)而首先丟失,導(dǎo)致維度的選擇性喪失,其中數(shù)據(jù)的一些顯著特征被記憶下來(lái),但并未完全收斂到任何單一訓(xùn)練點(diǎn)。
三、采樣做變分推理的部分尤其薄弱,即使學(xué)到某些領(lǐng)域的豐富的知識(shí),提煉成相當(dāng)豐富的范疇,其采樣與變分推理還處在早期人工智能“煉丹”階段,提示工程、CoT、o1的強(qiáng)化學(xué)習(xí)推理,僅是“煉丹”方式不同。
斯坦福學(xué)者通過(guò)證明上下文學(xué)習(xí)(ICL)近似于貝葉斯學(xué)習(xí)器,來(lái)解釋上下文示例數(shù)量與模型預(yù)測(cè)準(zhǔn)確性之間的相關(guān)性,稱為ICL 貝葉斯縮放定律【文獻(xiàn)3】。
模型實(shí)驗(yàn)表明該縮放定律在準(zhǔn)確性上達(dá)到SOTA,并為任務(wù)先驗(yàn)、學(xué)習(xí)效率和每個(gè)樣本的概率提供了可解釋性,且能夠準(zhǔn)確預(yù)測(cè)ICL越獄的條件,揭示了SFT/DPO安全對(duì)齊的無(wú)效性。
筆者闡述這些大模型的局限,不是推斷大模型不可用,而是指出其現(xiàn)實(shí)的實(shí)用價(jià)值方面的能力邊界,以及推演未來(lái)大模型可以努力提升的方向。
正如Meta公司FAIR團(tuán)隊(duì)的研究【文獻(xiàn)4】,“Transformer破解百年三體難題,憑數(shù)學(xué)直覺(jué)找到李雅普諾夫函數(shù)” 所做的,大模型相關(guān)技術(shù)可以幫助人類實(shí)現(xiàn)某些專業(yè)領(lǐng)域的高維認(rèn)知突破。
李雅普諾夫函數(shù)是評(píng)估系統(tǒng)穩(wěn)定性的主要數(shù)學(xué)工具,是遞減的類似熵的函數(shù),也可以理解為一個(gè)勢(shì)能函數(shù)。筆者覺(jué)得李雅普諾夫函數(shù)其實(shí)是最小能量函數(shù)(或最大熵)的基函數(shù),找到多個(gè)基函數(shù)就可以表征完整的全局李雅普諾夫函數(shù)。
大模型可以幫我們發(fā)現(xiàn)更多嗎?比如今天Grok-3 被曝證明了黎曼猜想Riemann Hypothesis?!根據(jù)本文推演,即使證明是真的,人們也不用恐慌,訓(xùn)練應(yīng)該繼續(xù)。
文獻(xiàn)1 Evaluating the World Model Implicit in a Generative Model https://arxiv.org/html/2406.03689
文獻(xiàn)2:Losing dimensions: Geometric memorization in generative diffusion https://arxiv.org/html/2410.08727v1
文獻(xiàn)3:Bayesian scaling laws for in-context learning https://arxiv.org/abs/2410.16531
文獻(xiàn)4:Global Lyapunov functions- a long-standing open problem in mathematics, with symbolic transformers https://arxiv.org/html/2410.08304v1
本文轉(zhuǎn)載自 ??清熙??,作者: 王慶法
