揭秘AI內(nèi)部機(jī)制:AI理解的重大突破
Anthropic連發(fā)兩篇相互關(guān)聯(lián)的大模型內(nèi)部機(jī)制研究報(bào)告【文獻(xiàn)1、文獻(xiàn)2】:
構(gòu)建了AI“顯微鏡”,并用它追蹤了大模型思維,這是繼去年?揭秘大模型黑盒之后的重大進(jìn)展。
【文獻(xiàn)1】構(gòu)建了替代模型(replacement model)作為AI“顯微鏡”
通過這個(gè)替代模型,亦步亦趨的捕獲針對(duì)每一個(gè)提示語的歸因圖(attribution graph)
歸因圖用于描述模型在特定輸入提示下生成目標(biāo)詞元輸出時(shí)所經(jīng)歷的推理步驟。
歸因圖的邊表征節(jié)點(diǎn)間的線性影響關(guān)系,節(jié)點(diǎn)代表以下對(duì)象:
- 激活的特征
- 輸入提示中的詞元嵌入
- 重構(gòu)誤差
- 輸出邏輯值
每個(gè)特征的活動(dòng)強(qiáng)度由其輸入邊的權(quán)重之和決定。
歸因圖展示了特征如何在特定輸入提示下相互作用以生成模型輸出。
而特征在所有上下文環(huán)境中交互的全局圖景更值得關(guān)注,全局交互由模型權(quán)重決定:
相鄰層神經(jīng)元間的直接影響就是它們之間的連接權(quán)重;若神經(jīng)元間隔較遠(yuǎn),則影響會(huì)通過中間層傳遞。
這本質(zhì)上是筆者在?降低大模型幻覺的必由之路中描述的 Transformer視角下的范疇中采樣,即在復(fù)雜高維的對(duì)象米田嵌入圖中的采樣路徑。
圖片
學(xué)者們接著在【文獻(xiàn)2】中應(yīng)用此AI“顯微鏡”對(duì)自家大模型Claude 3.5 Haiku在多種情景下內(nèi)部機(jī)制做了“生物學(xué)”探查,非常有趣。
筆者關(guān)注到兩個(gè)情景:詩歌中的規(guī)劃 和 多語言電路,很有感觸和共鳴。
詩歌規(guī)劃,研究發(fā)現(xiàn)大模型在寫詩行時(shí)提前計(jì)劃其輸出:
在開始編寫每一行之前,模型會(huì)識(shí)別可能出現(xiàn)在末尾的押韻單詞,預(yù)先選擇的押韻選項(xiàng)將決定模型構(gòu)建整行的方式。
這顛覆了大模型僅僅做下一個(gè)詞元預(yù)測(cè)的流行的行業(yè)錯(cuò)誤認(rèn)知,大模型是這么學(xué)習(xí)語料的,但不代表也是這么推理生成的。
詩詞韻律規(guī)劃更符合筆者在?MIT對(duì)大模型數(shù)理原理的強(qiáng)有力證明中描述的采樣過程:
“在外部感官輸入下(被提示置于某種上下文),大模型內(nèi)部將限定在相應(yīng)的高維語言概率空間的子空間內(nèi)推理;推理是在子空間中采樣,類比時(shí)跨范疇采樣;
采樣不斷進(jìn)行,基于內(nèi)部概率化了的世界模型(預(yù)訓(xùn)練獲得的先驗(yàn)),針對(duì)感官輸入(提示),做變分推斷,最小化自由能,獲取最佳采樣分布q*,作為對(duì)導(dǎo)致感官輸入的外部后驗(yàn)的預(yù)測(cè)?!?/p>
圖片
多語言電路,研究發(fā)現(xiàn)大模型混合使用了“特定于語言的”,和“抽象的、獨(dú)立于語言的”電路,更大的模型中,“抽象的、獨(dú)立于語言的”成分更突出。
這非常貼切的印證了筆者??在 DeepSeek R1 & R2 技術(shù)原理??中,對(duì)大模型中不同層次/尺度語言處理機(jī)制的描述:
而推理不過是在LLM構(gòu)建的高維概率語言空間里,對(duì)信息概率分布采樣做變分;
這個(gè)過程可以映射到不同的上層自然語言,以及對(duì)應(yīng)的語音,甚至進(jìn)一步映射到某種符號(hào)語言 - 代碼或數(shù)學(xué)公式;
而抽象的符號(hào)語言也可以用自然語言描述,從而進(jìn)一步轉(zhuǎn)換為對(duì)信息概率分布的處理過程。
Anthropic團(tuán)隊(duì)對(duì)大模型內(nèi)部機(jī)制的探索不斷取得重要進(jìn)展,越來越接近模型本質(zhì)的機(jī)理。與目前來自Nature,Science,學(xué)術(shù)界,企業(yè)界的幾十項(xiàng)研究成果一樣,均指向這一?數(shù)理認(rèn)知框架。
文獻(xiàn)1 https://transformer-circuits.pub/2025/attribution-graphs/methods.html
文獻(xiàn)2 ?https://transformer-circuits.pub/2025/attribution-graphs/biology.html
本文轉(zhuǎn)載自???清熙???,作者:王慶法
