自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破

發(fā)布于 2025-4-8 00:38
瀏覽
0收藏

Anthropic連發(fā)兩篇相互關(guān)聯(lián)的大模型內(nèi)部機(jī)制研究報(bào)告【文獻(xiàn)1、文獻(xiàn)2】:

構(gòu)建了AI“顯微鏡”,并用它追蹤了大模型思維,這是繼去年?揭秘大模型黑盒之后的重大進(jìn)展。

【文獻(xiàn)1】構(gòu)建了替代模型(replacement model)作為AI“顯微鏡”

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)

通過這個(gè)替代模型,亦步亦趨的捕獲針對(duì)每一個(gè)提示語的歸因圖(attribution graph) 

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)

歸因圖用于描述模型在特定輸入提示下生成目標(biāo)詞元輸出時(shí)所經(jīng)歷的推理步驟。

歸因圖的邊表征節(jié)點(diǎn)間的線性影響關(guān)系,節(jié)點(diǎn)代表以下對(duì)象:

  • 激活的特征
  • 輸入提示中的詞元嵌入
  • 重構(gòu)誤差
  • 輸出邏輯值

每個(gè)特征的活動(dòng)強(qiáng)度由其輸入邊的權(quán)重之和決定。

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)

歸因圖展示了特征如何在特定輸入提示下相互作用以生成模型輸出。

而特征在所有上下文環(huán)境中交互的全局圖景更值得關(guān)注,全局交互由模型權(quán)重決定:

相鄰層神經(jīng)元間的直接影響就是它們之間的連接權(quán)重;若神經(jīng)元間隔較遠(yuǎn),則影響會(huì)通過中間層傳遞。

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)

這本質(zhì)上是筆者在?降低大模型幻覺的必由之路中描述的 Transformer視角下的范疇中采樣,即在復(fù)雜高維的對(duì)象米田嵌入圖中的采樣路徑。

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)圖片

學(xué)者們接著在【文獻(xiàn)2】中應(yīng)用此AI“顯微鏡”對(duì)自家大模型Claude 3.5 Haiku在多種情景下內(nèi)部機(jī)制做了“生物學(xué)”探查,非常有趣。

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)

筆者關(guān)注到兩個(gè)情景:詩歌中的規(guī)劃 和 多語言電路,很有感觸和共鳴。

詩歌規(guī)劃,研究發(fā)現(xiàn)大模型在寫詩行時(shí)提前計(jì)劃其輸出:

在開始編寫每一行之前,模型會(huì)識(shí)別可能出現(xiàn)在末尾的押韻單詞,預(yù)先選擇的押韻選項(xiàng)將決定模型構(gòu)建整行的方式。

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)

這顛覆了大模型僅僅做下一個(gè)詞元預(yù)測(cè)的流行的行業(yè)錯(cuò)誤認(rèn)知,大模型是這么學(xué)習(xí)語料的,但不代表也是這么推理生成的。

詩詞韻律規(guī)劃更符合筆者在?MIT對(duì)大模型數(shù)理原理的強(qiáng)有力證明中描述的采樣過程:

“在外部感官輸入下(被提示置于某種上下文),大模型內(nèi)部將限定在相應(yīng)的高維語言概率空間的子空間內(nèi)推理;推理是在子空間中采樣,類比時(shí)跨范疇采樣;

采樣不斷進(jìn)行,基于內(nèi)部概率化了的世界模型(預(yù)訓(xùn)練獲得的先驗(yàn)),針對(duì)感官輸入(提示),做變分推斷,最小化自由能,獲取最佳采樣分布q*,作為對(duì)導(dǎo)致感官輸入的外部后驗(yàn)的預(yù)測(cè)?!?/p>

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)圖片

多語言電路,研究發(fā)現(xiàn)大模型混合使用了“特定于語言的”,和“抽象的、獨(dú)立于語言的”電路,更大的模型中,“抽象的、獨(dú)立于語言的”成分更突出。

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)

這非常貼切的印證了筆者??在 DeepSeek R1 & R2 技術(shù)原理??中,對(duì)大模型中不同層次/尺度語言處理機(jī)制的描述:

揭秘AI內(nèi)部機(jī)制:AI理解的重大突破-AI.x社區(qū)

人類與大模型的語言體系中具有共通的三層結(jié)構(gòu):自下而上,基礎(chǔ)“信息概率分布”處理體系;自然語言如語音或詞句文章;符號(hào)語言如代碼、數(shù)學(xué)公式等。

而推理不過是在LLM構(gòu)建的高維概率語言空間里,對(duì)信息概率分布采樣做變分;

這個(gè)過程可以映射到不同的上層自然語言,以及對(duì)應(yīng)的語音,甚至進(jìn)一步映射到某種符號(hào)語言 - 代碼或數(shù)學(xué)公式;

而抽象的符號(hào)語言也可以用自然語言描述,從而進(jìn)一步轉(zhuǎn)換為對(duì)信息概率分布的處理過程。

Anthropic團(tuán)隊(duì)對(duì)大模型內(nèi)部機(jī)制的探索不斷取得重要進(jìn)展,越來越接近模型本質(zhì)的機(jī)理。與目前來自Nature,Science,學(xué)術(shù)界,企業(yè)界的幾十項(xiàng)研究成果一樣,均指向這一?數(shù)理認(rèn)知框架。

文獻(xiàn)1 https://transformer-circuits.pub/2025/attribution-graphs/methods.html

文獻(xiàn)2 ?https://transformer-circuits.pub/2025/attribution-graphs/biology.html

本文轉(zhuǎn)載自???清熙???,作者:王慶法

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦