自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="gmkwz"></style>

^{<blockquote id="gmkwz"><i id="gmkwz"></i></blockquote>}

<sub id="gmkwz"><i id="gmkwz"></i></sub>

<cite id="gmkwz"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Claude團隊開盒Transformer：AI大腦原來這樣工作

作者：量子位 2025-03-31 08:12:00

人工智能新聞

研究人員提出了一種名為“電路追蹤”的方法。它利用跨層編碼器（CLT）替代原模型中的多層感知機（MLP），搭建出和原模型相似的替代模型。

大模型工作機制的黑盒，終于被Claude團隊揭開了神秘面紗！

團隊創(chuàng)造了一種解讀大模型思考方式的新工具，就像給大模型做了個“腦部核磁”。

他們還發(fā)現(xiàn)，Claude在某些任務(wù)上具備長遠規(guī)劃能力，甚至還會為了迎合人類而編造推理過程。

具體來說，研究人員提出了一種名為“電路追蹤”的方法。

它利用跨層編碼器（CLT）替代原模型中的多層感知機（MLP），搭建出和原模型相似的替代模型。

在此基礎(chǔ)上，構(gòu)建歸因圖來描述模型在特定提示下生成輸出的計算步驟，從而觀察模型的思考過程。

Claude團隊將這項研究的方法和發(fā)現(xiàn)分別寫成了論文，總計篇幅超過了8萬字。

探究大模型內(nèi)在推理過程

利用電路追蹤方法，團隊對Claude 3.5 Haiku在長邏輯推理、多語言、長期規(guī)劃等任務(wù)場景的工作過程進行了觀察，發(fā)現(xiàn)了其中許多特點：

Claude有時會在不同語言之間共享的概念空間中思考，這表明它有一種通用的“思維語言”；
Claude會提前計劃好要生成的內(nèi)容，如在詩歌領(lǐng)域，它會提前考慮可能的押韻詞，證明了模型可能會在更長遠的范圍內(nèi)思考；
Claude有時會給出一個看似合理的論點，旨在同意用戶的觀點，而不是遵循邏輯步驟，甚至為迎合人類答案反向?qū)ふ彝评磉^程；
Claude并沒有配備數(shù)學算法，但可以在“頭腦中”正確地進行加法運算。

多語言推理

在多語言場景中，作者研究了模型對 “the opposite of ‘small’” 的不同語言版本（英語、法語、中文）的處理，發(fā)現(xiàn)模型處理這些提示的電路相似，包含共享的多語言組件和特定語言組件。

模型能識別出是在詢問 “small” 的反義詞，通過語言獨立的表示觸發(fā)反義詞特征，同時利用語言特定的引號特征等確定輸出語言。

干預(yù)實驗表明，交換操作（反義詞換為同義詞）、被操作單詞（“small” 換為 “hot”）和語言特征，模型能相應(yīng)地輸出合適的結(jié)果，證明了電路中各部分的獨立性和語言無關(guān)性。

詩歌創(chuàng)作和長規(guī)劃能力

在創(chuàng)作 “His hunger was like a starving rabbit” 這樣的押韻詩時，模型展現(xiàn)出規(guī)劃能力。

在第二行開始前的換行符位置，模型激活了與 “rabbit” 相關(guān)的規(guī)劃特征，這些特征受前一行 “it” 的影響，激活了押韻特征和候選完成詞特征，從而影響最后一個詞的選擇。

此外，規(guī)劃特征不僅影響最后一個詞，還影響中間詞 “l(fā)ike” 的生成，并且會根據(jù)規(guī)劃詞改變句子結(jié)構(gòu)。

通過多種干預(yù)實驗，如抑制規(guī)劃特征或注入不同的規(guī)劃詞，證實了規(guī)劃特征對最終詞概率、中間詞和句子結(jié)構(gòu)的影響。

多步驟推理

針對 “Fact: the capital of the state containing Dallas is” 的提示，模型成功回答 “Austin”。

經(jīng)研究發(fā)現(xiàn)，模型內(nèi)部存在多步推理機制，通過分析歸因圖，識別出代表不同概念的特征并分組為超節(jié)點，如 “Texas”“capital”“say a capital”“say Austin” 等。

這些特征相互作用，形成從 “Dallas” 到 “Texas” 再到 “Austin” 的推理路徑，同時也存在從 “Dallas” 直接到 “say Austin” 的 “shortcut” 邊。

抑制實驗表明，抑制相關(guān)特征會影響下游特征的激活和模型輸出；

特征替換實驗發(fā)現(xiàn)，改變模型對 “Texas” 的表征，模型會輸出其他地區(qū)的首府，驗證了多步推理機制的存在。

數(shù)學計算

在“數(shù)學計算”當中，作者發(fā)現(xiàn)Claude采用了多條并行工作的計算路徑。

一條路徑計算答案的粗略近似值，另一條路徑則專注于精確確定總和的最后一位數(shù)字。

這些路徑相互作用并相互結(jié)合，以得出最終答案。

有意思的是，Claude似乎沒有意識到它在訓(xùn)練期間學到的復(fù)雜的“心算”策略。

如果問它是如何得出36+59等于95的，它會描述涉及進位1的標準算法。

這可能反映了這樣一個事實——模型在解釋數(shù)學問題時會模仿人類的方式，但在自己做計算的時候“頭腦中”使用的卻是自己的一套方法。

此外，Claude團隊還用同樣的方法針對模型準確性、幻覺、越獄等問題進行了研究，關(guān)于這部分內(nèi)容以及前面實驗的更多詳情，可閱讀原始論文。

下面就來看看Claude團隊這種“電路追蹤”的方法，究竟是怎么一回事。

構(gòu)建替代模型，獲得歸因圖

Claude團隊用的電路追蹤方法，核心就是通過構(gòu)建可解釋的替代模型來揭示語言模型的計算圖。

研究人員設(shè)計了CLT，它由和原模型層數(shù)一樣的神經(jīng)元（也就是 “特征”）構(gòu)成。

這些特征從原模型殘差流獲取輸入，通過線性編碼器和非線性函數(shù)處理后，能為后續(xù)多層的MLP輸出提供信息。

訓(xùn)練CLT時，通過調(diào)整參數(shù)最小化重建誤差和稀疏性懲罰，讓它能盡量模仿原模型MLP的輸出。

然后，團隊把訓(xùn)練好的CLT特征嵌入原模型，替換MLP神經(jīng)元，構(gòu)建出替代模型。

在運行替代模型時，會在MLP輸入階段計算CLT特征的激活值，在輸出階段用CLT特征的輸出替代原MLP的輸出。

為了讓替代模型更貼近原模型，研究人員針對特定的輸入提示，構(gòu)建了局部替代模型。

這個模型不僅用CLT替換MLP層，還固定原模型在該提示下的注意力模式和歸一化分母，并對CLT輸出進行誤差調(diào)整，使得局部替代模型的激活和輸出與原模型完全一致。

當有了可靠的局部替代模型后，就進入生成并分析歸因圖環(huán)節(jié)。

對于給定的輸入提示，研究人員構(gòu)建歸因圖來展示模型生成輸出的計算步驟。

歸因圖包含輸出節(jié)點、中間節(jié)點、輸入節(jié)點和誤差節(jié)點，圖中的邊表示這些節(jié)點間的線性影響關(guān)系。

計算邊的權(quán)重時，會用到反向雅可比矩陣。由于完整的歸因圖非常復(fù)雜，研究人員采用剪枝算法，去掉那些對輸出結(jié)果影響較小的節(jié)點和邊，從而得到簡化且更易理解的歸因圖。

為了理解歸因圖，研究人員開發(fā)了交互式可視化界面。

他們通過觀察特征在不同數(shù)據(jù)樣本上的激活情況，手動為特征標注含義，并把功能相關(guān)的特征歸為超節(jié)點。

為了驗證歸因圖的準確性，他們進行特征擾動實驗，即改變某些特征的激活值，觀察對其他特征和模型輸出的影響。

此外，還能借助歸因圖找出對輸出結(jié)果影響最大的關(guān)鍵層。

除了研究特定提示下的特征交互（歸因圖分析），研究人員還關(guān)注特征在不同上下文下的交互，這就涉及到全局權(quán)重。

其中，虛擬權(quán)重是一種全局權(quán)重，但存在干擾問題，即一些沒有實際因果關(guān)系的連接會干擾對模型機制的理解。

為解決這個問題，研究人員通過限制特征范圍或引入特征共激活統(tǒng)計信息（如計算 TWERA），減少干擾，從而更清晰地揭示特征間的真實關(guān)系。

研究人員對CLT特征的可解釋性以及歸因圖對模型行為的解釋程度進行了評估。

結(jié)果發(fā)現(xiàn)，CLT特征在一定程度上能夠反映模型內(nèi)部的一些語義和句法信息，歸因圖也能夠較好地展示模型在生成輸出時的關(guān)鍵步驟和特征之間的依賴關(guān)系。

但二者也都存在一些局限性，例如對于一些復(fù)雜的語義關(guān)系，CLT特征的解釋能力有限；對于一些細微的模型行為變化，歸因圖的解釋不夠精確。

但話說回來，這種方法還是給人們帶來了有趣的發(fā)現(xiàn)，有人還把Claude算數(shù)學題的過程做出了表情包。

它以為自己是一步到位，實際上內(nèi)心已經(jīng)兜兜轉(zhuǎn)轉(zhuǎn)了好幾圈。

也是有些人類做工作匯報那味了。

官方簡報：
https://www.anthropic.com/research/tracing-thoughts-language-model
方法論文：
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
觀察實驗論文：
https://transformer-circuits.pub/2025/attribution-graphs/biology.html

責任編輯：張燕妮來源：量子位

模型 AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="h7n64"></sub>