Anthropic首次切開(kāi)Claude大腦,「AI黑箱」徹底破解?心算詭異思考過(guò)程曝光
AI的性能愈發(fā)強(qiáng)大,一個(gè)新模型可能前一天還是SOTA(最佳模型),第二天就被拍了下去。
不過(guò),這些強(qiáng)大的AI上空總有一團(tuán)迷霧籠罩。
那就是:他們到底是怎么找到答案的?
其整個(gè)運(yùn)作機(jī)理就像個(gè)「黑箱子」。
我們知道模型輸入的是什么提示詞,也能看到它們輸出的結(jié)果,但中間的過(guò)程,就連開(kāi)發(fā)這些AI的人也不知道。
簡(jiǎn)直是個(gè)謎。
這種不透明帶來(lái)了各種麻煩。
比如,我們很難預(yù)測(cè)模型什么時(shí)候會(huì)「胡說(shuō)八道」,也就是出現(xiàn)所謂的「幻覺(jué)」。
更可怕的是,有些情況下,模型會(huì)撒謊,甚至是故意騙人!
不過(guò),就在剛剛,Anthropic提出了一條解決這些問(wèn)題的新方法。
博客地址:https://www.anthropic.com/research/tracing-thoughts-language-model
簡(jiǎn)單說(shuō),Anthropic的研究員造了個(gè)類似于fMRI的東西——就像神經(jīng)科學(xué)家掃描人類的大腦,試圖找出哪些區(qū)域在認(rèn)知過(guò)程中發(fā)揮了最大作用一樣。
他們把這個(gè)類似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上,解開(kāi)了Claude(可能還有大多數(shù)LLM)如何工作的幾個(gè)關(guān)鍵謎團(tuán)。
他們的技術(shù)博客里有個(gè)超級(jí)有意思的例子。
Claude居然能「心算」36+59。
純語(yǔ)言是怎么做到解決數(shù)學(xué)符號(hào)問(wèn)題的?
Anthropic研究人員發(fā)現(xiàn),Claude用的是多條并行計(jì)算路徑。
如下圖所示,一條計(jì)算路徑粗略估算答案:圖中的淡藍(lán)色上部路徑,算出36+59的范圍是88-97。
另一條計(jì)算路徑精確算出末位數(shù):圖中紫色下部路徑,然后通過(guò)尾數(shù)5,兩條路徑互動(dòng)得出最終結(jié)果。
加法雖簡(jiǎn)單,但了解這種粗略與精確結(jié)合的策略,或許能揭示Claude處理復(fù)雜問(wèn)題的思路。
有趣的是,Claude似乎不知道自己訓(xùn)練中學(xué)到的復(fù)雜「心算」策略。
問(wèn)它是怎么算出36+59=95的,它會(huì)描述標(biāo)準(zhǔn)的進(jìn)位算法。
這和研究人員深入模型觀察到的計(jì)算路徑完全相反。
這可能是因?yàn)樗胍7氯祟惖臄?shù)學(xué)解釋,但實(shí)際心算時(shí),作為一個(gè)「語(yǔ)言模型」只能靠自己慢慢摸索。
反而促使它發(fā)展出獨(dú)特的計(jì)算策略。
研究發(fā)現(xiàn),雖然像Claude這樣的模型最初只是被訓(xùn)練用來(lái)預(yù)測(cè)下一個(gè)詞,但在這個(gè)過(guò)程中,Claude學(xué)會(huì)了做一些長(zhǎng)遠(yuǎn)的規(guī)劃。
比如,讓它寫首詩(shī)時(shí),Claude會(huì)先挑出跟主題相關(guān)又能押韻的詞,然后倒推回去,構(gòu)造出以這些詞結(jié)尾的句子。
看看這首英文小詩(shī):
He saw a carrot and had to grab it, His hunger was like a starving rabbit
第二行要同時(shí)滿足兩個(gè)條件:押韻(grab it到rabbit),還要講得通(他為什么看到并且想抓胡蘿卜)。
研究人員最初猜測(cè)Claude是逐詞寫到第二句話的最后再挑個(gè)押韻詞。
結(jié)果卻是,Claude會(huì)提前規(guī)劃!
在寫第二行前,它就「想」好了和grab、carrot的相關(guān)詞rabbit,然后帶著計(jì)劃寫出第二行,并以目標(biāo)詞rabbit結(jié)尾。
為了驗(yàn)證上述是否是偶然情況,研究人員模仿神經(jīng)科學(xué)家研究大腦的方法,通過(guò)改變Claude內(nèi)部狀態(tài)的「rabbit」概念來(lái)驗(yàn)證。
如果去掉「rabbit」,它會(huì)寫出以「habbit」結(jié)尾的新行。
這展示了它的規(guī)劃能力和適應(yīng)性——目標(biāo)變了,它能調(diào)整策略。
他們還發(fā)現(xiàn),Claude是多語(yǔ)言訓(xùn)練的,能流利地說(shuō)幾十種語(yǔ)言,從英語(yǔ)、法語(yǔ)到中文、甚至Tagalog語(yǔ)。
這種多語(yǔ)言能力是怎么實(shí)現(xiàn)的?
是Claude內(nèi)部分別有獨(dú)立的「法語(yǔ)Claude」和「中文Claude」兩個(gè)「本地學(xué)家」分開(kāi)運(yùn)行并獨(dú)立回應(yīng)用戶提問(wèn)嗎?
還是有一些懂得多門外語(yǔ)的「語(yǔ)言學(xué)家」核心?
研究表明,它并不是每種語(yǔ)言的推理都有完全獨(dú)立的模塊。
相反,多語(yǔ)言的通用概念被嵌在同一組神經(jīng)元里,模型似乎在這個(gè)概念空間里「推理」,然后再將輸出轉(zhuǎn)換為適當(dāng)?shù)恼Z(yǔ)言。
最近,對(duì)較小模型的研究已顯示跨語(yǔ)言的語(yǔ)法機(jī)制有共通之處。
通過(guò)讓Claude回答不同語(yǔ)言中「小的反義詞是什么」,研究人員發(fā)現(xiàn)代表「小」和「相反」概念的核心特征會(huì)被激活,觸發(fā)「大」的概念,再翻譯成提問(wèn)語(yǔ)言。
共享特征存在于英語(yǔ)、法語(yǔ)和漢語(yǔ)中,表明在概念上存在一定程度的普遍性
模型越大,這種共享概念越多,Claude 3.5 Haiku跨語(yǔ)言共享的特征比例是小模型的兩倍多。
這進(jìn)一步證明了某種概念通用性——一個(gè)共享的抽象空間,在這里意義存在,思維發(fā)生,然后才翻譯成具體語(yǔ)言。
更實(shí)際地說(shuō),這意味著Claude能用一種語(yǔ)言學(xué)到的知識(shí),應(yīng)用到另一種語(yǔ)言。
研究模型如何跨場(chǎng)景共享知識(shí),對(duì)理解它的高級(jí)推理能力(泛化)至關(guān)重要。
研究人員還發(fā)現(xiàn),Claude會(huì)為了討好用戶而在思維鏈上撒謊。
比如,問(wèn)它一個(gè)用不著推理的簡(jiǎn)單問(wèn)題,它還是會(huì)編個(gè)假的推理過(guò)程出來(lái)。
Anthropic的研究員Josh Batson說(shuō):「雖然它聲稱自己算了一遍,但我們的解讀技術(shù)完全找不到任何證據(jù)證明它真的算了?!?/span>
Batson表示,多虧了他和其他科學(xué)家開(kāi)發(fā)的這些探秘LLM「大腦」的技術(shù),使得「機(jī)制可解釋性」領(lǐng)域進(jìn)展的很快。
「我覺(jué)得再過(guò)一兩年,我們對(duì)這些模型思考方式的了解會(huì)超過(guò)對(duì)人類思維的了解,」Batson說(shuō),「因?yàn)槲覀兛梢宰鑫覀兿胱龅乃袑?shí)驗(yàn)?!?/span>
不過(guò),Anthropic也承認(rèn)這種方法有其局限性。
Anthropic在這個(gè)新研究中訓(xùn)練了一個(gè)叫做跨層轉(zhuǎn)碼器(CLT)的新模型,該模型使用可解釋的特征集而不是單個(gè)神經(jīng)元的權(quán)重來(lái)工作。
這使得研究人員能夠更好地理解模型的工作方式,因?yàn)樗麄兛梢宰R(shí)別出一組傾向于一起工作的「神經(jīng)元電路」。
Batson解釋說(shuō):「我們的方法將模型分解,得到了新的、不同于原始神經(jīng)元的片段,這意味著我們可以看到不同部分如何扮演不同的角色。它還允許研究人員追蹤整個(gè)推理過(guò)程通過(guò)網(wǎng)絡(luò)的每一層?!?/span>
但這些只是對(duì)復(fù)雜模型(如Claude)內(nèi)部運(yùn)作的近似。
在CLT找出的電路之外,可能還有些神經(jīng)元在某些輸出中起微妙但關(guān)鍵的作用。
CLT也抓不住LLM運(yùn)作的一個(gè)核心——「注意力機(jī)制」,也就是模型在生成輸出時(shí),對(duì)輸入提示詞的不同部分賦予不同的重要性。
這種注意力會(huì)動(dòng)態(tài)變化,但CLT沒(méi)法捕捉這些變化,而這可能在LLM的「思考」中很關(guān)鍵。
以下是Anthropic技術(shù)博客中的詳細(xì)內(nèi)容。
「黑箱之謎」:能否打開(kāi)Claude「腦子」,看看里面到底怎么回事
像Claude這樣的LLM并不是人類直接編程造出來(lái)的,而是通過(guò)海量數(shù)據(jù)訓(xùn)練出來(lái)的。
在訓(xùn)練過(guò)程中,它們自己學(xué)會(huì)了解決問(wèn)題的方法和能力。
這些能力蘊(yùn)藏在數(shù)以千億計(jì)的模型參數(shù)中,這些方法被編碼在模型為每個(gè)輸出的單詞所進(jìn)行的數(shù)十億次計(jì)算中。
對(duì)于模型外的人類來(lái)說(shuō),它們就像個(gè)黑箱,難以捉摸。
目前沒(méi)有人真正清楚這些模型「大部分行為」背后的運(yùn)作原理。
如果能搞清楚像Claude這樣的模型是怎么「思考」的,我們就能更好地了解它們的能力,也能確保它們按照我們的意圖行事。比如:
- Claude會(huì)說(shuō)幾十種語(yǔ)言,那它在「腦子里」用的是哪種語(yǔ)言呢(如果有的話)?
- Claude是下一個(gè)詞下一個(gè)詞地寫出文本,它是只盯著預(yù)測(cè)下一個(gè)詞,還是會(huì)提前規(guī)劃?
- Claude能一步步寫出推理過(guò)程,這些解釋是它真實(shí)得出答案的步驟,還是有時(shí)候只是編了個(gè)看似合理的說(shuō)法來(lái)圓場(chǎng)?
Anthropic的研究者們從神經(jīng)科學(xué)領(lǐng)域汲取靈感——畢竟神經(jīng)科學(xué)早就開(kāi)始研究像人類一樣會(huì)思考生物的復(fù)雜內(nèi)心世界。
研究者打造了一種「AI顯微鏡」,來(lái)識(shí)別大模型內(nèi)部的活動(dòng)模式和信息流動(dòng)。
光靠和AI聊天,能了解的東西有限,畢竟連人類(甚至神經(jīng)科學(xué)家)都搞不清自己大腦的全部細(xì)節(jié)。
得深入內(nèi)部去看看。
Anthropic的研究者用兩篇研究論文展示了開(kāi)發(fā)這種「AI顯微鏡」最新進(jìn)展,以及用「AI顯微鏡」觀察「AI生物學(xué)」方面的進(jìn)展。
第一篇論文描述了一種「電路追蹤」計(jì)算圖,從定位模型內(nèi)部可解釋的「概念」(稱為「特征」),到把這些概念連成計(jì)算「電路」。
揭示了Claude是如何將輸入詞「轉(zhuǎn)化」到輸出詞的。
論文地址:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
第二篇論文則深入研究了Claude 3.5 Haiku,對(duì)十個(gè)關(guān)鍵的簡(jiǎn)單任務(wù),使用上述提到的「電路追蹤」技術(shù)進(jìn)行了深入地研究。
論文地址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual
下面將帶你速通「AI顯微鏡」研究中最驚艷的「AI生物學(xué)」發(fā)現(xiàn)。
「AI生物學(xué)」之旅
Claude的解釋總是可信嗎?
新發(fā)布的Claude 3.7 Sonnet能在回答前「大聲思考」很久——也就是我們?cè)谑褂妙愃艱eepSeek-R1、OpenAI-o3等思考模型時(shí)經(jīng)??吹降乃伎歼^(guò)程。
這往往能提升答案質(zhì)量,但有時(shí)這種「思維鏈CoT」會(huì)誤導(dǎo)人。
Claude可能會(huì)編出看起來(lái)「合理」但實(shí)際是「虛假」的步驟。
從可靠性角度看,問(wèn)題在于它的「虛假的思考過(guò)程」很能唬人。
Anthropic的研究者探索了利用「可解釋性」如何區(qū)分「真實(shí)」和「虛假」推理。
讓Claude算0.64的平方根,它會(huì)給出一個(gè)真實(shí)的思維鏈,特征顯示中間步驟是算64的平方根。
但讓它算一個(gè)大數(shù)的余弦(它算不準(zhǔn)),它有時(shí)會(huì)胡謅一個(gè)答案,甚至聲稱算過(guò)了,但我們的「AI顯微鏡」沒(méi)找到任何計(jì)算證據(jù)。
更妙的是,給它一個(gè)提示后,它會(huì)反向推理,編出通往目標(biāo)的步驟,展現(xiàn)出一種「動(dòng)機(jī)性推理」——仿佛一種因果倒置。
追蹤C(jī)laude的真實(shí)內(nèi)部推理(而非它聲稱的),為審計(jì)AI系統(tǒng)開(kāi)辟了新可能。
在另一實(shí)驗(yàn)中,我們研究了一個(gè)被訓(xùn)練去迎合獎(jiǎng)勵(lì)模型偏見(jiàn)的Claude變體。
雖然它不愿直接承認(rèn)這目標(biāo),但我們的方法揭示了偏見(jiàn)迎合的特征,表明未來(lái)改進(jìn)后,這種技術(shù)或能識(shí)別「隱藏的思維過(guò)程」。
多步推理
語(yǔ)言模型可能通過(guò)記住答案來(lái)應(yīng)對(duì)復(fù)雜問(wèn)題。
比如問(wèn)「達(dá)拉斯所在州的首府是哪」,一個(gè)「死記硬背」的模型可能會(huì)直接輸出「奧斯汀」。
但是模型并不理解達(dá)拉斯、德克薩斯和奧斯汀的關(guān)系。
但我們發(fā)現(xiàn)Claude更聰明。
問(wèn)需要多步推理的問(wèn)題時(shí),我們能識(shí)別它思考中的中間步驟。
在達(dá)拉斯例子中,它先激活「達(dá)拉斯在德克薩斯」的特征,再連接到「德克薩斯首府是奧斯汀」的概念,組合獨(dú)立事實(shí)得出答案,而非死記。
研究人員通過(guò)干預(yù)中間步驟,發(fā)現(xiàn)模型依然能準(zhǔn)確應(yīng)對(duì)。
比如把「德克薩斯」換成「加利福尼亞」,答案就從「奧斯汀」變成「薩克拉門托」,證明它確實(shí)靠中間步驟來(lái)決定答案,而不是靠死記硬背。
幻覺(jué)
為什么語(yǔ)言模型會(huì)出現(xiàn)「幻覺(jué)」——隨意編造信息?
從根本上看,訓(xùn)練激勵(lì)了幻覺(jué):模型總得「猜」下一個(gè)詞。
真正的挑戰(zhàn)是如何讓模型不要隨意產(chǎn)生「幻覺(jué)」。
Claude的防幻覺(jué)訓(xùn)練相對(duì)成功(雖不完美),會(huì)拒絕回答不知道的問(wèn)題,而非胡猜。
研究人員想知道模型是如何實(shí)現(xiàn)的,結(jié)果發(fā)現(xiàn),Claude默認(rèn)會(huì)拒絕回答。
有個(gè)默認(rèn)一直「開(kāi)著」的電路,讓它聲稱信息不足。
但問(wèn)它熟悉的事(如籃球明星邁克爾·喬丹),一個(gè)「已知實(shí)體」特征會(huì)激活,抑制默認(rèn)電路,讓它回答。
問(wèn)未知實(shí)體(如邁克爾·巴特金),它就拒絕回答。
通過(guò)干預(yù),激活「已知答案」特征(或抑制「未知名字」特征,即默認(rèn)讓模型選擇「Know Answer」那條計(jì)算路線),我們能讓Claude幻覺(jué)說(shuō)出「邁克爾·巴特金在下棋」。
有時(shí)這種「已知答案」電路會(huì)自然誤觸發(fā),導(dǎo)致幻覺(jué),比如認(rèn)出名字但不知詳情時(shí),錯(cuò)誤抑制不知道特征,然后胡編一個(gè)答案。
越獄
「越獄」是一種提示詞技巧,指的是繞過(guò)安全限制的某種提示策略,讓模型輸出開(kāi)發(fā)者不希望甚至有害的內(nèi)容。
Anthropic研究了一個(gè)誘導(dǎo)Claude輸出炸彈(BOMB)制作方法的越獄策略。
方法是讓它解碼句子「Babies Outlive Mustard Block」的首字母(B-O-M-B),然后據(jù)此行動(dòng)。
這讓模型「感到」迷惑,從而讓它輸出了原本不會(huì)說(shuō)的內(nèi)容。
為什么在這種情況下模型會(huì)表現(xiàn)的這么迷惑?
這主要是源于語(yǔ)法連貫性和安全機(jī)制的沖突,即模型對(duì)連貫性的追求超過(guò)了安全機(jī)制的要求。
一旦Claude開(kāi)始輸出一句話,許多特性會(huì)「迫使」它保持語(yǔ)法和語(yǔ)義的連貫性,并將這句話說(shuō)完。
即使它檢測(cè)到自己真的應(yīng)該拒絕時(shí)也是如此。
在上述例子中,模型無(wú)意中拼出了「BOMB」并開(kāi)始提供指示后,觀察到其后續(xù)輸出受到了促進(jìn)正確語(yǔ)法和自一致性的功能的影響。
這些功能通常會(huì)非常有幫助,但在這個(gè)案例中卻成了模型的致命弱點(diǎn)。
某種意義上,這是對(duì)于LLM的「社工攻擊」。
模型只有在完成了一個(gè)語(yǔ)法連貫的句子后(從而滿足了推動(dòng)其趨向連貫性的特征的壓力)才設(shè)法轉(zhuǎn)向拒絕。
也就是它在「不得不告訴」你一些事情之后(終于完成上一句話),利用新句子生成的機(jī)會(huì),給出了之前未能給出的那種拒絕:「不過(guò),我不能提供詳細(xì)的指示……」。
總結(jié)一下,以上這些發(fā)現(xiàn)不僅僅是在「科學(xué)研究」上有趣——它們代表了我們?cè)诶斫釧I系統(tǒng)并確保其可靠性的目標(biāo)上取得了重大進(jìn)展。
當(dāng)然這種方法存在一定的局限性。
即使在簡(jiǎn)短、簡(jiǎn)單的提示下,「AI顯微鏡」方法也只能捕捉到Claude執(zhí)行的總計(jì)算的一部分。
并且看到的機(jī)制可能基于「AI顯微鏡」工具存在一些并不反映底層模型實(shí)際情況的偽影——就像模型在心算問(wèn)題上的前后不一。
從人力的角度,即使是對(duì)只有幾十個(gè)詞的提示,理解我們所看到的「電路圖」也需要花費(fèi)幾個(gè)小時(shí)的人力。
要擴(kuò)展到支持現(xiàn)代模型使用的復(fù)雜思維鏈所需的數(shù)千個(gè)單詞,需要改進(jìn)方法以及(可能還需要借助 AI 輔助)如何理解我們所看到的內(nèi)容。
隨著AI系統(tǒng)的能力迅速增強(qiáng)并在越來(lái)越重要的領(lǐng)域中得到應(yīng)用,像這樣的可解釋性研究是風(fēng)險(xiǎn)最高、回報(bào)也最高的投資之一,這是一個(gè)重大的科學(xué)挑戰(zhàn)。
有可能提供一種獨(dú)特的工具來(lái)確保AI的透明度。
對(duì)模型機(jī)制的透明了解使我們能夠檢查它是否與人類價(jià)值觀一致——以及它是否值得我們信任。