OpenAI最強(qiáng)競品訓(xùn)練AI拆解LLM黑箱,意外窺見大模型「靈魂」
為了拆開大模型的「黑箱」,Anthropic可解釋性團(tuán)隊(duì)發(fā)表了一篇論文,講述了他們通過訓(xùn)練一個(gè)新的模型去理解一個(gè)簡單的模型的方法。
Anthropic發(fā)表的一項(xiàng)研究聲稱能夠看到了人工智能的靈魂。它看起來像這樣:
圖片
圖片
論文地址:https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa
在研究者看來,這個(gè)新的模型能準(zhǔn)確地預(yù)測和理解原本模型中神經(jīng)元的工作原理和組成機(jī)制。
Anthropic的可解釋性團(tuán)隊(duì)最近宣布他們成功分解了一個(gè)模擬AI系統(tǒng)中的抽象高維特征空間。
創(chuàng)建一個(gè)可解釋的AI去理解「AI黑盒」
研究人員首先訓(xùn)練了一個(gè)非常簡單的512神經(jīng)元AI來預(yù)測文本,然后訓(xùn)練了另一個(gè)名為「自動(dòng)編碼器」的AI來預(yù)測第一個(gè)AI的激活模式。
自動(dòng)編碼器被要求構(gòu)建一組特征(對應(yīng)更高維度AI中的神經(jīng)元數(shù)量),并預(yù)測這些特征如何映射到真實(shí)AI中的神經(jīng)元。
結(jié)果發(fā)現(xiàn),盡管原始AI中的神經(jīng)元本身不易理解,但是新的AI中的這些模擬神經(jīng)元(也就是「特征」)是單義的,每特征都表示一個(gè)指定的概念或功能。
例如,特征#2663代表「God」這個(gè)概念。
圖片
激活它的訓(xùn)練語句中最強(qiáng)的一條來自「Josephus」的記錄中「當(dāng)God降下暴雪時(shí),他前往Sepphoris」。
可以看到頂端的激活都是關(guān)于「God」的不同用法。
這個(gè)模擬神經(jīng)元似乎是由一組真實(shí)神經(jīng)元(包括407,182和259)組成的。
這些真實(shí)神經(jīng)元本身與「God」沒有太大關(guān)系,例如神經(jīng)元407主要對非英語(尤其是重音拉丁字母)和非標(biāo)準(zhǔn)文本(如HTML標(biāo)簽)有響應(yīng)。
但是在特征層面,一切都是井井有條的,當(dāng)特征2663被激活時(shí),它會(huì)增加文本中出現(xiàn)「bless」、「forbid」、「damn」或「-zilla」的概率。
這個(gè)AI并沒有將「God」這個(gè)概念與怪獸名字中的「God」區(qū)分開來。這可能是因?yàn)檫@個(gè)簡易AI沒有足夠的神經(jīng)元資源來專門處理這個(gè)事。
但隨著AI具備的特征數(shù)量增加,這種情況會(huì)發(fā)生改變:
圖片
在這棵樹的底部,你可以看到當(dāng)這個(gè)AI具有越來越多的特征時(shí),它在數(shù)學(xué)術(shù)語中對「the」的理解是如何變化的。
首先,為什么會(huì)有一個(gè)數(shù)學(xué)術(shù)語中「the」的特定特征?這很可能是由于AI的預(yù)測需求——知道某些特定的「the」之后應(yīng)該會(huì)跟隨一些數(shù)學(xué)詞匯,比如「numerator」或者「cosine」。
在研究人員訓(xùn)練的最小的那個(gè)只有512個(gè)特征的AI中,只有一個(gè)表示「the」的特征,而在具有16384個(gè)特征的最大AI中,這個(gè)特征已經(jīng)分支出了一個(gè)表示機(jī)器學(xué)習(xí)中「the」的特征,一個(gè)表示復(fù)分析中「the」的特征,以及一個(gè)表示拓?fù)鋵W(xué)和抽象代數(shù)中「the」的特征。
因此,如果能將系統(tǒng)升級(jí)到一個(gè)具有更多模擬神經(jīng)元的AI,那表示「God」的特征很可能會(huì)分裂成兩個(gè)——一個(gè)表示宗教中「God」的含義,另一個(gè)表示怪獸名字中「God」的含義。
后來,可能會(huì)有基督教中的God、猶太教中的God、哲學(xué)中的God等等。
研究小組對412組真實(shí)神經(jīng)元和相應(yīng)的模擬神經(jīng)元進(jìn)行了主觀可解釋性評(píng)估,發(fā)現(xiàn)模擬神經(jīng)元的可解釋性整體上比較好:
圖片
一些特征,比如表示「God」的特征,是用于特定概念的。
許多其他高度可解釋的特征,包括一些最可解釋的,是用于表示文本的「格式」,比如大寫或小寫字母、英語或其他字母表等。
圖片
這些特征有多常見呢?也就是說,如果你在相同的文本數(shù)據(jù)上訓(xùn)練兩個(gè)不同的4096個(gè)特征的AI,它們會(huì)有大部分相同的4096個(gè)特征嗎? 它們會(huì)都有某些代表「God」的特征嗎?
或者第一個(gè)AI會(huì)將「God」和「哥斯拉」放在一起,而第二個(gè)AI會(huì)將它們分開?第二個(gè)AI是否就完全不會(huì)有表示「God」的特征,而是用那個(gè)空間存儲(chǔ)一些第一個(gè)AI不可能理解的其他概念?
研究小組進(jìn)行了測試,發(fā)現(xiàn)他們的兩個(gè)AI模型是非常相似的!
平均而言,如果第一個(gè)模型中有一個(gè)特征,第二個(gè)模型中最相似的特征會(huì)有0.72的中值相關(guān)性。
圖片
看到了AI的靈魂
后續(xù)的工作將是什么呢?
今年五月,OpenAI試圖讓GPT-4(非常大)理解GPT-2(非常小)。他們讓GPT-4檢查了GPT-2的個(gè)307200個(gè)神經(jīng)元,并報(bào)告它發(fā)現(xiàn)的內(nèi)容。
GPT-4找到了一系列有趣的結(jié)果和一堆隨機(jī)廢話,因?yàn)樗麄冞€沒有掌握將真實(shí)神經(jīng)元投射到模擬神經(jīng)元并分析模擬神經(jīng)元的技巧。
盡管結(jié)果效果不明顯,但這確實(shí)是非常雄心勃勃的嘗試。
與Anthropic可解釋性文章中的這個(gè)AI不同,GPT-2是一個(gè)真實(shí)的(盡管非常小)AI,曾經(jīng)也給大眾留下了深刻印象。
但是研究的最終目的是要能夠解釋主流的AI系統(tǒng)。
Anthropic的可解釋性團(tuán)隊(duì)承認(rèn)他們還沒有做到這一點(diǎn),主要基于以下幾個(gè)原因:
首先,擴(kuò)大自動(dòng)編碼器的規(guī)模是一個(gè)很困難的事情。為了解釋GPT-4(或Anthropic的等效系統(tǒng)Claude)這樣的系統(tǒng),你需要一個(gè)差不多同樣大小的解釋器AI。
但是訓(xùn)練這樣規(guī)模的AI需要巨大的算力和資金支持。
其次,解釋的可擴(kuò)展性也是一個(gè)問題。
即使我們找到了所有關(guān)于God、哥斯拉以及其他一切的模擬神經(jīng)元,并畫出它們之間如何相連的巨大關(guān)系圖。
研究人員任然需要回答一些更復(fù)雜的問題,解決這些問題需要涉及成百上千萬的特征和連接的復(fù)雜交互。
所以需要一些自動(dòng)化的流程,也就是某種更大規(guī)模的「讓GPT-4告訴我們GPT-2在做什么」。
最后,所有這些對理解人類大腦有什么啟發(fā)?
人類也使用神經(jīng)網(wǎng)絡(luò)進(jìn)行推理和處理概念。
人類大腦中有很多神經(jīng)元,這一點(diǎn)和GPT-4是一樣的。
人類獲得的數(shù)據(jù)也非常稀疏——有很多概念(如烏賊)在日常生活中很少出現(xiàn)。
我們是否也在模擬一個(gè)更大的大腦?
目前這還是一個(gè)非常新的研究領(lǐng)域,但已經(jīng)有一些初步的發(fā)現(xiàn),表明人類視覺皮層中的神經(jīng)元確實(shí)以某種超定位的方式編碼特征,與AI模型中觀察到的模式相似。
參考資料:https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa