自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

俯視LLM的靈魂:一文搞懂稀疏自動編碼器 原創(chuàng) 精華

發(fā)布于 2024-6-27 15:06
瀏覽
0收藏

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)

稀疏自動編碼器 (SAE) 最近因機器學(xué)習(xí)模型的可解釋性而變得流行(盡管SAE自 1997 年以來一直存在)。機器學(xué)習(xí)模型正在使LLMs變得越來越強大和有用,但它們?nèi)匀皇呛谙蛔?,如何看穿LLM的靈魂,且若能理解它們是如何工作的,那對于大模型的進(jìn)化有足夠的幫助和啟示意義。

使用SAE,可以開始將模型的計算分解為可理解的組件。本文將簡介的介紹下SAE的工作原理,然后讀者可以回頭去溫習(xí)“大模型的靈魂解讀:Anthropic AI的Claude3 Sonnet可解釋性研究”,應(yīng)該更加深有感觸。

1.自動編碼器

神經(jīng)網(wǎng)絡(luò)最自然的組成部分是單個神經(jīng)元。單個神經(jīng)元并不對應(yīng)于單個概念。語言模型中的任何概念,例如學(xué)術(shù)引用、英語對話、HTTP 求和韓語文本都是神經(jīng)單元的疊加,或者換句話說是神經(jīng)元的組合表示。

產(chǎn)生這種現(xiàn)象的原因可能是因為世界上存在的很多變量是稀疏的。例如,一個名人的出生地可能不到十億分之一的訓(xùn)練Tokens,LLMs在訓(xùn)練的過程中掌握了這點,加上訓(xùn)練的Token遠(yuǎn)遠(yuǎn)大于神經(jīng)元的數(shù)量,因此自然而然就會進(jìn)行疊加表示。

稀疏自動編碼器最近作為一種將神經(jīng)網(wǎng)絡(luò)分解為可理解組件的技術(shù)而廣受歡迎。SAE 的靈感來自神經(jīng)科學(xué)中的稀疏編碼假說。有趣的是,SAE是解釋人工神經(jīng)網(wǎng)絡(luò)的最有前途的工具之一。SAE 類似于標(biāo)準(zhǔn)自動編碼器。

常規(guī)自動編碼器是一種神經(jīng)網(wǎng)絡(luò),旨在壓縮然后重建其輸入數(shù)據(jù)。例如,它可以接收一個 1000 維向量(1000個數(shù)字的列表)作為輸入,通過編碼器層饋送該輸入以將輸入壓縮為512維向量,然后通過解碼器饋送壓縮編碼表示以產(chǎn)生1000維輸出向量。重建通常是不完美的,因為壓縮過程會有信息損失。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)


稀疏自動編碼器將輸入向量轉(zhuǎn)換為中間向量,該中間向量的維度可以高于、等于或低于輸入。當(dāng)應(yīng)用于LLM時,中間向量的維度通常大于輸入的維度。在這種情況下,如果沒有額外的約束,任務(wù)就很簡單。

SAE可以使用單位矩陣完美地重建輸入,作為額外的約束,在訓(xùn)練過程中的損失函數(shù)中添加了稀疏性懲罰,這會引導(dǎo)SAE創(chuàng)建稀疏中間向量。例如,可以將1000維輸入擴(kuò)展為200維編碼表示向量,并且可以訓(xùn)練SAE使其在編碼表示中僅包含約20個非零元素。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)


上圖中黑色的方塊代表著稀疏的激活值

將SAE應(yīng)用于神經(jīng)網(wǎng)絡(luò)中的中間激活,神經(jīng)網(wǎng)絡(luò)可以由許多層組成。在前向傳遞期間,每層內(nèi)部和之間都有中間激活。例如,GPT-3有96 層。在前向傳遞期間,輸入中的每個標(biāo)記都有一個12,288 維向量(包含 12,288 個數(shù)字的列表),該標(biāo)記從一層傳遞到另一層。此向量累積了模型在每一層處理下一個Token時用于預(yù)測下一個Token的所有信息,但它是不透明的,很難理解其中包含哪些信息。


若使用SAE來理解這種中間激活的方法如下:SAE基本上是一個矩陣 -> ReLU 激活 -> 矩陣。例如,如果GPT-3 SAE的擴(kuò)展因子為4,則輸入激活為12,288維,SAE的編碼表示為49,512 維 (12,288 x 4)。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)


第一個矩陣是形狀的編碼器矩陣(12,288,49,512),第二個矩陣是形狀的解碼器矩陣(49,512,12,288)。通過將GPT的激活與編碼器相乘并應(yīng)用 ReLU,我們生成了一個 49,512 維的SAE編碼表示,該表示是稀疏的,因為 SAE 的損失函數(shù)激勵了稀疏性。


通常的目標(biāo)是在SAE的表示中少于 100個數(shù)字為非零。通過將SAE的表示與解碼器相乘,我們產(chǎn)生了一個12,288 維重建的模型激活。這種重建并不完全匹配原始的 GPT 激活,畢竟這么一折騰,信息會有所丟失。


現(xiàn)在只在模型中的一個位置訓(xùn)練單個SAE。例如,可以在第25層和第26層之間的中間激活上訓(xùn)練單個 SAE。為了分析 GPT-3 中所有96層的輸出中包含的信息,可以訓(xùn)練 96 個單獨的SAE——每層一個。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)


上圖說明了這個過程,是拿激活值出來訓(xùn)練。原激活值通過與編碼矩陣相乘,之后通過激活函數(shù),然后得到稀疏表示,最后通過解碼矩陣還原。


如果還想分析每層中的各種中間激活,這將需要數(shù)百個SAE。對這些SAE 的訓(xùn)練數(shù)據(jù)來自通過 GPT 模型提供各種文本并收集每個選定位置的中間激活(樣本)。

2.功能

SAE表示的每個活動數(shù)字都對應(yīng)于可以理解的組件。假設(shè)12,288 維向量對 GPT-3 [1.5, 0.2, -1.2, ...] 來說意味著“橋”。SAE 解碼器是形狀矩陣 (49,512, 12,288),但我們也可以將其視為49,512個向量的集合,每個向量都是形狀(1, 12,288)。如果SAE解碼器向量519學(xué)習(xí)了與GPT-3相同的“橋”概念,則解碼器向量將近似等 [1.5, 0.2, -1.2, ...] 。每當(dāng) SAE 激活的元素 519不為零時,就相當(dāng)于對應(yīng)“橋”的向量。上面描述了SAE的工作原理,用專業(yè)的術(shù)語來講就是“解碼器對應(yīng)于殘差流空間中特征的線性表示”。

特征519代表什么?目前的做法是只看那些能最大限度地激活功能的輸入,并對其可解釋性做出直覺反應(yīng)。每個功能激活的輸入通常是可解釋的。例如,??Anthropic在Claude Sonnet??上訓(xùn)練了SAE,并發(fā)現(xiàn)了單獨的 SAE功能,這些功能可以在與金門大橋、神經(jīng)科學(xué)和熱門旅游景點相關(guān)的文本和圖像上激活。其他功能在不太明顯的概念上激活。

這里值得一提的是,在大量的激活值上面進(jìn)行訓(xùn)練,通過稀疏矩陣的確可以明顯看到一些特征,因為這個向量大部分的數(shù)值都為0了。通過研究Decoder矩陣就可以研究大模型在學(xué)習(xí)某個知識的時候,到底是如何融會貫通的。

如果存在基于特定主題激活的神經(jīng)元,那么激活某些神經(jīng)元是否會強制生成這些主題?回想一下AutoEncoder結(jié)構(gòu),雖然同時擁有編碼器和解碼器,但在訓(xùn)練后,只有編碼器用于將激活向量轉(zhuǎn)換為字典向量。是否可以使用解碼器從所選特征重建激活向量?換句話說,能操縱神經(jīng)元嗎?答案可以用 Anthropic 的一句話來概括:“稀疏的自編碼器功能可用于干預(yù)和控制變壓器的生成?!?nbsp;下圖單獨操縱神經(jīng)元以實現(xiàn)不同的結(jié)果。

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)


由于 SAE 解碼器向量與LLMs中間激活的形狀匹配,因此可以通過簡單地將解碼器向量添加到模型激活中來執(zhí)行因果干預(yù)。這里通過將解碼器向量乘以比例因子來縮放干預(yù)的強度。當(dāng)人類學(xué)研究人員將金門大橋SAE解碼器向量添加到大模型的激活中時,大模型不得不每次回復(fù)中都提到金門大橋。

如何評估SAE,目前存在L0和Loss Recovered兩個指標(biāo) 。L0是SAE編碼中非零元素的平均數(shù)。Loss Recovered是用重建的激活替換GPT或者其他大模型的原始激活并測量不完美重建的額外損失。這兩個指標(biāo)之間通常存在蹺蹺板效應(yīng),需要進(jìn)行權(quán)衡,。畢竟SAE會選擇降低重建精度以增加稀疏性。

許多新的SAE方法,例如Deepmind的門控SAE和OpenAI的TopK SAE,都修改了稀疏性懲罰以改善這種權(quán)衡。

下圖來自 Google Deepmind的Gated SAE 論文,它引入了門控稀疏自動編碼器 (Gated SAE),它比使用流行方法的訓(xùn)練實現(xiàn)了帕累托改進(jìn)。在 SAE 中,用于鼓勵稀疏性的 L1 懲罰引入了許多不良偏差,例如收縮 - 系統(tǒng)性地低估特征激活。門控 SAE 分離 “確定使用哪些方向”和“估計這些方向大小的功能”。這使得在典型的超參數(shù)范圍內(nèi)解決了收縮問題,具有類似的可解釋性,并且只需要一半的觸發(fā)特征即可實現(xiàn)相當(dāng)?shù)闹亟ūU娑取?/p>


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)

門控SAE的紅線更靠近圖表的左上角,這意味著在這種權(quán)衡中表現(xiàn)更好。

俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)


3.應(yīng)用


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)


上圖展示一種研究方法,a) 對語言模型的內(nèi)部激活進(jìn)行采樣,無論是殘差流、MLP 子層還是注意頭子層;b) 使用這些激活來訓(xùn)練神經(jīng)網(wǎng)絡(luò),稀疏自動編碼器,其權(quán)重形成特征字典<注意是Decoder Matrix!!>;c) 使用諸如 OpenAI 的自動解釋性分?jǐn)?shù)之類的技術(shù)來解釋生成的特征。


俯視LLM的靈魂:一文搞懂稀疏自動編碼器-AI.x社區(qū)



上圖以“括號”為例顯示每個特征之間的關(guān)系,同時每個特征上面都有人工解釋。邊緣厚度表示連續(xù)殘差流層中字典特征之間的因果關(guān)系強度,以消融為衡量標(biāo)準(zhǔn)。許多跨層的字典特征具有相似的解釋,并且通常指向激活空間中的相似方向,以余弦相似度為衡量標(biāo)準(zhǔn)。

本文轉(zhuǎn)載自??魯班模錘??,作者: 龐德公 

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-7-1 12:55:17修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦