谷歌開源Gemma Scope,更好解釋大模型工作原理
隨著多模態(tài)大模型的出現(xiàn),內(nèi)部神經(jīng)網(wǎng)絡(luò)參數(shù)少則幾百億,多則上千億甚至過萬億,使得開發(fā)人員很難控制其輸出內(nèi)容經(jīng)常會出現(xiàn)各種“幻覺”,就是一本正經(jīng)的胡說八道。
雖然稀疏自編碼器(簡稱“SAE”)是解決這些難題的主流方法,可以學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)潛在表示的稀疏分解,將其分解為可解釋的詞、短語等特征,能有效解釋大模型的工作原理與機制。但普通的SAE質(zhì)量難以保證,并且訓(xùn)練成本非常高。
所以,谷歌DeepMind針對其開源的Gemma 2模型訓(xùn)練了特定的SAE——Gemma Scope。
Gemma Scope開源地址:https://huggingface.co/google/gemma-scope
Gemma 2 2B開源地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
Gemma-2-9b開源地址:https://huggingface.co/google/gemma-2-9b/tree/main
SAE是一種無監(jiān)督學(xué)習(xí)方法,能幫助我們理解大模型內(nèi)部的表示,并且這些特征往往與人類可理解的概念相關(guān)聯(lián)。例如,在處理文本數(shù)據(jù)時,SAE能學(xué)會識別“狗”這個詞背后的抽象概念,而不僅僅是字面上的字符組合。
這就好比在一堆混亂的線條中,SAE能幫我們找到那些構(gòu)成“狗”的特征線條,能讓我們更直觀地理解模型是如何認(rèn)識和生成“狗”這個字的。
與其他SAE相比,Gemma Scope通過強制學(xué)習(xí)過程中的稀疏性,使得模型的內(nèi)部表示中只有少數(shù)幾個關(guān)鍵特征被激活,而其余特征則保持為零。這種稀疏性不僅減少了模型的復(fù)雜度,還提高了其可解釋性,讓我們能夠更容易地識別和理解模型決策背后的關(guān)鍵因素。
Gemma Scope另外一大技術(shù)特點是其規(guī)模和全面性,研究人員在訓(xùn)練的過程涉使用了海量的文本數(shù)據(jù),每個SAE都是在4—160億個文本標(biāo)記上進(jìn)行訓(xùn)練覆蓋了Gemma 2模型的所有層和子層。學(xué)習(xí)了超過3000萬個特征,一共訓(xùn)練了超過400個SAE。
此外,Gemma Scope在訓(xùn)練SAE時采用了一種特殊的激活函數(shù)JumpReLU。這種激活函數(shù)專為SAE設(shè)計,通過引入一個可學(xué)習(xí)的閾值來促進(jìn)稀疏性,同時保持特征學(xué)習(xí)的效率和質(zhì)量。
傳統(tǒng)ReLU函數(shù)的特點是在輸入小于零時輸出零,而在輸入大于零時保持線性。而JumpReLU在此基礎(chǔ)上引入了一個非線性的跳躍閾值,允許神經(jīng)元在達(dá)到一定閾值后產(chǎn)生較大的跳躍響應(yīng),而不是簡單的線性響應(yīng)。
這種跳躍響應(yīng)機制增強了自編碼器對于關(guān)鍵稀疏特征的敏感度,使得模型能夠更加精準(zhǔn)地捕捉那些在數(shù)據(jù)集中出現(xiàn)頻率低但信息含量高的特征。
此外,研究人員在訓(xùn)練Gemma Scope的過程中,使用了大量優(yōu)質(zhì)數(shù)據(jù)來確保SAE的有效性。例如,在數(shù)據(jù)方面使用了與Gemma預(yù)訓(xùn)練文本數(shù)據(jù)相同分布的文本,來訓(xùn)練Gemma 2模型的激活。
在參數(shù)設(shè)置上,精心調(diào)整了學(xué)習(xí)率、帶寬、稀疏性系數(shù)等參數(shù),以提升訓(xùn)練效果。在基礎(chǔ)設(shè)施方面,使用了TPUv3、TPUv5p等加速器,并優(yōu)化了數(shù)據(jù)管道,以提高訓(xùn)練效率。
谷歌DeepMind表示,希望通過開源的Gemma Scope可以幫助開發(fā)人員更好地利用和了解SAE技術(shù),有助于擴展到更多、更大的模型上,從而用在解釋思維鏈等更復(fù)雜的功能上,幫助更大參數(shù)的大模型解決幻覺、越獄攻擊等難題。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
