自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分解大模型的神經(jīng)元!Claude團(tuán)隊(duì)最新研究火了,網(wǎng)友:打開(kāi)黑盒

人工智能
ChatGPT最強(qiáng)競(jìng)對(duì)Claude背后的公司Anthropic,利用字典學(xué)習(xí)成功將大約500個(gè)神經(jīng)元分解成了約4000個(gè)可解釋特征。

神經(jīng)網(wǎng)絡(luò)的不可解釋性,一直是AI領(lǐng)域的“老大難”問(wèn)題。

但現(xiàn)在,我們似乎取得了一絲進(jìn)展——

ChatGPT最強(qiáng)競(jìng)對(duì)Claude背后的公司Anthropic,利用字典學(xué)習(xí)成功將大約500個(gè)神經(jīng)元分解成了約4000個(gè)可解釋特征。

圖片圖片

具體而言,神經(jīng)元具有不可解釋性,但經(jīng)過(guò)這一分解,Anthropic發(fā)現(xiàn)每一個(gè)特征都代表了不同的含義,比如有的分管DNA序列,有的則表示HTTP請(qǐng)求、法律文本等等,也就是具備了可解釋性。

圖片圖片

而通過(guò)人為地刺激其中任一特征,就能引導(dǎo)模型給出我們預(yù)期之內(nèi)的輸出。

比如開(kāi)啟DNA特征就能使模型輸出DNA,開(kāi)啟阿拉伯文字特征就讓模型輸出阿拉伯文字。

圖片圖片

Anthropic激動(dòng)地表示:

他們這一方法很可能克服AI不可解釋性這一巨大障礙。

而一旦我們能夠了解語(yǔ)言模型的工作原理,就能很容易地判斷一個(gè)模型是否安全,從而決定它是否應(yīng)該被社會(huì)和企業(yè)所采用。

圖片圖片

具體來(lái)看。

用字典學(xué)習(xí)分解語(yǔ)言模型

首先,光針對(duì)語(yǔ)言模型來(lái)說(shuō),它的不可解釋性主要體現(xiàn)在網(wǎng)絡(luò)中的大多數(shù)神經(jīng)元都是“多語(yǔ)義的”。

即它們可以對(duì)多個(gè)不相關(guān)的事物進(jìn)行響應(yīng)。

例如,一個(gè)小型語(yǔ)言模型中的某個(gè)神經(jīng)元會(huì)同時(shí)對(duì)學(xué)術(shù)引文、英語(yǔ)對(duì)話、HTTP請(qǐng)求、韓語(yǔ)文字等不同內(nèi)容表現(xiàn)出強(qiáng)烈的激活狀態(tài)。

圖片圖片

而這會(huì)阻礙我們了解神經(jīng)網(wǎng)絡(luò)每一小部分的具體功能和交互過(guò)程,從而無(wú)法對(duì)整個(gè)網(wǎng)絡(luò)的行為進(jìn)行推斷。

那么,是什么原因造成了多語(yǔ)義性這一特征?

早在去年,Anthropic就推測(cè)其中一個(gè)潛在的因素是“疊加”(superposition)。

這指的是模型將許多不相關(guān)的概念全部壓縮到一個(gè)少量神經(jīng)元中的操作。

圖片圖片

同時(shí),Anthropic也指出,字典學(xué)習(xí)——就是提取事物最本質(zhì)的特征,最終讓我們像查字典一樣獲取新知識(shí),是解決這一問(wèn)題的辦法。

在此之前,他們已提出了一個(gè)疊加玩具模型,并證明:

如果一個(gè)對(duì)模型有用的特征集在訓(xùn)練數(shù)據(jù)中是稀疏的,那么該神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中可以自然地產(chǎn)生疊加。
基于該玩具模型,他們提出了三種策略來(lái)找到一組稀疏且可解釋的特征:一是創(chuàng)建沒(méi)有疊加的模型,然后通過(guò)鼓勵(lì)激活稀疏性;

二是使用字典學(xué)習(xí)在表現(xiàn)出疊加的模型中找到超完備的特征基礎(chǔ);

三是將前兩種方法混合使用。

經(jīng)過(guò)實(shí)驗(yàn)證明,方法一不足以杜絕多語(yǔ)義性,方法二則存在嚴(yán)重的過(guò)擬合問(wèn)題。

于是在此,團(tuán)隊(duì)又采用了一種稱(chēng)為稀疏自動(dòng)編碼器的弱字典學(xué)習(xí)算法。

它能夠從經(jīng)過(guò)訓(xùn)練的模型生成學(xué)習(xí)特征,提供比模型神經(jīng)元本身更單一語(yǔ)義的分析單元。

總的來(lái)說(shuō),該算法建立在大量先前的成果之上,尤其是在神經(jīng)網(wǎng)絡(luò)激活上使用字典學(xué)習(xí)的相關(guān)方法,以及解耦(disentanglement)相關(guān)的內(nèi)容。

最終所得編碼器在從疊加中提取可解釋性特征方面取得了“令人信服的成功”。

具體來(lái)說(shuō),Anthropic采用一個(gè)具有512個(gè)神經(jīng)元的MLP單層transformer,通過(guò)在具有80億個(gè)數(shù)據(jù)點(diǎn)的MLP激活上訓(xùn)練稀疏自動(dòng)編碼器,最終將MLP激活分解為相對(duì)可解釋的特征,擴(kuò)展因子范圍可以從1x(512個(gè)特征)增長(zhǎng)到256x(131072個(gè)特征)。

Anthropic團(tuán)隊(duì)將他們得到的可解釋性分析全部集中在一個(gè)稱(chēng)為A/1的運(yùn)行中,共包含4096個(gè)特征,每個(gè)特征都注明了含義,它們可以按照預(yù)期被人工激活。

下面是它們的可視化圖表:

圖片圖片

集成長(zhǎng)篇報(bào)告發(fā)布,7個(gè)關(guān)鍵結(jié)論

現(xiàn)在,Anthropic將以上全部成果以報(bào)告的形式發(fā)布。

報(bào)告題目為《邁向單義性:通過(guò)字典學(xué)習(xí)分解語(yǔ)言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning)。

篇幅非常長(zhǎng),共分為四部分,分別為:

  • 問(wèn)題設(shè)置,闡述研究動(dòng)機(jī),以及他們訓(xùn)練的transformer和稀疏自動(dòng)編碼器。
  • 特征詳細(xì)調(diào)查,即“存在性證明”,證明他們發(fā)現(xiàn)的特征確實(shí)是功能上特定的因果單元。
  • 全局分析,表明所得特征是可解釋的,并且它們能夠解釋MLP層的重要部分。
  • 現(xiàn)象分析,描述特征的幾個(gè)屬性,包括特征分割性、普遍性等,以及它們?nèi)绾涡纬梢粋€(gè)有趣的、類(lèi)似“有限狀態(tài)自動(dòng)機(jī)”的系統(tǒng)。

總的來(lái)看,關(guān)鍵結(jié)論一共有7個(gè):

1、我們能夠用稀疏自動(dòng)編碼器提取相對(duì)單一語(yǔ)義的特征,但大多數(shù)學(xué)習(xí)到的特征都是相對(duì)可解釋的。

2、稀疏自動(dòng)編碼器產(chǎn)生可解釋的特征,在神經(jīng)元基礎(chǔ)中基本是不可見(jiàn)的。

3、稀疏自動(dòng)編碼器功能可用于干預(yù)和引導(dǎo)transformer的生成。

例如,激活Base64特征會(huì)導(dǎo)致模型生成Base64文本,激活阿拉伯文字特征會(huì)生成阿拉伯文本。

4、稀疏自動(dòng)編碼器產(chǎn)生相對(duì)通用的特征。特征彼此之間的相似性比它們與自己模型神經(jīng)元之間的相似度更高(對(duì)應(yīng)“普遍性”一節(jié))。

5、當(dāng)我們?cè)黾幼詣?dòng)編碼器的大小時(shí),特征似乎會(huì)“分裂”。比如一個(gè)小型字典中的Base64特征在較大的字典中會(huì)分成三個(gè),每個(gè)都具有更微妙但仍可解釋的含義(對(duì)應(yīng)“特征分割性”一節(jié))。

6、僅512個(gè)神經(jīng)元就可以代表數(shù)萬(wàn)個(gè)特征。

7、特征可以在類(lèi)似“有限狀態(tài)自動(dòng)機(jī)”的系統(tǒng)中實(shí)現(xiàn)連接,從而完成復(fù)雜的行為(比如生成HTML功能)。

圖片圖片

One More Thing

在評(píng)論區(qū),有網(wǎng)友評(píng)價(jià):

神經(jīng)元就像一個(gè)神秘的盒子,Anthropic這項(xiàng)工作就相當(dāng)于研究如何偷看盒子中的內(nèi)容。

圖片圖片

顯然,這項(xiàng)工作還只是一個(gè)開(kāi)頭——

Anthropic同時(shí)還在加緊招聘可解釋性相關(guān)的研究員和工程師。

圖片圖片

點(diǎn)開(kāi)來(lái)看,薪資在25萬(wàn)美元(約180萬(wàn)元)-52萬(wàn)美元之間,研究?jī)?nèi)容跟如上報(bào)告息息相關(guān)。

報(bào)告鏈接: https://transformer-circuits.pub/2023/monosemantic-features/index.html

參考鏈接:https://twitter.com/anthropicai/status/1709986949711200722

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2023-10-08 13:44:00

數(shù)據(jù)研究

2024-12-09 09:30:00

AI模型

2023-05-10 15:45:08

GPT-4AI模型

2023-08-21 10:48:25

2022-10-31 15:17:49

AI系統(tǒng)

2024-12-04 08:50:00

2019-10-11 14:48:42

技術(shù)研發(fā)指標(biāo)

2018-12-20 11:38:37

神經(jīng)元神經(jīng)網(wǎng)絡(luò)語(yǔ)言

2024-12-19 17:52:27

2025-01-14 13:04:08

2021-10-20 10:51:57

AI 數(shù)據(jù)人工智能

2024-10-24 13:40:00

AI大模型

2024-11-19 12:53:50

2022-03-22 14:02:39

神經(jīng)網(wǎng)絡(luò)AI研究

2020-10-13 09:33:28

AI神經(jīng)元人類(lèi)

2023-10-16 12:51:32

2024-06-28 16:03:38

2025-02-06 10:16:00

2024-09-02 09:12:00

場(chǎng)景管理

2018-04-25 09:07:41

人工智能神經(jīng)網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)