自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

打破大模型黑盒，徹底分解神經(jīng)元！OpenAI對(duì)頭Anthropic擊破AI不可解釋性障礙

作者：新智元 2023-10-08 13:44:00

人工智能新聞

距離破除大模型「黑箱」難題又近了一步！近日，來(lái)自Anthropic的研究團(tuán)隊(duì)通過(guò)采用稀疏自動(dòng)編碼器的弱字典學(xué)習(xí)算法，從512個(gè)神經(jīng)元中提取出來(lái)了4000多個(gè)可解釋特征。

長(zhǎng)久以來(lái)，我們都無(wú)從理解AI是如何進(jìn)行決策和輸出的。

模型開(kāi)發(fā)人員只能決定算法、數(shù)據(jù)，最后得到模型的輸出結(jié)果，而中間部分——模型是怎么根據(jù)這些算法和數(shù)據(jù)輸出結(jié)果，就成為了不可見(jiàn)的「黑箱」。

所以就出現(xiàn)了「模型的訓(xùn)練就像煉丹」這樣的戲言。

但現(xiàn)在，模型黑箱終于有了可解釋性！

來(lái)自Anthropic的研究團(tuán)隊(duì)提取了模型的神經(jīng)網(wǎng)絡(luò)中最基本的單位神經(jīng)元的可解釋特征。

這將是人類揭開(kāi)AI黑箱的里程碑式的一步。

Anthropic激動(dòng)地表示：

「如果我們能夠理解模型中的神經(jīng)網(wǎng)絡(luò)是如何工作的，那么診斷模型的故障模式、設(shè)計(jì)修復(fù)程序，并讓模型安全地被企業(yè)和社會(huì)采用就將成為觸手可及的現(xiàn)實(shí)！」

在Anthropic的最新研究報(bào)告，Towards Monosemanticity: Decomposing Language Models With Dictionary Learning（《走向單語(yǔ)義性：用字典學(xué)習(xí)分解語(yǔ)言模型》），研究人員通過(guò)字典學(xué)習(xí)將包含512個(gè)神經(jīng)元的層分解出了4000多個(gè)可解釋的特征。

研究報(bào)告地址：https://transformer-circuits.pub/2023/monosemantic-features/index.html

這些特征分別表示DNA序列，法律語(yǔ)言，HTTP請(qǐng)求，希伯來(lái)文本，營(yíng)養(yǎng)成分說(shuō)明等。

當(dāng)孤立地觀察單個(gè)神經(jīng)元的激活時(shí)，這些模型屬性中的大多數(shù)都是不可見(jiàn)的。

這是由于大多數(shù)神經(jīng)元都是「多語(yǔ)義」的，單個(gè)神經(jīng)元與網(wǎng)絡(luò)行為沒(méi)有對(duì)應(yīng)一致的關(guān)系。

例如，在一個(gè)小型語(yǔ)言模型中，單個(gè)神經(jīng)元在許多不相關(guān)的上下文中都很活躍，包括：學(xué)術(shù)引文、英語(yǔ)對(duì)話、HTTP 請(qǐng)求和韓語(yǔ)文本。

而在經(jīng)典視覺(jué)模型中，單個(gè)神經(jīng)元會(huì)對(duì)貓的臉和汽車的前臉做出反應(yīng)。

不少研究都證實(shí)了一個(gè)神經(jīng)元的激活在不同的語(yǔ)境中可能意味著不同的含義。

而神經(jīng)元多語(yǔ)義的一個(gè)潛在原因是疊加，這是一種假設(shè)的現(xiàn)象，即神經(jīng)網(wǎng)絡(luò)通過(guò)為每個(gè)特征分配自己的神經(jīng)元線性組合，來(lái)表示數(shù)據(jù)的獨(dú)立「特征」多于它的神經(jīng)元數(shù)量。

如果將每個(gè)特征視為神經(jīng)元上的一個(gè)向量，那么特征集就構(gòu)成了網(wǎng)絡(luò)神經(jīng)元激活的一個(gè)過(guò)完備線性基礎(chǔ)。

在Anthropic之前的Toy Models of Superposition（《疊加玩具模型》）論文中，證明了稀疏性在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中可以消除歧義，幫助模型更好地理解特征之間的關(guān)系，從而減少激活向量的來(lái)源特征的不確定性，使模型的預(yù)測(cè)和決策更可靠。

這一概念類似于壓縮感知中的思想，其中信號(hào)的稀疏性允許從有限的觀測(cè)中還原出完整的信號(hào)。

但在Toy Models of Superposition中提出的三種策略中：

（1）創(chuàng)建沒(méi)有疊加的模型，或許可以鼓勵(lì)激活稀疏性;

（2）使用字典學(xué)習(xí)在表現(xiàn)出疊加態(tài)的模型中尋找過(guò)完備特征;

（3）依賴于兩者結(jié)合的混合方法。

方法（1）不足以防止多義性，方法（2）則存在著嚴(yán)重的過(guò)度擬合問(wèn)題。

因此，這次Anthropic的研究人員使用了一種稱為稀疏自動(dòng)編碼器的弱字典學(xué)習(xí)算法，從經(jīng)過(guò)訓(xùn)練的模型中生成學(xué)習(xí)到的特征，這些特征提供了比模型神經(jīng)元本身更單一的語(yǔ)義分析單位。

具體來(lái)說(shuō)，研究人員采用了具有512個(gè)神經(jīng)元的MLP單層transformer，并通過(guò)從80億個(gè)數(shù)據(jù)點(diǎn)的MLP激活上訓(xùn)練稀疏自動(dòng)編碼器，最終將MLP激活分解為相對(duì)可解釋的特征，擴(kuò)展因子范圍從1×（512個(gè)特征）到256×（131,072個(gè)特征）。

為了驗(yàn)證本研究發(fā)現(xiàn)的特征比模型的神經(jīng)元更具可解釋性，采用了盲審評(píng)估，讓一位人類評(píng)估員對(duì)它們的可解釋性進(jìn)行評(píng)分。

可以看到，特征（紅色）的得分比神經(jīng)元（青色）高得多。

證明了研究人員找到的特征相對(duì)于模型的內(nèi)部神經(jīng)元來(lái)說(shuō)更易理解。

此外，研究人員還采用了「自動(dòng)解釋性」方法，通過(guò)使用大型語(yǔ)言模型生成小型模型特征的簡(jiǎn)短描述，并讓另一個(gè)模型根據(jù)該描述預(yù)測(cè)特征激活的能力對(duì)其進(jìn)行評(píng)分。

同樣，特征得分高于神經(jīng)元，證明了特征的激活及其對(duì)模型行為的下游影響具有一致的解釋。

并且，這些提取出的特征還提供了一種有針對(duì)性的方法來(lái)引導(dǎo)模型。

如下圖所示，人為激活特征會(huì)導(dǎo)致模型行為以可預(yù)測(cè)的方式更改。

這些被提取的可解釋性特征可視化圖如下：

點(diǎn)擊左邊的特征列表，就能與神經(jīng)網(wǎng)絡(luò)中的特征空間進(jìn)行交互式探索。

研究報(bào)告概要

這份來(lái)自Anthropic的研究報(bào)告，Towards Monosemanticity: Decomposing Language Models With Dictionary Learning，主要可以分為四個(gè)部分。

問(wèn)題設(shè)置，研究人員介紹了研究動(dòng)機(jī)，并闡述訓(xùn)練的transfomer和稀疏自動(dòng)編碼器。

單個(gè)特征詳細(xì)調(diào)查，證明了研究發(fā)現(xiàn)的幾個(gè)特征是功能上特定的因果單元。

全局分析，論證了典型特征是可解釋的，并且它們可以解釋MLP層的重要部分。

現(xiàn)象分析，描述了特征的幾個(gè)屬性，包括特征分割、普遍性，以及它們?nèi)绾涡纬深愃朴凇赣邢逘顟B(tài)自動(dòng)機(jī)」的系統(tǒng)來(lái)實(shí)現(xiàn)復(fù)雜的行為。

結(jié)論包括以下7個(gè)：

1. 稀疏自動(dòng)編碼器能提取相對(duì)單一的語(yǔ)義特征。

2. 稀疏自編碼器能產(chǎn)生可解釋的特征，而這些特征在神經(jīng)元基礎(chǔ)中實(shí)際上是不可見(jiàn)的。

3. 稀疏自動(dòng)編碼器特征可用于干預(yù)和引導(dǎo)變壓器的生成。

4. 稀疏自編碼器能生成相對(duì)通用的特征。

5. 隨著自動(dòng)編碼器大小的增加，特征有「分裂」的傾向。

6. 僅512個(gè)神經(jīng)元就能代表數(shù)以萬(wàn)計(jì)的特征。

7. 這些特征在類似「有限狀態(tài)自動(dòng)機(jī)」的系統(tǒng)中連接起來(lái)，從而實(shí)現(xiàn)復(fù)雜的行為，如下圖。

具體詳細(xì)內(nèi)容可見(jiàn)報(bào)告。

但對(duì)這份研究報(bào)告，Anthropic認(rèn)為想要將本研究報(bào)告中小模型的成功復(fù)制到更大的模型上，我們今后面臨的挑戰(zhàn)將不再是科學(xué)問(wèn)題，而是工程問(wèn)題。

而這意味著為了在大模型上實(shí)現(xiàn)解釋性，需要在工程領(lǐng)域投入更多的努力和資源，以克服模型復(fù)雜性和規(guī)模帶來(lái)的挑戰(zhàn)。

包括開(kāi)發(fā)新的工具、技術(shù)和方法，以應(yīng)對(duì)模型復(fù)雜性和數(shù)據(jù)規(guī)模的挑戰(zhàn)；也包括構(gòu)建可擴(kuò)展的解釋性框架和工具，以適應(yīng)大規(guī)模模型的需求。

這將是解釋性AI和大規(guī)模深度學(xué)習(xí)研究領(lǐng)域的最新趨勢(shì)。

責(zé)任編輯：張燕妮來(lái)源：新智元

數(shù)據(jù)研究

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="cfndk"><track id="cfndk"></track></legend>