自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

他們掰開神經(jīng)元,終于讓大模型9.8大于9.11了:神秘創(chuàng)業(yè)公司,開源AI「洗腦」工具

人工智能 新聞
大模型為什么認(rèn)為 9.8<9.11?神經(jīng)元級(jí)別的解釋來了。

9.8 和 9.11 到底哪個(gè)大?這個(gè)小學(xué)生都能答對(duì)的問題卻難倒了一眾大模型,很多模型輸出的結(jié)果都是「9.8<9.11」。

圖片

為什么模型會(huì)集體出錯(cuò)?AI 研究者們總結(jié)了很多可能的原因,比如模型會(huì)把 9.11 拆解成 9/./11 三部分,然后拿 11 去和 8 作比較;也有人猜測(cè),大模型會(huì)把 9.8 和 9.11 當(dāng)成日期或版本號(hào)……

這些解釋聽起來都有些道理,但如果我們能夠直觀地「看到」模型出錯(cuò)的原因,那么我們對(duì)于問題的歸因會(huì)更加準(zhǔn)確,解決問題的速度也會(huì)更快。

剛剛官宣的 AI 研究實(shí)驗(yàn)室 Transluce(字面意思是讓光線穿過某物以揭示其結(jié)構(gòu)) 就在做這件事情。他們開發(fā)了一個(gè)名叫 Monitor 的交互界面,以幫助人類觀察、理解和引導(dǎo)語言模型的內(nèi)部計(jì)算。

透過 Monitor,我們先來看看 AI 模型為什么會(huì)覺得 9.11 比 9.8 更大。

首先,讓模型比較一下這兩個(gè)數(shù)的大小,當(dāng)然它沒有意外地出錯(cuò)了。

圖片

Monitor 提供了快捷的方式幫助我們分析其錯(cuò)誤。將光標(biāo)放在出錯(cuò)的位置,可以看到模型在此處預(yù)測(cè)的詞的概率分布。很顯然,Llama 3.1 8B 的這個(gè)版本不僅錯(cuò)了,而且還對(duì)自己的錯(cuò)誤很自信。

點(diǎn)擊一下這個(gè)錯(cuò)誤,Monitor 開始分析模型出錯(cuò)的可能原因。具體來說,它會(huì)「尋找影響 bigger 這個(gè)預(yù)測(cè)結(jié)果的神經(jīng)元」。之后,Monitor 會(huì)對(duì)這些神經(jīng)元進(jìn)行聚類,如下所示,此處有 4 個(gè)聚類:

圖片

粗略來看,Llama 3.1 8B 在看到 9.11 和 9.9 這兩個(gè)數(shù)字文本時(shí),首先想到的并不是單純的數(shù)值,而是會(huì)和人類一樣聯(lián)想到相關(guān)的其它概念,比如 9/11 襲擊和之后的恐怖襲擊、《圣經(jīng)》章節(jié)和詩文編號(hào)、化學(xué)化合物和分子式、日期等等。并且其中每一種「聯(lián)想」都會(huì)觸發(fā)不同的神經(jīng)元組合。

選擇其中一個(gè)展開,可以看到影響 AI 模型做出「bigger」這個(gè)判斷的神經(jīng)元詳情。

圖片

我們可以點(diǎn)開一個(gè)具體的神經(jīng)元查看,比如這個(gè)第 2 層的 1054 號(hào)神經(jīng)元。這里展示了其在接收提示詞之后的正值激活情況。注意,這里的神經(jīng)元描述是該團(tuán)隊(duì)用自己提出的一種自動(dòng)化方法生成的;其中用到了一個(gè)解釋器模型,它會(huì)提出一些關(guān)于數(shù)據(jù)的假設(shè),之后再通過一個(gè)自動(dòng)評(píng)分流程對(duì)這些假設(shè)進(jìn)行評(píng)估,詳情可訪問 https://transluce.org/neuron-descriptions

圖片

通過分析這些神經(jīng)元,我們可以洞見模型出錯(cuò)的根本原因:模型根本沒把 9.11 當(dāng)成數(shù)值,而是看成了一個(gè)日期,這樣連帶下來,9.9 自然也是一個(gè)日期了。于是,9 月 11 號(hào)自然就比 9 月 9 日 bigger。另外,在《圣經(jīng)》中,9.11 也是比 9.8 更靠后的編號(hào)。而不管是 9/11 事件還是《圣經(jīng)》,模型的訓(xùn)練數(shù)據(jù)中都包含大量相關(guān)的文本內(nèi)容,這會(huì)影響到模型在判斷這個(gè)數(shù)字時(shí)的神經(jīng)元激活權(quán)重。

Monitor 還提供了進(jìn)一步的檢查技術(shù),可以通過將相應(yīng)激活強(qiáng)行設(shè)置為 0 來修正 AI 模型的行為。下面我們將對(duì)應(yīng)「日期」的相關(guān)神經(jīng)元的激活改成 0 看看。

圖片

結(jié)果?這個(gè) Llama 3.1 8B 還是沒對(duì),但是可以看到「bigger」的概率下降了很多(0.961→0.563),而對(duì)應(yīng)正確答案的「smaller」異軍突起,已經(jīng)來到了 top-2 的位置。

圖片

接下來,繼續(xù)操作,將關(guān)聯(lián)《圣經(jīng)》章節(jié)編號(hào)的神經(jīng)元激活也調(diào)成 0:

圖片

這一次,模型終于對(duì)了。它保留了 bigger,但將 9.9 和 9.11 的位置調(diào)換一下以遵循提問的形式。同樣,它對(duì)自己的答案很有信心。

圖片

而修復(fù)這個(gè)問題的代價(jià)僅僅是抑制了不到 0.2% 的 MLP 神經(jīng)元。

圖片

除了比較 9.11 和 9.9 的大小,官方還提供了另外三個(gè)示例,包括修復(fù) AI 難以數(shù)值排序的問題、引導(dǎo)出隱藏知識(shí)、引導(dǎo)故事中特定角色。其中的操作不僅包括將激活清零,也包括增強(qiáng)某些特定神經(jīng)元以引導(dǎo)模型生成符合用戶需求的結(jié)果。

圖片

另外,用戶也可以使用自己的提示詞,然后基于此分析模型的思考過程。機(jī)器之心嘗試了一個(gè) AI 領(lǐng)域的熱門問題:Strawberry 中有幾個(gè) r?

圖片

可以看到,這個(gè) AI 模型答錯(cuò)了,同時(shí)也對(duì)自己的答案頗有信心。

根據(jù) Monitor 分析,Llama 3.1 8B 模型在回答這個(gè)問題時(shí)會(huì)將 Strawberry 拆分成兩部分:Straw 和 berry,同時(shí) Strawberry 還激活了與食品和佐料相關(guān)的神經(jīng)元。

圖片

有意思的是,即便抑制了 Monitor 找到的所有神經(jīng)元激活,這個(gè) Llama 3.1 8B 模型依然無法正確解答「Strawberry 中有幾個(gè) r」這個(gè)問題。

圖片

那我們來增強(qiáng)一些神經(jīng)元試試。這里我們?cè)?Monitor 中輸入「Strawberry as a string made of several English letters(將 Strawberry 看作是一個(gè)由英語字母構(gòu)成的字符串)」作為搜索條件,定位到了 50 個(gè)相關(guān)神經(jīng)元,這里我們直接全部增強(qiáng)它們。

圖片

這一次,Llama 3.1 8B 終于給出了正確答案。而這一次,我們執(zhí)行了兩項(xiàng)抑制(各 500 個(gè)神經(jīng)元)和一項(xiàng)引導(dǎo)增強(qiáng)(50 個(gè)神經(jīng)元),不過這些神經(jīng)元的數(shù)量我們也可以自行調(diào)整。基于此,我們可以得出這樣的洞見:在解答「Strawberry 中有幾個(gè) r」這樣的問題時(shí),LLM 的問題是想得太多,去分析其背后所代表的意義和事物了,而它原本只需要將其看成一個(gè)字符串即可。

圖片

那么,這個(gè)叫 Monitor 的模型到底是怎么做出來的?背后的運(yùn)行機(jī)制是怎樣的?Transluce 這家公司是什么來頭?在一篇博客和一封公開信中,Transluce 給出了系統(tǒng)介紹。   

Monitor 的基本構(gòu)成

Monitor 采用了一套由 AI 驅(qū)動(dòng)的工具,可幫助用戶理解語言模型中的神經(jīng)激活模式:

1、一個(gè)預(yù)先編譯的高質(zhì)量神經(jīng)元描述數(shù)據(jù)庫,生成自對(duì) Llama-3.1-8B 中的所有 MLP 神經(jīng)元應(yīng)用 Transluce 的 AI 驅(qū)動(dòng)描述 pipeline。該系統(tǒng)同樣適用于 SAE 特征或任何其他特征集。Transluce 從神經(jīng)元開始,因?yàn)樗鼈冏詈?jiǎn)單,并且已經(jīng)運(yùn)作得很好。他們將發(fā)布系統(tǒng)的代碼,并期待其他人用他們自己的特征集在此基礎(chǔ)上進(jìn)行構(gòu)建!

2、一個(gè)實(shí)時(shí)界面,用于顯示給定聊天對(duì)話的重要概念。用戶可以通過激活(概念觸發(fā)的強(qiáng)度)或歸因(概念對(duì)指定目標(biāo) token 的影響程度)來衡量重要性。

3、一個(gè)實(shí)時(shí)的人工智能檢查器,它會(huì)自動(dòng)顯示可能是誤導(dǎo)性線索的非預(yù)期概念的集群(例如「9 月 11 日」神經(jīng)元在數(shù)字「9.11」上被觸發(fā))。

4、語義引導(dǎo)的轉(zhuǎn)向,基于自然語言輸入,增加或降低與概念相關(guān)的神經(jīng)元集合的強(qiáng)度。

系統(tǒng)設(shè)計(jì)

圖片

開發(fā)者采用一個(gè)預(yù)先編譯好的神經(jīng)元描述數(shù)據(jù)庫,并且每個(gè)描述都與最能激活該神經(jīng)元的 K 個(gè)關(guān)鍵示例和它們的激活模式相聯(lián)系。

向量數(shù)據(jù)庫(VectorDB)

該團(tuán)隊(duì)采用了 OpenAI 的 text-embedding-3-large 嵌入技術(shù)來處理這些描述,創(chuàng)建一個(gè)用于語義搜索的索引。

Linter

接下來,開發(fā)者使用一個(gè) AI linter 來突出顯示相關(guān)的神經(jīng)元簇。首先,他們讓 GPT-4o mini 簡(jiǎn)化并概括神經(jīng)元的描述。然后,他們使用 OpenAI 的嵌入技術(shù)(text-embedding-3-large)來嵌入神經(jīng)元,并使用層次聚類方法,根據(jù)余弦相似度將神經(jīng)元聚類,使用 0.6 的閾值。

最后,他們讓 GPT-4o mini 為某簇簡(jiǎn)化過的神經(jīng)元再生成一個(gè)簡(jiǎn)潔的描述,并根據(jù)簇內(nèi)神經(jīng)元在語義上的相似度打一個(gè)分?jǐn)?shù)(1-7),其中 1 代表最相似。在 Monitor 的界面中,只顯示數(shù)量大于等于三個(gè),且得分小于等于 3 的簇。

引導(dǎo)

開發(fā)者通過將神經(jīng)元的激活值固定在指定值來引導(dǎo)它們。具體來說,如果需要在 token T 上引導(dǎo)一組神經(jīng)元 S,以強(qiáng)度 λ 進(jìn)行操作,在每個(gè) token t 屬于 T 的情況下,在該標(biāo)記的前向傳播過程中,將神經(jīng)元的激活值設(shè)置為:λ*10^?5。

這個(gè)過程也會(huì)進(jìn)入該層的殘差中,進(jìn)而影響后續(xù)的層與注意力頭。這一操作會(huì)覆蓋所有需要引導(dǎo)的神經(jīng)元 s。由于神經(jīng)元具備正負(fù)兩種極性,當(dāng)我們指定一個(gè)神經(jīng)元時(shí),只有當(dāng)它與引導(dǎo)集中指定的極性相同時(shí)才會(huì)生效。

激活與歸因

如何衡量哪個(gè)神經(jīng)元在特定任務(wù)中更活躍?開發(fā)者提供了激活和歸因兩種模式。

激活主要關(guān)注神經(jīng)元的原始激活值,即上一節(jié)中的 λ,如果這個(gè)值遠(yuǎn)高于平均值,那么它很可能在任務(wù)中扮演重要角色。 

歸因是一種更具針對(duì)性的模式,它測(cè)量神經(jīng)元對(duì)特定輸出 token 的影響。受 Attribution Patching 啟發(fā),計(jì)算輸出 token 的對(duì)數(shù)概率 z 相對(duì)于神經(jīng)元激活值 e 的梯度,歸因值等于圖片

摘要功能

自動(dòng)生成的神經(jīng)元描述往往很啰嗦,而且很多描述對(duì)用戶來說可能沒有意義。為了解決這個(gè)問題,研究者們用大約 1000 個(gè)手動(dòng)標(biāo)注的示例集對(duì) GPT-4o-mini 進(jìn)行了微調(diào),讓它能夠判斷哪些描述對(duì)用戶來說是相關(guān)的,哪些是不相關(guān)的。

為了讓描述不那么啰嗦,該團(tuán)隊(duì)還使用了少量樣本作為提示詞,讓 GPT-4o-mini 對(duì)每個(gè)神經(jīng)元生成更簡(jiǎn)潔的描述,并將其展示給用戶和 AI linter(AI linter 對(duì)較短的輸入會(huì)處理得更好)。

前端設(shè)計(jì)

Monitor 的界面主要這幾個(gè)功能。首先可以點(diǎn)擊模型回答中的 token,查看更多詳細(xì)信息,比如每個(gè)輸出 token 的概率。左側(cè)的窗口中也顯示了 AI linter 分析的模型出錯(cuò)的原因,用戶可以通過調(diào)整參數(shù)(如 k 和 λ)來控制引導(dǎo)操作的影響范圍和強(qiáng)度。

圖片

在 Monitor 中,系統(tǒng)將會(huì)尋找與用戶搜索查詢最為匹配的 k 個(gè)神經(jīng)元。這些神經(jīng)元會(huì)被選為引導(dǎo)集,幫助我們決定哪些特征需要被減弱(停用)或者加強(qiáng)(增強(qiáng))。通常情況下,如果我們想要減弱一個(gè)特征,我們會(huì)設(shè)置引導(dǎo)值為 0(λ=0);如果我們想要加強(qiáng)一個(gè)特征,我們會(huì)設(shè)置引導(dǎo)值為 0.5(λ=0.5)。

圖片

用戶可以根據(jù)自己的需要,通過點(diǎn)擊高級(jí)選項(xiàng)來調(diào)整 k 的數(shù)值(也就是他們想要影響的神經(jīng)元數(shù)量)和 λ 的數(shù)值(也就是影響的程度)。他們還可以查看被選為引導(dǎo)集的神經(jīng)元示例,并決定他們想要影響的特定的 token 子集。如果沒有特別指定,系統(tǒng)默認(rèn)會(huì)影響初始系統(tǒng)和用戶提示中的所有 token。

當(dāng)然,用戶也可以點(diǎn)擊單個(gè)神經(jīng)元,了解每個(gè)神經(jīng)元的具體詳情。

用戶還可以選擇要引導(dǎo)的標(biāo)記子集,并查看引導(dǎo)集中的示例神經(jīng)元。

圖片

前端中最復(fù)雜的部分是右上角的 AI 助理顯示。這個(gè)地方能為用戶提供最相關(guān)的信息,包括有關(guān)界面狀態(tài)和 AI linter 顯示的信息。未來,這將成為一個(gè)通用接口,用戶可以從 AI 后端請(qǐng)求和接收信息。

Transluce:創(chuàng)建世界一流的工具來理解 AI 系統(tǒng)

人類很難理解人工智能系統(tǒng),因?yàn)樗鼈凖嫶笄也煌该?。Transluce 的目標(biāo)是創(chuàng)建世界一流的工具來理解 AI 系統(tǒng),并使用這些工具來推動(dòng)可信賴 AI 的行業(yè)標(biāo)準(zhǔn)。2024 年 7 月,Transluce 成立;2024 年 10 月 24 日,也就是今天,該公司正式官宣。

圖片

公司的創(chuàng)始團(tuán)隊(duì)如下:

圖片

其中,聯(lián)合創(chuàng)始人 Jacob Steinhardt 是加州大學(xué)伯克利分校助理教授,2018 年在斯坦福大學(xué)取得博士學(xué)位,師從斯坦福大學(xué)計(jì)算機(jī)科學(xué)副教授 Percy Liang。他的 Google Scholar 被引量高達(dá) 20000+。

另一位聯(lián)合創(chuàng)始人 Sarah Schwettmann 是 MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究科學(xué)家,2021 年 8 月在 MIT 拿到大腦與認(rèn)知科學(xué)博士學(xué)位。

公司的顧問團(tuán)隊(duì)非常豪華,集齊了 Yoshua Bengio、Percy Liang 在內(nèi)的多位 AI 大牛。

圖片

總的來看,Transluce 現(xiàn)階段是一個(gè)非營(yíng)利性研究實(shí)驗(yàn)室,致力于構(gòu)建開源、可擴(kuò)展的技術(shù),以理解 AI 系統(tǒng)并引導(dǎo)它們服務(wù)于公共利益。

為了建立對(duì) AI 系統(tǒng)能力和風(fēng)險(xiǎn)分析的信任,這些工具必須是可擴(kuò)展和開放的:  

  • 可擴(kuò)展性:AI 系統(tǒng)涉及多個(gè)復(fù)雜數(shù)據(jù)流的交互,包括訓(xùn)練數(shù)據(jù)、內(nèi)部表示、行為和用戶交互?,F(xiàn)有的理解 AI 的方法依賴于人類研究者的大量手動(dòng)工作。Transluce 致力于開發(fā)可擴(kuò)展的方法,利用 AI 來協(xié)助理解,通過訓(xùn)練 AI 智能體來理解這些復(fù)雜的數(shù)據(jù)源,向人類解釋它們,并根據(jù)人類反饋修改數(shù)據(jù)。
  • 開放性:構(gòu)建 AI 系統(tǒng)的公司不能成為其安全性的主要仲裁者,因?yàn)檫@與商業(yè)優(yōu)先級(jí)存在利益沖突。為了允許有意義的公眾監(jiān)督,審計(jì) AI 系統(tǒng)的工具和流程應(yīng)該是公開驗(yàn)證的,能夠響應(yīng)公眾反饋,并且對(duì)第三方評(píng)估者開放。這樣,全球最優(yōu)秀的人才可以審查這項(xiàng)技術(shù)并提高其可靠性。

Transluce 致力于解決這些需求。他們將構(gòu)建 AI 驅(qū)動(dòng)的技術(shù)來理解和分析 AI 系統(tǒng),并將其開源發(fā)布,以便社區(qū)能夠理解并在此基礎(chǔ)上進(jìn)行構(gòu)建。他們將首先把這項(xiàng)技術(shù)應(yīng)用于公開分析前沿開放權(quán)重的 AI 系統(tǒng),以便全世界可以審查他們的分析并提高其可靠性。一旦他們的技術(shù)經(jīng)過公開審查,他們將與前沿 AI 實(shí)驗(yàn)室和政府合作,確保內(nèi)部評(píng)估達(dá)到與公共最佳實(shí)踐相同的標(biāo)準(zhǔn)。

Transluce 已經(jīng)發(fā)布了第一個(gè)里程碑 —— 一套 AI 驅(qū)動(dòng)的工具,用于自動(dòng)理解大型語言模型的表示和行為。這些工具可以擴(kuò)展到從 Llama-3.1 8B 到 GPT-4o 和 Claude 3.5 Sonnet 的模型范圍,并將開源發(fā)布,供社區(qū)進(jìn)一步開發(fā)。他們的方法包括創(chuàng)建 AI 驅(qū)動(dòng)的工具,將巨大的計(jì)算能力用于解釋這些復(fù)雜的系統(tǒng)。他們通過三種演示來展示這一愿景:

1. 一個(gè) LLM pipeline,為神經(jīng)元激活模式創(chuàng)建最先進(jìn)的特征描述;

2. 一個(gè)可觀察性界面,用于詢問和引導(dǎo)這些特征;

3. 一個(gè)行為引導(dǎo)智能體,自動(dòng)從前沿模型中搜索用戶指定的行為,包括 Llama-405B 和 GPT-4o。

這些工具利用 AI 智能體訓(xùn)練,自動(dòng)理解其他 AI 系統(tǒng),并將這些見解呈現(xiàn)給人類。

期待這家公司的后續(xù)進(jìn)展。  

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-07 13:16:40

ChatGPT神經(jīng)元模型

2023-10-08 13:44:00

數(shù)據(jù)研究

2019-10-11 14:48:42

技術(shù)研發(fā)指標(biāo)

2021-10-20 10:51:57

AI 數(shù)據(jù)人工智能

2024-07-16 13:20:59

2023-09-04 15:42:19

人工智能

2024-12-09 09:30:00

AI模型

2023-11-03 07:47:12

機(jī)器資源大模型:

2023-05-12 13:14:59

ChatGPTAI工具

2024-04-08 00:09:10

人工智能數(shù)字大模型

2020-10-13 09:33:28

AI神經(jīng)元人類

2023-10-26 19:18:44

模型訓(xùn)練

2024-06-04 14:09:00

2025-01-17 13:53:11

AI大模型檢測(cè)工具

2025-02-28 12:32:42

2023-05-10 14:40:40

AI模型算力

2024-12-25 08:02:17

人工智能AI運(yùn)維

2020-03-30 18:48:45

AI人工智能自動(dòng)駕駛

2017-10-13 16:47:00

AI

2023-11-03 07:25:56

語言模型知識(shí)圖譜
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)