自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="dccto"><ul id="dccto"></ul></tr>

^{<sub id="dccto"></sub>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Ilya參與，OpenAI給GPT-4搞可解釋，提取了1600萬個(gè)特征，還能看它怎么想

作者：機(jī)器之心 2024-06-07 12:42:38

人工智能新聞

本周四，OpenAI 分享了一種查找大量「特征」的全新方法 —— 或許這會(huì)成為可解釋的一種可用方向。OpenAI 表示，新方法比此前的一些思路更具可擴(kuò)展性，研究團(tuán)隊(duì)使用它們?cè)?GPT-4 中找到了 1600 萬個(gè)特征。

大模型都在想什么？OpenAI 找到了一種辦法，能給 GPT-4 做「掃描」，告訴你 AI 的思路，而且還把這種方法開源了。

大語言模型（LLM）是當(dāng)前 AI 領(lǐng)域最熱門的探索方向，吸引了大量的關(guān)注和研究投入。它們強(qiáng)大的語言理解能力和生成能力在各種應(yīng)用場(chǎng)景中都表現(xiàn)出巨大潛力。雖然我們見證了大模型迭代后性能上的顯著提升，但我們目前對(duì)模型中的神經(jīng)活動(dòng)仍然只是一知半解。

本周四，OpenAI 分享了一種查找大量「特征」的全新方法 —— 或許這會(huì)成為可解釋的一種可用方向。OpenAI 表示，新方法比此前的一些思路更具可擴(kuò)展性，研究團(tuán)隊(duì)使用它們?cè)?GPT-4 中找到了 1600 萬個(gè)特征。

有趣的是，從作者列表中，我們發(fā)現(xiàn)已經(jīng)從 OpenAI 離職的 Ilya Sutskever、Jan Leike 等人也是作者之一。

可謂是一項(xiàng)重要的研究。

論文標(biāo)題：Scaling and evaluating sparse autoencoders
論文地址：https://cdn.openai.com/papers/sparse-autoencoders.pdf
代碼：https://github.com/openai/sparse_autoencoder
特征可視化：https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

解釋神經(jīng)網(wǎng)絡(luò)

作為機(jī)器學(xué)習(xí)模型，神經(jīng)網(wǎng)絡(luò)通過使用模仿生物神經(jīng)元協(xié)同工作的過程來識(shí)別現(xiàn)象并得出結(jié)論，然而長(zhǎng)久以來，我們并不真正了解神經(jīng)網(wǎng)絡(luò)的內(nèi)部運(yùn)作原理。神經(jīng)網(wǎng)絡(luò)并不是直接設(shè)計(jì)的，研究人員設(shè)計(jì)了訓(xùn)練它們的算法。由此產(chǎn)生的神經(jīng)網(wǎng)絡(luò)還不能很好地被理解，并且不能輕易地分解為可識(shí)別的部分。這意味著我們不能像推理汽車安全那樣推理人工智能安全。

為了理解和解釋神經(jīng)網(wǎng)絡(luò)，首先需要找到用于神經(jīng)計(jì)算的有用構(gòu)建塊。然而，語言模型內(nèi)的神經(jīng)激活是以不可預(yù)測(cè)的模式激活的，似乎同時(shí)代表許多概念，它們還密集激活，這意味著每次激活總是在每個(gè)輸入上觸發(fā)。

但現(xiàn)實(shí)世界的概念非常稀疏 —— 在任何給定的上下文中，所有概念中只有一小部分是相關(guān)的。這激發(fā)了稀疏自動(dòng)編碼器的使用。

稀疏自動(dòng)編碼器（sparse autoencoder）是一種識(shí)別神經(jīng)網(wǎng)絡(luò)中少數(shù)「特征」的方法，這些「特征」對(duì)于產(chǎn)生任何給定的輸出都很重要，類似于一個(gè)人在推理某種情況時(shí)可能想到的一小部分概念。它們的特征顯示出稀疏的激活模式，自然地與人類易于理解的概念保持一致，即使沒有直接的可解釋性激勵(lì)。

然而，訓(xùn)練稀疏自動(dòng)編碼器仍然面臨嚴(yán)峻的挑戰(zhàn)。大型語言模型表征大量概念，自動(dòng)編碼器可能需要相應(yīng)巨大的規(guī)模才能接近完全覆蓋前沿模型中的概念。學(xué)習(xí)大量稀疏特征具有挑戰(zhàn)性，并且過去的工作尚未證明可以很好地?cái)U(kuò)展。

大規(guī)模自動(dòng)編碼器訓(xùn)練

OpenAI 最新的研究進(jìn)展提出了一種新方法，能夠?qū)⑾∈枳詣?dòng)編碼器擴(kuò)展到前沿人工智能模型上的數(shù)千萬個(gè)特征。并且該方法顯示出平滑且可預(yù)測(cè)的擴(kuò)展，與現(xiàn)有方法相比具有更好的規(guī)?；貓?bào)。同時(shí)，OpenAI 還引入了幾個(gè)用于評(píng)估特征質(zhì)量的新指標(biāo)。

OpenAI 使用該方法在 GPT-2 small 和 GPT-4 激活上訓(xùn)練各種自動(dòng)編碼器，包括 GPT-4 上的 1600 萬個(gè)特征的自動(dòng)編碼器。

具體來說，研究團(tuán)隊(duì)在 GPT-2 small 模型和一系列逐步增大的、共享 GPT-4 架構(gòu)和訓(xùn)練設(shè)置的模型（包括 GPT-4 本身）的殘差流上訓(xùn)練自動(dòng)編碼器。他們選擇了靠近網(wǎng)絡(luò)末端的一層，該層應(yīng)包含許多特征，而不專門用于下一個(gè) token 的預(yù)測(cè)。

所有實(shí)驗(yàn)均使用 64 個(gè) token 的上下文長(zhǎng)度。研究團(tuán)隊(duì)先在 dmodel 維度上減去平均值，并將所有輸入歸一化為單位范數(shù)（unit norm），然后再傳遞給自動(dòng)編碼器（或計(jì)算重建誤差）。

訓(xùn)練結(jié)束后，研究團(tuán)隊(duì)根據(jù)稀疏性 L_0 和重建均方誤差 (MSE) 對(duì)自動(dòng)編碼器進(jìn)行評(píng)估。

為了簡(jiǎn)化分析，OpenAI 不考慮學(xué)習(xí)率預(yù)熱或衰減，sweep 小規(guī)模的學(xué)習(xí)率，并推斷大規(guī)模的最佳學(xué)習(xí)率的趨勢(shì)。

為了檢查特征的可解釋性，OpenAI 進(jìn)行了可視化工作。以下是 OpenAI 發(fā)現(xiàn)的一些可解釋的特征：

人類的缺陷；
價(jià)格上漲；
X 和 Y；
訓(xùn)練 Log；
反問句；
代數(shù)環(huán)；
誰 / 什么；
多巴胺。

例如，GPT-4 特征：與事物（尤其是人類）有缺陷相關(guān)的短語：

價(jià)格上漲：

反問句：

局限和發(fā)展方向

新方法能夠提高模型的可信度和可操縱性。然而這仍是早期工作，存在許多局限性：

與此前的研究一樣，許多發(fā)現(xiàn)的特征仍然難以解釋，許多特征的激活沒有明確的模式，或者表現(xiàn)出與它們通常編碼的概念無關(guān)的虛假激活。此外，目前我們還沒有很好的方法來檢查解釋的有效性。
稀疏自動(dòng)編碼器不會(huì)捕獲原始模型的所有行為。目前，將 GPT-4 的激活通過稀疏自動(dòng)編碼器大致相當(dāng)于使用大約 1/10 計(jì)算量訓(xùn)練一個(gè)模型。為了完全映射前沿 LLM 中的概念，我們可能需要擴(kuò)展到數(shù)十億或數(shù)萬億個(gè)特征，即便使用改進(jìn)的擴(kuò)展技術(shù)，這也具有挑戰(zhàn)性。
稀疏自動(dòng)編碼器可以在模型中的某一點(diǎn)找到特征，但這只是解釋模型的一步。還需要做更多的工作來了解模型如何計(jì)算這些特征以及如何在模型的其余部分下游使用這些特征。

稀疏自動(dòng)編碼器的研究令人興奮，OpenAI 表示，還有一些待解決的挑戰(zhàn)。短期內(nèi)，工程師們希望新發(fā)現(xiàn)的特征能夠?qū)嶋H用于監(jiān)控和控制語言模型行為，并計(jì)劃在前沿模型中對(duì)此進(jìn)行測(cè)試。希望最終有一天，可解釋性可以為我們提供推理模型安全性和穩(wěn)健性的新方法，并通過對(duì) AI 行為提供強(qiáng)有力的保證，大幅提高我們對(duì)新一代 AI 模型的信任。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="zyz5x"></style>

<sub id="zyz5x"><i id="zyz5x"></i></sub>

<cite id="zyz5x"><track id="zyz5x"></track></cite>