自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比知識(shí)蒸餾好用,田淵棟等提出連續(xù)概念混合,再度革新Transformer預(yù)訓(xùn)練框架

人工智能 新聞
來自 Meta 等機(jī)構(gòu)的研究者提出了一種新穎且高效的預(yù)訓(xùn)練框架:連續(xù)概念混合(Continuous Concept Mixing, CoCoMix),其將離散的下一個(gè) token 預(yù)測(cè)與連續(xù)概念相結(jié)合。

近年來,大型語言模型(LLMs)的進(jìn)展徹底改變了自然語言處理領(lǐng)域,并因此成為各種現(xiàn)實(shí)應(yīng)用中的核心技術(shù),例如代碼助手、搜索引擎和個(gè)人 AI 助手。

這些突破的核心在于對(duì)「下一個(gè) token 預(yù)測(cè)」的范式。

然而,自然語言 token 代表的意思通常是表層的(例如 the 或 a 這樣的功能性詞匯),需要模型進(jìn)行大量訓(xùn)練才能獲得高級(jí)推理和對(duì)概念的理解能力,同時(shí)也限制了它們處理長(zhǎng)期任務(wù)(如規(guī)劃)的能力。

為了解決這一問題,最近的研究探索了超越 token 層面信號(hào)的方法。例如有研究表明稀疏自編碼器(Sparse Autoencoders, SAEs)能夠通過捕捉高級(jí)語義概念,有效地分離出大型語言模型(LLMs)中有意義的潛在特征。

本文,來自 Meta 等機(jī)構(gòu)的研究者提出了一種新穎且高效的預(yù)訓(xùn)練框架:連續(xù)概念混合(Continuous Concept Mixing, CoCoMix),其將離散的下一個(gè) token 預(yù)測(cè)與連續(xù)概念相結(jié)合。

CoCoMix 用來預(yù)測(cè)從預(yù)訓(xùn)練的稀疏自編碼器中學(xué)習(xí)到的連續(xù)概念,并通過與 token 隱藏表示交錯(cuò)的方式將其混合到模型的隱藏狀態(tài)中。

具體來說,本文使用經(jīng)過預(yù)訓(xùn)練的 SAE 提取語義概念,并根據(jù)歸因(attribution)分?jǐn)?shù)選擇最具影響力的概念,這些分?jǐn)?shù)量化了每個(gè)概念對(duì)模型輸出的影響。然后,模型通過交叉熵?fù)p失訓(xùn)練,從其隱藏狀態(tài)中預(yù)測(cè)這些選定的概念。一旦預(yù)測(cè)出多個(gè)概念,就將它們壓縮為單個(gè)連續(xù)概念,并通過與 token 嵌入交錯(cuò)的方式混合(或插入)到隱藏狀態(tài)中,從而直接貢獻(xiàn)于下一個(gè) token 的預(yù)測(cè)。

本文通過在多個(gè)語言建?;鶞?zhǔn)和不同規(guī)模的預(yù)訓(xùn)練模型(從百萬級(jí)到十億級(jí)參數(shù)規(guī)模)上進(jìn)行了評(píng)估,從而證明了 CoCoMix 的有效性。

結(jié)果表明,CoCoMix 采樣效率更高,優(yōu)于標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測(cè)、知識(shí)蒸餾以及插入停頓 token。本文發(fā)現(xiàn),在端到端的框架中結(jié)合概念學(xué)習(xí)和交錯(cuò)技術(shù)對(duì)于性能提升至關(guān)重要。

CoCoMix 性能有多好?舉例來說,當(dāng)將 CoCoMix 應(yīng)用于一個(gè) 1.38B 規(guī)模的模型時(shí),CoCoMix 在減少 21.5% 訓(xùn)練 token 的情況下,實(shí)現(xiàn)了與下一個(gè) token 預(yù)測(cè)相當(dāng)?shù)男阅?/strong>。

此外,CoCoMix 在弱監(jiān)督到強(qiáng)監(jiān)督的場(chǎng)景中表現(xiàn)出顯著改進(jìn),其中從小模型中提取的概念甚至可以用作監(jiān)督更大模型訓(xùn)練的標(biāo)簽。

圖片

  • 論文標(biāo)題:LLM Pretraining with Continuous Concepts
  • 論文地址:https://arxiv.org/pdf/2502.08524
  • 項(xiàng)目地址:https://github.com/facebookresearch/RAM/tree/main/projects/cocomix

此前,Meta 提出了大型概念模型(LCM),同樣也是通過概念而非 token 進(jìn)行學(xué)習(xí)和推理,被許多聲音認(rèn)為是大模型范式變革的新起點(diǎn)。現(xiàn)在看來,CoCoMix 出現(xiàn),讓 Meta 在創(chuàng)新算法逐步取代「連續(xù)預(yù)測(cè)下一個(gè) token」這條道路上又邁出了重要的一步。

CoCoMix 介紹

CoCoMix 是一個(gè)使用連續(xù)概念擴(kuò)展下一個(gè) token 預(yù)測(cè)的框架。

其核心訓(xùn)練流程包括:一個(gè)概念選擇框架(參見圖 1 左),以及兩個(gè)用于學(xué)習(xí)和利用連續(xù)概念的訓(xùn)練步驟(step)(參見圖 1 右)。

  • 首先,本文使用歸因分?jǐn)?shù)選擇重要概念,該分?jǐn)?shù)衡量了每個(gè)概念對(duì)輸出的影響。
  • 然后,本文提出通過交叉熵?fù)p失從模型的隱藏狀態(tài)中預(yù)測(cè)選定的概念,使模型能夠隱式地學(xué)習(xí)哪些概念應(yīng)被編碼為隱藏表示。
  • 最后,本文利用預(yù)測(cè)的概念創(chuàng)建一個(gè)連續(xù)概念,并將其交錯(cuò)插入到隱藏狀態(tài)中,使模型能夠顯式地學(xué)習(xí)如何使用連續(xù)概念以及 token 隱藏狀態(tài)。直觀上,模型選擇性地學(xué)習(xí)哪些概念對(duì)下一個(gè) token 預(yù)測(cè)有用,以及如何將這些概念與 token 表示混合。


圖片

實(shí)驗(yàn)

實(shí)驗(yàn)部分,研究者主要通過以下幾個(gè)問題對(duì) CoCoMix 進(jìn)行了實(shí)證評(píng)估: 

  • CoCoMix 能否提高 LLM 預(yù)訓(xùn)練中下一個(gè) token 預(yù)測(cè)的性能?(圖 2 和圖 3) 
  • 與其他知識(shí)提煉方法相比,CoCoMix 在弱到強(qiáng)監(jiān)督設(shè)置中是否有所改進(jìn)?(表 1 和圖 4) 
  • CoCoMix 是否引入了模型的可解釋性和可操縱性?(圖 5) 
  • CoCoMix 的每個(gè)建議組件對(duì)性能有何貢獻(xiàn)?(圖 6) 

首先是兩個(gè)核心結(jié)果:

  1. 在相對(duì)大規(guī)模的預(yù)訓(xùn)練設(shè)置中與 NTP 的比較;
  2. 與 KD 基線的比較,尤其是在從小模型中提取的概念用于指導(dǎo)大模型的弱到強(qiáng)監(jiān)督場(chǎng)景中。

大規(guī)模使用 CoCoMix 改進(jìn) NTP

如圖 3 所示,CoCoMix 在各種規(guī)模的模型上都能持續(xù)顯著提高下游任務(wù)的整體性能。結(jié)果還表明,較大的模型(如 386M 和 1.38B)可以從使用從較小的 124M 模型中提取的概念中獲益,顯示了有效的弱到強(qiáng)監(jiān)督。

圖片

如圖 2 所示,在十億級(jí)規(guī)模的模型上,CoCoMix 與 NTP 相比持續(xù)提高了性能。例如,CoCoMix 的性能與 NTP 相近,但使用的 token 卻減少了 21.5%,顯示了很高的采樣效率。最后,值得注意的是,使用 CoCoMix 所獲得的性能增益隨著訓(xùn)練步驟的增加而增加,顯示出很強(qiáng)的泛化性能。

圖片

與 KD 基線的比較

研究者還將 CoCoMix 與 KD 基線在多種情況下進(jìn)行了比較,包括:

  1. 較強(qiáng)的教師模型教授較小的學(xué)生模型;
  2. 弱到強(qiáng)的監(jiān)督,即較弱的教師教授較大的學(xué)生模型;
  3. 分布轉(zhuǎn)移,即學(xué)生在不同于教師預(yù)訓(xùn)練分布的語料庫上接受訓(xùn)練。

如表 1 所示,在這些模型配置中,CoCoMix 都比 KD 有所改進(jìn)。特別是,CoCoMix 在從弱到強(qiáng)的監(jiān)督設(shè)置中表現(xiàn)出了顯著的性能提升,例如在 386M 中平均復(fù)雜度提高了 2.8,而 KD 并沒有表現(xiàn)出很大的改進(jìn)。這是因?yàn)檩^弱的教師可能會(huì)引入噪聲或次優(yōu)知識(shí),尤其是當(dāng)學(xué)生的能力超過教師時(shí)。

圖片

在圖 4 中也可以觀察到這一趨勢(shì),當(dāng)學(xué)生的能力超過教師時(shí)(尤其是在分布轉(zhuǎn)移場(chǎng)景中),使用 KD 訓(xùn)練的模型在訓(xùn)練中途會(huì)落后于標(biāo)準(zhǔn)訓(xùn)練。相比之下,CoCoMix 選擇性地利用了有用的概念,從而實(shí)現(xiàn)了持續(xù)的性能提升。

圖片

CoCoMix 的可解釋性和可操縱性

CoCoMix 的另一個(gè)核心優(yōu)勢(shì)在于其可解釋性和模型操縱。具體來說,由于模型經(jīng)過訓(xùn)練后可以預(yù)測(cè)其隱藏狀態(tài)中的概念,因此研究者可以根據(jù)概念預(yù)測(cè)結(jié)果來分析其重點(diǎn)關(guān)注的概念。此外,通過放大預(yù)測(cè)概念 z_t 的大小,可以控制模型的輸出生成。

為了驗(yàn)證可操縱性是否達(dá)到預(yù)期效果,研究者在預(yù)訓(xùn)練模型的 SAE 潛在空間 c 中對(duì)同一概念的激活進(jìn)行操縱,并確認(rèn)輸出是否表現(xiàn)出相應(yīng)的概念。這里使用的是用 CoCoMix 訓(xùn)練的 386M 參數(shù)模型,其中預(yù)訓(xùn)練模型為 GPT-2。

如圖 5 所示,當(dāng)與「網(wǎng)站地址」相關(guān)的概念被放大時(shí),兩個(gè)模型都開始生成實(shí)際的網(wǎng)站地址。這表明本文模型成功地學(xué)習(xí)了 GPT-2 對(duì)齊概念。

圖片

CoCoMix 有效性分析

隨后,研究者對(duì) CoCoMix 進(jìn)行了詳細(xì)分析,以驗(yàn)證每個(gè)提出的組件的效果。角度如下:

  1. 歸因分?jǐn)?shù)對(duì)選擇概念的有效性;
  2. 概念預(yù)測(cè)與直接隱藏狀態(tài)預(yù)測(cè)(即用連續(xù)損失預(yù)測(cè)隱藏狀態(tài),而不是用 SAE 將隱藏狀態(tài)離散化)之間的比較;
  3. 壓縮權(quán)重的稀疏性;
  4. 通過分析概念預(yù)測(cè)和混合的貢獻(xiàn)進(jìn)行成分分析;
  5. 通過比較將概念向量添加到原始隱藏狀態(tài)和混合(將概念向量與 token 隱藏表示交錯(cuò)),對(duì)概念調(diào)節(jié)進(jìn)行設(shè)計(jì)選擇;
  6. CoCoMix 與 Pause token(即添加可學(xué)習(xí) token)之間的比較。

此處,研究者使用了 69M Transformer,并在 OpenWebText 數(shù)據(jù)集中的 20B token 上進(jìn)行訓(xùn)練。

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-02-26 00:20:00

AI模型

2024-12-19 09:48:07

2025-03-03 09:16:00

Meta模型預(yù)測(cè)

2024-03-08 12:35:41

模型數(shù)據(jù)

2023-06-12 09:57:22

AIChatGPT

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2024-12-12 09:00:00

2023-03-17 08:28:17

GPT-4AI

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-03-25 09:12:00

LIMAI模型

2021-11-15 10:00:22

模型人工智能NLP

2024-10-16 13:50:00

模型AI

2024-10-28 08:50:00

2020-09-22 09:54:19

谷歌Android開發(fā)者

2025-04-11 09:35:34

2023-12-07 06:51:18

AI模型

2024-02-27 11:46:40

2024-09-20 15:35:33

2020-10-18 18:02:32

AI機(jī)器學(xué)習(xí)微軟

2023-09-01 14:49:09

AI微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)