自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer的上下文學習能力是哪來的?

人工智能 新聞
最近,來自 Google AI、蘇黎世聯(lián)邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。

為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智能領域里,transformer 已成為深度學習中的主導模型,但人們對于它卓越性能的理論基礎卻一直研究不足。

最近,來自 Google AI、蘇黎世聯(lián)邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中,他們對 transformer 進行了逆向工程,尋找到了一些優(yōu)化方法。論文《Uncovering mesa-optimization algorithms in Transformers》:

論文鏈接:https://arxiv.org/abs/2309.05858

作者證明,最小化通用自回歸損失會產(chǎn)生在 Transformer 的前向傳遞中運行的基于輔助梯度的優(yōu)化算法。這種現(xiàn)象最近被稱為「mesa 優(yōu)化(mesa-optimization)」。此外,研究人員發(fā)現(xiàn)所得的 mesa 優(yōu)化算法表現(xiàn)出上下文中的小樣本學習能力,與模型規(guī)模無關。因此,新的結(jié)果對此前大語言模型中出現(xiàn)的小樣本學習的原理進行了補充。

研究人員認為:Transformers 的成功基于其在前向傳遞中實現(xiàn) mesa 優(yōu)化算法的架構(gòu)偏差:(i) 定義內(nèi)部學習目標,以及 (ii) 對其進行優(yōu)化。

圖 1:新假設的說明:優(yōu)化自回歸 Transformer fθ 的權重 θ 會產(chǎn)生在模型前向傳播中實現(xiàn)的 mesa 優(yōu)化算法。作為輸入序列 s_1, . 。。, s_t 被處理到時間步 t,Transformer (i) 創(chuàng)建一個由輸入 - 目標關聯(lián)對組成的內(nèi)部訓練集,(ii) 通過結(jié)果數(shù)據(jù)集定義內(nèi)部目標函數(shù),用于衡量內(nèi)部模型的性能 使用權重 W,(iii) 優(yōu)化該目標并使用學習的模型生成未來的預測圖片

該研究的貢獻包括:

  • 概括了 von Oswald 等人的理論,并展示了從理論上,Transformers 是如何通過使用基于梯度的方法優(yōu)化內(nèi)部構(gòu)建的目標來自回歸預測序列下一個元素的。
  • 通過實驗對在簡單序列建模任務上訓練的 Transformer 進行了逆向工程,并發(fā)現(xiàn)強有力的證據(jù)表明它們的前向傳遞實現(xiàn)了兩步算法:(i) 早期自注意力層通過分組和復制標記構(gòu)建內(nèi)部訓練數(shù)據(jù)集,因此隱式地構(gòu)建內(nèi)部訓練數(shù)據(jù)集。定義內(nèi)部目標函數(shù),(ii) 更深層次優(yōu)化這些目標以生成預測。
  • 與 LLM 類似,實驗表明簡單的自回歸訓練模型也可以成為上下文學習者,而即時調(diào)整對于改善 LLM 的上下文學習至關重要,也可以提高特定環(huán)境中的表現(xiàn)。
  • 受發(fā)現(xiàn)注意力層試圖隱式優(yōu)化內(nèi)部目標函數(shù)的啟發(fā),作者引入了 mesa 層,這是一種新型注意力層,可以有效地解決最小二乘優(yōu)化問題,而不是僅采取單個梯度步驟來實現(xiàn)最優(yōu)。實驗證明單個 mesa 層在簡單的順序任務上優(yōu)于深度線性和 softmax 自注意力 Transformer,同時提供更多的可解釋性。


  • 在初步的語言建模實驗后發(fā)現(xiàn),用 mesa 層替換標準的自注意力層獲得了有希望的結(jié)果,證明了該層具有強大的上下文學習能力。

基于最近人們的工作表明,經(jīng)過明確訓練來解決上下文中的小樣本任務的 transformer 可以實現(xiàn)梯度下降(GD)算法。在這里,作者展示了這些結(jié)果可以推廣到自回歸序列建模 —— 這是訓練 LLM 的典型方法。

首先分析在簡單線性動力學上訓練的 transformer,其中每個序列由不同的 W* 生成 - 以防止跨序列記憶。在這個簡單的設置中,作者展示了 transformer 創(chuàng)建 mesa 數(shù)據(jù)集,然后使用預處理的 GD 優(yōu)化 mesa 目標。

圖片

該研究在聚合相鄰序列元素的 token 結(jié)構(gòu)上訓練深度 transformer。有趣的是,這種簡單的預處理會產(chǎn)生極其稀疏的權重矩陣(只有不到 1% 的權重非零),從而產(chǎn)生逆向工程算法。

圖片

對于單層線性自注意力,權重對應一個 GD 步驟。對于深度 transformer,可解釋性就變得困難。該研究依靠線性探測并檢查隱藏激活是否可以預測自回歸目標或預處理輸入。

有趣的是,兩種探測方法的可預測性都會隨著網(wǎng)絡深度的增加而逐漸提高。這一發(fā)現(xiàn)表明模型中隱藏著預處理的 GD。

圖 2:對經(jīng)過訓練的線性自注意力層進行逆向工程。

該研究發(fā)現(xiàn),在構(gòu)建中使用所有自由度時,可以完美地擬合訓練層,不僅包括學習的學習率 η,還包括一組學習的初始權重 W_0。重要的是,如圖 2 所示,學得的 one-step 算法的性能仍然遠遠優(yōu)于單個 mesa 層。

我們可以注意到,在簡單的權重設置下,很容易通過基礎優(yōu)化發(fā)現(xiàn),該層可以最優(yōu)地解決此處研究的任務。該結(jié)果證明了硬編碼歸納偏差有利于 mesa 優(yōu)化的優(yōu)勢。

憑借對多層案例的理論見解,先分析深度線性和 softmax 僅注意 Transformer。作者根據(jù) 4 通道結(jié)構(gòu)設置輸入格式,圖片,這對應于選擇 W_0 = 0。

與單層模型一樣,作者在訓練模型的權重中看到了清晰的結(jié)構(gòu)。作為第一個逆向工程分析,該研究利用這個結(jié)構(gòu)并構(gòu)建一個算法(RevAlg-d,其中 d 表示層數(shù)),每個層頭包含 16 個參數(shù)(而不是 3200 個)。作者發(fā)現(xiàn)這種壓縮但復雜的表達式可以描述經(jīng)過訓練的模型。特別是,它允許以幾乎無損的方式在實際 Transformer 和 RevAlg-d 權重之間進行插值。

雖然 RevAlg-d 表達式解釋了具有少量自由參數(shù)的經(jīng)過訓練的多層 Transformer,但很難將其解釋為 mesa 優(yōu)化算法。因此,作者采用線性回歸探測分析(Alain & Bengio,2017;Akyürek et al.,2023)來尋找假設的 mesa 優(yōu)化算法的特征。

在圖 3 所示的深度線性自注意力 Transformer 上,我們可以看到兩個探針都可以線性解碼,解碼性能隨著序列長度和網(wǎng)絡深度的增加而增加。因此,基礎優(yōu)化發(fā)現(xiàn)了一種混合算法,該算法在原始 mesa-objective Lt (W) 的基礎上逐層下降,同時改進 mesa 優(yōu)化問題的條件數(shù)。這導致  mesa-objective Lt (W) 快速下降。此外可以看到性能隨著深度的增加而顯著提高。

因此可以認為自回歸 mesa-objective Lt (W) 的快速下降是通過對更好的預處理數(shù)據(jù)進行逐步(跨層)mesa 優(yōu)化來實現(xiàn)的。

圖 3:對構(gòu)建的 token 輸入進行逆向工程的多層 Transformer 訓練。

這表明,如果 transformer 在構(gòu)建的 token 上進行訓練,它就會通過 mesa 優(yōu)化進行預測。有趣的是,當直接給出序列元素時,transformer 會自行通過對元素進行分組來構(gòu)造 token,研究團隊將其稱為「創(chuàng)建 mesa 數(shù)據(jù)集」。

結(jié)論

該研究表明,當在標準自回歸目標下針對序列預測任務進行訓練時,Transformer 模型能夠開發(fā)基于梯度的推理算法。因此,在多任務、元學習設置下獲得的最新結(jié)果也可以轉(zhuǎn)化到傳統(tǒng)的自監(jiān)督 LLM 訓練設置中。

此外,該研究還發(fā)現(xiàn)學得的自回歸推理算法可以在無需重新訓練的情況下重新調(diào)整用途,以解決有監(jiān)督的上下文學習任務,從而在單個統(tǒng)一框架內(nèi)解釋結(jié)果。

那么,這些與上下文學習(in-context learning)有什么關系呢?該研究認為:在自回歸序列任務上訓練 transformer 后,它實現(xiàn)了適當?shù)?mesa 優(yōu)化,因此可以進行少樣本(few-shot)上下文學習,而無需任何微調(diào)。

該研究假設 LLM 也存在 mesa 優(yōu)化,從而提高了其上下文學習能力。有趣的是,該研究還觀察到,為 LLM 有效調(diào)整 prompt 也可以帶來上下文學習能力的實質(zhì)性改進。


圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-15 15:45:42

自然語言語言模型

2017-05-11 14:00:02

Flask請求上下文應用上下文

2024-11-04 08:45:00

2025-03-18 08:14:05

2023-07-09 15:09:18

機器學習能力

2023-03-31 13:37:34

研究

2012-12-31 10:01:34

SELinuxSELinux安全

2023-07-11 10:02:23

2022-04-24 15:37:26

LinuxCPU

2025-04-07 01:02:00

GoAPI語言

2022-09-14 13:13:51

JavaScript上下文

2024-03-14 08:11:45

模型RoPELlama

2023-11-03 12:55:00

數(shù)據(jù)文本

2021-09-06 14:53:15

人工智能機器學習技術

2012-07-18 11:39:18

ibmdw

2022-09-26 23:36:33

Linux系統(tǒng)CPU

2022-04-25 11:27:34

LinuxCPU

2024-11-06 12:59:42

多線程銷毀線程切換

2022-09-15 08:01:14

繼承基礎設施基礎服務

2021-09-07 09:53:42

JavaScript變量提升
點贊
收藏

51CTO技術棧公眾號