自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer作者初創(chuàng)重磅發(fā)布Transformer2!AI模型活了,動態(tài)調整自己權重

人工智能 新聞
Sakana AI發(fā)布了Transformer2新方法,通過奇異值微調和權重自適應策略,提高了LLM的泛化和自適應能力。新方法在文本任務上優(yōu)于LoRA;即便是從未見過的任務,比如MATH、HumanEval和ARC-Challenge等,性能也都取得了提升。

從章魚通過改變皮膚顏色來融入周圍環(huán)境,到人類大腦在受傷后重新連接神經(jīng)網(wǎng)絡,無不體現(xiàn)著那句經(jīng)典的名言——「物競天擇,適者生存」。

然而,對于LLM來說,想要加入哪怕只是一句話的新知識,都必須要再訓練一次。

針對這一挑戰(zhàn),來自Sakana AI的研究團隊剛剛提出了一種全新的方法——Transformer2。它可以通過實時選擇性地調整權重矩陣中的單一組件,使LLM能夠適應未見過的任務。

圖片

文章鏈接:https://arxiv.org/pdf/2501.06252

代碼鏈接:https://github.com/SakanaAI/self-adaptive-llms

傳統(tǒng)上,LLM的后訓練通過一次全面的訓練來優(yōu)化模型,使其具備廣泛的能力。

從簡化的角度,這種「one shot」微調框架看起來很理想,但在實際操作中卻很難實現(xiàn)。例如,后訓練需要大量資源,導致計算成本和訓練時間顯著增加。此外,當引入更多樣化的數(shù)據(jù)時,很難同時克服過擬合和任務干擾。

相比之下,自適應模型提供了一種更靈活高效的方法。與其一次性訓練LLM來應對所有任務,不如開發(fā)專家模塊,根據(jù)需求將其離線開發(fā)并增強到基礎LLM中。

然而,創(chuàng)建多個專家模塊,對LLM進行微調,顯著增加了需要訓練的參數(shù)數(shù)量,而且容易過擬合,模塊之間的組合也不夠靈活。

對此,新框架通過有選擇性地調整模型權重中的關鍵組件,讓LLM能夠實時適應新任務。

Transformer2的名稱體現(xiàn)了它的兩步過程:首先,模型分析傳入的任務,理解其需求;然后應用任務專用的適應性調整,生成最佳結果。

Transformer2在多種任務(如數(shù)學、編碼、推理和視覺理解)中表現(xiàn)出了顯著的進步,在效率和特定任務的表現(xiàn)上超越了傳統(tǒng)靜態(tài)方法如LoRA,同時所需的參數(shù)大大減少。

圖片

LLM的「大腦」:權重矩陣

人類大腦通過互聯(lián)的神經(jīng)通路,存儲知識并處理信息。

而LLM將知識存儲在權重矩陣中。這些矩陣構成了LLM的「大腦」,保存了它從訓練數(shù)據(jù)中學習到的核心內容。

要理解這個「大腦」,并確保它能夠有效地適應新任務,需要深入分析其內部結構。

而奇異值分解(SVD)提供了寶貴的洞察力。

可以將SVD看作是一名外科醫(yī)生,正在對LLM的大腦進行細致操作。這名外科醫(yī)生將LLM中存儲的龐大復雜的知識分解成更小、更有意義且獨立的部分(例如,針對數(shù)學、語言理解等的不同路徑或組件)。

SVD通過識別LLM權重矩陣中的主成分來實現(xiàn)這一目標。

在新研究中發(fā)現(xiàn),增強某些成分的信號,同時抑制其他部分的信號,可以提高LLM在下游任務中的表現(xiàn)

基于這一發(fā)現(xiàn),Transformer2邁出了下一步,向動態(tài)、任務特定的適應性發(fā)展,讓LLM能在多種復雜場景中表現(xiàn)得更加出色。

引入Transformer2

Transformer2通過兩步過程重新定義了LLM如何應對多樣的任務。

其核心在于能夠動態(tài)調整權重矩陣中的關鍵組件。

圖片

在訓練階段,引入了奇異值微調(SVF)方法,該方法使用強化學習(RL)來增強或抑制不同「大腦」組件的信號,以應對多種下游任務。

在推理階段,新方法采用三種不同的策略來識別任務的特征,并根據(jù)任務要求調整模型的權重。

下圖概述了新方法。

圖片

左圖:使用SVD將LLM的「大腦」(即權重矩陣)分解為若干獨立的組件。

右圖:利用RL訓練這些組件的組合以應對不同任務。組件可能在多個任務中共享。例如,在上圖中,紫色齒輪在語言理解和推理任務之間是共享的。推理時,首先識別任務類型,然后動態(tài)調整組件的組合。

使用SVF和RL進行訓練

在訓練階段,SVF學習一組z向量,其中每個下游任務對應一個z向量。

每個z向量可以視作該任務的專家,它是一個緊湊的表示,指定了權重矩陣中每個組件的期望強度,充當「放大器」或「衰減器」,調節(jié)不同組件對模型行為的影響。

例如,假設SVD將權重矩陣分解為五個組件[A,B,C,D,E]。

對于數(shù)學任務,學習到的z向量可能是[1,0.8,0,0.3,0.5],這表明組件A對數(shù)學任務至關重要,而組件C幾乎不影響其表現(xiàn)。

對于語言理解任務,z向量可能是[0.1,0.3,1,0.7,0.5],表明盡管C組件對數(shù)學任務的貢獻較小,但它對語言理解任務至關重要。

SVF利用RL在預定義的下游任務集上學習這些z向量。

學習到的z向量使Transformer2能夠適應各種新的下游任務,同時僅引入最少量的附加參數(shù)(即z向量)。

自適應性

在推理階段,新框架使用兩階段適應策略,有效地結合了任務專用的z向量。

在第一次推理階段,給定任務或單個輸入提示,Transformer2通過以下三種適應方法之一來分析測試時的條件。

在第二階段,Transformer2結合這些z向量來調節(jié)權重,從而生成最適合新設置的最終響應。

新研究總結了三種任務檢測/適應方法如下:

  1. 基于提示的適應:使用專門設計的適應性提示,對任務分類(如數(shù)學、編程),并選擇一個預訓練的z向量。
  2. 基于分類器的適應:使用SVF訓練的任務分類器在推理時識別任務,并選擇合適的z向量。
  3. 少樣本適應:通過加權插值結合多個預訓練的z向量。簡單的優(yōu)化算法根據(jù)在少樣本評估集上的表現(xiàn)調整這些權重。

這三種方法共同確保了Transformer2能夠實現(xiàn)強大且高效的任務適應,為其在多種場景下的出色表現(xiàn)奠定了基礎。

主要結果

作者將這些方法應用于Llama和Mistral LLM,在廣泛的任務上進行測試,包括數(shù)學(GSM8K,MATH)、代碼(MBPP-Pro,HumanEval)、推理(ARC-Easy,ARC-Challenge)和視覺問答(TextVQA,OKVQA)。

SVF測評

首先通過SVF在這些任務上獲取z向量,并與LoRA進行了比較。

下表中的結果表明,SVF在文本任務上優(yōu)于LoRA,特別是在GSM8K任務上有顯著提升。這可以歸因于RL訓練目標。與LoRA的微調方法不同,RL不要求每個問題都有「完美解決方案」。右側的直方圖也展示了SVF在視覺領域的驚人表現(xiàn)。

圖片

未見過的任務

隨后將適應框架與LoRA在未見過的任務上進行對比評估,特別是在MATH、HumanEval和ARC-Challenge任務上。

下表左側展示了,隨著方法復雜度的提升,新架構的策略在所有任務上都取得了逐步的性能提升。

圖片

在未見任務上的測試集表現(xiàn)。左圖:在未見任務上的自適應。右圖:學習到的z向量插值權重。

而右圖分析了少樣本(few-shot)學習如何結合不同的z向量來處理任務。

在解決MATH問題時,出乎意料的是,模型并非僅依賴于其專門為GSM8K(數(shù)學)任務訓練的z向量。這表明,復雜的數(shù)學推理任務有益于結合數(shù)學、編程和邏輯推理能力。

在其他任務和模型中也觀察到了類似的意外組合,凸顯了該框架能夠綜合多種專業(yè)知識,從而實現(xiàn)最佳表現(xiàn)。

模型知識轉移

最后,作者探索了一個挑戰(zhàn)傳統(tǒng)AI發(fā)展理念的有趣問題:能否將一個模型的知識轉移到另一個模型中?令人興奮的是,將Llama學習到的z向量轉移到Mistral時,作者觀察到后者在大多數(shù)任務上表現(xiàn)出提升。下表中給出了詳細的結果。

圖片

盡管這些發(fā)現(xiàn)具有前景,但需要注意的是,這兩個模型具有相似的架構,這可能是它們能夠兼容的原因。

不同AI模型之間是否能實現(xiàn)知識共享仍然是一個懸而未決的問題。

然而,這些結果暗示了一個令人興奮的可能性:打開特定任務技能的解耦與重用的大門,為更新的、更大的模型提供支持。

「活體智能」

但這僅僅是開始。Transformer2為呈現(xiàn)了未來的場景:AI系統(tǒng)不再是為固定任務訓練的靜態(tài)實體。相反,它們將體現(xiàn)「活體智能」,即不斷學習、演化和適應的模型。

像Transformer2這樣的自適應系統(tǒng)彌合了靜態(tài)AI與「活體智能」之間的差距,為高效、個性化、完全集成的AI工具鋪平道路,這些工具將推動各個行業(yè)的進步以及我們日常生活的發(fā)展。

作者介紹

圖片

共同一作Qi Sun,目前是東京工業(yè)大學研究助理。他從2023年開始在Sakana AI做兼職研究員。2024年10月,他獲得了東京科學大學的博士學位。此前,他在東京工業(yè)大學獲得碩士學位,在大連理工大學獲得學士學位。

圖片

共同一作Yujin Tang,2024年1月起擔任Sakana AI的研究科學家,研究領域為強化學習和機器人。此前在DeepMind、谷歌等公司從事研發(fā)工作。他在東京大學獲得博士學位,在早稻田大學獲得碩士學位,在上海交通大學獲得學士學位。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-01-15 15:11:39

2024-03-12 13:22:00

訓練數(shù)據(jù)

2024-08-26 08:00:00

模型AI

2025-04-22 15:34:08

視頻生成AI

2024-08-15 11:37:05

2025-01-26 13:20:49

谷歌AI模型Titans

2024-03-25 12:39:00

AI數(shù)據(jù)

2024-03-25 13:06:00

數(shù)據(jù)訓練

2023-05-30 21:33:13

MetaAI 模型

2022-06-20 07:16:25

機器學習模型Codex

2023-08-03 13:25:04

AI模型

2025-03-17 09:25:00

AI模型谷歌

2024-10-22 17:24:32

2022-02-08 15:43:08

AITransforme模型

2021-09-22 09:09:38

谷歌AI音樂

2025-04-23 09:36:23

2024-08-23 11:53:24

2023-12-29 08:02:17

大模型人工智能AI

2023-11-07 08:28:08

GPT模型環(huán)境

2021-12-09 10:26:35

AI 數(shù)據(jù)人工智能
點贊
收藏

51CTO技術棧公眾號