自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Scaling Law還有救?MIT破解LLM進化新路!測試時訓練讓性能暴漲6倍,準確率媲美人類

人工智能 新聞
Scaling Law并未失效,只是不再局限于參數規(guī)模的增加。MIT團隊最新研究發(fā)現(xiàn),測試時訓練在Scaling大模型上,顯現(xiàn)出突破性潛力,ARC公共基準測試中拿下61.9%成績,媲美人類選手。

OpenAI被曝出下代旗艦模型Orion進展緩慢,內部成立團隊大改方向,一時間在全網掀起巨大的風暴。

大模型Scaling Law撞墻了、失效了....各種論調甚囂塵上,OpenAI大牛不得不下場親自挽救這場被懷疑論淹沒的局面。

他們篤定的是,推理/測試時計算(test-time compute),是Scaling大模型另一個「齒輪」。

圖片

好巧不巧,MIT團隊最新力作又延展了o1 Scaling路線,證明了「測試時訓練」(TTT)能夠讓模型性能暴漲。

圖片

論文地址:https://ekinakyurek.github.io/papers/ttt.pdf

TTT能夠將1B微調模型的性能,提升高達6倍。

并且,TTT與8B參數模型結合后,在ARC中取得53%準確率,比純神經網絡模型的SOTA提升近25%。

圖片

不僅如此,將TTT與程序生成方法集成,更是創(chuàng)下61.9%的最優(yōu)性能,相當于人類平均得分。

圖片

具體來說,研究人員在推理過程中,使用從輸入數據中得到的損失函數臨時更新模型參數,并在ARC中驗證了TTT在提升LLM推理能力上有效性。

他們系統(tǒng)性分析了ARC任務上進行TTT所需的關鍵組件,并提出了一種新穎的「TTT數據生成」和自洽性(self-consistency)組件。

最終結果表明,配備TTT的大模型,也能夠匹敵甚至超越ARC上許多基于顯示符號推理模型的性能。

OpenAI研究科學家、德?lián)渲窷oam Brown第一時間轉發(fā)了新研究,并稱我們通過o1開發(fā)了一種scale測試時計算的新方法,但它并不是唯一的方法,也可能不是最好的方法。很興奮可以看到學術研究人員朝著這個方向,探索出新的方法。

圖片

OpenAI研究員Jason Wei站在更高層面上,打開了scaling的思路:

當前,擁有完美想法已經不再是關鍵的因素了。深度學習有很強的靈活性,解決同一問題可能會有多種可行的方法。一旦一個想法基本可行,真正的競爭就在于有多少有實力、有信念且擁有資源的人在做這件事。

圖片

GensynAI聯(lián)創(chuàng)表示,「訓練和推理的之間的界限,正加速模糊」。

圖片

Scaling大模型新方向:測試時訓練

o1發(fā)布之后,愈加凸顯了使用額外的「測試時計算」增加大模型解碼,能夠顯著提升其性能的重要性。

此類方法,還包括思維鏈提示、多數投票采樣、代碼執(zhí)行、搜索等等。

圖片

最近引起普遍關注的另一種擴展策略是「測試時訓練」(Test-time training),模型通過基于測試時輸入的顯式梯度步驟進行更新。

它與標準微調不同之處在于,TTT在極少數據條件下可以運行——通常通過單個輸入進行「無監(jiān)督學習」,或從一兩個上下文中標記示例進行「監(jiān)督學習」。

TTT最初是由UC伯克利、UCSD機構研究人員于2020年在視覺模型中首次提出,并在2022年發(fā)表的序列模型中得到應用。

圖片

論文地址:https://arxiv.org/pdf/1909.13231

TTT方法的設計空間很大,然而目前對于哪些設計選擇對大模型,尤其是新任務學習最有效的了解有限。

由此,MIT團隊在最新論文中,系統(tǒng)性研究了各種TTT設計選擇的影響,及其與預訓練和采樣方案的相互作用。

在此過程中,他們確定了TTT有效應用于少樣本學習的幾個關鍵要素:

  1. 測試時遇到的類似合成任務上進行「初始微調」
  2. 采用增強的「留一法」(leave-one-out)任務生成策略來構建測試時數據集
  3. 「每個實例」適配器訓練和
  4. 可逆變換下的「自洽性」

通過這些組件的精選選擇,正如我們開篇所見,TTT顯著提升了大模型在ARC上的表現(xiàn)。

事實上,研究結果證明了,以前只能通過程序合成解決的任務,配備了TTT框架之后,也可以通過純神經網絡的方法解決。

這些結果挑戰(zhàn)了符號組件,是解決此類復雜任務的絕對必要條件這一假設。

相反,在解決新穎推理問題的關鍵因素可能是在測試時分配適當的計算資源,或許與這些資源是通過符號還是神經機制部署無關。

那么,「測試時訓練」是如何定義的?

論文中,研究人員指出TTT在推理過程中,通過動態(tài)參數更新進行自適應,這是大模型時代相對未被深入探索的方法。

直白講,TTT是一種遷移學習的形式,模型利用測試數據結構來改善其預測。

MIT研究人員解釋了,測試時訓練就是指,在測試時調整模型自身。

圖片

另一位論文作者表示,在通過CoT、搜索等Scaling「測試時計算」方面已經取得了很大的進展。在我們的新工作中,我們證明了TTT可以是這個工具包的另一個強大的補充。

圖片

Keras之父同樣表示,測試時微調,是一種對DL模型中包含的向量函數,進行動態(tài)重組以適應新任務的方法。

圖片

還有網友解釋了o1和TTT區(qū)別在于:梯度更新。TTT通過改變模型參數來適應數據,而o1使用內部對話來實現(xiàn)適應。

總之,「測試時」范式革命在于——即時適應能力。

圖片

一般的TTT工作原理如下:從初始模型參數θ_0開始,對于每個測試輸入(或輸入批),首先從測試輸入生成訓練數據D_TTT(d_input)。

然后,優(yōu)化這些參數以最小化損失函數L(D_TTT; θ),生成用于預測的臨時更新參數θd。

生成預測后,模型恢復到原始參數θ_0,以便處理下一個實例或批次。

因此,TTT為每個測試輸入訓練一個專門的預測模型,該模型是通過在從該測試輸入生成的測試時數據集上微調基礎模型獲得的。

研究人員考慮到上下文學習設置,會提供更豐富的上下文形式,即示例對(x_1, y_1), ..., (x_K, y_K)。

在這里,應用TTT-FT首先構建一個初始語言模型LM,將每個測試輸入x映射到特定于輸入的數據集D_TTT,微調LM以根據數據集上的某個損失函數L進行優(yōu)化:圖片,最后從更新后的模型中采樣以獲得最終預測。

TTT期間有哪些數據集和損失?

數據生成

給定一個任務,將訓練輸入輸出對圖片轉換為增強的測試時訓練任務集(D_TTT)。

研究人員通過一個兩步過程獲得D_TTT:

首先,從給定的訓練輸入輸出對中,創(chuàng)建一個「留一法」的上下文學習任務集。

其次,對該集合應用可逆的基于規(guī)則的轉換,以獲得增強的數據集。

圖片

步驟1 - 留一法任務

通過從訓練示例中排除第j個示例對,可以創(chuàng)建以下合成任務:

圖片

其中d_j是一個合成訓練任務,第j個示例對被視為測試案例。在此,可以生成n個不同的任務,每個任務包含n?1個示例對。

步驟2 - 基于規(guī)則的轉換

考慮一個可逆轉換t,使得t^?1(t(x)) = x。對于步驟1中獲得的每個任務,可以使用t生成一個新的增強任務圖片,其中t應用于任務中的每個單獨網格。

研究人員選擇了簡單的轉換,這些轉換在引入受控變化的同時保留基本關系,例如旋轉、翻轉、顏色置換、示例置換、尺寸縮放等。最后,獲得:

圖片

基線 - 端到端學習任務

為了與上述「測試時上下文學習」方法進行比較,研究人員還評估了「測試時端到端學習」方法。

通過將每個輸入輸出對視為獨立的訓練實例,直接從示例演示中創(chuàng)建一個監(jiān)督數據集。

與上下文學習設置不同,不使用上下文進行預測:

圖片

值得注意的是,這相當于ICL設置中「留(n?1)法」任務集,因為沒有提供訓練示例作為上下文。與ICL情況類似,可以應用基于規(guī)則的轉換來擴充數據集:

圖片

這種方法在計算上更加高效,因為它直接學習輸入輸出映射,而無需管理示例上下文(即幾次提示)的開銷。

優(yōu)化目標

接下來,在TTT期間,研究人員使用LoRA優(yōu)化了一組特定于任務的參數,同時凍結大部分基礎模型。這種方法在保持模型一般能力的同時,還能實現(xiàn)高效適應性計算。

結果如下圖3所示,TTT方法將微調模型準確率提高了6倍(從5提高到29)。

另外,使用上下文學習任務明顯優(yōu)于端到端的任務,在相同條件下,顯示出出11個任務(38%)的相對性能下降。

研究人員還對TTT優(yōu)化的多個組件進行消融實驗,來分析其對性能的貢獻。

在所有任務中使用單個LoRA適配器,會降低7個任務的性能(降低24%)。

這是符合預期的,因為使用專用適配器允許每個任務訓練更多參數。

其次,他們在輸出示例上采取損失的決定略微改善了性能(26提升到29),這是因為它迫使模型在處理示例時思考轉換。

最后,研究人員還觀察到使用量化LoRA(QLoRA)僅導致性能略微下降(29降到26)——在內存受限的情況下,使用QLoRA可能是可行的。

圖片

TTT后推理策略是什么?

增強推理

推理時Scaling替代方案是什么?

研究人員對此采用一種增強推理策略,通過幾何變換生成多個預測候選方案,并結合貪婪解碼方案。

對于給定的任務,其中包含訓練樣例圖片和測試輸入x_test,研究人員使用可逆的幾何變換來生成任務的等效變換版本,如上圖3所示。

假設T是一組可逆幾何變換的集合(例如,旋轉和反射)。

對于每個變換t∈T,研究人員將t應用于所有訓練示例和測試輸入,并使用這些變換后的輸入運行模型。

然后,應用逆變換來獲得該變換的最終預測。

圖片

之后,研究人員通過打亂訓練示例的順序來進一步增強預測。對于每個變換g,他們對示例序列采樣n=2個不同的排列,從而為每個任務產生n·|T|個總預測。

這是為了減輕模型在處理示范序列時的任何偏差。

集成預測(投票策略)

這一方法涉及了兩階段的投票,以逐步縮小最佳候選圖片的范圍:

1. 轉換內部投票(Intra Transformation Voting)

首先按照轉換類型t對預測結果進行分組,在組內選擇出現(xiàn)頻率最高的TOP 3預測。

如果一個組內獨特預測少于3個,會通過以下方式補充候選項:基于行的多數,以及基于列的多數。

2. 全局投票(Global Voting)

使用第一階段得到的特定轉換候選項進行整體投票,選出出現(xiàn)頻率最高的前2個預測作為最終提交結果。

如果出現(xiàn)平局,優(yōu)先選擇恒等轉換(identity transformation)的預測。

結果如圖5所示,單獨使用特定的轉換版本,性能普遍較差。其中,轉置(transpose)的轉換準確率最低。

通過投票程序將這些轉換結果進行聚合后,性能得到顯著提升,而且使用自洽性(self-consistency)投票進行聚合通常是有益的,這個發(fā)現(xiàn)與之前的研究結果一致。

此外,扁平化投票程序(flattened voting)能提高準確率,分層投票程序(hierarchical voting)表現(xiàn)更優(yōu),超越了前者。

圖片

TTT前要微調什么?

準備微調數據

1. 使用現(xiàn)有生成器

REARC中的生成器函數gs已經通過為相同任務生成不同實例提供了一種有效的數據增強工具。

可以通過多次運行生成器代碼并隨機將這些新示例(d~eval(g_i))分割為訓練和測試示例集,從這些訓練任務中生成額外樣本。

2. 少樣本提示大模型

在利用模型生成新任務時,最簡單的方法是通過少樣本示例生成新的任務生成器:

圖片

其中,g′是一個新的生成器函數,g_1,…,g_m是現(xiàn)有生成器函數(如圖6所示)。

圖片

從現(xiàn)有訓練集中均勻采樣不同的m個示例,并多次重復此過程以獲得大量任務。然后,通過任務描述增強生成器函數,并聯(lián)合生成描述和生成器:

圖片

其中,si代表任務i的描述。

為了獲得任務描述,研究人員手動為10個訓練任務創(chuàng)建了種子描述。這些種子描述隨后通過少樣本提示生成訓練和驗證任務的描述。為了增加任務多樣性,研究人員使用了包含層次字段(類別、摘要和描述)的任務描述。

除了聯(lián)合生成任務描述和函數生成,研究人員還采用了如下所述的兩階段方法:

圖片

這種方法首先生成一個任務描述s′,然后在現(xiàn)有任務對和新描述的基礎上進行生成器創(chuàng)建。

通過這些基于大模型的方法,研究人員共收集了6426個生成器。圖11展示了這些語言模型生成任務的定性樣本。

圖片

3. 幾何變換

最后,這些合成任務通過各種幾何變換得以增強,例如基本變換(旋轉、反射、隨機位移和尺寸縮放)、模式操作(隨機拼接、平鋪和重復)、顏色置換以及順序應用多個基本變換的復合變換。

這些變換通過三種方式應用:

- 僅輸入網格:(x,y)→(t(x),y)

- 僅輸出網格:(x,y)→(x,t(y))

- 輸入和輸出均變換:(x,y)→(t(x),t(y))

圖片

微調數據如何影響TTT性能?

研究人員在圖7中,比較了使用不同微調數據的模型。

結果發(fā)現(xiàn),使用REARC和基于規(guī)則的增強訓練的模型表現(xiàn)最佳。

令人驚訝的是,包含LM生成的任務導致性能下降了5%,這表明當前基于LM的任務生成方法可能需要更復雜的過濾機制。

最后,他們還發(fā)現(xiàn)微調性能與TTT性能幾乎沒有相關性。

模型大小和TTT Scaling

圖7中還展示了不同模型大小的結果。增加模型大小持續(xù)提高微調性能,其中8B模型取得了36%最高準確率。

研究人員還觀察到TTT有效地彌合了較小模型的性能差距,1B和3B模型在應用TTT后達到了相似的準確率。

ARC基準以及與其他系統(tǒng)比較

測試時訓練影響

研究人員將TTT方法和推理程序應用到基礎微調模型(8B微調模型沒有使用任何LM數據)。結果表明,TTT將準確率從39.3%提高到47.1%,超越了現(xiàn)有的端到端神經模型結果。

與現(xiàn)有方法集成

BARC通過結合神經網絡和程序合成方法實現(xiàn)了54.4%的準確率。雖然這兩種方法有相似之處,但TTT和推理管線有幾個額外的組件可以提升性能。

特別是,研究人員提出的測試時訓練包括每個任務的LoRA和更大范圍的增強,而預測管線包括在可逆變換下進行的增強推理和層次化自洽性投票機制。

結果顯示,最終配置在ARC公共評估集上憑借這61.9%的準確率刷新了SOTA——與人類平均表現(xiàn)的60.2%相當,但仍低于最佳的97.8%。

圖片

程序生成和端到端建模比較

此前研究發(fā)現(xiàn),即使在相同任務上訓練,程序合成和完全神經網絡預測器對于ARC來說是高度互補的。

端到端神經模型只能解決,程序合成模型所能解決任務的42.2%。

然而,研究人員發(fā)現(xiàn),當配備TTT架構時,BARC微調的完全神經網絡模型解決了程序合成模型解決的任務的73.5%。

這表明,TTT顯著提高了神經模型學習系統(tǒng)性推理模式的能力,這與程序合成模型所捕獲的模式類似。

在論文最后局限性中,有一個值得注意的點是:數據泄露。

盡管Llama 3在公開驗證集中表現(xiàn)較差,但數據集在多個公開平臺(如GitHub、Kaggle)上可獲得,或許已被用于模型的訓練過程。

因此,數據泄露可能會導致模型性能被高估。

結論

這項工作證明,測試時訓練可以顯著提升在廣泛使用的ARC數據集上的LM性能,同時學習任務特定的LoRA適配器和使用幾何變換生成增強的測試時數據集至關重要。

此外,研究人員還開發(fā)了一種通過使用可逆變換生成多個預測,然后使用自洽性選擇最佳候選項的增強推理管線。整體管線應用了多種測試時計算方法,每個組件都產生了積極的貢獻。

這表明,不僅測試時計算可以提高LM性能,不同的測試時方法也可以相互補充。

結果顯示,新的TTT管線結合了現(xiàn)有方法(BARC),在ARC公共集上實現(xiàn)了最先進的結果,并與人類平均水平60.2%相當。

總而言之,測試時方法可能在推動下一代LM的發(fā)展中發(fā)揮關鍵作用。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-15 11:48:09

2025-04-09 10:40:32

2024-11-13 09:43:03

2020-01-13 09:39:52

工具代碼開發(fā)

2024-02-26 00:50:00

數據AI

2019-01-03 09:04:04

谷歌系統(tǒng)機器

2024-12-16 07:15:00

2022-02-07 09:10:00

計算機視覺人工智能

2022-08-05 14:38:16

機器學習AI

2020-10-29 15:58:43

阿里AI雙11

2025-03-27 10:04:27

2022-09-25 17:07:27

訓練圖像

2025-02-24 09:55:47

2023-10-28 13:36:48

模型ChatGPT

2024-10-30 14:50:00

系統(tǒng)語音模型

2021-03-08 15:45:43

AI 數據人工智能

2023-06-28 13:49:12

AI人工智能

2023-08-17 13:30:28

AI測試

2022-11-14 10:04:36

AI模型

2023-12-01 10:20:00

谷歌技術
點贊
收藏

51CTO技術棧公眾號