自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

連OpenAI都推不動Scaling Law了?MIT把「測試時訓練」系統(tǒng)研究了一遍,發(fā)現(xiàn)還有路

人工智能 新聞
這篇文章透露,OpenAI 下一代旗艦模型的質(zhì)量提升幅度不及前兩款旗艦模型之間的質(zhì)量提升,因為高質(zhì)量文本和其他數(shù)據(jù)的供應量正在減少,原本的 Scaling Law(用更多的數(shù)據(jù)訓練更大的模型)可能無以為繼。

昨天,The Information 的一篇文章讓 AI 社區(qū)炸了鍋。

這篇文章透露,OpenAI 下一代旗艦模型的質(zhì)量提升幅度不及前兩款旗艦模型之間的質(zhì)量提升,因為高質(zhì)量文本和其他數(shù)據(jù)的供應量正在減少,原本的 Scaling Law(用更多的數(shù)據(jù)訓練更大的模型)可能無以為繼。此外,OpenAI 研究者 Noam Brown 指出,更先進的模型可能在經(jīng)濟上也不具有可行性,因為花費數(shù)千億甚至數(shù)萬億美元訓練出的模型會很難盈利。

這篇文章引發(fā)了業(yè)界對于未來 AI 迭代方向的討論 —— 雖然 Scaling Law 放緩這一說法令人擔憂,但其中也不乏樂觀的聲音。有人認為,雖然從預訓練來看,Scaling Law 可能會放緩;但有關(guān)推理的 Scaling Law 還未被充分挖掘,OpenAI o1 的發(fā)布就證明了這一點。它從后訓練階段入手,借助強化學習、原生的思維鏈和更長的推理時間,把大模型的能力又往前推了一步。這種范式被稱為「測試時計算」,相關(guān)方法包括思維鏈提示、多數(shù)投票采樣(self-consistency)、代碼執(zhí)行和搜索等。

圖片

其實,除了測試時計算,還有另外一個近來非常受關(guān)注的概念 —— 測試時訓練( Test-Time Training ,TTT),二者都試圖在測試(推理)階段通過不同的手段來提升模型的性能,但 TTT 會根據(jù)測試時輸入,通過顯式的梯度步驟更新模型。這種方法不同于標準的微調(diào),因為它是在一個數(shù)據(jù)量極低的環(huán)境中運行的 —— 通常是通過單個輸入的無監(jiān)督目標,或應用于一個或兩個 in-context 標注示例的有監(jiān)督目標。

不過,TTT 方法的設(shè)計空間很大。目前,對于哪些設(shè)計選擇對 LM(特別是對新任務學習)最有效,人們的了解還很有限。

在一篇新論文中,來自 MIT 的研究者系統(tǒng)地研究了各種 TTT 設(shè)計選擇的影響,以及它與預訓練和采樣方案之間的相互作用??雌饋?,TTT 的效果非常好,至少從論文標題上看,它的抽象推理能力驚人(surprising)。

圖片

  • 論文標題:The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
  • 論文鏈接:https://ekinakyurek.github.io/papers/ttt.pdf

具體來說,作者確定了將 TTT 有效應用于 few-shot 學習的幾個關(guān)鍵要素:

  1. 在與測試時類似的合成任務上進行初始微調(diào);
  2. 用于構(gòu)建測試時數(shù)據(jù)集的增強型 leave-1-out 任務生成策略;
  3. 訓練適用于每個實例的適應器;
  4. 可逆變換下的自我一致性(self-consistency)方法。

實驗環(huán)節(jié),研究者在抽象與推理語料庫(ARC)中對這些方法進行了評估。ARC 語料庫收集了很多極具挑戰(zhàn)性的 few-shot 視覺推理問題,被認為是測試 LM 泛化極限的理想基準。目前的大多語言模型在 ARC 上均表現(xiàn)不佳。

圖片ARC 推理任務示例。可以看到,這是一組類似于智力測試的問題,模型需要找到圖形變換的規(guī)則,以推導最后的輸出結(jié)果。

通過對這些部分的精心選擇,TTT 可以顯著提高 LM 在 ARC 上的性能 —— 在 1B 模型上將準確率提高到原來的 6 倍,使用 8B 模型時也超過其它已發(fā)布的 SOTA 純神經(jīng)模型方法。

圖片

事實上,他們的研究結(jié)果表明,當配備測試時訓練時,普通的語言模型可以在 ARC 任務上達到或超過許多神經(jīng) - 符號方法的性能。

這些結(jié)果挑戰(zhàn)了這樣一個假設(shè):解決這類復雜任務必須嚴格依賴符號組件。相反,它們表明解決新推理問題的關(guān)鍵因素可能是在測試時分配適當?shù)挠嬎阗Y源,也許與這些資源是通過符號還是神經(jīng)機制部署無關(guān)。

數(shù)據(jù)科學家 Yam Peleg 高度評價了這項研究:

圖片

美國 Jackson 實驗室基因組學部教授 Derya Unutmaz 則表示這是一項「令人震驚的研究」,因為如果 TTT 與 LLM 相結(jié)合足以實現(xiàn)抽象推理,我們就有可能消除對顯式、老式符號邏輯的需求,并找到實現(xiàn) AGI 的可行途徑。

圖片

不過,過完一關(guān)還有一關(guān):Epoch AI 與 60 多位頂尖數(shù)學家合作打造的 FrontierMath,已經(jīng)成為評估人工智能高級數(shù)學推理能力的新基準,恐怕接下來各位 AI 研究者有的忙了。

圖片

論文概覽

作者研究了現(xiàn)有的測試時訓練理念:根據(jù)測試輸入構(gòu)建輔助數(shù)據(jù)集,并在預測前更新模型。但目前還不清楚的是,應該在哪些任務上進行訓練、進行哪種推理以及從哪個基礎(chǔ)模型開始?

他們?yōu)?ARC 挑戰(zhàn)賽提供了一組廣泛的消融數(shù)據(jù)。具體來說,他們進行了三項分析,以回答如何進行 TTT,以及 TTT 之前和之后要做什么。

TTT 需要什么數(shù)據(jù)?  

作者嘗試了兩種不同的 TTT 數(shù)據(jù)生成方式:一是 in-context learning(ICL)格式;另一種是端到端格式。在 ICL 中,作者從給定的測試演示中創(chuàng)建 leave-1-out 任務。在 E2E 中,他們將每個 i/o 對視為一個單獨的任務。

圖片

他們還應用了一些幾何變換來擴充數(shù)據(jù);請看上圖中 ICL 任務是如何生成的。他們使用這些生成的任務,用 LoRA 更新他們的模型。他們發(fā)現(xiàn),ICL 優(yōu)于 e2e 任務,數(shù)據(jù)增強至關(guān)重要。

圖片

他們用 LoRA 更新了模型。但問題是,應該為每個測試任務訓練一個新的 LoRA,還是使用從所有測試任務生成的數(shù)據(jù)集訓練一個共享的 LoRA?他們發(fā)現(xiàn),為每個任務訓練 LoRA 要好得多 (FT + TTT vs Shared-TTT)。

圖片

TTT 之后的推理

ARC 中沒有 CoT,因此無法通過多數(shù)投票來改進推理。研究者對此的做法與 TTT 相同:創(chuàng)建少量任務,然后用可逆函數(shù)對其進行變換。于是有了一堆經(jīng)過變換的原始任務輸入。

圖片

研究者輸入變換后的輸入,然后將輸出反轉(zhuǎn)回來?,F(xiàn)在,他們可以從多數(shù)表決中獲益更多。他們將其命名為「可逆變換下的 self-consistency」。它比任何單一變換的預測效果都要好,分層投票的優(yōu)勢更大。

圖片

TTT 前的微調(diào)

你需要微調(diào)一個基礎(chǔ) LM,但不需要太多新數(shù)據(jù)。根據(jù)訓練任務的重現(xiàn) + 少量幾何變換對模型進行微調(diào),就能獲得不錯的得分。

圖片

研究者嘗試了大量基于 LM 的合成數(shù)據(jù),但意外地發(fā)現(xiàn),這些數(shù)據(jù)并沒有什么幫助。有趣的是,TTT 縮小了不同級別模型之間的差距。

圖片

以 ARC 來檢驗

抽象推理語料庫(ARC)旨在通過語言模型解決視覺謎題的能力來評估其抽象推理能力。如圖 1 (b) 所示,每個謎題(以下簡稱任務)都是由輸入 - 輸出對組成的二維網(wǎng)格(最大尺寸為 30 × 30),其中包含最多 10 種不同顏色的形狀或圖案。通過應用直觀、共享的變換規(guī)則或函數(shù) y = f (x),可以獲得每對網(wǎng)格的輸出。在實踐中,這些變換具有高度多樣性和復合性,既有簡單的概念,如反射和計數(shù),也有更復雜的概念,如施加引力和路徑查找。

圖片

ARC 中的每項任務都由訓練和測試兩部分組成。給定訓練樣本集,目標是通過推理潛在變換,預測測試輸入 x^test 的測試輸出 y^test。

研究者用圖片表示一個任務,其中圖片,即 ARC 任務的集合。ARC 數(shù)據(jù)集的原始訓練集和驗證集各由 400 個任務組成。成功標準要求對所有測試輸出結(jié)果進行精確匹配(如果沒有給出部分分數(shù))。

大多數(shù) ARC 方法可分為兩大類:程序合成和 fully neural(全神經(jīng)網(wǎng)絡方法)。程序合成試圖首先找到變換函數(shù) f,然后將其應用于測試樣本。另一方面,全神經(jīng)方法試圖直接預測輸出 y 測試,只是隱含地推理底層變換。在這項工作中,研究者采用了全神經(jīng)網(wǎng)絡方法,使用 LM 來預測測試輸出。

研究者首先使用了在文本數(shù)據(jù)(沒有視覺編碼器)上預訓練過的 LM。為了向這些模型提供 ARC 樣本作為輸入,需要一個格式化函數(shù)(用 str 表示),將二維網(wǎng)格轉(zhuǎn)換為文本表示。以前的一些工作將樣本表示為一串數(shù)字或 color word,或標有形狀和位置的連接組件列表。給定任務的任何此類字符串表示,都可以將其呈現(xiàn)給 LM,并通過簡短提示進行預測。

實驗結(jié)果

最終,在對 80 項任務進行開發(fā)實驗之后,研究者展示了 ARC 全部公共評估集的綜合結(jié)果,并將本文系統(tǒng)與現(xiàn)有方法進行了比較。分析主要集中在三個方面:本文 TTT 方法的影響、本文方法與現(xiàn)有方法相結(jié)合的益處、全神經(jīng)方法與程序合成方法之間的差異。

測試時訓練的影響。研究者將測試時訓練和推理過程應用于本文的基礎(chǔ)微調(diào)模型(沒有任何 LM 數(shù)據(jù)的微調(diào) 8B 模型)。TTT 將準確率從 39.3% 提高到 47.1%,超過了現(xiàn)有端到端神經(jīng)模型的結(jié)果。

與現(xiàn)有方法的整合。最近的一項工作引入了 BARC,通過結(jié)合神經(jīng)和程序合成方法實現(xiàn)了 54.4% 的準確率,這是此前公開發(fā)表的最高結(jié)果。雖然這里的全神經(jīng)方法與本文系統(tǒng)有相似之處,但本文 TTT 和推理 pipeline 有幾個額外的組件可以提高性能。特別是,本文的測試時訓練包括每個任務的 LoRA 和更大的增強集,而預測 pipeline 包括可逆變換下的增強推理和分層 self-consistency 投票方案。為了驗證這種改進,研究者將本文的 TTT pipeline 應用于 BARC 的全神經(jīng)模型,準確率達到了 53%,比最初的 TTT 方法提高了 35%。

在這些結(jié)果的基礎(chǔ)上,研究者探索了本文方法與 BARC 組件的各種組合:

  • 將本文的 TTT pipeline 與神經(jīng)模型與 BARC 合成器相結(jié)合,準確率提高到 58.5%。
  • 將本文的 TTT pipeline 與 BARC 神經(jīng)模型和合成器相結(jié)合,準確率提高到 61.9%。

圖片這一最終配置在 ARC 公共評估集上實現(xiàn)了新的 SOTA 水平,與 60.2% 的人類平均性能相當。當然,這是一次重大進步,但與人類 97.8% 的最佳表現(xiàn)仍有很大差距,表明仍有進一步提高的空間。

程序生成和端到端建模的對比。程序合成和用于 ARC 的全神經(jīng)預測器具有很強的互補性,即使在相同的任務上進行訓練也是如此。此前的端到端神經(jīng)模型只能解決程序合成模型所解決任務的 42.2%。然而研究者發(fā)現(xiàn),當配備本文的 TTT pipeline 時,BARC 的微調(diào)全神經(jīng)模型可以解決程序合成模型所解決任務的 73.5%。這表明,本文的 TTT pipeline 大大提高了神經(jīng)模型學習系統(tǒng)推理模式的能力,與程序合成模型所捕捉到的推理模式類似。

更多研究細節(jié),可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-11-13 12:48:30

2024-12-16 07:15:00

2024-11-11 17:35:11

2021-03-11 07:14:01

Epoll原理線程

2024-05-21 08:40:21

分庫分表源碼

2021-03-04 08:06:13

Java代理機制

2024-11-14 18:40:57

2024-12-23 00:43:19

2021-08-12 10:36:18

order byMySQL數(shù)據(jù)庫

2023-08-14 07:49:42

AI訓練

2024-11-18 10:15:00

AI模型

2017-12-26 14:17:24

潤乾報表

2023-01-10 19:47:47

Redis原理多線程

2024-11-12 13:07:44

2021-09-23 16:50:19

芯片摩根士丹利半導體

2024-02-27 18:42:45

人工智能

2021-06-15 07:15:15

Oracle底層explain

2022-01-17 20:59:37

開發(fā)group by思路

2024-12-13 11:22:01

2024-12-17 12:30:00

點贊
收藏

51CTO技術(shù)棧公眾號