自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

連OpenAI都推不動Scaling Law了？MIT把「測試時訓練」系統(tǒng)研究了一遍，發(fā)現(xiàn)還有路

作者：機器之心 2024-11-13 09:43:03

人工智能新聞

這篇文章透露，OpenAI 下一代旗艦模型的質(zhì)量提升幅度不及前兩款旗艦模型之間的質(zhì)量提升，因為高質(zhì)量文本和其他數(shù)據(jù)的供應量正在減少，原本的 Scaling Law（用更多的數(shù)據(jù)訓練更大的模型）可能無以為繼。

昨天，The Information 的一篇文章讓 AI 社區(qū)炸了鍋。

這篇文章透露，OpenAI 下一代旗艦模型的質(zhì)量提升幅度不及前兩款旗艦模型之間的質(zhì)量提升，因為高質(zhì)量文本和其他數(shù)據(jù)的供應量正在減少，原本的 Scaling Law（用更多的數(shù)據(jù)訓練更大的模型）可能無以為繼。此外，OpenAI 研究者 Noam Brown 指出，更先進的模型可能在經(jīng)濟上也不具有可行性，因為花費數(shù)千億甚至數(shù)萬億美元訓練出的模型會很難盈利。

這篇文章引發(fā)了業(yè)界對于未來 AI 迭代方向的討論 —— 雖然 Scaling Law 放緩這一說法令人擔憂，但其中也不乏樂觀的聲音。有人認為，雖然從預訓練來看，Scaling Law 可能會放緩；但有關(guān)推理的 Scaling Law 還未被充分挖掘，OpenAI o1 的發(fā)布就證明了這一點。它從后訓練階段入手，借助強化學習、原生的思維鏈和更長的推理時間，把大模型的能力又往前推了一步。這種范式被稱為「測試時計算」，相關(guān)方法包括思維鏈提示、多數(shù)投票采樣（self-consistency）、代碼執(zhí)行和搜索等。

其實，除了測試時計算，還有另外一個近來非常受關(guān)注的概念 —— 測試時訓練（ Test-Time Training ，TTT），二者都試圖在測試（推理）階段通過不同的手段來提升模型的性能，但 TTT 會根據(jù)測試時輸入，通過顯式的梯度步驟更新模型。這種方法不同于標準的微調(diào)，因為它是在一個數(shù)據(jù)量極低的環(huán)境中運行的 —— 通常是通過單個輸入的無監(jiān)督目標，或應用于一個或兩個 in-context 標注示例的有監(jiān)督目標。

不過，TTT 方法的設(shè)計空間很大。目前，對于哪些設(shè)計選擇對 LM（特別是對新任務學習）最有效，人們的了解還很有限。

在一篇新論文中，來自 MIT 的研究者系統(tǒng)地研究了各種 TTT 設(shè)計選擇的影響，以及它與預訓練和采樣方案之間的相互作用?？雌饋?，TTT 的效果非常好，至少從論文標題上看，它的抽象推理能力驚人（surprising）。

論文標題：The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
論文鏈接：https://ekinakyurek.github.io/papers/ttt.pdf

具體來說，作者確定了將 TTT 有效應用于 few-shot 學習的幾個關(guān)鍵要素：

在與測試時類似的合成任務上進行初始微調(diào)；
用于構(gòu)建測試時數(shù)據(jù)集的增強型 leave-1-out 任務生成策略；
訓練適用于每個實例的適應器；
可逆變換下的自我一致性（self-consistency）方法。

實驗環(huán)節(jié)，研究者在抽象與推理語料庫（ARC）中對這些方法進行了評估。ARC 語料庫收集了很多極具挑戰(zhàn)性的 few-shot 視覺推理問題，被認為是測試 LM 泛化極限的理想基準。目前的大多語言模型在 ARC 上均表現(xiàn)不佳。

ARC 推理任務示例。可以看到，這是一組類似于智力測試的問題，模型需要找到圖形變換的規(guī)則，以推導最后的輸出結(jié)果。

通過對這些部分的精心選擇，TTT 可以顯著提高 LM 在 ARC 上的性能 —— 在 1B 模型上將準確率提高到原來的 6 倍，使用 8B 模型時也超過其它已發(fā)布的 SOTA 純神經(jīng)模型方法。

事實上，他們的研究結(jié)果表明，當配備測試時訓練時，普通的語言模型可以在 ARC 任務上達到或超過許多神經(jīng) - 符號方法的性能。

這些結(jié)果挑戰(zhàn)了這樣一個假設(shè)：解決這類復雜任務必須嚴格依賴符號組件。相反，它們表明解決新推理問題的關(guān)鍵因素可能是在測試時分配適當?shù)挠嬎阗Y源，也許與這些資源是通過符號還是神經(jīng)機制部署無關(guān)。

數(shù)據(jù)科學家 Yam Peleg 高度評價了這項研究：

美國 Jackson 實驗室基因組學部教授 Derya Unutmaz 則表示這是一項「令人震驚的研究」，因為如果 TTT 與 LLM 相結(jié)合足以實現(xiàn)抽象推理，我們就有可能消除對顯式、老式符號邏輯的需求，并找到實現(xiàn) AGI 的可行途徑。

不過，過完一關(guān)還有一關(guān)：Epoch AI 與 60 多位頂尖數(shù)學家合作打造的 FrontierMath，已經(jīng)成為評估人工智能高級數(shù)學推理能力的新基準，恐怕接下來各位 AI 研究者有的忙了。

論文概覽

作者研究了現(xiàn)有的測試時訓練理念：根據(jù)測試輸入構(gòu)建輔助數(shù)據(jù)集，并在預測前更新模型。但目前還不清楚的是，應該在哪些任務上進行訓練、進行哪種推理以及從哪個基礎(chǔ)模型開始？

他們?yōu)?ARC 挑戰(zhàn)賽提供了一組廣泛的消融數(shù)據(jù)。具體來說，他們進行了三項分析，以回答如何進行 TTT，以及 TTT 之前和之后要做什么。

TTT 需要什么數(shù)據(jù)？

作者嘗試了兩種不同的 TTT 數(shù)據(jù)生成方式：一是 in-context learning（ICL）格式；另一種是端到端格式。在 ICL 中，作者從給定的測試演示中創(chuàng)建 leave-1-out 任務。在 E2E 中，他們將每個 i/o 對視為一個單獨的任務。

他們還應用了一些幾何變換來擴充數(shù)據(jù)；請看上圖中 ICL 任務是如何生成的。他們使用這些生成的任務，用 LoRA 更新他們的模型。他們發(fā)現(xiàn)，ICL 優(yōu)于 e2e 任務，數(shù)據(jù)增強至關(guān)重要。

他們用 LoRA 更新了模型。但問題是，應該為每個測試任務訓練一個新的 LoRA，還是使用從所有測試任務生成的數(shù)據(jù)集訓練一個共享的 LoRA？他們發(fā)現(xiàn)，為每個任務訓練 LoRA 要好得多 (FT + TTT vs Shared-TTT）。

TTT 之后的推理

ARC 中沒有 CoT，因此無法通過多數(shù)投票來改進推理。研究者對此的做法與 TTT 相同：創(chuàng)建少量任務，然后用可逆函數(shù)對其進行變換。于是有了一堆經(jīng)過變換的原始任務輸入。

研究者輸入變換后的輸入，然后將輸出反轉(zhuǎn)回來?，F(xiàn)在，他們可以從多數(shù)表決中獲益更多。他們將其命名為「可逆變換下的 self-consistency」。它比任何單一變換的預測效果都要好，分層投票的優(yōu)勢更大。

TTT 前的微調(diào)

你需要微調(diào)一個基礎(chǔ) LM，但不需要太多新數(shù)據(jù)。根據(jù)訓練任務的重現(xiàn) + 少量幾何變換對模型進行微調(diào)，就能獲得不錯的得分。

研究者嘗試了大量基于 LM 的合成數(shù)據(jù)，但意外地發(fā)現(xiàn)，這些數(shù)據(jù)并沒有什么幫助。有趣的是，TTT 縮小了不同級別模型之間的差距。

以 ARC 來檢驗

抽象推理語料庫（ARC）旨在通過語言模型解決視覺謎題的能力來評估其抽象推理能力。如圖 1 (b) 所示，每個謎題（以下簡稱任務）都是由輸入 - 輸出對組成的二維網(wǎng)格（最大尺寸為 30 × 30），其中包含最多 10 種不同顏色的形狀或圖案。通過應用直觀、共享的變換規(guī)則或函數(shù) y = f (x)，可以獲得每對網(wǎng)格的輸出。在實踐中，這些變換具有高度多樣性和復合性，既有簡單的概念，如反射和計數(shù)，也有更復雜的概念，如施加引力和路徑查找。

ARC 中的每項任務都由訓練和測試兩部分組成。給定訓練樣本集，目標是通過推理潛在變換，預測測試輸入 x^test 的測試輸出 y^test。

研究者用表示一個任務，其中，即 ARC 任務的集合。ARC 數(shù)據(jù)集的原始訓練集和驗證集各由 400 個任務組成。成功標準要求對所有測試輸出結(jié)果進行精確匹配（如果沒有給出部分分數(shù)）。

大多數(shù) ARC 方法可分為兩大類：程序合成和 fully neural（全神經(jīng)網(wǎng)絡方法）。程序合成試圖首先找到變換函數(shù) f，然后將其應用于測試樣本。另一方面，全神經(jīng)方法試圖直接預測輸出 y 測試，只是隱含地推理底層變換。在這項工作中，研究者采用了全神經(jīng)網(wǎng)絡方法，使用 LM 來預測測試輸出。

研究者首先使用了在文本數(shù)據(jù)（沒有視覺編碼器）上預訓練過的 LM。為了向這些模型提供 ARC 樣本作為輸入，需要一個格式化函數(shù)（用 str 表示），將二維網(wǎng)格轉(zhuǎn)換為文本表示。以前的一些工作將樣本表示為一串數(shù)字或 color word，或標有形狀和位置的連接組件列表。給定任務的任何此類字符串表示，都可以將其呈現(xiàn)給 LM，并通過簡短提示進行預測。

實驗結(jié)果

最終，在對 80 項任務進行開發(fā)實驗之后，研究者展示了 ARC 全部公共評估集的綜合結(jié)果，并將本文系統(tǒng)與現(xiàn)有方法進行了比較。分析主要集中在三個方面：本文 TTT 方法的影響、本文方法與現(xiàn)有方法相結(jié)合的益處、全神經(jīng)方法與程序合成方法之間的差異。

測試時訓練的影響。研究者將測試時訓練和推理過程應用于本文的基礎(chǔ)微調(diào)模型（沒有任何 LM 數(shù)據(jù)的微調(diào) 8B 模型）。TTT 將準確率從 39.3% 提高到 47.1%，超過了現(xiàn)有端到端神經(jīng)模型的結(jié)果。

與現(xiàn)有方法的整合。最近的一項工作引入了 BARC，通過結(jié)合神經(jīng)和程序合成方法實現(xiàn)了 54.4% 的準確率，這是此前公開發(fā)表的最高結(jié)果。雖然這里的全神經(jīng)方法與本文系統(tǒng)有相似之處，但本文 TTT 和推理 pipeline 有幾個額外的組件可以提高性能。特別是，本文的測試時訓練包括每個任務的 LoRA 和更大的增強集，而預測 pipeline 包括可逆變換下的增強推理和分層 self-consistency 投票方案。為了驗證這種改進，研究者將本文的 TTT pipeline 應用于 BARC 的全神經(jīng)模型，準確率達到了 53%，比最初的 TTT 方法提高了 35%。

在這些結(jié)果的基礎(chǔ)上，研究者探索了本文方法與 BARC 組件的各種組合：

將本文的 TTT pipeline 與神經(jīng)模型與 BARC 合成器相結(jié)合，準確率提高到 58.5%。
將本文的 TTT pipeline 與 BARC 神經(jīng)模型和合成器相結(jié)合，準確率提高到 61.9%。

這一最終配置在 ARC 公共評估集上實現(xiàn)了新的 SOTA 水平，與 60.2% 的人類平均性能相當。當然，這是一次重大進步，但與人類 97.8% 的最佳表現(xiàn)仍有很大差距，表明仍有進一步提高的空間。

程序生成和端到端建模的對比。程序合成和用于 ARC 的全神經(jīng)預測器具有很強的互補性，即使在相同的任務上進行訓練也是如此。此前的端到端神經(jīng)模型只能解決程序合成模型所解決任務的 42.2%。然而研究者發(fā)現(xiàn)，當配備本文的 TTT pipeline 時，BARC 的微調(diào)全神經(jīng)模型可以解決程序合成模型所解決任務的 73.5%。這表明，本文的 TTT pipeline 大大提高了神經(jīng)模型學習系統(tǒng)推理模式的能力，與程序合成模型所捕捉到的推理模式類似。

更多研究細節(jié)，可參考原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="jec3q"><track id="jec3q"></track></legend><style id="jec3q"><rp id="jec3q"></rp></style>

<legend id="jec3q"><track id="jec3q"></track></legend>