自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

o1不是唯一路徑!MIT新研究:在測試時訓(xùn)練,模型推理能力最高升至5.8倍

人工智能
不同于傳統(tǒng)的先訓(xùn)練后測試模式,測試時訓(xùn)練(Test-Time Training,TTT)在部署階段面對新的測試樣本時,不直接用訓(xùn)練好的模型去推理。

o1不是通向大模型推理的唯一路徑!

MIT的新研究發(fā)現(xiàn),在測試時對大模型進(jìn)行訓(xùn)練,可以讓推理水平大幅提升。

在挑戰(zhàn)超難的ARC任務(wù)時,準(zhǔn)確率最高可提升至原來的5.83倍。

圖片圖片

這樣的表現(xiàn)不僅優(yōu)于GPT-4和Claude,如果與其他推理方法相結(jié)合,還能超越人類的平均水準(zhǔn)。

圖片圖片

OpenAI o1團(tuán)隊成員Noam Brown表示,o1的大規(guī)模計算可能不是最好的方法,很高興看到有學(xué)者在提高推理能力上探索新的方法。

圖片圖片

在測試中訓(xùn)練模型

不同于傳統(tǒng)的先訓(xùn)練后測試模式,測試時訓(xùn)練(Test-Time Training,TTT)在部署階段面對新的測試樣本時,不直接用訓(xùn)練好的模型去推理。

在推理之前,測試樣本自身攜帶的信息,會通過快速的訓(xùn)練過程被用于調(diào)整模型參數(shù)。

總體來說,TTT過程中一共有三個關(guān)鍵階段——訓(xùn)練數(shù)據(jù)生成、模型適應(yīng)范式設(shè)計以及推理階段的策略。

數(shù)據(jù)生成的核心是將測試任務(wù)中蘊含的輸入輸出對關(guān)系,通過數(shù)據(jù)增強的方式最大限度地利用,可具體分為兩個步驟。

首先是基于leave-one-out構(gòu)造新的任務(wù)。

對于包含K個輸入輸出對的測試任務(wù),依次將每個樣本留出作為測試樣本,其余K-1個作為訓(xùn)練樣本,由此構(gòu)造出K個新的TTT訓(xùn)練任務(wù)。

這樣就可以從一個測試任務(wù)出發(fā),構(gòu)造出K個結(jié)構(gòu)一致但內(nèi)容互補的新任務(wù),從而擴充了TTT訓(xùn)練數(shù)據(jù)。

在此基礎(chǔ)上,作者還進(jìn)行了數(shù)據(jù)增強,主要包括對輸入輸出施加各類幾何變換,以及打亂訓(xùn)練樣本對的順序。

經(jīng)過這一步,TTT訓(xùn)練集的規(guī)??梢缘玫斤@著擴大。

整個TTT數(shù)據(jù)構(gòu)造過程可高度自動化,不依賴人工標(biāo)注。

圖片圖片

利用構(gòu)造好的TTT數(shù)據(jù)集,就可以對預(yù)訓(xùn)練好的語言模型進(jìn)行測試時訓(xùn)練。

考慮到測試時的資源限制,作者采用了參數(shù)高效的LoRA,為每個測試任務(wù)學(xué)習(xí)一組獨立的adapter參數(shù),附加在預(yù)訓(xùn)練模型的每一層之上,通過一個低秩矩陣與原始權(quán)重相乘起到調(diào)節(jié)作用。

過程中還額外加入了對所有前綴序列的預(yù)測,目的是通過在各種長度的演示樣本上都計算損失,鼓勵模型盡早地從少量信息中總結(jié)出抽象規(guī)律,從而提高魯棒性。

圖片圖片

最后,為了實現(xiàn)TTT效果的最大化,作者在推理階段應(yīng)用了數(shù)據(jù)增強和集成學(xué)習(xí)策略。

推理過程中,先利用一系列預(yù)定義的幾何變換算子(如旋轉(zhuǎn)、翻轉(zhuǎn)等)擴充原始輸入,生成若干等價視角下的輸入變體。

之后將每個變體輸入并行地送入LoRA-tuned模型,獨立完成預(yù)測,然后再對齊和還原到原始輸入空間,由此得到一組成對的預(yù)測。

在成對預(yù)測的基礎(chǔ)上,通過分兩層投票的方式完成集成融合:

  • 第一層在每種變換內(nèi)部進(jìn)行投票,選出置信度最高的Top-3個預(yù)測;
  • 第二層在不同變換的Top-3預(yù)測之間進(jìn)行全局投票,選出最終的Top-2作為輸出。

這一推理策略,既通過數(shù)據(jù)增強引入了輸入的多樣性,又用分層投票的方式對不同來源的預(yù)測進(jìn)行了結(jié)構(gòu)化的組合,進(jìn)一步提升了TTT方法的效果。

圖片圖片

ARC任務(wù)準(zhǔn)確率最高升至6倍

為了評估TTT方法的效果,研究團(tuán)隊以8B參數(shù)的GPT-3作為基礎(chǔ)模型進(jìn)行了測試。

如果不使用TTT僅進(jìn)行微調(diào),模型在ARC數(shù)據(jù)集上的準(zhǔn)確率只有18.3%,加入TTT后提升到47.1%,增長率達(dá)到了157%。

圖片圖片

另外,作者還從ARC數(shù)據(jù)集中隨機選擇了80個任務(wù)作為子集進(jìn)行了測試。

測試發(fā)現(xiàn),TTT方法對于1B模型的提升效果更加明顯,調(diào)整后模型的準(zhǔn)確率接近調(diào)整前的6倍。

并且在調(diào)整前后,1B和8B兩個規(guī)模的模型之間的相對差距也在縮小。

圖片圖片

進(jìn)一步地,作者還將TTT方法與之前在ARC任務(wù)上取得優(yōu)異成績的BARC(Bootstrapping Approach for Reward model Construction)方法進(jìn)行了比較和結(jié)合。

具體來說,作者首先獨立運行這兩個系統(tǒng),得到它們在每個測試任務(wù)上的輸出。

如果兩者輸出完全一致,則直接認(rèn)為推理結(jié)果是正確的;

如果輸出不一致,則看BARC是否能夠生成確定的、唯一覆蓋所有測試樣本的解題程序,若是則認(rèn)為BARC的輸出更可靠;

反之,如果BARC生成了多個候選程序但無法確定最優(yōu)解,或者干脆無法生成任何滿足約束的程序,則認(rèn)為TTT的輸出更可靠。

兩種方式配合使用后,取得了61.9%的SOTA成績,已經(jīng)超過了人類的平均水平

圖片圖片

One More Thing

根據(jù)作者在推文中的介紹,在這篇論文發(fā)布前,一個叫做MindsAI的團(tuán)隊已經(jīng)發(fā)現(xiàn)使用了相同的技術(shù)。

利用TTT技術(shù),該團(tuán)隊已經(jīng)用58%的正確率取得了ARC挑戰(zhàn)的第一名。

作者的論文發(fā)布之后,MindsAI團(tuán)隊領(lǐng)導(dǎo)者Jack Cole也發(fā)文進(jìn)行了祝賀:

很高興,我們掀起了這場對TTT的興趣風(fēng)暴。

圖片圖片

同時,Jack還推薦了另一名研究TTT的學(xué)者——斯坦福大學(xué)華人博士后Yu Sun,表示他的研究值得被關(guān)注。

圖片圖片

Sun的個人主頁顯示,他針對測試時訓(xùn)練進(jìn)行了大量研究,相關(guān)成果入選過ICML、NeurIPS、ICLR等多個頂級會議。

圖片圖片

論文地址:https://ekinakyurek.github.io/papers/ttt.pdf

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-09-24 11:01:03

2025-01-23 14:53:15

2024-10-05 00:00:00

2025-01-23 10:45:52

2025-01-13 12:30:58

2024-11-18 14:00:00

模型AI

2025-01-20 13:08:25

2025-01-20 09:28:00

AI工具模型

2025-04-18 09:13:00

2025-02-08 14:03:25

2024-06-17 13:34:54

2024-11-07 15:40:00

2025-02-03 14:17:27

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-09-19 13:32:24

2024-10-05 15:30:00

LLM模型推理

2024-09-13 06:32:25

2024-10-10 13:01:43

2024-11-27 14:30:00

模型訓(xùn)練

2011-03-28 10:52:51

戴爾高效企業(yè)
點贊
收藏

51CTO技術(shù)棧公眾號