自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vzqge"></sub>

<sub id="vzqge"><rt id="vzqge"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

測試時訓(xùn)練(TTT)太強了！

發(fā)布于 2024-11-21 14:15

瀏覽

0收藏

論文筆記分享，標題：The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

測試時訓(xùn)練（TTT）是個新概念：在推理過程中使用從輸入數(shù)據(jù)派生的損失暫時更新模型參數(shù)

文章的結(jié)論：

測試時訓(xùn)練(TTT)太強了！-AI.x社區(qū)

TTT 顯著提高了 ARC 任務(wù)上的性能，與基線微調(diào)模型相比，準確率提高了高達 6 倍；將 TTT 應(yīng)用于一個 8B 參數(shù)的語言模型，在 ARC 的公共驗證集上達到了 53%的準確率，將公共和純神經(jīng)網(wǎng)絡(luò)方法的最新水平提高了近 25%。通過將我們的方法與最近的程序生成方法相結(jié)合，獲得了 61.9%的 SoTA 公共驗證準確率，與人類評分接近。

ARC 任務(wù)：一個評估語言模型抽象推理能力的基準測試。通過一系列視覺謎題任務(wù)來考驗?zāi)Ｐ徒鉀Q新問題的能力。每個任務(wù)由2D網(wǎng)格（大小可達30×30）組成，網(wǎng)格中包含由多達10種不同顏色的形狀或模式。輸出是通過將一個直觀且共同的變換規(guī)則或函數(shù)應(yīng)用于輸入網(wǎng)格來獲得的。

算法步驟：

測試時訓(xùn)練(TTT)太強了！-AI.x社區(qū)

從訓(xùn)練輸入-輸出對中創(chuàng)建留一法任務(wù)，然后通過基于規(guī)則的變換來增強數(shù)據(jù)集。

測試時訓(xùn)練(TTT)太強了！-AI.x社區(qū)

在測試時訓(xùn)練期間，使用LoRA來優(yōu)化。為每個任務(wù)學(xué)習(xí)一個特定的LoRA適配器，而不是為所有任務(wù)學(xué)習(xí)一個單一的適配器。

測試時訓(xùn)練(TTT)太強了！-AI.x社區(qū)

使用幾何變換生成多個預(yù)測候選，然后通過貪婪解碼方案進行預(yù)測。采用分層投票策略，首先在每個變換內(nèi)進行投票，然后對每個變換的候選進行全局投票，以確定最終預(yù)測。

測試時訓(xùn)練(TTT)太強了！-AI.x社區(qū)

本文轉(zhuǎn)載自??NLP前沿??

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)？！中科院等：8項測試第一，遠超知乎豆瓣小紅書

Crystalcxt ? 3677瀏覽 ? 0回復(fù)
OpenAI曾轉(zhuǎn)錄100萬小時視頻數(shù)據(jù)，訓(xùn)練GPT-4

Aceryt ? 2149瀏覽 ? 0回復(fù)
如何測試大模型

51CTO技術(shù)棧 ? 3592瀏覽 ? 0回復(fù)
時頻圖像分類，還在用VGG、ResNet?

Tang_Lan ? 2943瀏覽 ? 0回復(fù)
時頻圖像分類，還在用VGG、ResNet?

Tang_Lan ? 2255瀏覽 ? 0回復(fù)
訓(xùn)練大模型時，顯存都哪去了？

魚蟲子 ? 2776瀏覽 ? 0回復(fù)
FineMedLM-o1: 基于監(jiān)督微調(diào)與測試時訓(xùn)練的醫(yī)學(xué)推理增強型大語言模型

頓數(shù)AI ? 2583瀏覽 ? 0回復(fù)
DeepSeek 爆了，普通人如何3小時完全從0訓(xùn)練自己的大模型

玄姐聊AGI ? 6084瀏覽 ? 0回復(fù)
S1：簡單高效的測試時推理能力擴展方法

上堵吟1 ? 1760瀏覽 ? 0回復(fù)
太強大了！又一個國產(chǎn)AI出來了！

數(shù)師兄 ? 3553瀏覽 ? 0回復(fù)
1B模型如何通過測試時優(yōu)化逆襲405B LLM？

arnoldzhw ? 1645瀏覽 ? 0回復(fù)
DeepSeek做爆款圖文，太強了

Bx玩AI ? 1845瀏覽 ? 0回復(fù)
我測試了智譜新發(fā)布的AI智能體：不僅會思考還會自己干活，用它15分鐘=人工2小時（附安裝教程）

Bx玩AI ? 1296瀏覽 ? 0回復(fù)
兼初步測試 Llama 4

機器學(xué)習(xí)與數(shù)學(xué) ? 939瀏覽 ? 0回復(fù)
GenAI紅隊：將LLM置于網(wǎng)絡(luò)安全測試中的技巧和技術(shù)

51CTO內(nèi)容精選 ? 968瀏覽 ? 0回復(fù)
訓(xùn)練沒有使用測試集！模型穩(wěn)定實現(xiàn)需要時間，bug正在修

51CTO技術(shù)棧 ? 802瀏覽 ? 0回復(fù)
【模型測試】ai-eval-system在線評測系統(tǒng)v0.2預(yù)覽版本介紹

一起AI技術(shù) ? 872瀏覽 ? 0回復(fù)
【模型測試】基于OpenCompass構(gòu)建Dify應(yīng)用的自定義評測體系

一起AI技術(shù) ? 1533瀏覽 ? 0回復(fù)
使用測試時間訓(xùn)練（TTT）生成一分鐘視頻

51CTO內(nèi)容精選 ? 555瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

推理大模型并非一定要推理 7天前發(fā)布
llama 4，開源！ 2025-04-10 07:06:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： GraphRAG進化，效率翻倍！

下一篇：微軟LazyGraphRAG來了，700倍成本壓縮！

社區(qū)精華內(nèi)容

目錄