自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="90vlg"><button id="90vlg"></button></abbr>

<bdo id="90vlg"></bdo>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

7B的DeepSeek蒸餾Qwen數(shù)學(xué)超o1！在測(cè)試時(shí)間強(qiáng)化學(xué)習(xí)，MIT積分題大賽考93分

2025-03-10 01:00:00

LADDER利用模型現(xiàn)有能力來(lái)生成問(wèn)題變體，形成循序漸進(jìn)的難度梯度，最終實(shí)現(xiàn)自舉學(xué)習(xí)。整個(gè)過(guò)程只需對(duì)答案進(jìn)行驗(yàn)證即可，無(wú)需人工干預(yù)。

見(jiàn)識(shí)過(guò)32B的QwQ追平671的DeepSeek R1后——

剛剛，7B的DeepSeek蒸餾Qwen模型超越o1又是怎么一回事？

圖片

新方法LADDER，通過(guò)遞歸問(wèn)題分解實(shí)現(xiàn)AI模型的自我改進(jìn)，同時(shí)不需要人工標(biāo)注數(shù)據(jù)。

使Deepseek-R1蒸餾的Qwen2.5 7B模型在麻省理工學(xué)院積分大賽（MIT Integration Bee）上達(dá)到90分超越o1。

圖片

注意，不是積分制的比賽哦，是只做微積分中積分題的比賽，MIT的數(shù)學(xué)高手每年都會(huì)挑戰(zhàn)一次，題目像這樣：

圖片

LADDER論文來(lái)自小型獨(dú)立研究團(tuán)體Tufa Labs，論文已上傳到arXiv。

圖片

在推理時(shí)間強(qiáng)化學(xué)習(xí)

LADDER，全稱Learning through Autonomous Difficulty-Driven Example Recursion，即”通過(guò)自主難度驅(qū)動(dòng)的樣本遞歸進(jìn)行學(xué)習(xí)”。

這個(gè)名字聽(tīng)起來(lái)有點(diǎn)拗口，但核心其實(shí)很容易理解：就是讓語(yǔ)言模型（LLM）通過(guò)自我生成和求解漸進(jìn)簡(jiǎn)化的問(wèn)題變體，來(lái)不斷提升自己解決復(fù)雜問(wèn)題的能力。

圖片

具體來(lái)說(shuō)，LADDER是一個(gè)結(jié)構(gòu)化框架，由以下組件組成：

變體生成：一種結(jié)構(gòu)化方法，用于生成復(fù)雜問(wèn)題的逐漸簡(jiǎn)化變體的樹(shù)，從而建立自然的難度梯度。
解的驗(yàn)證：一種用于驗(yàn)證積分解的數(shù)值積分方法。
強(qiáng)化學(xué)習(xí)：用于在變體樹(shù)上訓(xùn)練基礎(chǔ)模型的協(xié)議。

圖片

而LADDER這個(gè)名字，也意味著像是模型學(xué)會(huì)了”爬梯子”：通過(guò)自主生成一系列從易到難的問(wèn)題變體，不斷練習(xí)和強(qiáng)化，最終爬到頂端。

以往的訓(xùn)練方法，總是離不開(kāi)大規(guī)模標(biāo)注數(shù)據(jù)。

LADDER利用模型現(xiàn)有能力來(lái)生成問(wèn)題變體，形成循序漸進(jìn)的難度梯度，最終實(shí)現(xiàn)自舉學(xué)習(xí)。整個(gè)過(guò)程只需對(duì)答案進(jìn)行驗(yàn)證即可，無(wú)需人工干預(yù)。

相比之前的方法，LADDER有三大優(yōu)勢(shì)：

不再依賴人工標(biāo)注數(shù)據(jù)，降低了數(shù)據(jù)獲取成本；模型通過(guò)生成問(wèn)題變體構(gòu)建針對(duì)性的學(xué)習(xí)路徑，學(xué)習(xí)更高效；生成的問(wèn)題變體與原始問(wèn)題相關(guān)性高，避免陷入無(wú)關(guān)細(xì)節(jié)。

此外，作者還提出了一種創(chuàng)新的測(cè)試時(shí)強(qiáng)化學(xué)習(xí)方法TTRL。在推理階段遇到復(fù)雜的數(shù)學(xué)積分測(cè)試問(wèn)題時(shí)，TTRL會(huì)動(dòng)態(tài)生成一系列更簡(jiǎn)單的積分變體，模型通過(guò)解決這些變體來(lái)積累經(jīng)驗(yàn)，找到解決原始難題的方法。

這種測(cè)試時(shí)計(jì)算擴(kuò)展的思路，為進(jìn)一步提升模型性能開(kāi)辟了新的道路。不同于簡(jiǎn)單增加輸出長(zhǎng)度，TTRL能夠讓模型在推理時(shí)針對(duì)性地”刷題”，動(dòng)態(tài)擴(kuò)展能力邊界。

通過(guò)LADDER，一個(gè)原本只有1%準(zhǔn)確率的Llama 3.2 3B模型，在沒(méi)有任何人工標(biāo)注數(shù)據(jù)的情況下，解題準(zhǔn)確率飆升至82%。

圖片

更強(qiáng)大的基礎(chǔ)模型Qwen2.5 7B Deepseek-R1 Distilled，在用上LADDER方法后，

MIT Integration Bee比賽的成績(jī)就從50%提高到73%。

最后，LADDER加上TTRL方法，讓最終成績(jī)達(dá)到90。

不過(guò)作者也強(qiáng)調(diào)，與o1的對(duì)比不是嚴(yán)格的頭對(duì)頭評(píng)估。

o1無(wú)法訪問(wèn)數(shù)字檢查器，這意味著它在不同的約束下運(yùn)行。LADDER的結(jié)果強(qiáng)調(diào)了通過(guò)遞歸問(wèn)題分解和強(qiáng)化學(xué)習(xí)進(jìn)行自我提升的有效性，而不是表明它直接優(yōu)于o1的方法。

論文地址：https://arxiv.org/abs/2503.00735

參考鏈接：
[1]https://x.com/yoshiyama_akira/status/1897662722679959583

責(zé)任編輯：武曉燕來(lái)源：量子位

LADDER 模型人工干預(yù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="5rrpi"></sub>

<sub id="5rrpi"></sub>^{<blockquote id="5rrpi"></blockquote>}