自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

僅靠邏輯題，AI數(shù)學競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini

作者：機器之心 2025-02-25 12:30:00

人工智能新聞

繼中國大模型突破硅谷圍堵后，國內團隊再放大招，揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數(shù)據(jù)進行低成本強化學習，讓 7B 小模型在邏輯推理測試中的表現(xiàn)超越 OpenAI o1，直逼 o3-mini-high。

本文由微軟亞洲研究院的謝天、洪毓謙、邱凱、武智融、羅翀，九坤投資高梓添、Bryan Dai、Joey Zhou，以及獨立研究員任慶楠、羅浩銘合著完成。

只刷邏輯益智題，竟能讓 AI 數(shù)學競賽水平大幅提升？

繼中國大模型突破硅谷圍堵后，國內團隊再放大招，揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數(shù)據(jù)進行低成本強化學習，讓 7B 小模型在邏輯推理測試中的表現(xiàn)超越 OpenAI o1，直逼 o3-mini-high。更令人驚嘆的是，在完全未見過的美國數(shù)學奧林匹克（AIME）測試中，該模型的推理性能提升了 125%！

論文標題：Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
論文鏈接：https://arxiv.org/abs/2502.14768
Github 鏈接：https://github.com/Unakar/Logic-RL

這是首個全面深入的類 R1 強化學習模型訓練動態(tài)過程分析。需要強調的是，該團隊不僅完整開源了全流程代碼，還發(fā)布了詳細的參數(shù)設置，訓練數(shù)據(jù)和設計經驗。

研究團隊開宗明義，提出要探究以下問題：

1.DeepSeek R1 所采用的 GRPO 未必就是最合適的強化學習（RL）算法？應該如何調參實現(xiàn)穩(wěn)定訓練？由易到難的課程學習還有用嗎？

2. 從 Base 模型啟動 RL 與完全冷啟動，究竟有多大差異？哪種方式更優(yōu)？

3. 訓練中，模型輸出長度常呈現(xiàn)近似線性增長的 Scaling Law，但這種增長速度是否等同于推理能力的提升？

4. 當模型頻繁使用 “verify” “check” 等反思性詞匯時，是否意味著其推理能力增強了？哪些 token 能可靠反映推理性能的提升？

5.RL 是真正掌握了抽象推理能力，還是僅僅依賴問題模板的死記硬背？相比傳統(tǒng)有監(jiān)督微調（SFT），它的優(yōu)勢究竟體現(xiàn)在哪里？

6. 推理過程中，模型時常混用中文和英文，這種語言切換現(xiàn)象對性能提升是否有實際幫助，甚至是否可能有害？

隨著強化學習 (RL) 訓練進行，各觀測指標變化。紅線是模型回答長度，藍線是驗證集準確率，黃色散點是兩種域外 (OOD) 的數(shù)學競賽正確率，三者均保持穩(wěn)定增長趨勢：

測試時的計算量，自然而然地從數(shù)百 token，擴展到了數(shù)千 token，暗示著 RL 訓練正在鼓勵模型對思考路徑進行不斷的探索和修正。

在經過 5K 個邏輯問題的訓練后，7B 模型就發(fā)展出了一些在邏輯語料庫中原本不存在的高級推理技能 —— 如自我反思、驗證和總結能力。在沒見過的數(shù)學競賽題 (AIME/AMC）上，各自取得了 125% 和 38% 的性能提升。

方法

數(shù)據(jù)設定

常見的數(shù)學訓練集在問題難度上無明確界限，數(shù)學問題往往具有不定的邏輯深度、知識背景要求，對可控的分析實驗不友好。于是為了分析推理模型的機制，作者轉向了完全由程序合成的的「邏輯謎題」作為訓練數(shù)據(jù)。

示例問題：一個非常特殊的島嶼上只住著騎士和騙子。騎士總是說真話，騙子總是說謊。你遇到兩位島民：Zoey 和 Oliver。Zoey 說：「Oliver 不是騎士?！筄liver 說：「Oliver 是騎士且 Zoey 是騙子?！拐垎?，誰是騎士，誰是騙子？

這個「騎士與騙子」謎題，因其合成設計和邏輯精確性而非常適合進一步分析：

1. 謎題對于模型來說都是未見過的數(shù)據(jù)，非常適合用來測試泛化能力

2. 通過改變游戲人數(shù)（2 到 8 個）和邏輯運算的深度（1 到 4 種布爾運算符的組合），可以調節(jié)難度

3. 每個謎題都有一個單一、明確的正確答案，正確性由生成算法保證。解答需要嚴格的演繹推理，因此減少了獎勵作弊的風險

4. 這消除了自然語言任務中常見的模糊性，使我們能夠清晰地區(qū)分真正的推理能力和數(shù)據(jù)表面上的記憶能力。

獎勵設計

模型起初會用作弊 (hack) 的方式來騙取獎勵分：

跳過 <think></think> 過程并直接回答。
將推理過程放在 <answer></answer> 標簽內。
反復猜測答案而沒有適當?shù)耐评怼?/span>
在提供答案之外包含無關的廢話。
在已經輸出一個 <answer> 后再次進入思考階段，因為推理不足。
重復原始問題或使用諸如 “在此處進行思考過程” 之類的短語來避免真正的推理。

多輪迭代改進獎勵函數(shù)后，作者設計出了一種幾乎無法作弊的基于規(guī)則的獎勵系統(tǒng)。僅包含兩種獎勵類型：格式獎勵和答案獎勵。思考標簽應該嚴格按照順序出現(xiàn)，且出現(xiàn)次數(shù)唯一，思考過程必須包含真正的推理，答案組織要可提取且可讀。

格式獎勵：按格式正確與否給 + 1 或 - 1 的獎勵。
答案獎勵：答案無法被提取，獎勵為 - 2；答案部分錯誤時，獎勵為 - 1.5，答案正確時，獎勵為 + 2。

為了減少 Base 模型指令跟隨難度（遵守先思考再回答的范式），作者建議直接把 < think > 標簽手動加入 prompt 里。

實驗結果

作者經過百組對比實驗，對比了 PPO，GRPO，和 REINFORCE++。最后選擇采用性價比最好的 REINFORCE++ 算法完成主實驗。團隊遵循 DeepSeek Math 論文的建議，改動了 REINFORCE++ 算法實現(xiàn)，提出了兩點修正：將 KL 懲罰從 reward 計算提出，放進 loss 函數(shù)里；并且更換 KL 估計器，采用一種無偏非負的 KL 估計。

訓練方式上，作者嘗試了多組復雜調度 (例如高低溫多階段訓練)，發(fā)現(xiàn)增益不高，由此決定采用最簡單的訓練方式：使用 4e-7 的學習率以及 0.7 的溫度一訓到底。經過 3.6K 步數(shù)的訓練之后，模型超越 OpenAI o1 2 倍，直逼 o3-mini-high 的性能。

有趣的發(fā)現(xiàn)與分析

「思考」token 詞頻與推理能力的關系？

作者檢查了思考相關的詞匯，在模型輸出的 < think></think > 內出現(xiàn)與否，對應答案的準確率：

1. 當 "wait" "verify" "yet"（稍等，驗證，然而）等等詞出現(xiàn)的時候，推理性能明顯更高。然而也有意想不到的情況：“recheck” 出現(xiàn)的時候，會導致推理分數(shù)下降，不是所有人們以為的思考詞都能漲點。recheck 可能表示模型總是舉棋不定，會更大概率犯錯。

2. 說 re-evaluate 和 reevaluate（再次評估）的行為完全不一樣。前者漲，后者跌。作者檢查了原始模型輸出，發(fā)現(xiàn)前者的頻次本身就很高，而后者幾乎不出現(xiàn)，這似乎表明模型使用自己偏好的詞能更順利地完成推理過程。

3. 語言混雜現(xiàn)象 (例如中英夾雜回答問題) 雖然迷人，但會削弱模型性能，增加模型犯錯的幾率。由此作者建議在格式獎勵中加入語言一致性懲罰。不僅能提高用戶的可讀性，還能潛在地增強性能。

突如其來的 Aha Moment 或許根本不存在？

作者統(tǒng)計了訓練過程中思考相關的各詞頻變化。RL 訓練自然地提高了與反思相關詞匯（如 verify, check）以及語氣舒緩詞（let's, yet, now that..）的頻率。

似乎不存在忽然的頓悟時刻 —— 即所謂的 Aha moment。這些思考性詞匯，在訓練的前十步就已經出現(xiàn)，只是頻次很低。并且在訓練過程中，這些詞語的詞頻只是緩慢增長，并不存在突然的頓悟。

SFT 依賴記憶；RL 泛化性更好

在訓練數(shù)據(jù)集上進行擾動，例如更換邏輯題里的表述（and->or/not），調換多人進行陳述的順序，使得問題答案和解答路徑發(fā)生完全改變。如果模型真的學會了題目背后的推理技能，應該在題目被擾動后還能保持相當?shù)恼鹇省Ｓ谑嵌x記憶分數(shù) (LiMem) 為：測試集正確率 * 訓練集擾動后的出錯率。

為了獲得合理的有監(jiān)督微調（SFT）思維鏈數(shù)據(jù)，作者用原模型進行 50 次拒絕采樣，挑選正確且最短的輸出作為新的 CoT 數(shù)據(jù)集。由此合理對比拒絕采樣微調（RFT）和強化學習（RL）的效率和記憶性。

SFT 是在記憶分數(shù) (橫軸) 大幅增長的代價下，換取少量的測試集分數(shù)提高的；而 RL 幾乎不增長記憶性 (甚至出現(xiàn)了負增長)，而縱軸上的測試集分數(shù)快速增長。

這暗示著強化學習的優(yōu)越性：不依賴于數(shù)據(jù)本身的結構，用極低的數(shù)據(jù)代價就能實現(xiàn)高效進化，體現(xiàn)出超越當前數(shù)據(jù)領域的強大泛化性。

更長的思考過程是否代表了更好的推理性能？

作者在訓練過程中找到幾組反例，有力地駁斥了這種觀點。

雖然訓練動態(tài)中模型輸出長度總是自然增長，但其漲幅不能代表推理性能的同步增長。有時候模型會陷入 " 過度思考 “困境，輸出過長的思維鏈，更容易觸發(fā)長度崩壞。最有效率的思考過程，往往來自最短且正確的路徑。

故而，更長的輸出長度不是訓練過程里衡量推理性能的有效指標，只能當成自然產生的副產物看待。對測試集分數(shù)與模型輸出的觀察，是更穩(wěn)妥的做法。

其它結果

除了上述結果，該研究還有幾個有趣的發(fā)現(xiàn)：

冷啟動自有其好處，但非必需。無論是從 Base 模型還是 Instruct 模型開始，訓練動態(tài)都保持驚人的相似性。不過 SFT 后的模型往往擁有略高的準確率。
對難度遞進的課程學習仍然重要。在固定的數(shù)據(jù)混合比例下，精心設計的課程學習方法總是優(yōu)于隨機打亂。

更多研究細節(jié)，請參閱論文原文！

責任編輯：張燕妮來源：機器之心

AI 模型訓練

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營