自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

僅靠邏輯題,AI數(shù)學競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

人工智能 新聞
繼中國大模型突破硅谷圍堵后,國內團隊再放大招,揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數(shù)據(jù)進行低成本強化學習,讓 7B 小模型在邏輯推理測試中的表現(xiàn)超越 OpenAI o1,直逼 o3-mini-high。

本文由微軟亞洲研究院的謝天、洪毓謙、邱凱、武智融、羅翀,九坤投資高梓添、Bryan Dai、Joey Zhou,以及獨立研究員任慶楠、羅浩銘合著完成。

只刷邏輯益智題,竟能讓 AI 數(shù)學競賽水平大幅提升?

繼中國大模型突破硅谷圍堵后,國內團隊再放大招,揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數(shù)據(jù)進行低成本強化學習,讓 7B 小模型在邏輯推理測試中的表現(xiàn)超越 OpenAI o1,直逼 o3-mini-high。更令人驚嘆的是,在完全未見過的美國數(shù)學奧林匹克(AIME)測試中,該模型的推理性能提升了 125%!

  • 論文標題:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2502.14768
  • Github 鏈接:https://github.com/Unakar/Logic-RL

這是首個全面深入的類 R1 強化學習模型訓練動態(tài)過程分析。需要強調的是,該團隊不僅完整開源了全流程代碼,還發(fā)布了詳細的參數(shù)設置,訓練數(shù)據(jù)和設計經驗。

研究團隊開宗明義,提出要探究以下問題:

1.DeepSeek R1 所采用的 GRPO 未必就是最合適的強化學習(RL)算法?應該如何調參實現(xiàn)穩(wěn)定訓練?由易到難的課程學習還有用嗎?

2. 從 Base 模型啟動 RL 與完全冷啟動,究竟有多大差異?哪種方式更優(yōu)?

3. 訓練中,模型輸出長度常呈現(xiàn)近似線性增長的 Scaling Law,但這種增長速度是否等同于推理能力的提升?

4. 當模型頻繁使用 “verify” “check” 等反思性詞匯時,是否意味著其推理能力增強了?哪些 token 能可靠反映推理性能的提升?

5.RL 是真正掌握了抽象推理能力,還是僅僅依賴問題模板的死記硬背?相比傳統(tǒng)有監(jiān)督微調(SFT),它的優(yōu)勢究竟體現(xiàn)在哪里?

6. 推理過程中,模型時常混用中文和英文,這種語言切換現(xiàn)象對性能提升是否有實際幫助,甚至是否可能有害?

隨著強化學習 (RL) 訓練進行,各觀測指標變化。紅線是模型回答長度,藍線是驗證集準確率,黃色散點是兩種域外 (OOD) 的數(shù)學競賽正確率,三者均保持穩(wěn)定增長趨勢:

測試時的計算量,自然而然地從數(shù)百 token,擴展到了數(shù)千 token,暗示著 RL 訓練正在鼓勵模型對思考路徑進行不斷的探索和修正。

在經過 5K 個邏輯問題的訓練后,7B 模型就發(fā)展出了一些在邏輯語料庫中原本不存在的高級推理技能 —— 如自我反思、驗證和總結能力。在沒見過的數(shù)學競賽題 (AIME/AMC)上,各自取得了 125% 和 38% 的性能提升。

方法

數(shù)據(jù)設定

常見的數(shù)學訓練集在問題難度上無明確界限,數(shù)學問題往往具有不定的邏輯深度、知識背景要求,對可控的分析實驗不友好。于是為了分析推理模型的機制,作者轉向了完全由程序合成的的「邏輯謎題」作為訓練數(shù)據(jù)。

示例問題:一個非常特殊的島嶼上只住著騎士和騙子。騎士總是說真話,騙子總是說謊。你遇到兩位島民:Zoey 和 Oliver。Zoey 說:「Oliver 不是騎士?!筄liver 說:「Oliver 是騎士且 Zoey 是騙子?!拐垎?,誰是騎士,誰是騙子?

這個「騎士與騙子」謎題,因其合成設計和邏輯精確性而非常適合進一步分析:

1. 謎題對于模型來說都是未見過的數(shù)據(jù),非常適合用來測試泛化能力

2. 通過改變游戲人數(shù)(2 到 8 個)和邏輯運算的深度(1 到 4 種布爾運算符的組合),可以調節(jié)難度

3. 每個謎題都有一個單一、明確的正確答案,正確性由生成算法保證。解答需要嚴格的演繹推理,因此減少了獎勵作弊的風險

4. 這消除了自然語言任務中常見的模糊性,使我們能夠清晰地區(qū)分真正的推理能力和數(shù)據(jù)表面上的記憶能力。

獎勵設計

模型起初會用作弊 (hack) 的方式來騙取獎勵分:

  • 跳過 <think></think> 過程并直接回答。
  • 將推理過程放在 <answer></answer> 標簽內。
  • 反復猜測答案而沒有適當?shù)耐评怼?/span>
  • 在提供答案之外包含無關的廢話。
  • 在已經輸出一個 <answer> 后再次進入思考階段,因為推理不足。
  • 重復原始問題或使用諸如 “在此處進行思考過程” 之類的短語來避免真正的推理。

多輪迭代改進獎勵函數(shù)后,作者設計出了一種幾乎無法作弊的基于規(guī)則的獎勵系統(tǒng)。僅包含兩種獎勵類型:格式獎勵和答案獎勵。思考標簽應該嚴格按照順序出現(xiàn),且出現(xiàn)次數(shù)唯一,思考過程必須包含真正的推理,答案組織要可提取且可讀。

  • 格式獎勵:按格式正確與否給 + 1 或 - 1 的獎勵。
  • 答案獎勵:答案無法被提取,獎勵為 - 2;答案部分錯誤時,獎勵為 - 1.5,答案正確時,獎勵為 + 2。

為了減少 Base 模型指令跟隨難度(遵守先思考再回答的范式),作者建議直接把 < think > 標簽手動加入 prompt 里。

實驗結果

作者經過百組對比實驗,對比了 PPO,GRPO,和 REINFORCE++。最后選擇采用性價比最好的 REINFORCE++ 算法完成主實驗。團隊遵循 DeepSeek Math 論文的建議,改動了 REINFORCE++ 算法實現(xiàn),提出了兩點修正:將 KL 懲罰從 reward 計算提出,放進 loss 函數(shù)里;并且更換 KL 估計器,采用一種無偏非負的 KL 估計。

訓練方式上,作者嘗試了多組復雜調度 (例如高低溫多階段訓練),發(fā)現(xiàn)增益不高,由此決定采用最簡單的訓練方式:使用 4e-7 的學習率以及 0.7 的溫度一訓到底。經過 3.6K 步數(shù)的訓練之后,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的性能。

有趣的發(fā)現(xiàn)與分析

「思考」token 詞頻與推理能力的關系?

作者檢查了思考相關的詞匯,在模型輸出的 < think></think > 內出現(xiàn)與否,對應答案的準確率:

1. 當 "wait" "verify" "yet"(稍等,驗證,然而)等等詞出現(xiàn)的時候,推理性能明顯更高。然而也有意想不到的情況:“recheck” 出現(xiàn)的時候,會導致推理分數(shù)下降,不是所有人們以為的思考詞都能漲點。recheck 可能表示模型總是舉棋不定,會更大概率犯錯。

2. 說 re-evaluate 和 reevaluate(再次評估)的行為完全不一樣。前者漲,后者跌。作者檢查了原始模型輸出,發(fā)現(xiàn)前者的頻次本身就很高,而后者幾乎不出現(xiàn),這似乎表明模型使用自己偏好的詞能更順利地完成推理過程。

3. 語言混雜現(xiàn)象 (例如中英夾雜回答問題) 雖然迷人,但會削弱模型性能,增加模型犯錯的幾率。由此作者建議在格式獎勵中加入語言一致性懲罰。不僅能提高用戶的可讀性,還能潛在地增強性能。

突如其來的 Aha Moment 或許根本不存在?

作者統(tǒng)計了訓練過程中思考相關的各詞頻變化。RL 訓練自然地提高了與反思相關詞匯(如 verify, check)以及語氣舒緩詞(let's, yet, now that..)的頻率。

似乎不存在忽然的頓悟時刻 —— 即所謂的 Aha moment。這些思考性詞匯,在訓練的前十步就已經出現(xiàn),只是頻次很低。并且在訓練過程中,這些詞語的詞頻只是緩慢增長,并不存在突然的頓悟。

SFT 依賴記憶;RL 泛化性更好

在訓練數(shù)據(jù)集上進行擾動,例如更換邏輯題里的表述(and->or/not),調換多人進行陳述的順序,使得問題答案和解答路徑發(fā)生完全改變。如果模型真的學會了題目背后的推理技能,應該在題目被擾動后還能保持相當?shù)恼鹇省S谑嵌x記憶分數(shù) (LiMem) 為:測試集正確率 * 訓練集擾動后的出錯率。

為了獲得合理的有監(jiān)督微調(SFT)思維鏈數(shù)據(jù),作者用原模型進行 50 次拒絕采樣,挑選正確且最短的輸出作為新的 CoT 數(shù)據(jù)集。由此合理對比拒絕采樣微調(RFT)和強化學習(RL)的效率和記憶性。

SFT 是在記憶分數(shù) (橫軸) 大幅增長的代價下,換取少量的測試集分數(shù)提高的;而 RL 幾乎不增長記憶性 (甚至出現(xiàn)了負增長),而縱軸上的測試集分數(shù)快速增長。

這暗示著強化學習的優(yōu)越性:不依賴于數(shù)據(jù)本身的結構,用極低的數(shù)據(jù)代價就能實現(xiàn)高效進化,體現(xiàn)出超越當前數(shù)據(jù)領域的強大泛化性。

更長的思考過程是否代表了更好的推理性能?

作者在訓練過程中找到幾組反例,有力地駁斥了這種觀點。

雖然訓練動態(tài)中模型輸出長度總是自然增長,但其漲幅不能代表推理性能的同步增長。有時候模型會陷入 " 過度思考 “困境,輸出過長的思維鏈,更容易觸發(fā)長度崩壞。最有效率的思考過程,往往來自最短且正確的路徑。

故而,更長的輸出長度不是訓練過程里衡量推理性能的有效指標,只能當成自然產生的副產物看待。對測試集分數(shù)與模型輸出的觀察,是更穩(wěn)妥的做法。

其它結果

除了上述結果,該研究還有幾個有趣的發(fā)現(xiàn):

  • 冷啟動自有其好處,但非必需。無論是從 Base 模型還是 Instruct 模型開始,訓練動態(tài)都保持驚人的相似性。不過 SFT 后的模型往往擁有略高的準確率。
  • 對難度遞進的課程學習仍然重要。在固定的數(shù)據(jù)混合比例下,精心設計的課程學習方法總是優(yōu)于隨機打亂。

更多研究細節(jié),請參閱論文原文!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-20 19:52:50

2024-12-24 16:15:04

2025-02-08 17:00:11

2025-02-18 09:00:00

2025-01-10 11:42:40

2020-10-05 21:47:30

AI 數(shù)據(jù)人工智能

2025-03-04 10:15:00

2025-03-13 06:34:49

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2024-05-09 08:33:33

2025-01-10 12:58:37

2025-03-13 09:12:35

2024-05-07 09:33:03

模型手機

2025-02-08 11:44:03

2025-02-14 10:47:40

2024-07-17 12:13:11

2025-04-03 09:23:08

大模型強化學習開源

2024-01-17 12:08:32

模型訓練

2024-02-07 12:39:00

AI數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號