字節(jié)新推理模型逆襲DeepSeek,200B參數(shù)戰(zhàn)勝671B,豆包史詩級加強?
字節(jié)最新深度思考模型,在數(shù)學(xué)、代碼等多項推理任務(wù)中超過DeepSeek-R1了?而且參數(shù)規(guī)模更小。
同樣是MoE架構(gòu),字節(jié)新模型Seed-Thinking-v1.5有200B總參數(shù)和20B激活參數(shù)。
對比DeepSeek-R1的671B總參數(shù)和37B激活參數(shù),可以算得上輕量級了。
目前,完整的技術(shù)報告已公開發(fā)布,其中揭示了諸多秘訣。
字節(jié)Seed團隊聚焦大規(guī)模強化學(xué)習(xí),并從三個角度提升了推理表現(xiàn):數(shù)據(jù)、RL算法和RL基礎(chǔ)設(shè)施。
可驗證與不可驗證問題
從數(shù)據(jù)開始說起,字節(jié)團隊把RL訓(xùn)練數(shù)據(jù)分為兩個部分,具有明確答案的可驗證問題和沒有明確答案的不可驗證問題,采用不同的獎勵建模方法。
這其中,模型的推理能力主要來自可驗證問題,并可以推廣到不可驗證問題。
可驗證問題包括問題與答案配對的STEM問題、附帶單元測試的代碼問題,以及適合自動驗證的邏輯推理問題(24點、迷宮、數(shù)獨等)。
不可驗證問題主要包括根據(jù)人類偏好評估的非推理任務(wù),如創(chuàng)意寫作、翻譯、知識QA、角色扮演等。
對于不可驗證問題,字節(jié)團隊丟棄了樣本分數(shù)方差低、難度低的數(shù)據(jù)。此類數(shù)據(jù)可能過于簡單或已在數(shù)據(jù)集中大量表示。離線實驗表明,過度優(yōu)化此類樣本會導(dǎo)致模型的探索空間過早崩潰并降低性能。
此外,團隊還打造了全新數(shù)學(xué)推理評測集BeyondAIME。
當前的推理模型通常使用AIME作為評估數(shù)學(xué)推理能力的首選基準,但該基準每年只發(fā)布30個問題,有限的規(guī)??赡軙?dǎo)致高方差的評估結(jié)果,難以有效區(qū)分最先進的推理模型。
字節(jié)與數(shù)學(xué)專家合作,根據(jù)既定的比賽形式開發(fā)原創(chuàng)問題。通過結(jié)構(gòu)修改和情景重新配置來系統(tǒng)地調(diào)整現(xiàn)有的比賽問題,確保不會發(fā)生直接重復(fù)。此外還確保答案不是容易猜的數(shù)值(例如問題陳述中明確提到的數(shù)字),以減少模型在沒有適當推理的情況下猜出正確答案的機會。
RL算法
強化學(xué)習(xí)雖然強大,但訓(xùn)練起來也很不穩(wěn)定,經(jīng)常崩潰。
字節(jié)在技術(shù)報告中提到”有時,兩次運行之間的分數(shù)差異可能高達10分”。
針對這個問題,團隊提出了VAPO和DAPO兩個RL框架,分別從基于價值和無價值的RL范式出發(fā)來穩(wěn)定訓(xùn)練。
VAPO和DAPO兩篇論文都已單獨發(fā)布。
此外,在Seed-Thining-v1.5中,還借鑒了之前學(xué)術(shù)界工作中的很多關(guān)鍵技術(shù):
- 價值預(yù)訓(xùn)練(Value-Pretraining),保證價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)一致
- 解耦的GAE(Decoupled-GAE),讓兩個網(wǎng)絡(luò)更獨立高效
- 長度自適應(yīng)GAE(Length-adaptive GAE),更好處理不同長度序列
- 解耦PPO損失(Clip-Higher),為低概率token的增長創(chuàng)造,了更多空間鼓勵模型探索新方案
- Token級損失(Token-level Loss),平衡每個token對訓(xùn)練過程的影響。
- 正例增強(Postive Example LM Loss),提高RL訓(xùn)練過程中正樣本的利用效率,從而提高模型整體性能
RL基礎(chǔ)設(shè)施
在Long-CoT生成過程中,字節(jié)團隊觀察到各種提示詞之間的響應(yīng)長度差異較大,在生成過程中出現(xiàn)大量GPU空閑時間。
為了緩解長尾響應(yīng)生成的滯后問題,提出了SRS(流式Rollout系統(tǒng)),一種資源感知型調(diào)度框架,可戰(zhàn)略性地部署獨立的流式計算單元,將系統(tǒng)約束從內(nèi)存綁定轉(zhuǎn)換為計算綁定。
為了有效地大規(guī)模訓(xùn)練,團隊還設(shè)計了一個混合分布式訓(xùn)練框架,集成高級并行策略、動態(tài)工作負載平衡和內(nèi)存優(yōu)化:
- 并行機制:將TP (張量并行)/EP (專家并行)/CP (上下文并行)與全分片數(shù)據(jù)并行 (FSDP) 組合在一起,具體來說,將TP/CP 應(yīng)用于注意力層,將EP應(yīng)用于 MoE 層。
- 序列長度平衡:DP等級之間的有效序列長度可能不平衡,導(dǎo)致計算工作量不平衡和訓(xùn)練效率低下。利用KARP算法在一個mini-batch內(nèi)重新排列輸入序列,使它們在micro-batch之間保持平衡。
- 內(nèi)存優(yōu)化:采用逐層重新計算、激活卸載和優(yōu)化器卸載來支持更大micro-batch的訓(xùn)練,以覆蓋FSDP引起的通信開銷。
- 自動并行:為了實現(xiàn)最佳系統(tǒng)性能,開發(fā)了AutoTuner 自動調(diào)整系統(tǒng),按照基于配置文件的解決方案 對內(nèi)存使用情況進行建模。然后估計各種配置的性能和內(nèi)存使用情況以獲得最優(yōu)配置。
- 檢查點:使用ByteCheckpoint支持從不同的分布式配置中以最小的開銷恢復(fù)檢查點,彈性訓(xùn)練以提高集群效率。
最終,在多項自動評估中,Seed-Thinking-v1.5在AIME 2024基準測試中取得86.7,與OpenAI的o3-mini-high模型的性能相當。但在最近的AIME 2025和BeyondAIME中,Seed-Thinking-v1.5仍然落后于o3級別的性能。
對于GPQA任務(wù),Seed-Thinking-v1.5達到77.3%的準確率,接近o3-mini-high的性能。
在Codeforces等代碼生成場景中,Seed-Thinking-v1.5的性能與Gemini 2.5 Pro 的性能相當,但仍落后于o3-mini-high。
Seed-Thinking-v1.5在SimpleQA上的表現(xiàn)不太理想。但團隊認為,該基準測試預(yù)訓(xùn)練模型規(guī)模的相關(guān)性更強,而不是考驗推理能力。
許多人看完這篇技術(shù)報告,都很感興趣,不過找了一圈也沒找到模型在哪發(fā)布。
從技術(shù)報告的口徑來看,該模型與目前豆包中的Doubao-1.5 Pro并不是一回事。
但從作者名單看,這是由字節(jié)Seed團隊負責(zé)人吳永輝帶隊,主要成員都參與的大項目。
那么是否將來會部署到豆包APP,可以期待一波了。
論文地址:
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/