字節(jié)跳動最新思考模型 Seed-Thinking-v1.5 技術細節(jié)公開,4 月 17 日開放接口
4 月 14 日消息,IT之家從豆包大模型團隊獲悉,字節(jié)跳動最新思考模型 Seed-Thinking-v1.5 技術細節(jié)今日公開,該模型將于 4 月 17 日通過火山引擎開放接口供用戶體驗。
該模型在數(shù)學、編程、科學推理等專業(yè)領域及創(chuàng)意寫作等通用任務中表現(xiàn)突出,同時,模型采用 MoE 架構,總參數(shù) 200B,激活參數(shù)為 20B,具備顯著的推理成本優(yōu)勢,單位推理成本相比 DeepSeek R1 降低 50%。
- 技術報告鏈接:https://github.com/ ByteDance-Seed / Seed-Thinking-v1.5
模型各方面具體表現(xiàn):
- 專業(yè)領域:數(shù)學推理(AIME 2024 得分 86.7,追平 OpenAI o3-mini-high)、編程競賽(Codeforces pass@8 達 55.0%,接近 Gemini 2.5 Pro)、科學推理(GPQA 得分 77.3%,接近 o3-mini-high),均達到或接近業(yè)界第一梯隊水平。
- 通用任務:人類評估表現(xiàn)超 DeepSeek R1 8%,覆蓋多場景需求。
- 成本優(yōu)勢:單位推理成本相比 DeepSeek R1 降低 50%,實現(xiàn)性能與效率的平衡。
數(shù)據(jù)體系:融合可驗證與創(chuàng)意性數(shù)據(jù)
針對推理與生成任務的不同需求,團隊優(yōu)化了數(shù)據(jù)處理策略:
- 可驗證數(shù)據(jù)(如數(shù)學、代碼題):通過百萬級數(shù)據(jù)三重清洗(人工篩選 → 模型過濾 → 多模型驗證),保留 10 萬道高難度題目;設計答案整數(shù)化改造、離線沙箱驗證等機制,確保模型輸出真實推理過程;
- 非可驗證數(shù)據(jù)(如創(chuàng)意寫作):基于豆包 1.5 Pro 訓練集,剔除低價值樣本,采用兩兩對比獎勵法,優(yōu)化生成質(zhì)量;
- 全新評測基準:構建了超難數(shù)學數(shù)據(jù)集 BeyondAIME(100 道無答案題干題目),解決現(xiàn)有測試區(qū)分度不足問題。
獎勵模型:雙軌體系校準訓練方向
團隊提出雙軌獎勵機制,兼顧“對錯分明”與“見仁見智”任務:
- 可驗證任務:開發(fā)了兩代驗證器(Seed-Verifier → Seed-Thinking-Verifier),從字符匹配升級為推理步驟逐行對比(訓練 / 測試集準確率超 99%),杜絕模型“獎勵欺騙”;
- 非可驗證任務:引入 pairwise 對比訓練,通過千萬次“AB 測試”,捕捉人類對創(chuàng)意、情感等的隱性偏好,避免“眾口難調(diào)”;
- 雙軌融合:針對混合場景設計協(xié)調(diào)機制,硬指標(對錯)與軟偏好(優(yōu)劣)互補,支撐全場景訓練。
訓練方法:“監(jiān)督精調(diào) + 強化學習”雙階段優(yōu)化
Seed-Thinking-v1.5 采用“打基礎 + 磨能力”的全鏈路訓練:
- 監(jiān)督精調(diào)(SFT):基于 40 萬高質(zhì)量實例(30 萬可驗證 +10 萬非可驗證數(shù)據(jù)),結合人工與模型協(xié)同篩選,構建長思考鏈數(shù)據(jù)集,確保模型“像人類一樣思考”;
- 強化學習(RL):通過三重數(shù)據(jù)引擎(可驗證 / 通用 / 混合數(shù)據(jù))、算法創(chuàng)新(價值預訓練、解耦 GAE 等)以及在線數(shù)據(jù)適配技術,解決訓練不穩(wěn)定、長鏈推理斷層等問題,動態(tài)調(diào)整數(shù)據(jù)分布以保持最佳訓練狀態(tài)。
訓練框架:支撐 20B MoE 的底層架構
為應對 20B MoE(總參數(shù) 200B)的復雜訓練需求,團隊優(yōu)化了底層架構:
- HybridFlow 編程模型:支持算法快速探索與分布式并行運行;
- 流式推理系統(tǒng)(SRS):通過“流式推理”技術解耦模型演進與異步推理,將訓練速度提升 3 倍,萬億參數(shù)下穩(wěn)定性達 95%;
- 三層并行架構:結合張量 / 專家 / 序列并行,動態(tài)均衡負載,基于 KARP 算法優(yōu)化 GPU 算力利用率。