開源大模型再添猛將!昆侖萬維Skywork-OR1系列震撼發(fā)布,推理能力比肩640B模型! 原創(chuàng)
在人工智能技術(shù)日新月異的今天,昆侖萬維再次以驚人的創(chuàng)新力震撼業(yè)界——全新升級的Skywork-OR1(Open Reasoner 1)系列中文推理大模型正式發(fā)布!這不僅是一次技術(shù)迭代,更是一場關(guān)于開源精神與AI普惠化的革命性突破。
1/20參數(shù)量,比肩640B頂級模型
Skywork-OR1系列最令人驚嘆的,莫過于其"以小博大"的卓越性能。據(jù)官方數(shù)據(jù)顯示,旗艦版本Skywork-OR1-32B雖然參數(shù)量僅為32B,卻能在多項(xiàng)基準(zhǔn)測試中與參數(shù)量高達(dá)640B的DeepSeek-R1打得有來有回。這意味著什么?意味著開發(fā)者們可以用1/20的計(jì)算成本,獲得接近頂級商業(yè)模型的推理能力!
在專業(yè)測試中,Skywork-OR1-32B在美國數(shù)學(xué)邀請賽(AIME)和LiveCodeBench編程能力評測中表現(xiàn)尤為亮眼,成績穩(wěn)居同規(guī)模模型榜首。而專精數(shù)學(xué)領(lǐng)域的Skywork-OR1-Math-7B更是在AIME24與AIME25測試中分別取得了69.8%和52.3%的準(zhǔn)確率,遠(yuǎn)超許多同類產(chǎn)品。
全棧開源:從權(quán)重到數(shù)據(jù)集,徹底透明
昆侖萬維此次的開源策略堪稱"業(yè)界良心"——不同于許多前沿模型僅開放權(quán)重,Skywork-OR1系列實(shí)現(xiàn)了真正的全棧開源:
- 模型權(quán)重全面開放
- 訓(xùn)練數(shù)據(jù)集完整公開
- 全套訓(xùn)練代碼無保留分享
所有資源均已上傳至GitHub和Huggingface平臺,配套的技術(shù)博客也在Notion平臺同步發(fā)布,詳細(xì)闡述了數(shù)據(jù)處理流程、訓(xùn)練方法和關(guān)鍵技術(shù)發(fā)現(xiàn)。這種"手把手教學(xué)"式的開源,讓開發(fā)者不僅能直接使用模型,更能理解其內(nèi)在機(jī)制,甚至進(jìn)行二次開發(fā)!
三大模型,各有所長
此次發(fā)布的Skywork-OR1系列包含三款針對性極強(qiáng)的模型:
- Skywork-OR1-Math-7B:數(shù)學(xué)專項(xiàng)"學(xué)霸",在解決復(fù)雜數(shù)學(xué)問題上表現(xiàn)突出,同時(shí)具備不俗的代碼能力
- Skywork-OR1-7B-Preview:全能型選手,數(shù)學(xué)與代碼能力兼?zhèn)?,適合多種應(yīng)用場景
- Skywork-OR1-32B-Preview:旗艦"大腦",專為高復(fù)雜度任務(wù)設(shè)計(jì),推理能力最為強(qiáng)悍
值得注意的是,7B和32B版本目前仍處于Preview階段,官方表示將在兩周內(nèi)發(fā)布正式版本,并配套更為詳盡的技術(shù)報(bào)告。
Model | AIME24 (Avg@32) | AIME25 (Avg@32) | LiveCodeBench (8/1/24-2/1/25) (Avg@4) |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6 |
Light-R1-7B-DS | 59.1 | 44.3 | 39.5 |
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2 |
TinyR1-32B-Preview | 78.1 | 65.3 | 61.6 |
QwQ-32B | 79.5 | 65.3 | 61.6 |
DeepSeek-R1 | 79.8 | 70.0 | 65.9 |
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6 |
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9 |
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9 |
訓(xùn)練效率提升50%的秘訣
Skywork-OR1系列的性能飛躍,離不開昆侖萬維在訓(xùn)練策略上的多項(xiàng)創(chuàng)新:
- 高質(zhì)量數(shù)據(jù)集構(gòu)建:團(tuán)隊(duì)精心篩選了11萬道數(shù)學(xué)題目和13.7k條高質(zhì)量代碼問題,通過人類審閱+LLM自動判題雙重機(jī)制確保數(shù)據(jù)質(zhì)量
- 多階段訓(xùn)練策略:采用GRPO(Group Relative Policy Optimization)等先進(jìn)方法,動態(tài)剔除低質(zhì)量樣本,使訓(xùn)練效率提升50%
- 動態(tài)數(shù)據(jù)過濾:通過驗(yàn)證性、正確性和挑戰(zhàn)性三重標(biāo)準(zhǔn)嚴(yán)格篩選訓(xùn)練數(shù)據(jù)
這些技術(shù)創(chuàng)新不僅縮短了訓(xùn)練時(shí)間,更顯著提升了模型在復(fù)雜推理任務(wù)中的表現(xiàn)。
免費(fèi)商用
最令人振奮的是,Skywork-OR1系列不僅開源,還支持完全免費(fèi)商用!這一舉措將極大降低AI技術(shù)應(yīng)用門檻,讓中小企業(yè)和個(gè)人開發(fā)者也能用上頂級推理模型。
在AI技術(shù)日益成為核心競爭力的今天,昆侖萬維用實(shí)際行動踐行了"技術(shù)平權(quán)"的理念。正如一位開發(fā)者所言:"這不僅是模型的開放,更是機(jī)會的開放。"
本文轉(zhuǎn)載自公眾號AI 博物院 作者:longyunfeigu
原文鏈接:??https://mp.weixin.qq.com/s/HWiNKhzlUV08BdEo9eXUxw??
