Qwen3來了!新一代高性能與混合推理能力兼?zhèn)涞拇笳Z言模型!
阿里云正式發(fā)布通義千問Qwen3系列大模型,這一里程碑式更新在性能、訓(xùn)練規(guī)模和推理能力等多個(gè)維度實(shí)現(xiàn)重大突破。作為國(guó)產(chǎn)大模型的領(lǐng)軍者,Qwen3不僅以2350億參數(shù)的MoE架構(gòu)刷新性能記錄,更通過創(chuàng)新的"混合思考模式"和360萬億token的超大規(guī)模訓(xùn)練,成為當(dāng)前性能領(lǐng)先的開源大語言模型。
1、Qwen3的性能表現(xiàn)
Qwen3系列包含多個(gè)版本,涵蓋MoE混合專家模型和Dense稠密模型。其旗艦?zāi)P?/span>Qwen3-235B-A22B在編碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等其他頂級(jí)模型相比,展現(xiàn)出極具競(jìng)爭(zhēng)力的成績(jī)。例如,在奧數(shù)水平的AIME25測(cè)評(píng)中,Qwen3斬獲81.5分,刷新開源紀(jì)錄;在考察代碼能力的LiveCodeBench評(píng)測(cè)中,Qwen3突破70分大關(guān),表現(xiàn)超過Grok3;在評(píng)估模型人類偏好對(duì)齊的ArenaHard測(cè)評(píng)中,Qwen3以95.6分超越OpenAI o1及DeepSeek-R1。
此外,Qwen3的小型MoE模型Qwen3-30B-A3B激活參數(shù)量?jī)H為QwQ-32B的10%,但性能更優(yōu);即使是微型模型Qwen3-4B,其性能也能與Qwen2.5-72B-Instruct相媲美。Qwen3系列模型的性能提升,不僅體現(xiàn)在大型模型上,其小型模型也展現(xiàn)了強(qiáng)大的輕量化應(yīng)用能力。
2、Qwen3的主要特點(diǎn)
革命性混合思考模式
Qwen3支持兩種模式:思考模式和非思考模式。在思考模式下,模型會(huì)逐步推理,經(jīng)過一系列思考后再給出最終答案,適用于復(fù)雜問題;在非思考模式下,模型快速響應(yīng),幾乎即時(shí)給出答案,適合簡(jiǎn)單問題。用戶可以通過在提示中添加/think
或/no_think
指令,動(dòng)態(tài)切換模型的思考模式。例如:
- 用戶輸入:“How many r's in strawberries?”(默認(rèn)啟用思考模式)
- 用戶輸入:“Then, how many r's in blueberries? /no_think”(切換為非思考模式)
- 用戶輸入:“Really? /think”(再次切換為思考模式)
這種動(dòng)態(tài)切換功能為用戶提供了極大的靈活性,能夠在每輪對(duì)話中根據(jù)需求調(diào)整模型的思考深度。
多語言支持
Qwen3支持119種語言和方言,這為國(guó)際應(yīng)用開辟了新的可能性,使全球用戶都能受益于這些模型的強(qiáng)大功能。
增強(qiáng)Agent能力
Qwen3優(yōu)化了模型的編碼和Agent能力,并增強(qiáng)了對(duì)MCP的支持。這使得Qwen3能夠更好地與外部數(shù)據(jù)源和工具集成,完成復(fù)雜任務(wù)。例如,通過Qwen-Agent,用戶可以輕松調(diào)用工具,實(shí)現(xiàn)復(fù)雜的任務(wù)處理。
3、模型訓(xùn)練
Qwen3的預(yù)訓(xùn)練和后訓(xùn)練方法是其性能提升的關(guān)鍵。
預(yù)訓(xùn)練
在預(yù)訓(xùn)練方面,Qwen3的數(shù)據(jù)集相比Qwen2.5有了顯著擴(kuò)展,使用的token數(shù)量幾乎是Qwen2.5的兩倍,約有36萬億個(gè)token,涵蓋119種語言和方言。
預(yù)訓(xùn)練過程包含三個(gè)階段:
- 第一階段(S1):模型在超過30萬億個(gè)token的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,上下文長(zhǎng)度為4K token。這一階段主要為模型提供基本的語言技能和通用知識(shí)。
- 第二階段(S2):通過增加知識(shí)密集型數(shù)據(jù)(如STEM、編程和推理任務(wù))的比例,進(jìn)一步改進(jìn)數(shù)據(jù)集。隨后,模型在額外的5萬億個(gè)token上進(jìn)行預(yù)訓(xùn)練,以提升其專業(yè)能力。
- 第三階段:使用高質(zhì)量的長(zhǎng)上下文數(shù)據(jù),將上下文長(zhǎng)度擴(kuò)展到32K token,確保模型能夠有效處理更長(zhǎng)的輸入。
通過多階段的預(yù)訓(xùn)練,Qwen3不僅獲得了基本的語言技能和常識(shí),還在STEM、編碼和推理等領(lǐng)域表現(xiàn)出色。
后訓(xùn)練
Qwen3的后訓(xùn)練過程分為四個(gè)階段,旨在開發(fā)既能逐步推理又能快速響應(yīng)的混合模型:
- 長(zhǎng)思維鏈冷啟動(dòng):使用多樣化的長(zhǎng)思維鏈數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),涵蓋數(shù)學(xué)、編程、邏輯推理和STEM問題等多種任務(wù)和領(lǐng)域,增強(qiáng)模型的基本推理能力。
- 長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí):通過大規(guī)模強(qiáng)化學(xué)習(xí),利用基于規(guī)則的獎(jiǎng)勵(lì)來增強(qiáng)模型的探索和鉆研能力。
- 思維模式融合:在長(zhǎng)思維鏈數(shù)據(jù)和常用指令微調(diào)數(shù)據(jù)的組合上對(duì)模型進(jìn)行微調(diào),將非思考模式整合到思考模型中,確保推理和快速響應(yīng)能力的無縫融合。
- 通用強(qiáng)化學(xué)習(xí):在20多個(gè)通用領(lǐng)域的任務(wù)上應(yīng)用強(qiáng)化學(xué)習(xí),進(jìn)一步增強(qiáng)模型的通用能力并糾正不良行為。
通過這種多階段的后訓(xùn)練方法,不僅提升了模型的推理能力,還增強(qiáng)了其通用能力和響應(yīng)速度,使Qwen3能夠更好地適應(yīng)不同的任務(wù)需求。
4、總結(jié)
Qwen3的發(fā)布,標(biāo)志著國(guó)產(chǎn)大模型在技術(shù)、性能和應(yīng)用上的全面崛起。不僅在性能、效率和可控性之間找到了黃金平衡點(diǎn),更通過開源賦能全球開發(fā)者,推動(dòng)了人工智能技術(shù)的普及和發(fā)展。我們期待Qwen團(tuán)隊(duì)在未來帶來更多驚喜,同時(shí)也期待DeepSeek等其他頂尖模型的發(fā)布,共同推動(dòng)人工智能領(lǐng)域邁向新的高度。