自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek還沒登場(chǎng),Qwen3 已經(jīng)搶先引爆AI開源圈

人工智能
Qwen3 采用的數(shù)據(jù)集規(guī)??涨?,接近 Qwen2.5 所用 **18 萬(wàn)億 Token(18T)**的兩倍,達(dá)到約?35 萬(wàn)億 Token(35T)。

AI 社區(qū)原本期盼 DeepSeek 發(fā)布重磅新品,卻意外迎來(lái)了另一款令人矚目的中國(guó)開源模型:

Qwen3 正式登場(chǎng)。

此次發(fā)布的旗艦型號(hào)為 Qwen3-235B-A22B。其中,235B 代表總參數(shù)量;而 A22B 指的是該模型采用了“專家混合”(Mixture of Experts,簡(jiǎn)稱 MoE)架構(gòu),實(shí)際在每次查詢中激活的參數(shù)量?jī)H約為 220億(22B)。

但最引人關(guān)注的是:

Qwen3 已能與一線模型如 DeepSeek R1、o3 Mini、Grok 3 和 Gemini 2.5 Pro 相媲美。

性能實(shí)測(cè):全面對(duì)標(biāo)頂級(jí)大模型

根據(jù)官方博客提供的多項(xiàng)基準(zhǔn)測(cè)試數(shù)據(jù):

圖片圖片

  • 在 ArenaHard 測(cè)試中,Qwen3 已超越了 o3 Mini,且與 Gemini 2.5 Pro 非常接近。
  • 在 AIME 24 和 25 測(cè)試中,其表現(xiàn)介于 Gemini 2.5 Pro 和 o3 Mini 之間。
  • 在編程相關(guān)的 LiveCodeBench 和 CodeForces 測(cè)試中,甚至超過了 Gemini 2.5 Pro。

這一系列表現(xiàn)彰顯了 Qwen3 的強(qiáng)大競(jìng)爭(zhēng)力。

圖片圖片

模型種類豐富,覆蓋多種需求

此次發(fā)布除了旗艦的 MoE 模型外,還包含了從 32B 到 6B 參數(shù)量不等的 6 款稠密模型(Dense Models,非專家混合型),以滿足不同算力需求的場(chǎng)景。

所有模型都將開源發(fā)布于:

  • HuggingFace
  • ModelScope
  • Kaggle

令人期待的獨(dú)特功能

Qwen3 一位開發(fā)者暗示,該模型具有一些“未在官方模型卡中詳細(xì)說明的特殊功能”,未來(lái)將在科研及產(chǎn)品開發(fā)方面帶來(lái)新可能。

已公開的關(guān)鍵功能包括:

  • 可在**常規(guī)模式(Regular Mode)深度思考模式(Extended Thinking Mode)**間自由切換;
  • 提供高效的“思考預(yù)算”管理機(jī)制(Thinking Budget),即允許用戶自由控制模型用于推理的 Token 數(shù)量,投入更多 Token 時(shí)效果顯著提升;
  • 支持多達(dá) 119 種語(yǔ)言,具備明顯增強(qiáng)的代碼生成與智能代理(Agentic)能力。

龐大的訓(xùn)練數(shù)據(jù)集與創(chuàng)新的訓(xùn)練策略

Qwen3 采用的數(shù)據(jù)集規(guī)??涨?,接近 Qwen2.5 所用 **18 萬(wàn)億 Token(18T)**的兩倍,達(dá)到約 35 萬(wàn)億 Token(35T)。

在訓(xùn)練過程中,研究團(tuán)隊(duì)還創(chuàng)新性地利用自家模型迭代強(qiáng)化訓(xùn)練數(shù)據(jù):

  • 使用 Qwen2.5VL 模型從文檔中提取文本內(nèi)容;
  • 再以 Qwen2.5 基礎(chǔ)模型對(duì)上述文本內(nèi)容進(jìn)行提升優(yōu)化;
  • 同時(shí)借助 Qwen2.5 Math 與 Coder 模型生成高質(zhì)量合成數(shù)據(jù)。

這種逐步迭代的訓(xùn)練方法,使模型在每個(gè)階段都實(shí)現(xiàn)了性能的遞進(jìn)式提升。

此外,訓(xùn)練過程分為三個(gè)預(yù)訓(xùn)練階段與四個(gè)后續(xù)訓(xùn)練階段:

圖片圖片

預(yù)訓(xùn)練階段

  • 通用語(yǔ)言數(shù)據(jù):約 30 萬(wàn)億 Token;
  • 知識(shí)密集型數(shù)據(jù):額外 5 萬(wàn)億 Token;
  • 擴(kuò)展上下文長(zhǎng)度至 32K Token。

后續(xù)訓(xùn)練階段

  • 長(zhǎng)鏈思考訓(xùn)練(Long Chain-of-Thought);
  • 強(qiáng)化學(xué)習(xí)微調(diào)(Reinforcement Learning);
  • 思考模式融合(Thinking Mode Fusion);
  • 一般化強(qiáng)化學(xué)習(xí)。

對(duì)更輕量級(jí)模型,則采取了知識(shí)蒸餾(Distillation)的方式,從大模型向小模型傳遞能力,從而實(shí)現(xiàn)了在邊緣設(shè)備與手機(jī)端的高效部署。

完全開源,商業(yè)友好

Qwen3 全系列模型采用 Apache 2.0 協(xié)議 完全開源,允許開發(fā)者:

  • 商業(yè)化應(yīng)用;
  • 創(chuàng)建衍生作品;
  • 以合規(guī)署名方式自由銷售基于 Qwen3 構(gòu)建的產(chǎn)品。

開發(fā)團(tuán)隊(duì)表示:

“我們相信,AI 模型的開發(fā)正在從以訓(xùn)練模型為中心,轉(zhuǎn)向以訓(xùn)練智能代理(Agent)為核心的新時(shí)代?!?/span>

市場(chǎng)競(jìng)爭(zhēng)日益激烈

隨著 Qwen3 的強(qiáng)勢(shì)發(fā)布,以及 DeepSeek 可能即將公布的新模型,未來(lái)幾周 AI 領(lǐng)域勢(shì)必掀起新一輪的技術(shù)競(jìng)賽熱潮。

AI 從業(yè)者與觀察人士無(wú)不期待,這場(chǎng)競(jìng)爭(zhēng)將如何推動(dòng)技術(shù)邊界持續(xù)擴(kuò)展。

觀點(diǎn)與討論

本次 Qwen3 的突然崛起,不僅標(biāo)志著中國(guó)開源 AI 模型的又一里程碑,也意味著行業(yè)格局或?qū)⒃俅蚊媾R洗牌。

責(zé)任編輯:武曉燕 來(lái)源: 大遷世界
相關(guān)推薦

2025-04-30 09:11:15

2025-04-29 10:39:46

2025-04-29 09:06:00

2025-04-30 02:00:00

2025-04-30 14:12:36

Qwen3AgentMCP

2025-04-29 08:14:14

2019-04-12 10:44:39

2023-06-05 09:48:19

谷歌模型

2025-02-24 08:10:00

2023-06-27 09:33:46

開源代碼

2010-04-07 09:31:06

2024-12-03 10:46:48

Spring優(yōu)化開發(fā)

2025-04-30 14:12:36

DeepSeekAIApp

2025-01-21 11:53:53

2024-07-29 08:00:00

模型論文

2025-02-24 10:07:04

2025-04-30 07:26:04

2021-08-14 23:08:56

蘋果iPhone XSiPhone 11

2025-02-17 10:36:00

微軟開源模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)