自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="3kirg"></sub>

<sub id="3kirg"><p id="3kirg"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

阿里半夜開源全新推理模型，QwQ-32B比肩DeepSeek-R1滿血版

作者：機(jī)器之心 2025-03-06 17:29:21

QwQ-32B 已在 Hugging Face 和 ModelScope 開源，采用了 Apache 2.0 開源協(xié)議。大家也可通過 Qwen Chat 直接進(jìn)行體驗(yàn)！

今天凌晨 3 點(diǎn)，阿里開源發(fā)布了新推理模型 QwQ-32B，其參數(shù)量為 320 億，但性能足以比肩 6710 億參數(shù)的 DeepSeek-R1 滿血版。

千問的推文表示：「這次，我們研究了擴(kuò)展 RL 的方法，并基于我們的 Qwen2.5-32B 取得了一些令人印象深刻的成果。我們發(fā)現(xiàn) RL 訓(xùn)練可以不斷提高性能，尤其是在數(shù)學(xué)和編碼任務(wù)上，并且我們觀察到 RL 的持續(xù)擴(kuò)展可以幫助中型模型實(shí)現(xiàn)與巨型 MoE 模型相媲美的性能。歡迎與我們的新模型聊天并向我們提供反饋！」

QwQ-32B 已在 Hugging Face 和 ModelScope 開源，采用了 Apache 2.0 開源協(xié)議。大家也可通過 Qwen Chat 直接進(jìn)行體驗(yàn)！

博客：https://qwenlm.github.io/zh/blog/qwq-32b/
Hugging Face：https://huggingface.co/Qwen/QwQ-32B
ModelScope：https://modelscope.cn/models/Qwen/QwQ-32B
演示：https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
Qwen Chat：https://chat.qwen.ai/

本地部署工具 Ollama 也第一時(shí)間提供了支持：ollama run qwq

千問官方發(fā)布了題為「QwQ-32B: 領(lǐng)略強(qiáng)化學(xué)習(xí)之力」的官方中文博客介紹這一吸睛無(wú)數(shù)的進(jìn)展?？紤]到強(qiáng)化學(xué)習(xí)之父 Richard Sutton 與導(dǎo)師 Andrew Barto 剛剛獲得圖靈獎(jiǎng)，QwQ-32B 的發(fā)布可說是非常應(yīng)景。

博客中寫到，大規(guī)模強(qiáng)化學(xué)習(xí)（RL）非常具有潛力，在提升模型性能方面可望超越傳統(tǒng)的預(yù)訓(xùn)練和后訓(xùn)練方法。

近期的研究表明，強(qiáng)化學(xué)習(xí)可以顯著提高模型的推理能力。例如，DeepSeek-R1 通過整合冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練，實(shí)現(xiàn)了最先進(jìn)的性能，使其能夠進(jìn)行深度思考和復(fù)雜推理。

而千問團(tuán)隊(duì)則探索了大規(guī)模強(qiáng)化學(xué)習(xí)（RL）對(duì)大語(yǔ)言模型的智能的提升作用，推理模型 QwQ-32B 便由此而生。

這是一款擁有 320 億參數(shù)的模型，其性能可媲美具備 6710 億參數(shù)（其中 370 億被激活）的 DeepSeek-R1。該團(tuán)隊(duì)表示：「這一成果突顯了將強(qiáng)化學(xué)習(xí)應(yīng)用于經(jīng)過大規(guī)模預(yù)訓(xùn)練的強(qiáng)大基礎(chǔ)模型的有效性?！?/p>

QwQ-32B 中還集成了與 Agent（智能體）相關(guān)的能力，使其能夠在使用工具的同時(shí)進(jìn)行批判性思考，并根據(jù)環(huán)境反饋調(diào)整推理過程。該團(tuán)隊(duì)表示：「我們希望我們的一點(diǎn)努力能夠證明強(qiáng)大的基礎(chǔ)模型疊加大規(guī)模強(qiáng)化學(xué)習(xí)也許是一條通往通用人工智能的可行之路。」

模型效果

QwQ-32B 在一系列基準(zhǔn)測(cè)試中進(jìn)行了評(píng)估，包括數(shù)學(xué)推理、編程和通用能力。以下結(jié)果展示了 QwQ-32B 與其他領(lǐng)先模型的性能對(duì)比，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

可以看到，QwQ-32B 的表現(xiàn)非常出色，在 LiveBench、IFEval 和 BFCL 基準(zhǔn)上甚至略微超過了 DeepSeek-R1-671B。

強(qiáng)化學(xué)習(xí)

QwQ-32B 的大規(guī)模強(qiáng)化學(xué)習(xí)是在冷啟動(dòng)的基礎(chǔ)上開展的。

在初始階段，先特別針對(duì)數(shù)學(xué)和編程任務(wù)進(jìn)行 RL 訓(xùn)練。與依賴傳統(tǒng)的獎(jiǎng)勵(lì)模型（reward model）不同，千問團(tuán)隊(duì)通過校驗(yàn)生成答案的正確性來為數(shù)學(xué)問題提供反饋，并通過代碼執(zhí)行服務(wù)器評(píng)估生成的代碼是否成功通過測(cè)試用例來提供代碼的反饋。

隨著訓(xùn)練輪次的推進(jìn)，QwQ-32B 在這兩個(gè)領(lǐng)域中的性能持續(xù)提升。

在第一階段的 RL 過后，他們又增加了另一個(gè)針對(duì)通用能力的 RL。此階段使用通用獎(jiǎng)勵(lì)模型和一些基于規(guī)則的驗(yàn)證器進(jìn)行訓(xùn)練。結(jié)果發(fā)現(xiàn)，通過少量步驟的通用 RL，可以提升其他通用能力，同時(shí)在數(shù)學(xué)和編程任務(wù)上的性能沒有顯著下降。

API

如果你想通過 API 使用 QwQ-32B，可以參考以下代碼示例：

未來工作

千問團(tuán)隊(duì)還在博客中分享了未來計(jì)劃，其中寫到：「這是 Qwen 在大規(guī)模強(qiáng)化學(xué)習(xí)（RL）以增強(qiáng)推理能力方面的第一步。通過這一旅程，我們不僅見證了擴(kuò)展 RL 的巨大潛力，還認(rèn)識(shí)到預(yù)訓(xùn)練語(yǔ)言模型中尚未開發(fā)的可能性。在致力于開發(fā)下一代 Qwen 的過程中，我們相信將更強(qiáng)大的基礎(chǔ)模型與依托規(guī)?；?jì)算資源的 RL 相結(jié)合，將會(huì)使我們更接近實(shí)現(xiàn)人工通用智能（AGI）。此外，我們正在積極探索將智能體與 RL 集成，以實(shí)現(xiàn)長(zhǎng)時(shí)推理，目標(biāo)是通過推理時(shí)間擴(kuò)展來釋放更高的智能?！?/p>

QwQ-32B 收獲無(wú)數(shù)好評(píng)

QwQ-32B 一發(fā)布就收獲了無(wú)數(shù)好評(píng)，甚至我們的不少讀者也在催促我們趕緊報(bào)道。

在前段時(shí)間的 DeepSeek 熱潮中，大家都熱衷于討論滿血版，因?yàn)檎麴s版性能受限。但是 671B 的滿血版模型無(wú)法輕易部署，普通的端側(cè)設(shè)備只能退而求其次。現(xiàn)在，Qwen 把模型大小打下來了，端側(cè)有希望了嗎？

有網(wǎng)友表示，手機(jī)上肯定還不行，但運(yùn)行內(nèi)存比較高的 Mac 或許可以一戰(zhàn)。

還有人喊話阿里巴巴通義實(shí)驗(yàn)室科學(xué)家 Binyuan Hui 去做更小的模型。

還有人曬出體驗(yàn)，表示運(yùn)行很快：

蘋果機(jī)器學(xué)習(xí)研究者 Awni Hannun 也同樣已經(jīng)在 M4 Max 上成功運(yùn)行了 QwQ-32B，看起來速度非?？?。

在 Qwen 的官方聊天界面（Qwen Chat），我們已經(jīng)能看到 QwQ-32B 的預(yù)覽版模型。感興趣的讀者可以前去測(cè)試。

測(cè)試鏈接：https://chat.qwen.ai/

責(zé)任編輯：趙寧寧來源：機(jī)器之心

模型 QwQ-32B AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="vjn6d"><i id="vjn6d"><video id="vjn6d"></video></i></blockquote>