阿里千問(wèn)QwQ-32B推理模型開(kāi)源,比肩671B滿血DeepSeek-R1!筆記本就能跑
3月6日凌晨,阿里重磅開(kāi)源全球最頂尖AI模型——通義千問(wèn)QwQ-32B推理模型。
它僅用320億參數(shù),便與目前公認(rèn)的開(kāi)源最強(qiáng)6710億參數(shù)的滿血版DeepSeek-R1(370億被激活)相媲美。
甚至,QwQ-32B在多項(xiàng)基準(zhǔn)測(cè)試中全面超越o1-mini。
更令人興奮的是,任何人能夠直接在搭載消費(fèi)級(jí)顯卡的電腦或者M(jìn)ac上體驗(yàn)滿血版性能。(終于,我們的5090D派上用場(chǎng)了)
更有開(kāi)發(fā)者驚呼:AI模型徹底進(jìn)入全民普及階段!
如此來(lái)看,QwQ-32B簡(jiǎn)直堪稱「推理能力天花板」與「實(shí)用性典范」的完美結(jié)合。
蘋果機(jī)器學(xué)習(xí)研究員Awni Hannun用搭載MLX架構(gòu)的M4 Max筆記本去跑QwQ-32B,結(jié)果發(fā)現(xiàn)運(yùn)行非常流暢。
如下是在8k token上的長(zhǎng)思維過(guò)程:
已經(jīng)是上上代旗艦的3090 Ti,跑起模型來(lái)也非常之快——輸出速度可達(dá)30+token/s。
目前,阿里以寬松的Apache2.0協(xié)議將QwQ-32B全面開(kāi)源,全球開(kāi)發(fā)者與企業(yè)均可免費(fèi)下載、商用。
魔搭社區(qū):
https://modelscope.cn/models/Qwen/QwQ-32B
Hugging Face:
https://huggingface.co/Qwen/QwQ-32B
當(dāng)然了,所有人皆可通過(guò)通義APP免費(fèi)體驗(yàn)最新的千問(wèn)QwQ-32B模型,開(kāi)啟方式——Qwen2.5 Plus+Thinking(QwQ)。
體驗(yàn)地址:
https://chat.qwen.ai/?models=Qwen2.5-Plus
開(kāi)源新王誕生,32B媲美DeepSeek-R1
QwQ-32B到底有多強(qiáng)?我們用數(shù)據(jù)來(lái)說(shuō)話——
在數(shù)學(xué)AIME 2024評(píng)測(cè)集,以及評(píng)估代碼LiveCodeBenc基準(zhǔn)上,QwQ-32B均與DeepSeek-R1旗鼓相當(dāng)。
而且,其性能遠(yuǎn)超o1-mini,甚至是相同尺寸基于Qwen系列蒸餾出的R1模型。
在LeCun領(lǐng)銜的「最難LLMs評(píng)測(cè)榜」LiveBench、谷歌等提出的指令遵循能力IFEval評(píng)測(cè)集、由UC伯克利等提出的評(píng)估準(zhǔn)確調(diào)用函數(shù)或工具方面的BFCL測(cè)試中,QwQ-32B得分均超越了DeepSeek- R1。
總的來(lái)說(shuō),QwQ-32B在數(shù)學(xué)、編程、通用能力方面取得了領(lǐng)先優(yōu)勢(shì)。
正是通過(guò)RL的Scaling,QwQ-32B才能實(shí)現(xiàn)能與DeepSeek-R1相匹敵的性能。
艾倫人工智能研究所大佬Nathan Lambert發(fā)自內(nèi)心地贊嘆:「QwQ-32B是給RL純粹主義者最好的禮物?!?/span>
大佬開(kāi)始仔細(xì)研讀阿里放出的官方材料,并且敲桌板表示:我們需要更多論文!
接下來(lái),是對(duì)QwQ-32B的最新實(shí)測(cè)。
我們已經(jīng)部署在電腦里了
首先,來(lái)一段難度不低的數(shù)學(xué)題。
n個(gè)點(diǎn)在一個(gè)圓中,點(diǎn)出現(xiàn)在圓中的位置是隨機(jī)的,求這些點(diǎn)出現(xiàn)在同一個(gè)半圓內(nèi)的概率。
QwQ-32B在經(jīng)過(guò)一大長(zhǎng)串的思考之后,給出了正確答案。
同一道題,我們也在本地部署的Q4量化模型上進(jìn)行了驗(yàn)證。
雖然因?yàn)闆](méi)優(yōu)化本地環(huán)境導(dǎo)致輸出較慢,但QwQ-32B依然一次就做對(duì)了。
而OpenAI o3-mini-high可能覺(jué)得這道題非常簡(jiǎn)單,只思考了幾秒,就開(kāi)始作答。
最后,果不其然答錯(cuò)了。
接下來(lái)是一道微積分,看它能不能解決高等數(shù)學(xué)問(wèn)題。
可以看出,不管是本地部署的還是線上的QwQ-32B,都有著邏輯嚴(yán)謹(jǐn)、步驟清晰的解題過(guò)程。
從明確目標(biāo)到巧妙變量代換u = xe^x,再到逐步推導(dǎo)和結(jié)果驗(yàn)證,成功將復(fù)雜積分轉(zhuǎn)化為簡(jiǎn)單的對(duì)數(shù)形式,結(jié)果完全正確!
同樣的提示給到蒸餾版DeepSeek-R1-32B。
可以看到,它在經(jīng)過(guò)了漫長(zhǎng)的思考之后,并沒(méi)有做對(duì)。
而最有趣的,還得是OpenAI o1。
它不僅答案不對(duì),而且兩次都只說(shuō)了個(gè)思路,剩下的……你自己去解吧。
再上一道推理題。
一群人開(kāi)舞會(huì),每人頭上都戴著一頂帽子帽子只有黑白兩種,黑的至少有一頂。每個(gè)人都能看到其它人帽子的顏色,卻看不到自己的主持人。先讓大家看看別人頭上戴的是什么帽子,然后關(guān)燈,如果有人認(rèn)為自己戴的是黑帽子就打自己一個(gè)耳光。第一次關(guān)燈,沒(méi)有聲音于是再開(kāi)燈,大家再看一遍,關(guān)燈時(shí)仍然鴉雀無(wú)聲。一直到第三次關(guān)燈,才有劈劈啪啪打耳光的聲音響起。問(wèn)有多少人戴著黑帽子?
在思考過(guò)程中,QwQ-32B進(jìn)行了邏輯嚴(yán)密的推斷。
最終,它給出了正確答案:3人戴著黑帽子。
本地模型同樣回答正確。
而在實(shí)測(cè)過(guò)QwQ-32B的寫作能力后,我們?nèi)滩蛔≠潎@:國(guó)內(nèi)的大模型中,又出了一個(gè)思想和文筆俱佳的文科生!
此前,DeepSeek-R1仿《過(guò)秦論》的風(fēng)格寫出的《過(guò)美利堅(jiān)論》技驚四座,文采斐然。
現(xiàn)在讓QwQ-32B接受同樣的考驗(yàn)。
可以看到,它首先分析了賈誼《過(guò)秦論》的特點(diǎn)——多用排比、對(duì)仗,氣勢(shì)磅礴,語(yǔ)言犀利。然后想到,自己需要考慮如何將美國(guó)的歷史事件與《過(guò)秦論》的結(jié)構(gòu)對(duì)應(yīng)起來(lái)。
難點(diǎn)就在于,要用文言文準(zhǔn)確表達(dá)一些現(xiàn)代概念,還要保證論點(diǎn)有邏輯性、層層遞進(jìn)。
一番思考之后,QwQ-32B給出的回答果然精彩,文采絲毫不輸DeepSeek-R1。
相比之下,用于技術(shù)驗(yàn)證的蒸餾版DeepSeek-R1-32B,在文采上就要稍遜一籌了。
另一個(gè)DeepSeek-R1驚艷全網(wǎng)的「續(xù)寫紅樓夢(mèng)后八十回」,我們也把同樣的題交給了QwQ-32B,讓它續(xù)寫紅樓夢(mèng)的第八十一回。
它在思考過(guò)程中,考慮到自己需要延續(xù)前作細(xì)膩的描寫、復(fù)雜的人物關(guān)系和隱喻,還要回應(yīng)埋下的伏筆,比如賈府的衰落、寶黛的愛(ài)情悲劇等。
甚至它還分析出,自己還要表現(xiàn)出原著的悲劇色彩和深刻的批判;如果要引入新角色或事件,就必須自然融入現(xiàn)有框架,不能突兀。
經(jīng)過(guò)這番思考后,它列出了第八十一回的故事梗概,看起來(lái)很像那么回事。
而按照這個(gè)梗概續(xù)寫的正文框架,雖然仍不及原作文筆,但已不無(wú)可取之處。
無(wú)需集群,筆記本都能跑
眾所周知,滿血版DeepSeek-R1非常強(qiáng)大,但671B參數(shù)量所帶來(lái)的龐大體積,使得它在本地部署起來(lái)十分吃力。
Hugging Face工程師Matthew Carrigan的部署過(guò)程,就是一個(gè)很好的參考。
想要在GPU上實(shí)現(xiàn)720GB(Q8量化)的顯存,花費(fèi)可能要10萬(wàn)美元以上。
當(dāng)然,也可以另辟蹊徑地使用CPU進(jìn)行部署,只不過(guò)生成的速度會(huì)慢很多。此時(shí),需要24條32GB的內(nèi)存才能裝下。
即便是Q4量化的版本DeepSeek-R1-Q4_K_M,也得需要404GB,仍然不小。
以谷歌開(kāi)發(fā)者專家、UCL計(jì)算機(jī)系博士生Xihan Li的部署實(shí)操為例。
除了模型參數(shù)占用的內(nèi)存+顯存空間(404GB)以外,實(shí)際運(yùn)行時(shí)還需額外預(yù)留一些內(nèi)存(顯存)空間用于上下文緩存(總計(jì)約500GB)。
在4×24GB顯卡(RTX 4090)和4×96GB內(nèi)存配置下,DeepSeek-R1-Q4_K_M的短文本生成的速度只有2-4 token/秒,長(zhǎng)文本生成時(shí)速度會(huì)降至1-2token/秒?;静豢捎?。
相比之下,QwQ-32B本地部署則友好的多,消費(fèi)級(jí)GPU單卡就能輕松部署,而且速度飛起!
比如,在Hugging Face上開(kāi)源的QwQ-32B版本,以Q4量化精度為例,大小不到20GB。
不只是4-bit量化的版本,Hugging Face上還有從2位一直到8位不同的版本,最小僅需不到13GB,將本地部署的難度直接拉到最低!普通的辦公電腦都能運(yùn)行得起來(lái)。
本地部署后,加載與運(yùn)行也是相當(dāng)?shù)娜菀?,十幾行代碼就能完成模型加載、處理問(wèn)題并生成答案。
Ollama也上線了Q4版本的QwQ-32B模型,安裝Ollama后只需復(fù)制ollama run qwq到終端,即可體驗(yàn),簡(jiǎn)直沒(méi)有門檻。
Nous Research的常駐研究員N8 Programs在X上稱贊QwQ-32B真是一個(gè)令人難以置信的進(jìn)步。
他展示的是前沿推理模型在LiveBench上的得分(下圖)——LiveBench是一個(gè)全面的在線評(píng)估測(cè)試,覆蓋了廣泛的領(lǐng)域(并且通常與實(shí)際情況相符)。
可以看到,QwQ-32B的得分介于R1和o3-mini之間,但成本卻只有它們的十分之一。
強(qiáng)化學(xué)習(xí)「煉丹」,小模型也能逆襲
DeepSeek爆火之后,強(qiáng)化學(xué)習(xí)再次回到聚光燈之下,成為提升大模型/推理模型的關(guān)鍵鑰匙。
QwQ-32B成功的核心秘訣,便在于阿里云團(tuán)隊(duì)開(kāi)創(chuàng)性運(yùn)用了大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)。
不過(guò),與傳統(tǒng)方法不同的是,他們采用了多階段RL訓(xùn)練策略。
在初始階段,基于冷啟動(dòng)數(shù)據(jù),針對(duì)數(shù)學(xué)、編程、通用任務(wù)上,進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。
相較于傳統(tǒng)的獎(jiǎng)勵(lì)模型,團(tuán)隊(duì)創(chuàng)新性通過(guò)校驗(yàn)答案正確性(數(shù)學(xué)任務(wù))和代碼執(zhí)行測(cè)試(編程任務(wù))提供反饋,確保模型逐步「進(jìn)化」。
在RL Scaling過(guò)程中,隨著訓(xùn)練輪次推進(jìn),模型在數(shù)學(xué)、編程兩個(gè)領(lǐng)域的性能持續(xù)提升。
在第二階段,研究人員又針對(duì)通用能力進(jìn)行了RL訓(xùn)練,主要使用通用獎(jiǎng)勵(lì)模型和一些基于規(guī)則的驗(yàn)證器進(jìn)行訓(xùn)練。
實(shí)驗(yàn)顯示,通過(guò)少量步驟的通用 RL,可以提升QwQ-32B的通用能力,最關(guān)鍵的是,其數(shù)學(xué)、編程性能沒(méi)有顯著下降。
QwQ-32B僅在320億參數(shù)規(guī)模下,推理能力直逼DeepSeek-R,恰恰驗(yàn)證了「大規(guī)模強(qiáng)化學(xué)習(xí)+強(qiáng)大基座模型」是通往AGI的關(guān)鍵路徑。
此外,QwQ-32B不只是一個(gè)推理模型,還集成了先進(jìn)的Agent相關(guān)能力。不僅在使用工具時(shí)批判性思考,還能根據(jù)環(huán)境反饋動(dòng)態(tài)調(diào)整策略。
下一步,阿里還將繼續(xù)探索智能體與強(qiáng)化學(xué)習(xí)的深度融合,目標(biāo)直指長(zhǎng)時(shí)推理,最終實(shí)現(xiàn)AGI。
開(kāi)源先鋒,引領(lǐng)全球AI新格局
這次QwQ-32B滿血版開(kāi)源,絕不是個(gè)例,而是阿里云開(kāi)源戰(zhàn)略中的一個(gè)環(huán)節(jié)。
在全球人工智能浪潮席卷之下,開(kāi)源早已成為推動(dòng)技術(shù)創(chuàng)新的重要引擎。
作為國(guó)內(nèi)最早開(kāi)源自研大模型的「大廠」,阿里云也是全球唯一一家積極研發(fā)先進(jìn)AI模型,且全方位開(kāi)源的云計(jì)算廠商。
自2023年8月以來(lái),通義系列累計(jì)推出了從Qwen、Qwen1.5、Qwen2到Qwen2.5數(shù)十款大模型,覆蓋5億到千億級(jí)別的參數(shù)規(guī)模,并開(kāi)源了超200款模型,支持29種語(yǔ)言。
這一壯舉,標(biāo)志著阿里云在業(yè)界率先實(shí)現(xiàn)了「全尺寸、全模態(tài)、多場(chǎng)景」的開(kāi)源。
開(kāi)源的Qwen系列憑借卓越的性能,數(shù)次登頂國(guó)內(nèi)外權(quán)威榜單,還多次沖上HuggingFace、Github熱榜,成為開(kāi)發(fā)者心中的「爆款」。
2024年,僅Qwen2.5-1.5B一款模型就占據(jù)了HuggingFace全球模型下載量的26.6%,位列第一。
才剛剛開(kāi)源的QwQ-32B,就已經(jīng)有眾多來(lái)自不同國(guó)家、說(shuō)著不同語(yǔ)言的的開(kāi)發(fā)者,在第一時(shí)間都直接用上了,而且好評(píng)如潮。
我們都知道,開(kāi)源的真諦在于,眾人拾柴火焰高。
目前,Qwen衍生模型數(shù)量突破10萬(wàn),遠(yuǎn)超Llama系列,成為全球最大的生成式語(yǔ)言模型族群。
阿里云的開(kāi)源戰(zhàn)略不僅體現(xiàn)在技術(shù)輸出,更在于推動(dòng)普惠AI的初心——讓中小企業(yè)和開(kāi)發(fā)者能夠以最低成本、更快速度用上AI,加速大模型應(yīng)用落地。
另外,通過(guò)魔搭ModelScope社區(qū),阿里云還聯(lián)合1000萬(wàn)開(kāi)發(fā)者,打造出中國(guó)最大的AI開(kāi)源生態(tài)。
阿里云堅(jiān)信,開(kāi)源是推動(dòng)技術(shù)創(chuàng)新的關(guān)鍵。
通義千問(wèn)系列的開(kāi)源,不僅僅是一場(chǎng)技術(shù)狂歡,更是一次生態(tài)革命。從技術(shù)突破到生態(tài)賦能,他們正用實(shí)際行動(dòng)詮釋了技術(shù)普惠的深刻內(nèi)涵。
正如其愿景所言,通過(guò)開(kāi)源與合作,推動(dòng)中國(guó)大模型生態(tài)的繁榮,助力全球AI技術(shù)邁向新高度。
在這條路上,通義千問(wèn)無(wú)疑成為一顆耀眼的明星,照亮了AI的未來(lái)。