編輯 | 伊風(fēng)
太震撼了。阿里直接扔了一張王炸!
QwQ-32B,一個(gè)參數(shù)量如此小的小模型,居然追平了671B的DeepSeek-R1??!
這也太卷了,看看他們給的數(shù)據(jù),真的給人看麻了:
圖片
這個(gè)模型到底小到什么概念呢?評論區(qū)網(wǎng)友在用了一臺配置M4 Max芯片的蘋果電腦就跑起來了。
網(wǎng)友本人直呼震撼的程度!
小模型還有個(gè)震撼而實(shí)用的優(yōu)點(diǎn),價(jià)格真的低。API成本才R1的十分之一!
圖片
一向大方的通義這次又是上線即開源,評論區(qū)一看到是Apache 2.0許可證,就開始感謝大自然的饋贈了。這是官方給的一系列鏈接:
博客:https://qwenlm.github.io/blog/qwq-32b
HF:https://huggingface.co/Qwen/QwQ-32B
Qwen 聊天室(網(wǎng)頁試用):https://chat.qwen.ai
模型部署工具ollama也是連夜更新,緊急上線了QwQ-32B,還艾特了通義的兩位大佬表示感謝。
圖片
有趣的是,追蹤到Binyuan Hui的推特,發(fā)現(xiàn)他的置頂是一張梗圖“Goodbye ChatGPT,Hello Qwen Chat”。
圖片
國產(chǎn)大模型完全有底氣對ChatGPT說一聲再見了。還記得GPT-4.5推出時(shí),那種普遍覺得乏味、失望的氛圍,人們越來越認(rèn)識到,傳統(tǒng)的那套訓(xùn)練技術(shù)玩的“大力出奇跡”似乎已經(jīng)走向了盡頭。
讀了QwQ-32B的博客,我們發(fā)現(xiàn):這次又是強(qiáng)化學(xué)習(xí)(RL)立大功了!
1.QwQ-32B的煉成:強(qiáng)化學(xué)習(xí)還有多少驚喜?
從阿里的技術(shù)博客我們能了解到兩點(diǎn):1.強(qiáng)化學(xué)習(xí)擴(kuò)展依然是這次性能飛躍的重中之重 2.這個(gè)方向還有很長的路能走!
在具體的訓(xùn)練上,通義團(tuán)隊(duì)分了兩個(gè)階段去做RL訓(xùn)練。
第一階段,是從冷啟動檢查點(diǎn)(指模型已經(jīng)過了冷啟動訓(xùn)練階段,檢查點(diǎn)相當(dāng)于“存檔”)開始,實(shí)施了一種基于結(jié)果獎勵的強(qiáng)化學(xué)習(xí)(RL)擴(kuò)展方法。
這里有兩個(gè)突破值得關(guān)注:首先,在初期階段,有特別針對數(shù)學(xué)和編程任務(wù)進(jìn)行了RL擴(kuò)展,相當(dāng)于對強(qiáng)推理比較重要的領(lǐng)域?qū)iT“補(bǔ)課”;其次,不同于傳統(tǒng)的獎勵模型,通義團(tuán)隊(duì)采用了一個(gè)數(shù)學(xué)問題的準(zhǔn)確性驗(yàn)證器來確保最終解答的正確性,并使用代碼執(zhí)行服務(wù)器來評估生成的代碼是否能成功通過預(yù)定義的測試用例。
然后就看到隨著訓(xùn)練的持續(xù),模型性能在數(shù)學(xué)和編程領(lǐng)域穩(wěn)定拉升。
第二階段,是旨在提升通用能力的RL訓(xùn)練。他們在這個(gè)過程中,采取的是通用獎勵模型的獎勵和一些基于規(guī)則的驗(yàn)證器。
通義團(tuán)隊(duì)說,他們發(fā)現(xiàn):“通過少量步驟的訓(xùn)練,其他一般能力(如指令跟隨、人類偏好對齊、智能體性能等)得到了提升,同時(shí)數(shù)學(xué)和編程能力并未出現(xiàn)顯著下降。”這句話的分量大家都能懂……大模型訓(xùn)練經(jīng)常是只能顧一頭,沒有明顯的性能折損大大驗(yàn)證了這個(gè)策略的有效性。
通義也在博客寫了未來方向:通過這一歷程,我們不僅見證了擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)的巨大潛力,也認(rèn)識到了預(yù)訓(xùn)練語言模型尚未開發(fā)的可能性。
看來新的Scaling Law真的會在后訓(xùn)練階段了!
2.網(wǎng)友實(shí)測:本地人工智能時(shí)代來臨!
一位進(jìn)行了實(shí)測,發(fā)現(xiàn)QwQ-32B 在筆記本電腦上運(yùn)行得相當(dāng)絲滑。
在這里,它在裝有 MLX 的 M4 Max 上運(yùn)行良好。它的 8k 代幣長思考過程的一個(gè)片段:
圖片
另一位網(wǎng)友采用本地部署,推斷了一個(gè)比較復(fù)雜的推理題目:
有兩座房子,從左到右依次編號為1到2。 每間房子都住著不同的人。 每所房子都有一個(gè)獨(dú)特的屬性,分別代表以下特征:每個(gè)人都有一個(gè)獨(dú)特的名字:Arnold, Eric;每個(gè)人都擁有獨(dú)特的汽車型號:ford f150, tesla model 3;人們飼養(yǎng)獨(dú)特的動物:貓、馬。
線索:1. 埃里克在擁有特斯拉 Model 3 的人的正前方左邊。養(yǎng)馬的人在第一間房子里。
圖片
QwQ-32B僅用了40s的思考時(shí)間就給出了正確答案。
評論區(qū)說:這是真正的本地人工智能力量!
圖片
也有人表示:太遺憾了!你們這些人干嘛在奧特曼要開源的時(shí)候投票給o3類似模型?。浚硪粋€(gè)選項(xiàng)是手機(jī)可跑的端側(cè)模型)
圖片
寫道這里不得不吐槽一句,OpenAI的開源是真慢啊,預(yù)熱了一下又沒影了。
圖片
4.寫在最后:算力不再成為問題
昨天看外媒的報(bào)道說,R1帶火了消費(fèi)級顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因?yàn)镈eepSeek的模型不再需要高端AI芯片,普通消費(fèi)級產(chǎn)品就能滿足運(yùn)行需求。
那么QwQ-32B這波震撼之余,可能帶貨的就是M4 Max的蘋果電腦了。
從最初的龐然大物發(fā)展到可以家用,計(jì)算機(jī)走了幾十年的時(shí)間。從GPT-3發(fā)布后的不到五年中,我們就有了在筆電上能run起來的超強(qiáng)模型。
然后終將有一天,我們會在手機(jī)上部署更強(qiáng)悍更輕量的模型。
就像一位網(wǎng)友所說:
哦,我的天哪,現(xiàn)在每個(gè)人都會在接下來的兩周里討論QwQ-32B,DeepSeek 也會準(zhǔn)備好另一個(gè)模型,然后 OpenAI 將別無選擇,只能推出 ChatGPT 5,在 AGI 之前這一切都不會停止。
圖片