自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強(qiáng)化學(xué)習(xí)帶來驚喜!

原創(chuàng) 精選
人工智能
昨天看外媒的報(bào)道說,R1帶火了消費(fèi)級顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因?yàn)镈eepSeek的模型不再需要高端AI芯片,普通消費(fèi)級產(chǎn)品就能滿足運(yùn)行需求。那么QwQ-32B這波震撼之余,可能帶貨的就是M4 Max的蘋果電腦了。

編輯 | 伊風(fēng)

太震撼了。阿里直接扔了一張王炸!

QwQ-32B,一個(gè)參數(shù)量如此小的小模型,居然追平了671B的DeepSeek-R1??!

這也太卷了,看看他們給的數(shù)據(jù),真的給人看麻了:

圖片圖片

這個(gè)模型到底小到什么概念呢?評論區(qū)網(wǎng)友在用了一臺配置M4 Max芯片的蘋果電腦就跑起來了。

網(wǎng)友本人直呼震撼的程度!

小模型還有個(gè)震撼而實(shí)用的優(yōu)點(diǎn),價(jià)格真的低。API成本才R1的十分之一!

圖片圖片

一向大方的通義這次又是上線即開源,評論區(qū)一看到是Apache 2.0許可證,就開始感謝大自然的饋贈了。這是官方給的一系列鏈接:

博客:https://qwenlm.github.io/blog/qwq-32b

HF:https://huggingface.co/Qwen/QwQ-32B

Qwen 聊天室(網(wǎng)頁試用):https://chat.qwen.ai

模型部署工具ollama也是連夜更新,緊急上線了QwQ-32B,還艾特了通義的兩位大佬表示感謝。

圖片圖片

有趣的是,追蹤到Binyuan Hui的推特,發(fā)現(xiàn)他的置頂是一張梗圖“Goodbye ChatGPT,Hello Qwen Chat”。

圖片圖片

國產(chǎn)大模型完全有底氣對ChatGPT說一聲再見了。還記得GPT-4.5推出時(shí),那種普遍覺得乏味、失望的氛圍,人們越來越認(rèn)識到,傳統(tǒng)的那套訓(xùn)練技術(shù)玩的“大力出奇跡”似乎已經(jīng)走向了盡頭。

讀了QwQ-32B的博客,我們發(fā)現(xiàn):這次又是強(qiáng)化學(xué)習(xí)(RL)立大功了!

1.QwQ-32B的煉成:強(qiáng)化學(xué)習(xí)還有多少驚喜?

從阿里的技術(shù)博客我們能了解到兩點(diǎn):1.強(qiáng)化學(xué)習(xí)擴(kuò)展依然是這次性能飛躍的重中之重 2.這個(gè)方向還有很長的路能走!

在具體的訓(xùn)練上,通義團(tuán)隊(duì)分了兩個(gè)階段去做RL訓(xùn)練。

第一階段,是從冷啟動檢查點(diǎn)(指模型已經(jīng)過了冷啟動訓(xùn)練階段,檢查點(diǎn)相當(dāng)于“存檔”)開始,實(shí)施了一種基于結(jié)果獎勵的強(qiáng)化學(xué)習(xí)(RL)擴(kuò)展方法。

這里有兩個(gè)突破值得關(guān)注:首先,在初期階段,有特別針對數(shù)學(xué)和編程任務(wù)進(jìn)行了RL擴(kuò)展,相當(dāng)于對強(qiáng)推理比較重要的領(lǐng)域?qū)iT“補(bǔ)課”;其次,不同于傳統(tǒng)的獎勵模型,通義團(tuán)隊(duì)采用了一個(gè)數(shù)學(xué)問題的準(zhǔn)確性驗(yàn)證器來確保最終解答的正確性,并使用代碼執(zhí)行服務(wù)器來評估生成的代碼是否能成功通過預(yù)定義的測試用例。

然后就看到隨著訓(xùn)練的持續(xù),模型性能在數(shù)學(xué)和編程領(lǐng)域穩(wěn)定拉升。

第二階段,是旨在提升通用能力的RL訓(xùn)練。他們在這個(gè)過程中,采取的是通用獎勵模型的獎勵和一些基于規(guī)則的驗(yàn)證器。

通義團(tuán)隊(duì)說,他們發(fā)現(xiàn):“通過少量步驟的訓(xùn)練,其他一般能力(如指令跟隨、人類偏好對齊、智能體性能等)得到了提升,同時(shí)數(shù)學(xué)和編程能力并未出現(xiàn)顯著下降。”這句話的分量大家都能懂……大模型訓(xùn)練經(jīng)常是只能顧一頭,沒有明顯的性能折損大大驗(yàn)證了這個(gè)策略的有效性。

通義也在博客寫了未來方向:通過這一歷程,我們不僅見證了擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)的巨大潛力,也認(rèn)識到了預(yù)訓(xùn)練語言模型尚未開發(fā)的可能性。 

看來新的Scaling Law真的會在后訓(xùn)練階段了!

2.網(wǎng)友實(shí)測:本地人工智能時(shí)代來臨!

一位進(jìn)行了實(shí)測,發(fā)現(xiàn)QwQ-32B 在筆記本電腦上運(yùn)行得相當(dāng)絲滑。

在這里,它在裝有 MLX 的 M4 Max 上運(yùn)行良好。它的 8k 代幣長思考過程的一個(gè)片段:

圖片圖片

另一位網(wǎng)友采用本地部署,推斷了一個(gè)比較復(fù)雜的推理題目:

有兩座房子,從左到右依次編號為1到2。 每間房子都住著不同的人。 每所房子都有一個(gè)獨(dú)特的屬性,分別代表以下特征:每個(gè)人都有一個(gè)獨(dú)特的名字:Arnold, Eric;每個(gè)人都擁有獨(dú)特的汽車型號:ford f150, tesla model 3;人們飼養(yǎng)獨(dú)特的動物:貓、馬。

線索:1. 埃里克在擁有特斯拉 Model 3 的人的正前方左邊。養(yǎng)馬的人在第一間房子里。

圖片圖片

QwQ-32B僅用了40s的思考時(shí)間就給出了正確答案。

評論區(qū)說:這是真正的本地人工智能力量!

圖片圖片

也有人表示:太遺憾了!你們這些人干嘛在奧特曼要開源的時(shí)候投票給o3類似模型?。浚硪粋€(gè)選項(xiàng)是手機(jī)可跑的端側(cè)模型)

圖片圖片

寫道這里不得不吐槽一句,OpenAI的開源是真慢啊,預(yù)熱了一下又沒影了。

圖片圖片

4.寫在最后:算力不再成為問題

昨天看外媒的報(bào)道說,R1帶火了消費(fèi)級顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因?yàn)镈eepSeek的模型不再需要高端AI芯片,普通消費(fèi)級產(chǎn)品就能滿足運(yùn)行需求。

那么QwQ-32B這波震撼之余,可能帶貨的就是M4 Max的蘋果電腦了。

從最初的龐然大物發(fā)展到可以家用,計(jì)算機(jī)走了幾十年的時(shí)間。從GPT-3發(fā)布后的不到五年中,我們就有了在筆電上能run起來的超強(qiáng)模型。

然后終將有一天,我們會在手機(jī)上部署更強(qiáng)悍更輕量的模型。

就像一位網(wǎng)友所說:

哦,我的天哪,現(xiàn)在每個(gè)人都會在接下來的兩周里討論QwQ-32B,DeepSeek 也會準(zhǔn)備好另一個(gè)模型,然后 OpenAI 將別無選擇,只能推出 ChatGPT 5,在 AGI 之前這一切都不會停止。

圖片圖片

想了解更多AIGC的內(nèi)容,請?jiān)L問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2025-03-07 08:30:00

2025-03-06 08:11:25

2025-03-06 09:55:49

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-06 10:14:39

2025-04-03 15:57:48

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2025-03-07 08:50:03

2025-03-06 17:29:21

2025-04-11 12:10:33

2025-03-27 10:28:32

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-04-09 09:41:43

2025-02-08 17:47:08

2025-04-14 09:45:00

2025-02-08 14:03:25

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-03-12 13:55:05

2025-01-21 11:53:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號