自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="wrz0e"><track id="wrz0e"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

32B逆襲671BDeepSeek R1！阿里推理模型炸翻了：小到筆記本就能run，成本僅1/10！又是強(qiáng)化學(xué)習(xí)帶來驚喜！

原創(chuàng) 精選

作者：伊風(fēng) 2025-03-06 12:43:03

昨天看外媒的報(bào)道說，R1帶火了消費(fèi)級顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因?yàn)镈eepSeek的模型不再需要高端AI芯片，普通消費(fèi)級產(chǎn)品就能滿足運(yùn)行需求。那么QwQ-32B這波震撼之余，可能帶貨的就是M4 Max的蘋果電腦了。

編輯 | 伊風(fēng)

太震撼了。阿里直接扔了一張王炸！

QwQ-32B，一個(gè)參數(shù)量如此小的小模型，居然追平了671B的DeepSeek-R1？？！

這也太卷了，看看他們給的數(shù)據(jù)，真的給人看麻了：

圖片

這個(gè)模型到底小到什么概念呢？評論區(qū)網(wǎng)友在用了一臺配置M4 Max芯片的蘋果電腦就跑起來了。

網(wǎng)友本人直呼震撼的程度！

小模型還有個(gè)震撼而實(shí)用的優(yōu)點(diǎn)，價(jià)格真的低。API成本才R1的十分之一！

圖片

一向大方的通義這次又是上線即開源，評論區(qū)一看到是Apache 2.0許可證,就開始感謝大自然的饋贈了。這是官方給的一系列鏈接：

博客：https://qwenlm.github.io/blog/qwq-32b

HF：https://huggingface.co/Qwen/QwQ-32B

Qwen 聊天室（網(wǎng)頁試用）：https://chat.qwen.ai

模型部署工具ollama也是連夜更新，緊急上線了QwQ-32B，還艾特了通義的兩位大佬表示感謝。

圖片

有趣的是，追蹤到Binyuan Hui的推特，發(fā)現(xiàn)他的置頂是一張梗圖“Goodbye ChatGPT，Hello Qwen Chat”。

圖片

國產(chǎn)大模型完全有底氣對ChatGPT說一聲再見了。還記得GPT-4.5推出時(shí)，那種普遍覺得乏味、失望的氛圍，人們越來越認(rèn)識到，傳統(tǒng)的那套訓(xùn)練技術(shù)玩的“大力出奇跡”似乎已經(jīng)走向了盡頭。

讀了QwQ-32B的博客，我們發(fā)現(xiàn)：這次又是強(qiáng)化學(xué)習(xí)（RL）立大功了！

1.QwQ-32B的煉成：強(qiáng)化學(xué)習(xí)還有多少驚喜？

從阿里的技術(shù)博客我們能了解到兩點(diǎn)：1.強(qiáng)化學(xué)習(xí)擴(kuò)展依然是這次性能飛躍的重中之重 2.這個(gè)方向還有很長的路能走！

在具體的訓(xùn)練上，通義團(tuán)隊(duì)分了兩個(gè)階段去做RL訓(xùn)練。

第一階段，是從冷啟動檢查點(diǎn)（指模型已經(jīng)過了冷啟動訓(xùn)練階段，檢查點(diǎn)相當(dāng)于“存檔”）開始，實(shí)施了一種基于結(jié)果獎勵的強(qiáng)化學(xué)習(xí)（RL）擴(kuò)展方法。

這里有兩個(gè)突破值得關(guān)注：首先，在初期階段，有特別針對數(shù)學(xué)和編程任務(wù)進(jìn)行了RL擴(kuò)展，相當(dāng)于對強(qiáng)推理比較重要的領(lǐng)域?qū)ｉT“補(bǔ)課”；其次，不同于傳統(tǒng)的獎勵模型，通義團(tuán)隊(duì)采用了一個(gè)數(shù)學(xué)問題的準(zhǔn)確性驗(yàn)證器來確保最終解答的正確性，并使用代碼執(zhí)行服務(wù)器來評估生成的代碼是否能成功通過預(yù)定義的測試用例。

然后就看到隨著訓(xùn)練的持續(xù)，模型性能在數(shù)學(xué)和編程領(lǐng)域穩(wěn)定拉升。

第二階段，是旨在提升通用能力的RL訓(xùn)練。他們在這個(gè)過程中，采取的是通用獎勵模型的獎勵和一些基于規(guī)則的驗(yàn)證器。

通義團(tuán)隊(duì)說，他們發(fā)現(xiàn)：“通過少量步驟的訓(xùn)練，其他一般能力（如指令跟隨、人類偏好對齊、智能體性能等）得到了提升，同時(shí)數(shù)學(xué)和編程能力并未出現(xiàn)顯著下降。”這句話的分量大家都能懂……大模型訓(xùn)練經(jīng)常是只能顧一頭，沒有明顯的性能折損大大驗(yàn)證了這個(gè)策略的有效性。

通義也在博客寫了未來方向：通過這一歷程，我們不僅見證了擴(kuò)展強(qiáng)化學(xué)習(xí)（RL）的巨大潛力，也認(rèn)識到了預(yù)訓(xùn)練語言模型尚未開發(fā)的可能性。

看來新的Scaling Law真的會在后訓(xùn)練階段了！

2.網(wǎng)友實(shí)測：本地人工智能時(shí)代來臨！

一位進(jìn)行了實(shí)測，發(fā)現(xiàn)QwQ-32B 在筆記本電腦上運(yùn)行得相當(dāng)絲滑。

在這里，它在裝有 MLX 的 M4 Max 上運(yùn)行良好。它的 8k 代幣長思考過程的一個(gè)片段：

圖片

另一位網(wǎng)友采用本地部署，推斷了一個(gè)比較復(fù)雜的推理題目：

有兩座房子，從左到右依次編號為1到2。每間房子都住著不同的人。每所房子都有一個(gè)獨(dú)特的屬性，分別代表以下特征：每個(gè)人都有一個(gè)獨(dú)特的名字：Arnold, Eric；每個(gè)人都擁有獨(dú)特的汽車型號：ford f150, tesla model 3；人們飼養(yǎng)獨(dú)特的動物：貓、馬。

線索：1. 埃里克在擁有特斯拉 Model 3 的人的正前方左邊。養(yǎng)馬的人在第一間房子里。

圖片

QwQ-32B僅用了40s的思考時(shí)間就給出了正確答案。

評論區(qū)說：這是真正的本地人工智能力量！

圖片

也有人表示：太遺憾了！你們這些人干嘛在奧特曼要開源的時(shí)候投票給o3類似模型?。浚硪粋€(gè)選項(xiàng)是手機(jī)可跑的端側(cè)模型）

圖片

寫道這里不得不吐槽一句，OpenAI的開源是真慢啊，預(yù)熱了一下又沒影了。

圖片

4.寫在最后：算力不再成為問題

昨天看外媒的報(bào)道說，R1帶火了消費(fèi)級顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因?yàn)镈eepSeek的模型不再需要高端AI芯片，普通消費(fèi)級產(chǎn)品就能滿足運(yùn)行需求。

那么QwQ-32B這波震撼之余，可能帶貨的就是M4 Max的蘋果電腦了。

從最初的龐然大物發(fā)展到可以家用，計(jì)算機(jī)走了幾十年的時(shí)間。從GPT-3發(fā)布后的不到五年中，我們就有了在筆電上能run起來的超強(qiáng)模型。

然后終將有一天，我們會在手機(jī)上部署更強(qiáng)悍更輕量的模型。

就像一位網(wǎng)友所說：

哦，我的天哪，現(xiàn)在每個(gè)人都會在接下來的兩周里討論QwQ-32B，DeepSeek 也會準(zhǔn)備好另一個(gè)模型，然后 OpenAI 將別無選擇，只能推出 ChatGPT 5，在 AGI 之前這一切都不會停止。

圖片

想了解更多AIGC的內(nèi)容，請?jiān)L問：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

DeepSeek 阿里推理模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<sub id="57nl6"></sub>}

<sub id="57nl6"></sub>

<sub id="57nl6"></sub>