阿里發(fā)布類o1模型QWQ,可自我反思糾錯(cuò),實(shí)測(cè)數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1,人人免費(fèi);網(wǎng)友:OpenAI除了商標(biāo),沒(méi)有護(hù)城河
原創(chuàng)編輯 | 言征
阿里真的是開(kāi)源模型界的扛把子,這次把類o1模型的預(yù)覽版也公開(kāi)推出了,現(xiàn)在大家都可以直接在抱抱臉上體驗(yàn)又一個(gè)國(guó)產(chǎn)版的萬(wàn)能推理機(jī)了!
小編迫不及待地馬上嘗試了兩個(gè)高中奧數(shù)題,一道數(shù)列題、一道概率題,這解題思路堪稱完美閉環(huán)。全對(duì)!
緊接著,我在想是不是題目太簡(jiǎn)單,直接上了一道微積分幾何考研題,沒(méi)想到居然也答對(duì)了!真被驚到了,這還需要什么考研輔導(dǎo)教材,有問(wèn)題,找千問(wèn)就行了!
圖片
1.QwQ:不斷反思、自我質(zhì)疑,更聰明
QwQ-32B-Preview 是由阿里 Qwen(通義千問(wèn)) 團(tuán)隊(duì)開(kāi)發(fā)的實(shí)驗(yàn)性研究模型,專注于增強(qiáng) AI 推理能力。作為預(yù)覽版本,其分析推理能力可以看出已經(jīng)十分讓人興奮。
Qwen官網(wǎng)介紹道,通過(guò)深入的探索和無(wú)數(shù)的試驗(yàn),我們發(fā)現(xiàn)了一個(gè)深刻的道理:當(dāng)模型有足夠的時(shí)間思考、質(zhì)疑和反思時(shí),它對(duì)數(shù)學(xué)和編程的理解就會(huì)深化。
就像學(xué)生通過(guò)認(rèn)真地檢查自己的工作并從錯(cuò)誤中學(xué)習(xí)變得更加聰明一樣,我們的模型也通過(guò)耐心和深思熟慮的分析獲得了更深入的見(jiàn)解。這種細(xì)致的反思和自我質(zhì)疑的過(guò)程使得模型能夠取得解決復(fù)雜問(wèn)題的突破性進(jìn)展。
QwQ的探索之旅揭示了模型在數(shù)學(xué)和編程領(lǐng)域解決一些最具挑戰(zhàn)性的問(wèn)題的卓越能力,包括:
GPQA:一個(gè)通過(guò)研究生級(jí)別問(wèn)題評(píng)估高階科學(xué)解題能力的評(píng)測(cè)集,旨在考察科學(xué)問(wèn)題解決能力。
AIME:涵蓋算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論、概率等中學(xué)數(shù)學(xué)主題的綜合評(píng)測(cè),測(cè)試數(shù)學(xué)問(wèn)題解決能力。
MATH-500:包含500個(gè)測(cè)試樣本的MATH評(píng)測(cè)集,全面考察數(shù)學(xué)解題能力。
LiveCodeBench:評(píng)估真實(shí)編程場(chǎng)景中代碼生成和問(wèn)題解決能力的高難度評(píng)測(cè)集。
然后,我們就看到QwQ的實(shí)驗(yàn)結(jié)果了,其中那個(gè)Math-500非常顯眼的90.6就把小編給整的激動(dòng)了。當(dāng)然包含幾何、代數(shù)、概率的AIME表現(xiàn)也很不錯(cuò),50分,比OpenAI-o1-preview還要高出不少。
圖片
隨著采用次數(shù)增加,QwQ的表現(xiàn)還在持續(xù)提升
具體表現(xiàn)如下:
GPQA:65.2%,展示了研究生水平的科學(xué)推理能力;
AIME:50.0%,證明了強(qiáng)大的數(shù)學(xué)問(wèn)題解決技能;
MATH-500:90.6%,體現(xiàn)了在各類數(shù)學(xué)主題上的全面理解;
LiveCodeBench:50.0%,驗(yàn)證了在實(shí)際編程場(chǎng)景中的出色表現(xiàn)。
這些成果充分體現(xiàn)了QwQ在分析和問(wèn)題解決能力方面的顯著進(jìn)步,尤其是在需要深度推理的技術(shù)領(lǐng)域。
那么,如何理解官網(wǎng)所說(shuō)的“反思、自我質(zhì)疑”呢?這里給大家放一張解題過(guò)程的截圖:
圖片
這就像學(xué)生做出結(jié)果后還不忘記檢查一遍自己是否做錯(cuò)了,做錯(cuò)了還能自我修改過(guò)來(lái),有時(shí)還會(huì)用枚舉打法,有時(shí)則會(huì)用代進(jìn)結(jié)果去驗(yàn)證等式是否成立,太擬人了!
果真,懂得仔細(xì)檢查的學(xué)生,更容易拿高分!
2.模型局限性
QwQ-32B-Preview 作為預(yù)覽版本,同時(shí)也存在以下局限:
語(yǔ)言切換問(wèn)題:模型可能在回答中混合使用不同語(yǔ)言,影響表達(dá)的連貫性。
推理循環(huán):在處理復(fù)雜邏輯問(wèn)題時(shí),模型偶爾會(huì)陷入遞歸推理模式,在相似思路中循環(huán)。這種行為雖然反映了模型試圖全面分析的努力,但可能導(dǎo)致冗長(zhǎng)而不夠聚焦的回答。
安全性考慮:盡管模型已具備基礎(chǔ)安全管控,但仍需要進(jìn)一步增強(qiáng)。它可能產(chǎn)生不恰當(dāng)或存在偏見(jiàn)的回答,且與其他大型語(yǔ)言模型一樣,可能受到對(duì)抗攻擊的影響。團(tuán)隊(duì)強(qiáng)烈建議用戶在生產(chǎn)環(huán)境中謹(jǐn)慎使用,并采取適當(dāng)?shù)陌踩雷o(hù)措施。
能力差異:QwQ-32B-Preview 在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色,但在其他領(lǐng)域仍有提升空間。模型性能會(huì)隨任務(wù)的復(fù)雜度和專業(yè)程度而波動(dòng)。目前該團(tuán)隊(duì)正在通過(guò)持續(xù)優(yōu)化,努力提升模型的綜合能力。
3.網(wǎng)友:OpenAI除了ChatGPT商標(biāo),沒(méi)有護(hù)城河
毫無(wú)疑問(wèn),OpenAI是當(dāng)今大模型圈子里的頭號(hào)玩家,許多新技術(shù)、新概念都引領(lǐng)者行業(yè)的發(fā)展,然而做第一個(gè)發(fā)布的人并不意味著會(huì)在市場(chǎng)中也能持續(xù)做到永遠(yuǎn)第一,不管是sora還是“慢思考”推理,我們看到國(guó)產(chǎn)模型都有了快速的進(jìn)步,甚至效果要超過(guò)OpenAI的節(jié)奏。
無(wú)怪乎hackernews上網(wǎng)友暗懟OpenAI:OpenAI除了ChatGPT商標(biāo)之外沒(méi)有護(hù)城河。
還有網(wǎng)友提及,OpenAI雄厚的融資能力也并不是其護(hù)城河,因?yàn)橛性S多實(shí)驗(yàn)室理論上比OpenAI擁有跟多的資金,F(xiàn)AIR、GDM、Qwen都是年利潤(rùn)達(dá)100億美元的子公司,而OpenAI一年就虧損了50億美元。
圖片
從這個(gè)角度講,微軟是OpenAI不能松開(kāi)的真大腿!
有網(wǎng)友還提到了,英偉達(dá)的顯卡肯定是最大的問(wèn)題,但很快網(wǎng)友就解答了國(guó)產(chǎn)模型廠商的算力限制問(wèn)題:許多中國(guó)科技巨頭在制裁之前就已經(jīng)儲(chǔ)備了A100,也許還有一些H100。
在第一波制裁(禁止 A100 和 H100)之后,NVIDIA 發(fā)布了 A800 和 H800,它們是 A100 和 H100 的削弱版本。
然后是第二輪制裁,禁止 H800、A800,一直到像 A6000 和 4090 這樣弱得多的卡。因此,NVIDIA 為中國(guó)發(fā)布了 H20。H20 是一張?zhí)貏e有趣的卡,因?yàn)樗挠?jì)算能力較弱,但 vram 更大(96 GB,而不是 H100 的典型 80 GB)。
但一個(gè)事實(shí)是——
中國(guó)大型公司通常設(shè)有海外子公司,可以從 NVidia 購(gòu)買 H100 GPU。
圖片
話說(shuō)回來(lái),還是為咱們國(guó)產(chǎn)的大模型研究團(tuán)隊(duì)們感到驕傲,我們的技術(shù)實(shí)力的確也贏得了全球同行的尊重。
圖片
“即便名字中沒(méi)有‘Open’,千問(wèn)團(tuán)隊(duì)、DS團(tuán)隊(duì)對(duì)模型輸出更加開(kāi)放,也不隱藏中間思維過(guò)程,而且公開(kāi)了他們的權(quán)重參數(shù)和訓(xùn)練時(shí)間和細(xì)節(jié),包括過(guò)程中警告!”
國(guó)產(chǎn)模型真的是越做越好了,期待!