自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里重磅開(kāi)源QwQ-32B:自我思考、糾正,數(shù)學(xué)能力擊敗o1模型

發(fā)布于 2024-11-28 09:59
瀏覽
0收藏

阿里巴巴重磅開(kāi)源了新模型——QwQ-32B-Preview。


QwQ-32B的主要特點(diǎn)就是推理很強(qiáng),可以給出很長(zhǎng)的透明化推理流程,這與國(guó)內(nèi)DeepSeek前不久剛發(fā)布的R1-Lite很相似。


尤其是在數(shù)學(xué)、代碼以及各種復(fù)雜推理任務(wù)上,QwQ-32B可以生成數(shù)萬(wàn)字的推理流程,讓用戶(hù)深度了解模型生成內(nèi)容的全過(guò)程。

阿里重磅開(kāi)源QwQ-32B:自我思考、糾正,數(shù)學(xué)能力擊敗o1模型-AI.x社區(qū)

開(kāi)源地址:https://huggingface.co/Qwen/QwQ-32B-Preview

Github:https://github.com/QwenLM/Qwen2.5

在線(xiàn)demo:https://huggingface.co/spaces/Qwen/QwQ-32B-preview


根據(jù)公開(kāi)的測(cè)試數(shù)據(jù)顯示,QwQ-32B在GPQA,一個(gè)研究生級(jí)別的“谷歌證明”問(wèn)答基準(zhǔn);AIME,美國(guó)邀請(qǐng)數(shù)學(xué)評(píng)估,它測(cè)試數(shù)學(xué)問(wèn)題解決能力,涉及算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論以及概率等中學(xué)數(shù)學(xué)主題。


MATH-500,一個(gè)全面測(cè)試數(shù)學(xué)問(wèn)題解決能力的綜合性數(shù)據(jù)集,以及LiveCodeBench現(xiàn)實(shí)世界編程場(chǎng)景中評(píng)估代碼生成和問(wèn)題解決能力的挑戰(zhàn)性基準(zhǔn)的測(cè)試中表現(xiàn)非常出色。


例如,QwQ-32B在GPQA的評(píng)分達(dá)到65.2,超過(guò)了o1-mini、GPT-4o和Claude3.5 Sonnet,僅次于o1- Preview。

在MATH-500測(cè)試中拿下了90.6的最高分,超過(guò)了o1- Preview、o1-mini、GPT-4o、Claude3.5 Sonnet以及阿里之前開(kāi)源的Qwen2.5-72B,擁有非常強(qiáng)的數(shù)學(xué)能力。


而在LiveCodeBench中也拿下了50的高分,僅次于o1模型,大幅度領(lǐng)先GPT-4o、Claude3.5 Sonnet這倆閉源模型。

阿里重磅開(kāi)源QwQ-32B:自我思考、糾正,數(shù)學(xué)能力擊敗o1模型-AI.x社區(qū)

根據(jù)在線(xiàn)demo我們測(cè)試了一下QwQ-32B,例如,問(wèn)個(gè)經(jīng)典問(wèn)題,9.11和9.9哪個(gè)大。

QwQ-32B:9.11和9.9,哪個(gè)大呢?我得想一想。首先,這兩個(gè)數(shù)字都以9開(kāi)頭,然后有小數(shù)點(diǎn),后面跟著一些數(shù)字。9.11是9點(diǎn)11,而9.9是9點(diǎn)9。我要比較它們的大小。


我知道,在小數(shù)比較中,先看整數(shù)部分,如果整數(shù)部分相同,再比較小數(shù)部分。這里,兩個(gè)數(shù)字的整數(shù)部分都是9,所以需要比較小數(shù)部分。


9.11的小數(shù)部分是0.11,而9.9的小數(shù)部分是0.9?,F(xiàn)在比較0.11和0.9哪個(gè)大。

0.11是11分之一百,而0.9是90分之一百。很明顯,90大于11,所以0.9大于0.11。

因此,9.9大于9.11。


不過(guò),我再想想, maybe我哪里錯(cuò)了。有時(shí)候,特別是看日期或者其它什么的時(shí)候,9.11可能是九月十一日,而9.9是九月九日。但在這里,題目是9.11和9.9哪個(gè)大,看起來(lái)像是小數(shù)比較。


或者,也許9.11是9又11分之一,但那應(yīng)該是9 + 11/100 = 9.11,還是小數(shù)形式。

總之,按照小數(shù)比較規(guī)則,9.9更大。


對(duì),我確定是9.9大于9.11。


很清晰的推理流程,并給出了準(zhǔn)確答案。

阿里重磅開(kāi)源QwQ-32B:自我思考、糾正,數(shù)學(xué)能力擊敗o1模型-AI.x社區(qū)

阿里表示,QwQ-32B還處于預(yù)覽版狀態(tài)有很多局限性,包括語(yǔ)言切換問(wèn)題,模型可能在回答中混合使用不同語(yǔ)言,影響表達(dá)的連貫性。


QwQ-32B-Preview在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色,但在其他領(lǐng)域仍有提升空間。模型性能會(huì)隨任務(wù)的復(fù)雜度和專(zhuān)業(yè)程度而波動(dòng),正通過(guò)持續(xù)優(yōu)化,努力提升模型的綜合能力。


推理循環(huán),在處理復(fù)雜邏輯問(wèn)題時(shí),模型偶爾會(huì)陷入遞歸推理模式,在相似思路中循環(huán)。

這種行為雖然反映了模型試圖全面分析的努力,但可能導(dǎo)致冗長(zhǎng)而不夠聚焦的回答。


即便是有這些局限性,這對(duì)于開(kāi)源領(lǐng)域來(lái)說(shuō)都是一次非常大的進(jìn)步。


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū)  ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Me7zmiQTBZh2VnV1TZWePA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦