自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="iroqp"></cite>

<cite id="iroqp"><track id="iroqp"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

阿里重磅開(kāi)源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型

發(fā)布于 2024-11-28 09:59

瀏覽

0收藏

阿里巴巴重磅開(kāi)源了新模型——QwQ-32B-Preview。

QwQ-32B的主要特點(diǎn)就是推理很強(qiáng)，可以給出很長(zhǎng)的透明化推理流程，這與國(guó)內(nèi)DeepSeek前不久剛發(fā)布的R1-Lite很相似。

尤其是在數(shù)學(xué)、代碼以及各種復(fù)雜推理任務(wù)上，QwQ-32B可以生成數(shù)萬(wàn)字的推理流程，讓用戶(hù)深度了解模型生成內(nèi)容的全過(guò)程。

阿里重磅開(kāi)源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型-AI.x社區(qū)

開(kāi)源地址：https://huggingface.co/Qwen/QwQ-32B-Preview

Github：https://github.com/QwenLM/Qwen2.5

在線(xiàn)demo：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

根據(jù)公開(kāi)的測(cè)試數(shù)據(jù)顯示，QwQ-32B在GPQA，一個(gè)研究生級(jí)別的“谷歌證明”問(wèn)答基準(zhǔn)；AIME，美國(guó)邀請(qǐng)數(shù)學(xué)評(píng)估，它測(cè)試數(shù)學(xué)問(wèn)題解決能力，涉及算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論以及概率等中學(xué)數(shù)學(xué)主題。

MATH-500，一個(gè)全面測(cè)試數(shù)學(xué)問(wèn)題解決能力的綜合性數(shù)據(jù)集，以及LiveCodeBench現(xiàn)實(shí)世界編程場(chǎng)景中評(píng)估代碼生成和問(wèn)題解決能力的挑戰(zhàn)性基準(zhǔn)的測(cè)試中表現(xiàn)非常出色。

例如，QwQ-32B在GPQA的評(píng)分達(dá)到65.2，超過(guò)了o1-mini、GPT-4o和Claude3.5 Sonnet，僅次于o1- Preview。

在MATH-500測(cè)試中拿下了90.6的最高分，超過(guò)了o1- Preview、o1-mini、GPT-4o、Claude3.5 Sonnet以及阿里之前開(kāi)源的Qwen2.5-72B，擁有非常強(qiáng)的數(shù)學(xué)能力。

而在LiveCodeBench中也拿下了50的高分，僅次于o1模型，大幅度領(lǐng)先GPT-4o、Claude3.5 Sonnet這倆閉源模型。

阿里重磅開(kāi)源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型-AI.x社區(qū)

根據(jù)在線(xiàn)demo我們測(cè)試了一下QwQ-32B，例如，問(wèn)個(gè)經(jīng)典問(wèn)題，9.11和9.9哪個(gè)大。

QwQ-32B：9.11和9.9，哪個(gè)大呢？我得想一想。首先，這兩個(gè)數(shù)字都以9開(kāi)頭，然后有小數(shù)點(diǎn)，后面跟著一些數(shù)字。9.11是9點(diǎn)11，而9.9是9點(diǎn)9。我要比較它們的大小。

我知道，在小數(shù)比較中，先看整數(shù)部分，如果整數(shù)部分相同，再比較小數(shù)部分。這里，兩個(gè)數(shù)字的整數(shù)部分都是9，所以需要比較小數(shù)部分。

9.11的小數(shù)部分是0.11，而9.9的小數(shù)部分是0.9?，F(xiàn)在比較0.11和0.9哪個(gè)大。

0.11是11分之一百，而0.9是90分之一百。很明顯，90大于11，所以0.9大于0.11。

因此，9.9大于9.11。

不過(guò)，我再想想， maybe我哪里錯(cuò)了。有時(shí)候，特別是看日期或者其它什么的時(shí)候，9.11可能是九月十一日，而9.9是九月九日。但在這里，題目是9.11和9.9哪個(gè)大，看起來(lái)像是小數(shù)比較。

或者，也許9.11是9又11分之一，但那應(yīng)該是9 + 11/100 = 9.11，還是小數(shù)形式。

總之，按照小數(shù)比較規(guī)則，9.9更大。

對(duì)，我確定是9.9大于9.11。

很清晰的推理流程，并給出了準(zhǔn)確答案。

阿里重磅開(kāi)源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型-AI.x社區(qū)

阿里表示，QwQ-32B還處于預(yù)覽版狀態(tài)有很多局限性，包括語(yǔ)言切換問(wèn)題，模型可能在回答中混合使用不同語(yǔ)言，影響表達(dá)的連貫性。

QwQ-32B-Preview在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色，但在其他領(lǐng)域仍有提升空間。模型性能會(huì)隨任務(wù)的復(fù)雜度和專(zhuān)業(yè)程度而波動(dòng)，正通過(guò)持續(xù)優(yōu)化，努力提升模型的綜合能力。

推理循環(huán)，在處理復(fù)雜邏輯問(wèn)題時(shí)，模型偶爾會(huì)陷入遞歸推理模式，在相似思路中循環(huán)。

這種行為雖然反映了模型試圖全面分析的努力，但可能導(dǎo)致冗長(zhǎng)而不夠聚焦的回答。

即便是有這些局限性，這對(duì)于開(kāi)源領(lǐng)域來(lái)說(shuō)都是一次非常大的進(jìn)步。

本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ，作者：AIGC開(kāi)放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/Me7zmiQTBZh2VnV1TZWePA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

AlphaGo核心算法增強(qiáng)，7B模型數(shù)學(xué)能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 2738瀏覽 ? 0回復(fù)
剛剛，OpenAI發(fā)布史上最強(qiáng)模型-o1，推理能力超人類(lèi)博士！

Aceryt ? 2275瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3337瀏覽 ? 0回復(fù)
OpenAI o1引發(fā)的思維鏈思考：思維鏈提示啟發(fā)大模型推理

angel ? 3253瀏覽 ? 0回復(fù)
被神化的o1模型，規(guī)劃能力到底如何？

大語(yǔ)言模型論文跟蹤 ? 2621瀏覽 ? 0回復(fù)
擊敗GPT-4o、僅次于o1！英偉達(dá)重磅開(kāi)源超強(qiáng)大模型--Nemotron

Aceryt ? 2984瀏覽 ? 0回復(fù)
重磅開(kāi)源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術(shù)棧 ? 1875瀏覽 ? 0回復(fù)
o1快慢思考的風(fēng)又吹到了Agent！

PaperAgent ? 2646瀏覽 ? 0回復(fù)
VLM版o1超越一眾開(kāi)源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2293瀏覽 ? 0回復(fù)
o1的規(guī)劃能力如何？LRM是未來(lái)嗎？

探索AGI ? 1741瀏覽 ? 0回復(fù)
阿里發(fā)布類(lèi)o1模型QWQ，可自我反思糾錯(cuò)，實(shí)測(cè)數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費(fèi)

51CTO技術(shù)棧 ? 2467瀏覽 ? 0回復(fù)
阿里巴巴Qwen團(tuán)隊(duì)發(fā)布QwQ-32B-Preview：包含320億參數(shù)的開(kāi)放模型，專(zhuān)為解決高級(jí)推理任務(wù)而設(shè)計(jì)

Halo咯咯 ? 4346瀏覽 ? 0回復(fù)
小模型界o1來(lái)了：微軟推出Phi-4，數(shù)學(xué)推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個(gè)重要推斷

51CTO技術(shù)棧 ? 2076瀏覽 ? 0回復(fù)
大語(yǔ)言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 3453瀏覽 ? 0回復(fù)
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 1709瀏覽 ? 0回復(fù)
阿里開(kāi)源QwQ-32B，性能與Deepseek R1持平。一個(gè)擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2129瀏覽 ? 0回復(fù)
阿里QwQ-32B開(kāi)源引爆AI效率革命：?jiǎn)慰ㄟ\(yùn)行、成本降60倍，國(guó)產(chǎn)芯片突圍AGI

墨風(fēng)如雪小站 ? 2831瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2431瀏覽 ? 0回復(fù)
剛剛，Qwen3強(qiáng)勢(shì)登頂，成開(kāi)源新王！國(guó)內(nèi)首個(gè)混合推理模型，235B擊敗R1、o1!源神火力全開(kāi)

51CTO技術(shù)棧 ? 284瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來(lái)啦 6天前發(fā)布
字節(jié)跳動(dòng)開(kāi)源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門(mén)推薦

微軟開(kāi)源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險(xiǎn)降50% 0回復(fù)

大半精銳盡出！o1下線(xiàn)！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：成本降低1000倍！微軟將開(kāi)源超強(qiáng)RAG— LazyGraphRAG

下一篇：谷歌發(fā)布雙思維AI Agent：像人類(lèi)一樣思考，重大技術(shù)突破！

社區(qū)精華內(nèi)容

目錄

<blockquote id="n0dpm"></blockquote>

<sub id="n0dpm"></sub>

<legend id="n0dpm"><track id="n0dpm"></track></legend>