自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

陶哲軒：通義千問(wèn)QwQ奧數(shù)真厲害，開源大模型頂流

作者：機(jī)器之心 2024-12-02 08:00:00

人工智能新聞

據(jù)陶哲軒介紹，就在不到一天前有參賽團(tuán)隊(duì)使用 QwQ-32B 的特定實(shí)例已經(jīng)拿到了 18/20 的成績(jī)，該模型似乎比之前的開源模型在解決數(shù)學(xué)競(jìng)賽問(wèn)題方面表現(xiàn)得更好。

一個(gè)剛發(fā)布兩天的開源模型，正在 AI 數(shù)學(xué)奧林匹克競(jìng)賽 AIMO 上創(chuàng)造新紀(jì)錄。

本周五，知名數(shù)學(xué)家、加州大學(xué)洛杉磯分校教授、菲爾茨獎(jiǎng)得主陶哲軒（Terence Tao）介紹了第二屆 AIMO 競(jìng)賽的最新進(jìn)展。比賽在數(shù)據(jù)競(jìng)賽平臺(tái) Kaggle 上已經(jīng)持續(xù)了一個(gè)月，現(xiàn)在有隊(duì)伍快要觸發(fā)「Early Sharing Prize」的門檻了。

Early Sharing Prize 是為了鼓勵(lì) AIMO 參賽者在比賽早期分享高分模型經(jīng)驗(yàn)設(shè)立的獎(jiǎng)項(xiàng)，需要選手在競(jìng)賽中第一個(gè)獲得 20/50 分，且公開自己的 notebook，獎(jiǎng)金為額外的兩萬(wàn)美元。

據(jù)陶哲軒介紹，就在不到一天前有參賽團(tuán)隊(duì)使用 QwQ-32B 的特定實(shí)例已經(jīng)拿到了 18/20 的成績(jī)，該模型似乎比之前的開源模型在解決數(shù)學(xué)競(jìng)賽問(wèn)題方面表現(xiàn)得更好。

今年 7 月，陶哲軒在國(guó)際數(shù)學(xué)奧賽 IMO 上給第一屆 AIMO 的獲獎(jiǎng)團(tuán)隊(duì)進(jìn)行了頒獎(jiǎng)，分享了自己對(duì) AI 在數(shù)學(xué)研究中應(yīng)用范式的思考，也打響了 AIMO 競(jìng)賽的名聲。

AI 數(shù)學(xué)奧林匹克競(jìng)賽 AIMO 的初衷是讓參與者使用 AI 模型解決國(guó)際數(shù)學(xué)難題，這將有助于推動(dòng)人工智能模型的數(shù)學(xué)推理能力，并促進(jìn)前沿知識(shí)的發(fā)展。

由于大模型技術(shù)的快速進(jìn)步，人們對(duì) AI 解決數(shù)學(xué)問(wèn)題的能力寄予厚望，第一屆 AIMO 的獲獎(jiǎng)隊(duì)伍分獲了 104.8 萬(wàn)美元的獎(jiǎng)金，而現(xiàn)在第二屆，獎(jiǎng)池已經(jīng)上升到了 211.7 萬(wàn)美元。

AIMO 競(jìng)賽要求參賽團(tuán)隊(duì)公開發(fā)布其代碼、方法、數(shù)據(jù)和模型參數(shù)。剛剛結(jié)束的第一屆比賽里大家使用的模型各不相同，包括 Mixtral 8x7b、Gemma、Llama 3 等等，有的來(lái)自大廠，有的來(lái)自 AI 創(chuàng)業(yè)公司，呈現(xiàn)百花齊放的態(tài)勢(shì)。

而到了這一屆，現(xiàn)在似乎已經(jīng)變成了 Qwen 系列在刷屏，其他模型偶爾出現(xiàn)：

剛剛發(fā)布的 QwQ，還在把開源大模型推向新的高度。

QwQ 的能力也并不僅限于奧數(shù)這一個(gè)方面，最近社交網(wǎng)絡(luò)上也有不少人在夸它的推理能力。

HuggingFace 的產(chǎn)品設(shè)計(jì)人員也表示：測(cè)試了一下 QwQ，結(jié)果令人驚嘆：

有人說(shuō)，QwQ 就是一個(gè)在冉冉升起的新神，雖然有時(shí)仍會(huì)出錯(cuò)，但令人著迷的就是它的推理路徑，就像給 o1 再來(lái)一個(gè)巨大的加號(hào)。

更有趣的是，有人發(fā)現(xiàn)這個(gè)模型用于思考的原生語(yǔ)言似乎是中文：

難不成這就是 QwQ 邏輯能力強(qiáng)大的原因之一？無(wú)論如何，開源大模型領(lǐng)域的風(fēng)向，似乎已經(jīng)變了。

11 月 28 日，阿里云通義團(tuán)隊(duì)發(fā)布了全新 AI 推理模型 QwQ-32B-Preview，并同步開源。評(píng)測(cè)數(shù)據(jù)顯示，預(yù)覽版本的 QwQ 已展現(xiàn)出研究生水平的科學(xué)推理能力，在數(shù)學(xué)和編程方面表現(xiàn)尤為出色，整體推理水平比肩 OpenAI 的 o1。

HuggingFace 開源地址：https://huggingface.co/Qwen/QwQ-32B-Preview
HuggingFace Space 體驗(yàn)：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

據(jù)介紹，QwQ（Qwen with Questions）是通義千問(wèn) Qwen 大模型最新推出的實(shí)驗(yàn)性研究模型，也是阿里云首個(gè)開源的 AI 推理模型。阿里云通義千問(wèn)團(tuán)隊(duì)研究發(fā)現(xiàn)，當(dāng)模型有足夠的時(shí)間思考、質(zhì)疑和反思時(shí)，其對(duì)數(shù)學(xué)和編程的理解就會(huì)深化。基于此，QwQ 取得了解決復(fù)雜問(wèn)題的突破性進(jìn)展。

在考察科學(xué)問(wèn)題解決能力的 GPQA 評(píng)測(cè)集上，QwQ 獲得了 65.2% 的準(zhǔn)確率，具備研究生水平的科學(xué)推理能力；在涵蓋綜合數(shù)學(xué)主題的 AIME 評(píng)測(cè)中，QwQ 以 50% 的勝率證明其擁有解決數(shù)學(xué)問(wèn)題的豐富技能；在全面考察數(shù)學(xué)解題能力的 MATH-500 評(píng)測(cè)中，QwQ 斬獲 90.6% 的高分，一舉超越了 o1-preview 和 o1-mini；在評(píng)估高難度代碼生成的 LiveCodeBench 評(píng)測(cè)中，QwQ 答對(duì)一半的題，在編程競(jìng)賽題場(chǎng)景中也有出色表現(xiàn)。

另外當(dāng)面對(duì)復(fù)雜問(wèn)題時(shí)，QwQ 展現(xiàn)了深度自省的能力，會(huì)質(zhì)疑自身假設(shè)，進(jìn)行深思熟慮的自我對(duì)話，并仔細(xì)審視其推理過(guò)程的每一步。

比如，在經(jīng)典智力題「猜牌問(wèn)題」中，QwQ 會(huì)通過(guò)梳理各方對(duì)話并推演現(xiàn)實(shí)情況，它像個(gè)擅長(zhǎng)思考的人一樣，能揣摩「這句話有點(diǎn) tricky」，反思「等一下，也許我需要更仔細(xì)地思考」，最終分析得出正確答案，這似乎是以前沒(méi)有 AI 能做到的事情。

面對(duì)目前高漲的熱度，通義團(tuán)隊(duì)表示，盡管 QwQ 展現(xiàn)了強(qiáng)大的分析能力，但該模型仍是個(gè)供研究的實(shí)驗(yàn)型模型，存在不同語(yǔ)言的混合使用、偶有不恰當(dāng)偏見(jiàn)、對(duì)專業(yè)領(lǐng)域問(wèn)題不了解等局限。隨著研究深入模型迭代，這些問(wèn)題將逐步得到解決。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)