自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<button id="y7t80"></button>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

o3-mini數(shù)學推理暴打DeepSeek-R1？AIME 2025初賽曝數(shù)據(jù)集污染大瓜

作者：新智元 2025-02-08 11:44:03

MathArena是一個用于評估大模型在最新數(shù)學競賽和奧林匹克競賽中的表現(xiàn)的平臺。它的核心使命便是，對LLM在「未見過的數(shù)學問題」上的推理能力和泛化能力進行嚴格評估。

大語言模型，到底是學會了解決數(shù)學問題，還是只是背下了答案？

LLM的「Generalize VS Memorize」之爭，迎來最新進展。

蘇黎世聯(lián)邦理工的研究員Mislav Balunovi?，在X上公布了一眾頂級AI推理模型在AIME 2025 I比賽中的結(jié)果。

圖片

其中，o3-mini (high)令人印象非常深刻，以非常低的成本解決了78%的問題。

DeepSeek-R1，則解決了65%的問題，而且它的蒸餾變體也表現(xiàn)不錯，不愧是領先的開源模型！

綠色表示問題的解答率超過75%，黃色表示解答率在25%-75%之間，紅色表示解答率低于25%

然而，結(jié)果真的是這樣嗎？

圖片

AI做出奧數(shù)題，只因原題已在網(wǎng)上泄露？

威斯康星大學麥迪遜分校教授，目前在微軟擔任研究員的Dimitris Papailiopoulos，對這一測試的結(jié)果提出了質(zhì)疑。

圖片

教授表示，自己對AI模型在數(shù)學題上取得的進步，非常驚訝。

原本他以為，一些較小的蒸餾模型遇到這些題就寄了，沒想到它們卻拿到了25%到50%的分數(shù)。

這可太令人意外了！

要知道，如果這些題完全是新的，模型在訓練過程中從未見過，按理說小模型能拿0分以上的分數(shù)就很好了。

一個1.5B參數(shù)的模型連三位數(shù)的相乘都做不出，結(jié)果卻能做出奧數(shù)題，這合理嗎？

這就不由得讓人懷疑，其中有什么問題了。

AIME I是指2025年首場美國邀請數(shù)學考試，學生們需要在三個小時內(nèi)挑戰(zhàn)15道難題

您猜怎么著？

教授在用OpenAI Deep Research搜索之后發(fā)現(xiàn)，AIME 2025第1題，在Quora上就有「原題」！

圖片

而且這還真不是巧合，教授再次使用Deep Research查找了第3題。結(jié)果呢？一個非常相似的問題出現(xiàn)在 math.stackexchange 上：

圖片

仍然感到懷疑的教授，用DeepResearch繼續(xù)查找了第7題。

然后就發(fā)現(xiàn)，一個完全相同的問題，出現(xiàn)在2023年佛羅里達在線數(shù)學公開賽第9題中。

圖片

接下來，教授放棄了，因為p值已經(jīng)低到不行了。

他發(fā)出詰問：這對數(shù)學基準意味著什么？對RL的突飛猛進又意味著什么？

教授表示自己并不確定，但他也不排除GRPO（一種強化學習優(yōu)化策略）在強化了模型記憶的同時，也提高了它數(shù)學技能的可能性。

至少，這件事表明了一點：數(shù)據(jù)凈化很難。

永遠不要低估你在互聯(lián)網(wǎng)上能找到的東西。幾乎所有東西都能在網(wǎng)上找到。

網(wǎng)友們也表示，雖然數(shù)學奧賽每年都會出新題，但根本無法100%保證之前沒有同樣的問題出現(xiàn)過。

圖片

圖片

還有好奇的網(wǎng)友也來搜索了一把。

其中，問題6似乎有原題，問題8和問題10都有略微相似的題型。

圖片

這不禁讓人想起OpenAI秘密資助某數(shù)據(jù)集的舊聞：如果沒有特殊目的，為什么不告訴出題的數(shù)學家呢？

難道真如網(wǎng)友Noorie所言「數(shù)據(jù)去污才是新的Scaling Law」？

圖片

什么是MathArena？

MathArena是一個用于評估大模型在最新數(shù)學競賽和奧林匹克競賽中的表現(xiàn)的平臺。

它的核心使命便是，對LLM在「未見過的數(shù)學問題」上的推理能力和泛化能力進行嚴格評估。

為了確保評估的公平性和數(shù)據(jù)的純凈性，研究人員僅在模型發(fā)布后進行競賽測試，避免使用可能泄漏的或預先訓練的材料進行回溯評估。

圖片

通過標準化評估，MathArena能夠確保模型的得分可以實際比較，而不會受到模型提供方特定評估設置的影響。

與此同時，研究人員會為每個競賽發(fā)布一個排行榜，顯示不同模型在各個單獨問題上的得分。

此外，他們還將公開一個主表格，展示各個模型在所有競賽中的整體表現(xiàn)。

為公平評估模型的表現(xiàn)，針對每個問題，每個模型均會進行4次重復評估，最后計算出平均得分以及模型運行成本（以美元計）。

參考資料：

https://x.com/mbalunovic/status/1887962694659060204

https://matharena.ai/

https://x.com/DimitrisPapail/status/1887977460664352795

https://olympiads.us/past-exams/2025-aime-i

責任編輯：武曉燕來源：新智元

DeepSeek o3-mini 大模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<bdo id="nktlr"></bdo>

<cite id="nktlr"></cite>

<style id="nktlr"></style>

<sub id="nktlr"></sub>

<sub id="nktlr"><p id="nktlr"></p></sub>

<style id="nktlr"></style>