o3-mini數(shù)學推理暴打DeepSeek-R1?AIME 2025初賽曝數(shù)據(jù)集污染大瓜
大語言模型,到底是學會了解決數(shù)學問題,還是只是背下了答案?
LLM的「Generalize VS Memorize」之爭,迎來最新進展。
蘇黎世聯(lián)邦理工的研究員Mislav Balunovi?,在X上公布了一眾頂級AI推理模型在AIME 2025 I比賽中的結(jié)果。
圖片
其中,o3-mini (high)令人印象非常深刻,以非常低的成本解決了78%的問題。
DeepSeek-R1,則解決了65%的問題,而且它的蒸餾變體也表現(xiàn)不錯,不愧是領先的開源模型!
綠色表示問題的解答率超過75%,黃色表示解答率在25%-75%之間,紅色表示解答率低于25%
然而,結(jié)果真的是這樣嗎?
圖片
AI做出奧數(shù)題,只因原題已在網(wǎng)上泄露?
威斯康星大學麥迪遜分校教授,目前在微軟擔任研究員的Dimitris Papailiopoulos,對這一測試的結(jié)果提出了質(zhì)疑。
圖片
教授表示,自己對AI模型在數(shù)學題上取得的進步,非常驚訝。
原本他以為,一些較小的蒸餾模型遇到這些題就寄了,沒想到它們卻拿到了25%到50%的分數(shù)。
這可太令人意外了!
要知道,如果這些題完全是新的,模型在訓練過程中從未見過,按理說小模型能拿0分以上的分數(shù)就很好了。
一個1.5B參數(shù)的模型連三位數(shù)的相乘都做不出,結(jié)果卻能做出奧數(shù)題,這合理嗎?
這就不由得讓人懷疑,其中有什么問題了。
AIME I是指2025年首場美國邀請數(shù)學考試,學生們需要在三個小時內(nèi)挑戰(zhàn)15道難題
您猜怎么著?
教授在用OpenAI Deep Research搜索之后發(fā)現(xiàn),AIME 2025第1題,在Quora上就有「原題」!
圖片
而且這還真不是巧合,教授再次使用Deep Research查找了第3題。結(jié)果呢?一個非常相似的問題出現(xiàn)在 math.stackexchange 上:
圖片
仍然感到懷疑的教授,用DeepResearch繼續(xù)查找了第7題。
然后就發(fā)現(xiàn),一個完全相同的問題,出現(xiàn)在2023年佛羅里達在線數(shù)學公開賽第9題中。
圖片
接下來,教授放棄了,因為p值已經(jīng)低到不行了。
他發(fā)出詰問:這對數(shù)學基準意味著什么?對RL的突飛猛進又意味著什么?
教授表示自己并不確定,但他也不排除GRPO(一種強化學習優(yōu)化策略)在強化了模型記憶的同時,也提高了它數(shù)學技能的可能性。
至少,這件事表明了一點:數(shù)據(jù)凈化很難。
永遠不要低估你在互聯(lián)網(wǎng)上能找到的東西。幾乎所有東西都能在網(wǎng)上找到。
網(wǎng)友們也表示,雖然數(shù)學奧賽每年都會出新題,但根本無法100%保證之前沒有同樣的問題出現(xiàn)過。
圖片
圖片
還有好奇的網(wǎng)友也來搜索了一把。
其中,問題6似乎有原題,問題8和問題10都有略微相似的題型。
圖片
這不禁讓人想起OpenAI秘密資助某數(shù)據(jù)集的舊聞:如果沒有特殊目的,為什么不告訴出題的數(shù)學家呢?
難道真如網(wǎng)友Noorie所言「數(shù)據(jù)去污才是新的Scaling Law」?
圖片
什么是MathArena?
MathArena是一個用于評估大模型在最新數(shù)學競賽和奧林匹克競賽中的表現(xiàn)的平臺。
它的核心使命便是,對LLM在「未見過的數(shù)學問題」上的推理能力和泛化能力進行嚴格評估。
為了確保評估的公平性和數(shù)據(jù)的純凈性,研究人員僅在模型發(fā)布后進行競賽測試,避免使用可能泄漏的或預先訓練的材料進行回溯評估。
圖片
通過標準化評估,MathArena能夠確保模型的得分可以實際比較,而不會受到模型提供方特定評估設置的影響。
與此同時,研究人員會為每個競賽發(fā)布一個排行榜,顯示不同模型在各個單獨問題上的得分。
此外,他們還將公開一個主表格,展示各個模型在所有競賽中的整體表現(xiàn)。
為公平評估模型的表現(xiàn),針對每個問題,每個模型均會進行4次重復評估,最后計算出平均得分以及模型運行成本(以美元計)。
參考資料:
https://x.com/mbalunovic/status/1887962694659060204