美國(guó)奧數(shù)題撕碎AI數(shù)學(xué)神話,頂級(jí)模型現(xiàn)場(chǎng)翻車!最高得分5%,DeepSeek唯一逆襲
3月26號(hào),ETH等團(tuán)隊(duì)的一項(xiàng)研究一經(jīng)發(fā)布,就引起了圈內(nèi)熱議。
這項(xiàng)研究徹底撕開(kāi)遮羞布,直接擊碎了「LLM會(huì)做數(shù)學(xué)題」這個(gè)神話!
圖片
論文地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf
鑒于此前它們?cè)贏IME上的出色表現(xiàn),MathArena團(tuán)隊(duì)使用最近的2025年美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽進(jìn)行了詳細(xì)評(píng)估,結(jié)果令人大吃一驚——
所有大模型的得分,都低于5%!
DeepSeek-R1表現(xiàn)最好,得分為4.76%;而表現(xiàn)最差的OpenAI o3-mini(high)比上一代o1-pro(high)還差,得分為2.08%。
各頂尖模型在2025 USAMO中的得分
就在今天,這項(xiàng)研究再次被關(guān)注到,直接成為了Reddit的熱議話題。
圖片
具體來(lái)說(shuō),在這項(xiàng)研究中,模型需要在2025年USAMO的六道基于證明的數(shù)學(xué)題上進(jìn)行了測(cè)試。每道題滿分7分,總分最高為42分。然后會(huì)由人類專家來(lái)給它們打分。
這些模型取得的最高平均分,也就5%,簡(jiǎn)直慘不忍睹。
更好笑的是,這些模型對(duì)自己的解題進(jìn)行評(píng)分時(shí),還會(huì)一致高估自己的得分(此處點(diǎn)名O3-mini和Claude 3.7)。跟人類研究者相比,評(píng)分被夸大了能有20倍不止。
所以,此前模型之所以能騙過(guò)人類,營(yíng)造出自己很擅長(zhǎng)做數(shù)學(xué)的假象,純純是因?yàn)樗鼈円呀?jīng)在所有可以想象到的數(shù)學(xué)數(shù)據(jù)上進(jìn)行了訓(xùn)練——國(guó)際奧數(shù)題、美國(guó)奧數(shù)檔案、教科書(shū)、論文,它們?nèi)家?jiàn)過(guò)!
而這次,它們一下子就暴露出了三大致命缺陷。
邏輯錯(cuò)誤:模型在推理過(guò)程中做出了不合理的跳躍,或?qū)㈥P(guān)鍵步驟標(biāo)記為「微不足道」。
缺乏創(chuàng)造力:大多數(shù)模型反復(fù)堅(jiān)持相同的有缺陷策略,未能探索替代方案。
評(píng)分失?。篖LMs 的自動(dòng)評(píng)分顯著提高了分?jǐn)?shù),表明他們甚至無(wú)法可靠地評(píng)估自己的工作。
這,就是人類投入數(shù)十億美元后造出的成果。
DeepSeek,唯一亮眼的選手
好在,這項(xiàng)研究中,多少還是有一些令人鼓舞的跡象。
比如「全村的希望」DeepSeek,在其中一次嘗試中,幾乎完全解決了問(wèn)題4。
圖片
問(wèn)題4大意為:
設(shè)H為銳角三角形ABC的垂心,F(xiàn)為從C向AB所作高的垂足,P為H關(guān)于BC的對(duì)稱點(diǎn)。假設(shè)三角形AFP的外接圓與直線BC相交于兩個(gè)不同的點(diǎn)X和Y。證明:C是XY的中點(diǎn)。
LLM數(shù)學(xué)能力,到底強(qiáng)不強(qiáng)?
LLM的數(shù)學(xué)能力,早已引起了研究人員的懷疑。
在AIME 2025 I中,OpenAI的o系列模型表現(xiàn)讓人嘆服。
對(duì)此,來(lái)自蘇黎世聯(lián)邦理工學(xué)院的研究人員Mislav Balunovi?,在X上公開(kāi)表示:「在數(shù)學(xué)問(wèn)題上,LLM到底具有泛化能力,還是學(xué)會(huì)了背題,終于有了答案。」
圖片
然而,馬上有人發(fā)現(xiàn),測(cè)試的題目網(wǎng)上就有「原題」,質(zhì)疑LLM根本沒(méi)學(xué)懂?dāng)?shù)學(xué),只是記下了答案。
圖片
在AIME 2025 II中,o3-mini(high)準(zhǔn)確率更是高達(dá)93%!
而來(lái)自普林斯頓的華人團(tuán)隊(duì),研究顯示LLM可能只是學(xué)會(huì)了背題 ——
將MATH數(shù)據(jù)集中的問(wèn)題,做一些改動(dòng),多個(gè)模型的性能顯著下降!
圖片
美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽的選拔賽AIME 2025 I和AIME 2025 II是,成績(jī)優(yōu)異者才能參加2025年的USAMO
那問(wèn)題來(lái)了,LLM的數(shù)學(xué)泛化能力到底強(qiáng)不強(qiáng)?
LLM真學(xué)會(huì)了數(shù)學(xué)證明嗎?
這次,來(lái)自ETH Zurich等研究團(tuán)隊(duì),終于證明:實(shí)際上,LLM幾乎從未沒(méi)有學(xué)會(huì)數(shù)學(xué)證明!
研究團(tuán)隊(duì)邀請(qǐng)了具有奧數(shù)評(píng)審經(jīng)驗(yàn)的專家,評(píng)估了頂尖模型(如o3-mini、Claude 3.7和Deepseek-R1)的證明過(guò)程。
在評(píng)估報(bào)告中,研究人員重點(diǎn)指出了幾個(gè)常見(jiàn)問(wèn)題。
比如,AI會(huì)使用未經(jīng)證明的假設(shè),
再比如,模型總是執(zhí)著于輸出格式漂亮的最終答案,即便并未要求它們這樣做。
美國(guó)奧賽,LLM表現(xiàn)堪憂
這是首次針對(duì)2025年美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽(USAMO)的難題,系統(tǒng)評(píng)估LLM的自然語(yǔ)言證明能力。
USAMO作為美國(guó)高中數(shù)學(xué)競(jìng)賽的最高殿堂,要求證明與國(guó)際數(shù)學(xué)奧林匹克(IMO)同等級(jí)別的嚴(yán)密與詳細(xì)闡述。
美國(guó)數(shù)學(xué)奧林匹克(USAMO)是美國(guó)國(guó)家級(jí)邀請(qǐng)賽,是國(guó)際數(shù)學(xué)奧林匹克隊(duì)伍選拔中的關(guān)鍵一步。
美國(guó)國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽隊(duì)員選拔流程
USAMO和USAJMO是為期兩天、共包含六個(gè)問(wèn)題、9小時(shí)的論文/證明考試。
USAMO完美契合評(píng)估LLM的目標(biāo):題目難度高、要求完整證明過(guò)程才能得分,且未經(jīng)公開(kāi)數(shù)據(jù)污染。
參賽者雖通過(guò)AIME等賽事晉級(jí),但USAMO問(wèn)題對(duì)解題的嚴(yán)謹(jǐn)性與解釋深度要求顯著更高。
整體而言,當(dāng)前LLMs在USAMO問(wèn)題中表現(xiàn)堪憂,最優(yōu)模型的平均得分不足5%。
在生成嚴(yán)格數(shù)學(xué)證明方面,現(xiàn)有LLM還有重大局限!
本報(bào)告中,首先在§2闡述方法論,§3詳述結(jié)果并分析核心弱點(diǎn),§4則討論多項(xiàng)定性觀察結(jié)論。
LLM評(píng)估方法
在評(píng)估過(guò)程中,為每個(gè)模型提供題目,并明確要求其生成格式規(guī)范的LaTeX詳細(xì)證明。
完整的提示詞說(shuō)明,原文如下:
圖片
提示詞大意為:
請(qǐng)對(duì)以下問(wèn)題給出詳盡的答案。你的答案將由人工評(píng)委根據(jù)準(zhǔn)確性、正確性以及你證明結(jié)果的能力來(lái)評(píng)分。你應(yīng)包含證明的所有步驟。不要跳過(guò)重要步驟,因?yàn)檫@會(huì)降低你的分?jǐn)?shù)。僅僅陳述結(jié)果是不夠的。請(qǐng)使用LaTeX來(lái)格式化你的答案
{問(wèn)題}
為降低方差,每個(gè)模型對(duì)每道題獨(dú)立求解4次。
所有解答(不含推理過(guò)程)經(jīng)匿名化處理后統(tǒng)一轉(zhuǎn)換為PDF格式供評(píng)分使用。
改卷專家與流程
評(píng)分團(tuán)隊(duì)由四位專家組成,每位專家都擁有豐富的數(shù)學(xué)解題經(jīng)驗(yàn),他們?cè)菄?guó)家國(guó)際數(shù)學(xué)奧林匹克(IMO)代表隊(duì)成員,或者參加過(guò)各自國(guó)家的最終階段國(guó)家隊(duì)選拔。
在評(píng)分之前,評(píng)委們收到了詳細(xì)說(shuō)明評(píng)估目標(biāo)和方法的指導(dǎo)意見(jiàn)。
2025年美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽(USAMO)共有六道題目。
圖片
每一道都由2名評(píng)估人員獨(dú)立進(jìn)行評(píng)估,每位評(píng)委負(fù)責(zé)批改三道不同的題目。
這種雙評(píng)的評(píng)分方法仿照了國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)的評(píng)估流程,確保了評(píng)分的一致性,并減少了個(gè)人偏見(jiàn)。
由于美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽官方并不公布標(biāo)準(zhǔn)答案或評(píng)分方案,研究人員依靠數(shù)學(xué)界資源,尤其是「解題的藝術(shù)」(Art of Problem Solving,簡(jiǎn)稱AoPS)論壇,為每一道題目精心制定了標(biāo)準(zhǔn)化的評(píng)分方案。
在制定評(píng)分方案之前,評(píng)估人員對(duì)來(lái)自這些資源的所有解答進(jìn)行了準(zhǔn)確性驗(yàn)證。
按照美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽的慣例,每道題目的最高分為7分,對(duì)于取得重大且有意義進(jìn)展的解答會(huì)給予部分分?jǐn)?shù)。
評(píng)審專家根據(jù)預(yù)先制定的評(píng)分標(biāo)準(zhǔn),對(duì)每份解答進(jìn)行獨(dú)立評(píng)閱。當(dāng)答案與評(píng)分標(biāo)準(zhǔn)存在偏差時(shí),評(píng)審會(huì)在合理范圍內(nèi)給予部分得分。
每位專家均需詳細(xì)記錄評(píng)分依據(jù),包括所有部分得分的授予理由,相關(guān)評(píng)語(yǔ)已公開(kāi)在項(xiàng)目網(wǎng)站。
錯(cuò)誤模式歸檔
在評(píng)閱過(guò)程中,專家還需系統(tǒng)記錄典型的錯(cuò)誤模式。
「錯(cuò)誤模式」定義為解題過(guò)程中首次出現(xiàn)的推理缺陷,包括但不限于:邏輯謬誤、未驗(yàn)證的假設(shè)、數(shù)學(xué)表述不嚴(yán)謹(jǐn)或計(jì)算錯(cuò)誤。
具體而言,這些錯(cuò)誤被劃分為以下四類:
1. 邏輯類錯(cuò)誤:因邏輯謬誤或未經(jīng)論證的推理跳躍導(dǎo)致論證鏈斷裂;
2. 假設(shè)類錯(cuò)誤:引入未經(jīng)證明或錯(cuò)誤假設(shè),致使后續(xù)推導(dǎo)失效;
3. 策略類錯(cuò)誤:因未能識(shí)別正確解題路徑而采用根本性錯(cuò)誤解法;
4. 運(yùn)算類錯(cuò)誤:關(guān)鍵代數(shù)運(yùn)算或算術(shù)計(jì)算失誤。
此外,對(duì)于模型生成的解答中值得關(guān)注的行為或趨勢(shì),研究人員錄為文檔,以便進(jìn)一步分析。
這些觀察結(jié)果被用于找出模型在推理能力方面常見(jiàn)的陷阱和有待改進(jìn)的地方。
評(píng)估結(jié)果
在解決美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽(USAMO)的問(wèn)題時(shí),所有模型表現(xiàn)都很差。
此外,還會(huì)深入分析了常見(jiàn)的失敗模式,找出了模型推理過(guò)程中的典型錯(cuò)誤和趨勢(shì)。
主要發(fā)現(xiàn)
針對(duì)2025年美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽(USAMO)的問(wèn)題,對(duì)六個(gè)最先進(jìn)的推理模型進(jìn)行了評(píng)估,分別為QwQ、R1、Flash-Thinking、o1-Pro、o3-mini和Claude 3.7。
表1提供了每個(gè)問(wèn)題的模型性能詳細(xì)分類,平均分?jǐn)?shù)是通過(guò)四次評(píng)估運(yùn)行計(jì)算得出的。
美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽的每個(gè)問(wèn)題滿分為7分,每次運(yùn)行的總最高分是42分。
該表還包括在所有問(wèn)題和評(píng)估運(yùn)行中運(yùn)行每個(gè)模型的總成本。
成本以美元計(jì)算,各模型在所有題目上的最終得分取各評(píng)審所給分?jǐn)?shù)的平均分呈現(xiàn)。
圖片
表1:評(píng)估核心結(jié)果。每道題目采用7分制評(píng)分,滿分總計(jì)42分。表中分?jǐn)?shù)為四次運(yùn)行的平均值。
新的評(píng)估揭示了LLM在生成嚴(yán)謹(jǐn)數(shù)學(xué)證明方面的顯著不足。
所有受測(cè)模型的最高平均得分均低于5%,這一結(jié)果表明現(xiàn)有模型在處理USAMO級(jí)別問(wèn)題的復(fù)雜性和嚴(yán)密性方面存在根本性局限。
值得注意的是,在所有模型提交的近150份解答中,沒(méi)有一份獲得滿分。
雖然USAMO的題目難度確實(shí)高于既往測(cè)試的競(jìng)賽,但所有模型在不止一道題目上的全軍覆沒(méi),充分證明當(dāng)前LLM仍無(wú)法勝任奧數(shù)級(jí)別的嚴(yán)格數(shù)學(xué)推理任務(wù)。
這一局限同時(shí)暗示,GRPO等現(xiàn)有優(yōu)化方法,對(duì)于需要高度邏輯精密度的任務(wù)可能仍然力有未逮。
常見(jiàn)的失效模式
人類參賽者往往找不到正確解題方法,不過(guò)一般能判斷自己的答案對(duì)不對(duì)。
反觀LLM,不管做沒(méi)做對(duì),都一口咬定自己解出了題目。
這種反差,給LLM在數(shù)學(xué)領(lǐng)域的應(yīng)用出了難題——要是沒(méi)經(jīng)過(guò)人工嚴(yán)格驗(yàn)證,這些模型給出的數(shù)學(xué)結(jié)論,都不太靠譜。
為了搞清楚LLM這一局限,按事先定義好的錯(cuò)誤分類標(biāo)準(zhǔn),對(duì)評(píng)分時(shí)發(fā)現(xiàn)的錯(cuò)誤展開(kāi)了系統(tǒng)分析。
圖2呈現(xiàn)了評(píng)審判定的錯(cuò)誤類型分布。
在所有錯(cuò)誤類型里,邏輯缺陷最為普遍。
LLM經(jīng)常使用沒(méi)有依據(jù)的推理步驟,論證時(shí)出錯(cuò),或者誤解前面的推導(dǎo)過(guò)程。
另外,模型還有個(gè)大問(wèn)題:碰到關(guān)鍵證明步驟,就敷衍地歸為「顯然成立」或「標(biāo)準(zhǔn)流程」,不做論證。
就連o3-mini也多次把核心證明步驟標(biāo)成「顯然」,直接跳過(guò)??蛇@些步驟是不是嚴(yán)謹(jǐn),對(duì)解題特別關(guān)鍵。
除了前面提到的問(wèn)題,研究人員還發(fā)現(xiàn),模型推理特別缺乏創(chuàng)造性。
好多模型在反復(fù)嘗試解題時(shí),總是沿用同一套(還可能錯(cuò)誤的)解題策略,壓根不去探索其他辦法。
不過(guò),F(xiàn)lash-Thinking模型是個(gè)例外。它在解一道題時(shí),會(huì)嘗試多種策略。但因?yàn)橄胱龅奶?,每種策略都沒(méi)深入,最后也沒(méi)能得出有效的結(jié)論。
值得一提的是,這些模型在代數(shù)運(yùn)算上表現(xiàn)不錯(cuò)。
面對(duì)復(fù)雜的符號(hào)運(yùn)算,不用借助外部計(jì)算工具,就能輕松搞定。
但R1模型的代數(shù)/算術(shù)錯(cuò)誤率偏高,還需針對(duì)性優(yōu)化。
圖片
共性問(wèn)題
在評(píng)估過(guò)程中,評(píng)審專家還記錄了模型的共性問(wèn)題和顯著的特征。
答案框定問(wèn)題
當(dāng)下,像GRPO這類基于強(qiáng)化學(xué)習(xí)的優(yōu)化技術(shù),需要從清晰標(biāo)注的最終答案里提取獎(jiǎng)勵(lì)信號(hào)。
所以,模型常常被要求把最終答案放在\boxed{}里。
但這一要求,在USAMO解題過(guò)程中引發(fā)了異常情況。大部分賽題其實(shí)并不強(qiáng)制框定最終答案,但模型卻非要這么做。
以第五題為例,QwQ模型在解題時(shí),自行排除了非整數(shù)解的可能,即便題目沒(méi)這個(gè)限制。
它還錯(cuò)誤地認(rèn)定最終答案是2。
QwQ可把自己「繞暈」啦!
它想要一個(gè)整數(shù)答案,可實(shí)際上,答案明明是所有偶數(shù)整數(shù)的集合。
這一現(xiàn)象說(shuō)明,GRPO等對(duì)齊技術(shù)在不經(jīng)意間,讓模型形成了「所有數(shù)學(xué)問(wèn)題都要框定答案」的固定思維,反倒削弱了模型的推理能力。
盲目泛化傾向
模型有個(gè)常見(jiàn)毛病,喜歡把在小規(guī)模數(shù)值案例里觀察到的模式,一股腦套用到還沒(méi)驗(yàn)證的場(chǎng)景中。
在只求算出數(shù)值答案的題目里,這種方法或許還行得通??梢坏┡錾闲枰獓?yán)格證明的問(wèn)題,它的弊端就暴露無(wú)遺。
模型經(jīng)常不做任何證明,就直接宣稱局部觀察到的模式放之四海而皆準(zhǔn)。
比如說(shuō),在問(wèn)題2的求解過(guò)程中,F(xiàn)LASH-THINKING模型選擇了一個(gè)具體的多項(xiàng)式進(jìn)行驗(yàn)證,但隨后卻錯(cuò)誤地將結(jié)論推廣至所有多項(xiàng)式。
這種從特殊案例直接跳躍到普遍結(jié)論的做法,暴露了當(dāng)前模型在數(shù)學(xué)歸納推理能力上的根本缺陷——
它們?nèi)狈?duì)「充分性證明」這一數(shù)學(xué)核心原則的理解,無(wú)法區(qū)分「舉例驗(yàn)證」與「完備證明」的本質(zhì)區(qū)別。
圖片
Gemini Flash-Thinking的盲目泛化
解答結(jié)構(gòu)與清晰度
不同模型的解答在結(jié)構(gòu)清晰度上差異顯著。
1. 優(yōu)質(zhì)范例:o3-mini和o1-Pro的解答邏輯清晰、層次分明
2. 典型缺陷:Flash-Thinking和QwQ常產(chǎn)生混亂難解的應(yīng)答,有時(shí)在同一解法中混雜多個(gè)無(wú)關(guān)思路
OpenAI訓(xùn)練模型在可讀性上超厲害!這說(shuō)明,專門(mén)針對(duì)解答連貫性開(kāi)展訓(xùn)練,能大幅提升輸出質(zhì)量。
反觀其他模型,在這方面明顯不夠上心。
參考資料:
https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf
https://x.com/mbalunovic/status/1904539801728012545
https://maa.org/maa-invitational-competitions/