自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek數(shù)學(xué)大翻車?普林斯頓谷歌錘爆LLM:做題不會(huì)推理,全靠死記硬背

人工智能 新聞
LLM做數(shù)學(xué)題,并非靠真正推理,而是靠記憶?最近,普林斯頓、谷歌等研究者詳細(xì)剖解了o1-mini等模型做數(shù)學(xué)題的過(guò)程,發(fā)現(xiàn)它們靠的是記!最實(shí)錘的證據(jù)之一,就是題目明明已經(jīng)改變了條件,模型卻依然給出了原題的答案。

破案了!

就在剛剛,來(lái)自普林斯頓和谷歌的研究者發(fā)現(xiàn)——

大模型做數(shù)學(xué)題,不是靠推理,而是靠從訓(xùn)練集里記下的解題技巧!

論文地址:https://arxiv.org/abs/2502.06453

這「未解之謎」一直困擾著不少業(yè)內(nèi)人士:在數(shù)學(xué)上,LLM到底是學(xué)會(huì)了舉一反三,還是只是學(xué)會(huì)了背題?

此前OpenAI o1-preview被爆出,數(shù)學(xué)題目稍作修改,正確率暴降30%!

之后,OpenAI用o3-mini證明了LLM的強(qiáng)大數(shù)學(xué)推理能力,但網(wǎng)上就有數(shù)據(jù)集中相同類型的題目,讓這一問(wèn)題顯得更加撲朔迷離。

這次華人研究團(tuán)隊(duì)帶來(lái)了新進(jìn)展,推出了全新的MATH-Perturb測(cè)試基準(zhǔn),測(cè)試AI泛化能力到底如何。

隨著LLM在MATH、OlympiadBench和AIME上連破紀(jì)錄,這讓人們看到了AI在數(shù)學(xué)領(lǐng)域的巨大潛力。

「數(shù)學(xué)天才」頭腦的背后,模型是真的模型理解了數(shù)學(xué)知識(shí)、掌握了推理精髓,還是只是表面上的「記憶游戲」?

如果模型在訓(xùn)練時(shí)接觸到了與測(cè)試集相似的題目,那它在測(cè)試中的高準(zhǔn)確率可能就有「水分」,很可能只是記住了答案,而非真正理解了解題思路。

就像一個(gè)學(xué)生,靠死記硬背記住了課本上的例題答案,一旦考試題目稍有變化,就不知道如何下手。

研究人員采用零樣本思維鏈(zero-shot chain-of-thought)的方法,對(duì)18種不同類型的LLM進(jìn)行了全面測(cè)試。這些模型涵蓋了長(zhǎng)思維鏈模型、閉源大模型、開(kāi)源小模型以及數(shù)學(xué)專用模型等。

在MATH-P-Hard數(shù)據(jù)集上,測(cè)試的所有模型都遭遇了「滑鐵盧」,準(zhǔn)確率普遍降低了10%-25%,包括OpenAI的GPT-4/o1系列、谷歌的Gemini系列以及Deepseek-math、Qwen2.5-Math等模型。

文章的主要結(jié)果如下:

  1. 對(duì)18個(gè)LLM的數(shù)學(xué)推理能力進(jìn)行了基準(zhǔn)測(cè)試,結(jié)果顯示所有模型,包括o1-mini和Gemini-2.0-flash-thinking,在MATH-P-Hard上的性能顯著下降(10%-25%)。這表明這些模型偏向于原始推理模式的分布,并且面對(duì)硬擾動(dòng)的問(wèn)題時(shí),會(huì)受到分布外效應(yīng)的影響。
  2. 對(duì)失敗模式分析的深入分析,并發(fā)現(xiàn)了一種新的記憶形式,即模型從訓(xùn)練集中記憶了解題技巧,并在不判斷修改后的設(shè)置是否仍然適用的情況下盲目應(yīng)用這些技巧。
  3. 研究了使用相應(yīng)的原始未修改問(wèn)題和解決方案進(jìn)行上下文學(xué)習(xí)ICL的影響,并證明在MATH-P-Hard上,使用原始示例的ICL可能會(huì)損害模型的表現(xiàn),因?yàn)槟P涂赡軣o(wú)法識(shí)別細(xì)微的差異,并被示例誤導(dǎo)。
  4. 由12位研究生級(jí)別的專家策劃、設(shè)計(jì)并構(gòu)建了 MATH-P-Simple(簡(jiǎn)單擾動(dòng))和 MATH-P-Hard(硬擾動(dòng))兩個(gè)數(shù)據(jù)集,自MATH數(shù)據(jù)集的第5級(jí)(最難)問(wèn)題。

這不由得讓人想起之前蘋(píng)果研究者的一篇廣為流傳的論文。

論文地址:https://arxiv.org/abs/2410.05229

他們發(fā)現(xiàn),給數(shù)學(xué)題換個(gè)皮,LLM本來(lái)會(huì)做的數(shù)學(xué)題,就忽然不會(huì)了!

「當(dāng)索菲照顧她侄子時(shí),她會(huì)為他拿出各種各樣的玩具。積木袋里有31塊積木。毛絨動(dòng)物桶里有8個(gè)毛絨動(dòng)物。堆疊環(huán)塔上有9個(gè)五彩繽紛的環(huán)。索菲最近買了一管彈性球,這使她為侄子準(zhǔn)備的玩具總數(shù)達(dá)到了62個(gè)。管子里有多少個(gè)彈性球?」把這道題中索菲的名字、侄子的稱謂、玩具的具體數(shù)目改變,模型就做不對(duì)了

只修改了題目中的專有名詞,LLM的表現(xiàn)就明顯出現(xiàn)了分布均值從右向左的移動(dòng),方差增加,也就是說(shuō),它們做題的準(zhǔn)確度變低了。

這次普林斯頓、谷歌的這項(xiàng)研究,也再次驗(yàn)證了這篇論文的觀點(diǎn):LLM對(duì)數(shù)學(xué)題的推理能力,有水分。

MATH-Perturb:數(shù)學(xué)推理能力的「試金石」

為了更準(zhǔn)確地評(píng)估LLM的數(shù)學(xué)推理能力,研究人員推出了MATH-Perturb基準(zhǔn)測(cè)試,用來(lái)檢驗(yàn)?zāi)P驮诿鎸?duì)不同難度擾動(dòng)時(shí)的表現(xiàn)。

這個(gè)基準(zhǔn)測(cè)試包含兩個(gè)部分:MATH-P-Simple和MATH-P-Hard,題目均來(lái)自MATH數(shù)據(jù)集中難度最高的5級(jí)問(wèn)題。

在構(gòu)建數(shù)據(jù)集時(shí),研究人員邀請(qǐng)了12位具有深厚數(shù)學(xué)背景的數(shù)學(xué)大佬來(lái)?yè)?dān)任注釋者。

對(duì)于MATH-P-Simple,注釋者進(jìn)行的是簡(jiǎn)單擾動(dòng),對(duì)原問(wèn)題進(jìn)行一些非本質(zhì)的修改,例如改變問(wèn)題中的數(shù)值、變量名稱或表述方式,但不改變問(wèn)題的基本推理模式和解題方法。

比如,原問(wèn)題是求函數(shù)的值域,經(jīng)過(guò)簡(jiǎn)單擾動(dòng)后,變成求的值域。雖然題目有所變化,但解題的核心思路還是通過(guò)因式分解和分析函數(shù)特性來(lái)求解。

MATH-P-Simple和MATH-P-Hard的標(biāo)注過(guò)程

硬擾動(dòng)(MATH-P-Hard)則是對(duì)原問(wèn)題進(jìn)行小而關(guān)鍵的修改,這些修改會(huì)導(dǎo)致原有的解題方法不再適用,需要運(yùn)用更高級(jí)的數(shù)學(xué)知識(shí)和更復(fù)雜的推理技巧來(lái)解決。

同樣以函數(shù)值域問(wèn)題為例,硬擾動(dòng)后的問(wèn)題可能變成求的值域,這時(shí)就需要運(yùn)用柯西-施瓦茨不等式等更復(fù)雜的數(shù)學(xué)知識(shí)來(lái)求解。

果然,這樣修改后,LLM就露出馬腳了!

它們并沒(méi)有發(fā)現(xiàn),原先自己學(xué)會(huì)的解題技巧,并不適用于修改后的數(shù)學(xué)題,而是繼續(xù)盲目套用。

比如這道題中,數(shù)學(xué)題中具體條件改變后,模型仍然采用了原先的解法,最終當(dāng)然就得出了錯(cuò)誤的答案。

(更多具體情況,參見(jiàn)實(shí)驗(yàn)結(jié)果)

此外,研究人員還遵循了兩個(gè)重要原則。

「最小修改」原則要求注釋者盡量減少對(duì)原問(wèn)題的修改,這樣能在保持問(wèn)題形式相近的情況下,測(cè)試模型的泛化能力。

「答案改變」原則保證修改后的問(wèn)題答案與原答案不同,防止模型直接輸出記憶中的答案,確保結(jié)果真實(shí)可靠。

構(gòu)建完數(shù)據(jù)集后,研究人員對(duì)每個(gè)擾動(dòng)后的問(wèn)題進(jìn)行了仔細(xì)檢查,確保問(wèn)題的表述清晰、準(zhǔn)確,并且答案正確。

擾動(dòng)問(wèn)題與原始問(wèn)題之間的歸一化編輯距離和嵌入向量余弦相似度分布情況如下圖所示。

詳細(xì)結(jié)果

研究人員采用零樣本思維鏈作為在基準(zhǔn)測(cè)試中的標(biāo)準(zhǔn)評(píng)估方法。

為了進(jìn)行對(duì)比,還會(huì)在原始的279個(gè)問(wèn)題集上對(duì)模型進(jìn)行評(píng)估,以下小節(jié)中將其稱為「原始」(Original)。

測(cè)試不允許使用任何工具,包括訪問(wèn)代碼解釋器,因?yàn)榘l(fā)現(xiàn)許多問(wèn)題可以通過(guò)編寫(xiě)暴力搜索程序輕松解決。

為了檢查生成的答案是否與真實(shí)答案相匹配,采用了等價(jià)性檢查方法:首先進(jìn)行字符串規(guī)范化,然后使用sympy包檢查兩個(gè)數(shù)學(xué)對(duì)象的等價(jià)性。

LLM的基準(zhǔn)測(cè)試性能

考慮了多種語(yǔ)言模型,包括長(zhǎng)思維鏈(long-CoT)模型、閉源的大型模型、開(kāi)源的小型模型以及專門針對(duì)數(shù)學(xué)的模型。其中具體分類如下:

  • 長(zhǎng)思維鏈(long-CoT)模型:o1-preview,o1-mini,Gemini 2.0 flash thinking
  • 閉源模型:GPT-4o,GPT-4 Turbo(Achiam等,2023),Gemini 1.5 Pro,Gemini 2.0 flash,Claude 3.5 Sonnet,Claude 3 Opus(Anthropic, 2024)
  • 開(kāi)源通用模型:Llama 3.1,Gemma 2,Phi-3.5
  • 數(shù)學(xué)專用模型:MetaMath,MAmmoTH2,Deepseek-Math,Qwen2.5-Math,NuminaMath,Mathtral

下表報(bào)告了LLM在原始問(wèn)題集、MATH-P-Simple和MATH-P-Hard上的整體準(zhǔn)確率,并分別計(jì)算了來(lái)自訓(xùn)練集和測(cè)試集的準(zhǔn)確率。

如預(yù)期的那樣,評(píng)估的所有模型在MATH-P-Hard上的表現(xiàn)顯著低于原始問(wèn)題集,表明MATH-P-Hard更加困難。

同時(shí),相較于原始問(wèn)題集,大多數(shù)模型在MATH-P-Simple上的表現(xiàn)也略有下降。

作者注意到,性能下降主要來(lái)自訓(xùn)練集。即便測(cè)試樣本與訓(xùn)練問(wèn)題具有相同的推理模式,最先進(jìn)的模型也仍然存在泛化誤差。

對(duì)于來(lái)自測(cè)試集的問(wèn)題,理想情況下,原始問(wèn)題和MATH-P-Simple修改版,對(duì)模型來(lái)說(shuō)應(yīng)當(dāng)是同樣「從未見(jiàn)過(guò)」的。

根據(jù)表1中的實(shí)驗(yàn)證據(jù),觀察到不同的結(jié)果:多個(gè)模型性能下降超過(guò)了5%;不過(guò),令人驚訝的是,Phi-3.5-mini-instruct的表現(xiàn)反而有所提升。對(duì)于評(píng)估的大多數(shù)模型,MATH-P-Simple測(cè)試集的準(zhǔn)確率接近原始測(cè)試集的準(zhǔn)確率。

值得一提的是,盡管已有研究發(fā)現(xiàn)經(jīng)過(guò)修改的基準(zhǔn)與原始基準(zhǔn)之間,模型的性能下降幅度為58%到80%(測(cè)試的最佳模型是GPT-4),但在這次評(píng)估的模型中并未觀察到如此巨大的差距,這表明新開(kāi)發(fā)的模型在應(yīng)對(duì)簡(jiǎn)單擾動(dòng)時(shí)的魯棒性有所進(jìn)展。

LLM零樣本思維鏈性能準(zhǔn)確率:「Orignal」指的是未修改的279個(gè)問(wèn)題集。對(duì)于train列和test列,分別報(bào)告來(lái)自訓(xùn)練集和測(cè)試集的問(wèn)題的準(zhǔn)確率

推理時(shí)間擴(kuò)展。已有研究表明,擴(kuò)展推理時(shí)間計(jì)算可以提高LLM的性能。將推理時(shí)間擴(kuò)展到基準(zhǔn)測(cè)試的結(jié)果。

對(duì)于每個(gè)問(wèn)題,獨(dú)立生成N個(gè)解答,并通過(guò)以下公式計(jì)算每個(gè)1≤k≤N的pass@k指標(biāo):

其中c是n次運(yùn)行中正確答案的數(shù)量。

此外,還計(jì)算了自一致性,即多數(shù)投票法的表現(xiàn)。對(duì)于每個(gè)k,從N次運(yùn)行中隨機(jī)抽取k個(gè)回答,并得到多數(shù)投票的答案。

下圖報(bào)告了5次隨機(jī)抽樣的平均值和標(biāo)準(zhǔn)差。對(duì)于Llama-3.1-8B-Instruct和Qwen2.5-Math-7B-Instruct,設(shè)置N = 64,而對(duì)于o1-mini,設(shè)置N = 8。

擴(kuò)展推理時(shí)間計(jì)算的效果

LLM做數(shù)學(xué)題,會(huì)因?yàn)槭裁炊?/span>

為了研究模型在面對(duì)硬擾動(dòng)時(shí)的泛化能力,作者集中分析了那些在MATH-P-Hard修改版中的失敗案例。

但要注意:總問(wèn)題中的20%-47%,模型至少能正確解決原始問(wèn)題或MATH-P-Simple修改版。

對(duì)于這些問(wèn)題,可以使用較容易問(wèn)題的正確解作為參考,更好地確定模型在困難問(wèn)題中的失敗模式。

首先,觀察到當(dāng)模型面對(duì)更難的問(wèn)題時(shí),普遍存在一些失敗模式。這些錯(cuò)誤在較弱的模型中表現(xiàn)得尤為突出。

除了常見(jiàn)的失敗模式外,當(dāng)比較MATH-P-Hard修改版的錯(cuò)誤解與較容易版本時(shí),能夠識(shí)別出一定數(shù)量的記憶化問(wèn)題。

具體來(lái)說(shuō),模型可能忽略修改后的假設(shè),錯(cuò)誤地假設(shè)原始假設(shè)仍然成立。

例如,參見(jiàn)圖5中的示例。原問(wèn)題為:

問(wèn)題:十個(gè)人圍坐在一張圓桌旁。隨機(jī)抽取其中三個(gè)人做演講。被選中的三個(gè)人坐在連續(xù)座位上的概率是多少?

修改后,問(wèn)題變難了:

十個(gè)人圍坐在一個(gè)圓桌旁,隨機(jī)選擇三個(gè)人以特定順序進(jìn)行演講。問(wèn)這三個(gè)人中,第一個(gè)和第二個(gè)演講者坐在連續(xù)座位上,并且第二個(gè)和第三個(gè)演講者也坐在連續(xù)座位上的概率是多少?

模型并沒(méi)有意識(shí)到問(wèn)題已經(jīng)改變,原來(lái)的推理方法不再有效。然后按照原來(lái)的推理模式進(jìn)行推理,給出了原題的答案——1/12。

而實(shí)際上,正確答案是應(yīng)該是1/36。

作者手動(dòng)進(jìn)行了20次重復(fù)發(fā)現(xiàn)Claude-3.5-Sonnet的通過(guò)率為50%。在錯(cuò)誤中,30%是由于上述記憶問(wèn)題造成的。

記憶化與錯(cuò)誤推理結(jié)合的示例

在其他情況下,模型可能盲目地應(yīng)用原始問(wèn)題的解題技巧,而沒(méi)有首先判斷這些技巧在修改后的問(wèn)題環(huán)境中是否仍然適用(圖1中的回答就是由GPT-4o生成的一個(gè)例子)。

有趣的是,模型甚至可能輸出原始問(wèn)題的預(yù)期結(jié)果(并未在上下文中提供),而不是修改版問(wèn)題的結(jié)果。

比如上面這道題吧,原題是如果并找出所有滿足條件的整數(shù)n。

而改變后的題將條件替換為并要求找出滿足條件的最小整數(shù)n。

結(jié)果在這種情況下,模型給出的答案卻是所有整數(shù)值(10和13),而非最小整數(shù)值(10)。

誒,這是模型背答案實(shí)錘了?

要知道,這種記憶化行為對(duì)于大多數(shù)現(xiàn)有文獻(xiàn)中的擾動(dòng)類型來(lái)說(shuō)是難以捕捉的,因?yàn)檫@些擾動(dòng)并不需要不同的解題策略。

模式崩潰

研究人員還關(guān)注了模式崩潰(pattern collapse)帶來(lái)的影響。

模式崩潰是指模型無(wú)法區(qū)分?jǐn)_動(dòng)后的問(wèn)題和原問(wèn)題,導(dǎo)致回答與原問(wèn)題答案相同。

在MATH-P-Hard數(shù)據(jù)集中,除了少數(shù)幾個(gè)模型外,模式崩潰的情況在總錯(cuò)誤中的占比不到10%。

這表明,模型在面對(duì)硬擾動(dòng)問(wèn)題時(shí),雖然可能會(huì)出現(xiàn)各種錯(cuò)誤,但多數(shù)情況下還是能夠意識(shí)到問(wèn)題的變化,而不是簡(jiǎn)單地重復(fù)原答案。

然而,人工檢查發(fā)現(xiàn),模型的輸出往往不是簡(jiǎn)單地重復(fù)原答案,而是在推理過(guò)程中出現(xiàn)了一些微妙的錯(cuò)誤,例如忽略或誤解修改后的假設(shè)。

上下文學(xué)習(xí)

上下文學(xué)習(xí)是指模型在推理時(shí)利用原問(wèn)題和答案作為示例來(lái)輔助解題。

在MATH-P-Simple數(shù)據(jù)集上,使用原問(wèn)題和答案作為上下文學(xué)習(xí)示例,幾乎能提升所有模型的性能。

這是因?yàn)镸ATH-P-Simple問(wèn)題可以通過(guò)直接應(yīng)用原解題步驟來(lái)解決,原問(wèn)題和答案的示例能提供有用的線索。

然而,在MATH-P-Hard數(shù)據(jù)集上,上下文學(xué)習(xí)的效果則較為復(fù)雜。

雖然原答案中的數(shù)學(xué)知識(shí)有時(shí)能夠幫助模型解決修改后的問(wèn)題,但由于原問(wèn)題和MATH-P-Hard問(wèn)題之間存在微妙的差異,模型也容易被原答案誤導(dǎo),導(dǎo)致錯(cuò)誤增加。

總體來(lái)看,上下文學(xué)習(xí)在MATH-P-Hard上的效果并不理想,提升幅度非常有限。

LLM在面對(duì)硬擾動(dòng)問(wèn)題時(shí),表現(xiàn)出明顯的局限性,許多錯(cuò)誤源于模型對(duì)解題技巧的盲目記憶,而缺乏對(duì)問(wèn)題本質(zhì)的理解。

總之,這項(xiàng)研究顯示,所有模型在復(fù)雜擾動(dòng)MATH-P-Hard 上的表現(xiàn)均有所下降,而且許多錯(cuò)誤都是源于一種新的記憶形式——

模型從訓(xùn)練集中記住了解題技巧,然后在題目改變條件后,并不判斷是否適用,而盲目應(yīng)用這些技巧。

這說(shuō)明,雖然大多數(shù)LLM在數(shù)學(xué)推理方面取得了一定的成績(jī),但距離真正理解和掌握數(shù)學(xué)知識(shí)還有很大的差距。

不過(guò)最近,谷歌DeepMind拿下IMO金牌的AlphaGeometry,首次破解了2009年IMO最難幾何題G7。

在過(guò)程中,它給出了石破天驚的驚人解法——

利用關(guān)鍵的輔助作圖(圖中的紅點(diǎn)),就只需求「角度」和「比例推導(dǎo)」。

所以,o1-preview、o1-mini、GPT-4o、Deepseek-Math等模型,在解數(shù)學(xué)題上和AlphaGeometry究竟相差多遠(yuǎn)呢?

這就讓人十分期待,接下來(lái)這個(gè)領(lǐng)域的更多研究了。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2020-07-02 09:47:40

人工智能技術(shù)教育

2023-08-14 08:15:44

谷歌模型

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2024-11-12 13:40:00

2024-02-19 00:15:39

模型數(shù)據(jù)

2022-07-26 09:56:48

模型AI

2023-09-12 14:45:18

2025-02-12 12:04:54

2023-09-18 16:18:36

AICgen數(shù)據(jù)

2024-07-02 13:30:50

2023-05-22 15:17:02

谷歌AI

2017-09-21 11:43:14

JavascriptHtml5Html

2024-07-23 09:26:20

2011-04-22 10:14:34

無(wú)線網(wǎng)絡(luò)DHCPAndroid

2025-02-13 08:30:00

2024-09-23 09:40:00

AI數(shù)學(xué)模型

2023-12-05 13:25:00

數(shù)據(jù)訓(xùn)練

2023-08-27 15:28:53

人工智能語(yǔ)言模型

2023-06-19 19:22:50

AI場(chǎng)景隨機(jī)數(shù)學(xué)

2020-12-02 10:05:26

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)