o1/Claude集體翻車!陶哲軒等60+頂尖數(shù)學(xué)家合力提出新數(shù)學(xué)基準(zhǔn),大模型正確率通通不足2%
讓大模型集體吃癟,數(shù)學(xué)題正確率通通不到2%!
獲大神卡帕西力薦,大模型新數(shù)學(xué)基準(zhǔn)來(lái)勢(shì)洶洶——
一出手,曾在國(guó)際數(shù)學(xué)奧賽中拿下83%解題率的o1模型就敗下陣來(lái),并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%這一防線。
所以,新挑戰(zhàn)者到底啥來(lái)頭??
一打聽(tīng),這個(gè)新數(shù)學(xué)基準(zhǔn)名為FrontierMath,由Epoch AI這家非營(yíng)利研究機(jī)構(gòu)號(hào)召陶哲軒在內(nèi)的60多位頂尖數(shù)學(xué)家提出。
這群人這次鐵了心要給AI上難度,直接原創(chuàng)了數(shù)百道極具挑戰(zhàn)性的數(shù)學(xué)問(wèn)題——
從數(shù)論中計(jì)算密集型問(wèn)題到代數(shù)幾何和范疇論中的抽象問(wèn)題,涵蓋了現(xiàn)代數(shù)學(xué)的大多數(shù)主要分支。
這些題有多難呢?按數(shù)學(xué)大佬陶哲軒對(duì)這項(xiàng)研究的評(píng)價(jià)說(shuō):
大模型們,至少需要再戰(zhàn)個(gè)幾年吧。
同時(shí),卡帕西也表示非常喜歡這一新基準(zhǔn),甚至樂(lè)于見(jiàn)到大模型們“吃癟”:
之所以引入這個(gè)基準(zhǔn),是因?yàn)榇竽P驮絹?lái)越多地碾壓現(xiàn)有的數(shù)學(xué)基準(zhǔn)
FrontierMath:評(píng)估AI高級(jí)數(shù)學(xué)推理能力的新基準(zhǔn)
今年以來(lái),大語(yǔ)言模型(LLM)開(kāi)始在各種數(shù)學(xué)benchmark上瘋狂刷分,而且正確率動(dòng)輒90%以上。
宣傳看多了,人也麻了,于是紛紛反思——
一定是現(xiàn)在的基準(zhǔn)測(cè)試“被污染了”(比如讓AI在訓(xùn)練階段提前學(xué)習(xí)基準(zhǔn)測(cè)試中的問(wèn)題)。
對(duì)此,非營(yíng)利研究機(jī)構(gòu)Epoch AI看不下去了,于是直接聯(lián)合60多位頂尖數(shù)學(xué)家(共獲得了14枚IMO金牌)推出FrontierMath。
這一新基準(zhǔn)擁有數(shù)百道大模型們之前沒(méi)見(jiàn)過(guò)的數(shù)學(xué)題,而且難度頗高。
通常需要專業(yè)數(shù)學(xué)家花費(fèi)數(shù)小時(shí)甚至數(shù)天的努力
一番實(shí)踐檢驗(yàn)下,果不其然,一眾頂尖大模型紛紛折戟(包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等),解題率均不足2%。
而且即使有延長(zhǎng)的思考時(shí)間(10,000個(gè)token)、Python訪問(wèn)權(quán)限以及運(yùn)行實(shí)驗(yàn)的能力,相關(guān)成功率仍然低于2%。
下面,我們具體介紹下FrontierMath。這第一關(guān)主要解決數(shù)學(xué)題的原創(chuàng)性。
這群數(shù)學(xué)家們被要求按照3個(gè)關(guān)鍵原則設(shè)計(jì)題目:
- 所有問(wèn)題都是新的且未發(fā)表的,以防止數(shù)據(jù)污染;
- 解決方案是自動(dòng)可驗(yàn)證的,從而實(shí)現(xiàn)高效的評(píng)估;
- 問(wèn)題是“防猜測(cè)”的,在沒(méi)有正確推理的情況下解決的可能性很低;
除了出新題,為了防止數(shù)據(jù)污染,機(jī)構(gòu)還采取了其他措施。
比如為了最大限度地降低問(wèn)題和解決方案在網(wǎng)上傳播的風(fēng)險(xiǎn),機(jī)構(gòu)鼓勵(lì)所有提交都通過(guò)安全、加密的渠道進(jìn)行。
具體來(lái)說(shuō),機(jī)構(gòu)采用加密通信平臺(tái)與投稿人協(xié)調(diào),并要求對(duì)在線存儲(chǔ)的任何書(shū)面材料進(jìn)行加密(如加密文檔)。
同時(shí),機(jī)構(gòu)依賴于核心數(shù)學(xué)家團(tuán)隊(duì)專家評(píng)審這一原創(chuàng)驗(yàn)證性方法,以識(shí)別自動(dòng)化系統(tǒng)可能錯(cuò)過(guò)的潛在相似性(專家比機(jī)器更熟悉這些研究細(xì)節(jié))。
當(dāng)然也不完全依靠人力,為了進(jìn)一步保證原創(chuàng)性,機(jī)構(gòu)還通過(guò)抄襲檢測(cè)工具Quetext和Copyscape對(duì)問(wèn)題進(jìn)行測(cè)試。
最終,數(shù)學(xué)家們提出了數(shù)百道原創(chuàng)題目,涵蓋了現(xiàn)代數(shù)學(xué)的大多數(shù)主要分支,從數(shù)論中計(jì)算密集型問(wèn)題到代數(shù)幾何和范疇論中的抽象問(wèn)題。
其中數(shù)論和組合學(xué)最多,合計(jì)約占所有MSC2020(數(shù)學(xué)學(xué)科分類系統(tǒng)2020版本)的34%。
接下來(lái),為了評(píng)估大模型在FrontierMath問(wèn)題上的表現(xiàn),研究開(kāi)發(fā)了一個(gè)框架。
簡(jiǎn)單說(shuō),這一框架具體執(zhí)行任務(wù)的過(guò)程如下:
- 分析問(wèn)題:模型首先分析給定的數(shù)學(xué)問(wèn)題;
- 提出策略:模型提出可能的解決方案策略;
- 實(shí)施并執(zhí)行代碼:將這些策略轉(zhuǎn)化為可執(zhí)行的Python代碼并自動(dòng)執(zhí)行;
- 接收反饋:從代碼執(zhí)行的結(jié)果中接收反饋,包括輸出和錯(cuò)誤消息;
- 改進(jìn)方法:根據(jù)實(shí)驗(yàn)結(jié)果,模型會(huì)驗(yàn)證中間結(jié)果,測(cè)試猜想,并可能改進(jìn)其推理過(guò)程以修正潛在的錯(cuò)誤;
該框架支持兩種提交方式:一種是模型可以直接給出問(wèn)題的最終答案;另一種是,在提交最終答案之前,模型可以先通過(guò)代碼執(zhí)行進(jìn)行實(shí)驗(yàn),以驗(yàn)證其解決方案的有效性。
不過(guò)需要提醒,在提交最終答案時(shí),模型必須遵循一些標(biāo)準(zhǔn)化格式。
比如,在答案中需包含#This is the final answer這一標(biāo)記注釋,且將結(jié)果保存在Python的pickle模塊中,同時(shí)需確保提交的代碼必須是自包含的,不依賴于先前的計(jì)算。
總之,這一評(píng)估過(guò)程將持續(xù)進(jìn)行,直到模型提交了正確格式化的最終答案,或者達(dá)到了預(yù)設(shè)的標(biāo)記限制(研究設(shè)置為10,000個(gè)token)。
如果模型在達(dá)到標(biāo)記限制之前沒(méi)有提交最終答案,它將收到一個(gè)最終提示,要求立即提交最終答案;
如果在收到該提示后模型仍然無(wú)法提供正確格式化的最終答案,則該嘗試被標(biāo)記為不正確。
陶哲軒看了都說(shuō)難
為了進(jìn)一步驗(yàn)證FrontierMath的難度,該機(jī)構(gòu)還特意采訪了4位數(shù)學(xué)大佬。
包括菲爾茲獎(jiǎng)得主陶哲軒 (2006)、蒂莫西·高爾斯 (1998)、理查德·博赫茲 (1998),以及國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽 (IMO) 教練陳誼廷 (Evan Chen)在內(nèi),他們一致認(rèn)為這些題非常具有挑戰(zhàn)性。
下一步Epoch AI也計(jì)劃從四個(gè)方面持續(xù)推進(jìn):
- 定期評(píng)估這些領(lǐng)先的大模型,并觀察高級(jí)數(shù)學(xué)推理能力隨時(shí)間推移和規(guī)模擴(kuò)大而提高的情況;
- 保持難度的同時(shí),向FrontierMath添加更多問(wèn)題;
- 在未來(lái)幾個(gè)月內(nèi)發(fā)布更多代表性問(wèn)題,供大家研究討論;
- 擴(kuò)大專家審查、增加錯(cuò)誤數(shù)量和改進(jìn)同行評(píng)審流程來(lái)加強(qiáng)質(zhì)量控制;
這也合了卡帕西的心意,他認(rèn)為這樣的新基準(zhǔn)應(yīng)該更多,尤其是為那些看似“容易”的事情創(chuàng)建評(píng)估。
之所以引入這個(gè)基準(zhǔn),是因?yàn)榇竽P驮絹?lái)越多地碾壓現(xiàn)有的數(shù)學(xué)基準(zhǔn)。有趣的問(wèn)題是,盡管從許多方面(/evals)來(lái)看,大模型正逐步躋身頂級(jí)專家行列(如數(shù)學(xué)和編碼等),但你不會(huì)雇用他們而不是讓他們從事最瑣碎的工作。
如果你把問(wèn)題描述整齊地放在盤子里,他們就能解決復(fù)雜的封閉式問(wèn)題,但他們很難連貫地把長(zhǎng)長(zhǎng)的、自主的、解決問(wèn)題的序列串聯(lián)起來(lái),而人卻會(huì)覺(jué)得非常容易。
這是莫拉維克悖論的變相,他在30多年前就觀察到,對(duì)人類來(lái)說(shuō)容易/困難的事情,與對(duì)計(jì)算機(jī)來(lái)說(shuō)容易/困難的事情,在非直覺(jué)上可能大相徑庭。
例如,人類對(duì)計(jì)算機(jī)下國(guó)際象棋印象深刻,但國(guó)際象棋對(duì)計(jì)算機(jī)來(lái)說(shuō)卻很容易,因?yàn)樗且粋€(gè)封閉的、確定性的系統(tǒng),具有離散的行動(dòng)空間、完全的可觀測(cè)性等等。
反之亦然,人類可以系好鞋帶或疊好襯衫,而且根本不需要考慮太多,但這是一項(xiàng)極其復(fù)雜的傳感運(yùn)動(dòng)任務(wù),對(duì)硬件和軟件的技術(shù)水平都是挑戰(zhàn)。
這就像不久前OpenAI發(fā)布的魔方一樣,大多數(shù)人都把注意力集中在解魔方本身(這是微不足道的),而不是用機(jī)器人的手轉(zhuǎn)動(dòng)魔方的一個(gè)面這一實(shí)際難度極高的任務(wù)。
因此,我非常喜歡這個(gè)FrontierMath基準(zhǔn),我們應(yīng)該制作更多的基準(zhǔn)。但我也認(rèn)為,如何為所有 “容易 “但其實(shí)很難的東西創(chuàng)建評(píng)估是一個(gè)有趣的挑戰(zhàn)。
很長(zhǎng)的語(yǔ)境窗口、連貫性、自主性、常識(shí)、有效的多模態(tài)輸入/輸出…… 我們?nèi)绾谓⒘己玫?“初級(jí)工作 “評(píng)估?就像你對(duì)團(tuán)隊(duì)中任何初級(jí)實(shí)習(xí)生的期望。
網(wǎng)友也表示,能在這種基準(zhǔn)測(cè)試中取得高分的大模型將大有裨益。
陶哲軒夢(mèng)想的就是這樣的東西,可以連接到LEAN(微軟研究院推出的一款定理證明器),讓數(shù)學(xué)家成為編輯、顧問(wèn),偶爾處理一些真正困難的部分,而其余部分則自動(dòng)化且可證明正確。
很難說(shuō)一個(gè)在這次基準(zhǔn)測(cè)試中能夠達(dá)到80%的LLM對(duì)數(shù)學(xué)家來(lái)說(shuō)沒(méi)有用處。
對(duì)此,你怎么看?
論文:https://arxiv.org/html/2411.04872v1