自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="lj4st"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

北大AI奧數(shù)評測，o1-mini比o1-preview分?jǐn)?shù)還高

作者：量子位 2024-09-23 16:00:00

人工智能新聞

Omni-Judge是微調(diào)Llama3-Instruct得到的驗(yàn)證器，用于驗(yàn)證待測的答案和給定的答案是否一致。

OpenAI的o1系列一發(fā)布，傳統(tǒng)數(shù)學(xué)評測基準(zhǔn)都顯得不夠用了。

MATH-500，滿血版o1模型直接拿下94.8分。

更難的奧數(shù)邀請賽AIME 2024，o1也獲得83.3%的準(zhǔn)確率。

隨著現(xiàn)有的數(shù)學(xué)評測集逐漸被攻克，大家不禁開始好奇：大模型能否勝任更具挑戰(zhàn)性的數(shù)學(xué)競賽，甚至是奧林匹克數(shù)學(xué)競賽？

為此，北京大學(xué)與阿里巴巴的研究團(tuán)隊(duì)聯(lián)合打造了一個專門用于數(shù)學(xué)競賽的奧林匹克評測基準(zhǔn)——Omni-MATH。

Omni-MATH專門用于評估大型語言模型在奧林匹克水平的數(shù)學(xué)推理能力。評測集共收錄了 4428 道競賽級別的問題。這些問題經(jīng)過精心分類，涵蓋了 33 個（及更多）子領(lǐng)域，并且分為 10 個不同的難度級別，使得我們能夠?qū)δＰ驮诟鞣N數(shù)學(xué)學(xué)科和復(fù)雜程度上的表現(xiàn)進(jìn)行細(xì)致分析。

最新排行榜，競爭非常激烈：

除去o1滿血版暫時(shí)還沒有放出API，作為小模型的o1-mini的表現(xiàn)最好，平均分比o1-preview還要高8%左右。

開源模型最好的是Qwen2-MATH-72b，甚至超過了GPT-4o的表現(xiàn)。

總的來說，o1-mini這種只關(guān)注少部分能力、放棄存儲廣泛世界知識路線的優(yōu)勢，再次得到驗(yàn)證。

Omni-MATH：難度大、領(lǐng)域廣

Omni-MATH作為一個數(shù)學(xué)奧林匹克評測基準(zhǔn)，它的特點(diǎn)有三個維度：

人工驗(yàn)證答案的可靠性：4428道評測問題來自不同的數(shù)學(xué)競賽和論壇數(shù)據(jù)，人工參與驗(yàn)證答案準(zhǔn)確性；并且考慮到奧賽難度問題答案的多樣性提供了基于GPT4o和評測模型的評價(jià)方式，方便一鍵啟動評測。

清晰合理的難度分類：評測集整體比較有挑戰(zhàn)性，并且難度跨越非常大。從奧林匹克預(yù)備級別（T4）競賽CEMC到最頂級的奧林匹克數(shù)學(xué)競賽（T0）如IMO、IMC、普特南等等。這些比賽不僅需要選手具備扎實(shí)的數(shù)學(xué)基礎(chǔ)，還需要超高的邏輯推理能力和創(chuàng)造力。數(shù)據(jù)顯示，只有極少數(shù)智商接近頂尖的人才能在這些比賽中取得優(yōu)異成績。

題目類型非常廣：共有多于33個子領(lǐng)域的數(shù)學(xué)問題。根據(jù)數(shù)學(xué)領(lǐng)域的特性，團(tuán)隊(duì)打造了樹狀的領(lǐng)域分類，每個題目涉及一到多個領(lǐng)域，也就是多條樹的路徑，使得我們能夠?qū)δＰ驮诟鞣N數(shù)學(xué)學(xué)科和困難程度上的表現(xiàn)進(jìn)行細(xì)致的分析?！?/p>

評測集Omni-MATH的構(gòu)造

數(shù)據(jù)構(gòu)造

研究團(tuán)隊(duì)首先對國內(nèi)國外基本的奧林匹克數(shù)學(xué)競賽進(jìn)行了細(xì)致的調(diào)研。從中了解到，一個學(xué)生從競賽預(yù)備到頂級競賽，中間要經(jīng)過層層選拔的。

比如對于英國體系，要經(jīng)過JMC → IMC → SMC → BMO 1 → BMO 2 → IMO整個一層鏈路的選拔（這個IMC(Intermediate Mathematical Challenge)和上述IMC(international mathematical competition for university students)并不是一個比賽）；

然而在美國體系中，要經(jīng)過AMC 8 → AMC 10 → AMC 12 → AIME→ USA(J)MO → IMO整個一層體系的選拔。

這啟發(fā)了團(tuán)隊(duì)能否給模型評測同樣也設(shè)置一個這種難度層級的體現(xiàn)。因此研究團(tuán)隊(duì)調(diào)研了世界范圍內(nèi)不同難度層級的比賽，使得Omni-MATH在奧林匹克級別的數(shù)學(xué)測試中，難度上仍然多元化。

另外在奧林匹克級別的數(shù)學(xué)測試中，實(shí)際上涉及的數(shù)學(xué)領(lǐng)域是非常多的。研究團(tuán)隊(duì)考慮到在模型訓(xùn)練時(shí)，不同領(lǐng)域之間的數(shù)據(jù)是否有會有化學(xué)反應(yīng)，比如領(lǐng)域A的數(shù)據(jù)能否讓模型泛化到領(lǐng)域B的提升，這種方向的數(shù)據(jù)工程是非常有意義的。

為了給這個方向的研究打下基礎(chǔ)，研究人員參考了相關(guān)競賽教輔書，在這個評測集中給數(shù)據(jù)的領(lǐng)域進(jìn)行了非常細(xì)致的劃分，從數(shù)學(xué)大類上比如數(shù)論、代數(shù)、幾何等等開始，一直到領(lǐng)域下面具體的小領(lǐng)域或者知識點(diǎn)。

評測集數(shù)據(jù)的來源主要有兩個，一個是各種比賽的題目和題解，另外一個是著名數(shù)學(xué)網(wǎng)站Art of Problem Solving。對于想要的比賽，優(yōu)先從題解中尋找答案。

如果想要的比賽并未公開題解，團(tuán)隊(duì)從AoPS網(wǎng)站的論壇上爬取回復(fù)。考慮到回復(fù)都是真實(shí)用戶書寫，有一定概率是有問題的，需要進(jìn)行嚴(yán)格的篩選。

研究團(tuán)隊(duì)選取了AoPS網(wǎng)站上候選的并且答案規(guī)整的數(shù)目大于3的題目，并且選取了3個答案全部一致的題目作為最終標(biāo)準(zhǔn)。團(tuán)隊(duì)在篩選問題時(shí)采用人工篩選，進(jìn)一步保證了準(zhǔn)確性。

數(shù)據(jù)處理

數(shù)據(jù)本身的處理：

在爬取到PDF格式的題解后，開發(fā)者們使用了Mathpix將其轉(zhuǎn)換成Latex格式作為題解。在爬取到論壇答案之后，首先用GPT-4o重新format成規(guī)整的回復(fù)，之后手動檢查是否和原本問題的答案一致。

對于這兩類來源的數(shù)據(jù)，團(tuán)隊(duì)人員最后都是用了人工檢查是否和數(shù)據(jù)源的信息是一致的。

難度分類：

參考了AoPS網(wǎng)站中關(guān)于題目難度分類的情況。

具體而言，不同級別的比賽題目難度有著本質(zhì)的不同，比如CEMC和IMO之間的題目相差非常大，然而，每個比賽的不同題目也有著不同，比如一次IMO比賽中既有簡單題也有難題。因此評測集的難度分類嚴(yán)格按照AoPS網(wǎng)站上給出的不同比賽的每一道題的難度系數(shù)（從1到10之間，大多是整數(shù)，少數(shù)有.5、.25這種難度）。

對于網(wǎng)站上未覆蓋的內(nèi)容，團(tuán)隊(duì)人員將網(wǎng)頁上的內(nèi)容整理成了few-shot prompt，并使用了GPT4o給題目難度進(jìn)行了標(biāo)注。整體難度的分布和不同比賽題目的分布如下：

領(lǐng)域分類：

和傳統(tǒng)的數(shù)學(xué)測試基準(zhǔn)的分類不同，在奧數(shù)這個難度上的題目涉及的領(lǐng)域更多，知識面更廣。

為了更好地組織統(tǒng)一起奧數(shù)這些題目以及后續(xù)的對于數(shù)學(xué)領(lǐng)域之間數(shù)據(jù)的關(guān)系的探究，團(tuán)隊(duì)構(gòu)建了一個更為全面的樹狀分類體系。研究團(tuán)隊(duì)參考了相關(guān)競賽教輔書，將奧數(shù)相關(guān)的領(lǐng)域分為了幾何、代數(shù)、數(shù)論、應(yīng)用數(shù)學(xué)等等領(lǐng)域，之后從這些領(lǐng)域出發(fā)，繼續(xù)細(xì)分成各個領(lǐng)域的小領(lǐng)域，細(xì)微的知識點(diǎn)。

這種樹狀分類體系更有助于幫助理解不同題目之間的關(guān)系，以及模型在不同領(lǐng)域上的表現(xiàn)。團(tuán)隊(duì)將這一樹狀分類體系作為模板，并結(jié)合競賽輔導(dǎo)書中的實(shí)例，構(gòu)建了few-shot的提示（具體的樹狀結(jié)構(gòu)和提示內(nèi)容可參考文章末尾的代碼倉庫）。

隨后，團(tuán)隊(duì)利用GPT-4o給每道題目分類到一到多個類別當(dāng)中。

開源的答案驗(yàn)證器

Omni-Judge是微調(diào)Llama3-Instruct得到的驗(yàn)證器，用于驗(yàn)證待測的答案和給定的答案是否一致。由于數(shù)學(xué)奧賽級別的題目回答的種類非常豐富，用規(guī)則評測實(shí)際上非常困難。在獲得模型的預(yù)測之后，需要判斷模型的輸出是否和標(biāo)準(zhǔn)答案是一致的。在使用GPT-4o評測之外，我們還提供了一種更簡便的評測方法，利用了GPT4o評測模型時(shí)產(chǎn)生的COT數(shù)據(jù)微調(diào)Llama3-Instruct得到了一個開源的驗(yàn)證器，評測一致率和GPT-4o高達(dá)95%。

責(zé)任編輯：張燕妮來源：量子位

AI 模型測評

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營