自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了?來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪!

發(fā)布于 2024-5-23 15:02
瀏覽
0收藏

隨著現(xiàn)代大語言模型(LLMs)如 OpenAI 的 ChatGPT 和 GPT-4 的出現(xiàn),LLMs 展示了生成類人對話和解決復(fù)雜數(shù)學(xué)難題的非凡能力。從 Meta 在 4 月 18 日發(fā)布 Llama3-8B & 70B 開始,Qwen 開源的首個(gè)百 B 大模型 Qwen-1.5-110B,到深度求索的 MoE 模型 DeepSeek-V2,還有近幾日 OpenAI 放出的大招 GPT-4o,號(hào)稱更低的價(jià)格,更強(qiáng)的性能,大家都號(hào)稱自己的新模型數(shù)學(xué)能力頂呱呱,但事實(shí)真是這樣嗎?

如何透明化評(píng)測大模型的各項(xiàng)數(shù)學(xué)能力如今成了大家的難題,因?yàn)殚_源數(shù)據(jù)集往往評(píng)測角度較為局限,如常用的 GSM8k 專注日常計(jì)算,MATH 只專注于高中數(shù)學(xué)競賽。

再加上,負(fù)責(zé)大模型數(shù)學(xué)部分的產(chǎn)品經(jīng)理往往對新訓(xùn)練的模型有下面的小小期待:

  • ??想要全面知道從小學(xué),初中到大學(xué)每個(gè)階段模型數(shù)學(xué)表現(xiàn)各怎么樣
  • ??中英文能力都要體現(xiàn)
  • ??要是每道題都有知識(shí)點(diǎn)標(biāo)簽就好了
  • ??emmm,能不能再考下理論題,天天做應(yīng)用題也不知道是不是模型基礎(chǔ)沒打好
  • ??測試出的結(jié)果要魯棒,真實(shí)反映模型能力
  • ??不想收集一大堆數(shù)據(jù)集,最好上面的內(nèi)容能一次測試完(-v-)
  • .....

這要求都能滿足嗎?還真能!

在最新的 ACL2024 中,由上海人工智能實(shí)驗(yàn)室聯(lián)合香港中文大學(xué),北京航空航天大學(xué)和南京大學(xué)提出的 MathBench 打破了大模型數(shù)學(xué)評(píng)測不透明的現(xiàn)狀,且已經(jīng)被 ACL2024 Findings 接收。

GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了?來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪!-AI.x社區(qū)

MathBench 結(jié)構(gòu)及特點(diǎn)

正如本文開頭所描述的,傳統(tǒng)評(píng)估 LLMs 數(shù)學(xué)能力的基準(zhǔn)存在一些局限性,如單一視角的解決問題能力評(píng)估和缺乏全面的學(xué)段分級(jí)。MathBench 彌補(bǔ)了這些不足,提供了嚴(yán)格的數(shù)學(xué)能力評(píng)估新基準(zhǔn)。

GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了?來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪!-AI.x社區(qū)

MathBench 整體結(jié)構(gòu)示意

相比傳統(tǒng)的數(shù)學(xué)評(píng)測集,MathBench 有以下特點(diǎn):

  1. 多維度的知識(shí)框架:MathBench 配有一個(gè)多層次知識(shí)體系,具有從基礎(chǔ)計(jì)算,小學(xué)到大學(xué)的 5 階段的豐富題目,每階段都配有相應(yīng)的3層細(xì)粒度知識(shí)點(diǎn),一次評(píng)測即能從廣度和深度兩個(gè)維度上掌握模型能力,不留遺憾。
  2. 理論與應(yīng)用兼顧:“基礎(chǔ)不牢,地動(dòng)山搖”。MathBench 分為MathBench-A(應(yīng)用能力)MathBench-T(理論能力)兩個(gè)子集,不僅包含實(shí)際應(yīng)用問題,還包含相關(guān)領(lǐng)域?qū)<揖氖占幕A(chǔ)數(shù)學(xué)概念和推論題。
  3. 雙語支持:對于上述的所有知識(shí)層次,以及理論應(yīng)用題,MathBench 都提供中英文題目,且中英題目根據(jù)語境學(xué)習(xí)現(xiàn)狀獨(dú)立收集,拒絕機(jī)翻,以保證評(píng)測結(jié)果的合理性。
  4. 魯棒評(píng)測:針對數(shù)學(xué)評(píng)測難以抽取答案的現(xiàn)狀,MathBench 中的大部分題目為經(jīng)過專家標(biāo)注的選擇題,保證了選項(xiàng)合理且有一定的干擾度,并且采用循環(huán)評(píng)測(CircularEval)作為基礎(chǔ)評(píng)測方式,模型需要多次答對打亂選項(xiàng)順序的同一題目才認(rèn)為該題目被模型所掌握。
  5. 來源可靠:MathBench 中約 80% 題目為新收集的題目,來源大部分為專業(yè)考試,如高考、中考等,且經(jīng)過專門校驗(yàn)。

GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了?來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪!-AI.x社區(qū)

MathBench的5階段3層知識(shí)點(diǎn)結(jié)構(gòu)

(小學(xué)與基礎(chǔ)運(yùn)算因有相同知識(shí)點(diǎn)體系而合并)

各大模型在 MathBench 上的表現(xiàn)

下面就讓我們看一下在 MathBench 作為數(shù)學(xué)能力照妖鏡下各模型的表現(xiàn)吧:

總體結(jié)果,GPT-4o 優(yōu)勢明顯,國產(chǎn)模型緊隨其后

GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了?來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪!-AI.x社區(qū)

MathBench理論與應(yīng)用分級(jí)測評(píng)結(jié)果

(A代表應(yīng)用題結(jié)果,T代表理論題目)

在應(yīng)用題上:

  • GPT-4o領(lǐng)先較大,在高學(xué)段尤為明顯
    部分國產(chǎn)模型,如 Qwen-Max-0428 和 DeepSeek-V2-API 都已經(jīng)有著超越 GPT4-0125-Preview 的表現(xiàn),但離最新版的 GPT-4o 仍有不小差距。通過 MathBench 的多階段細(xì)分結(jié)果可以發(fā)現(xiàn),差距在較高學(xué)段,如高中和大學(xué)的題目上尤為明顯。如 GPT-4o 在大學(xué)階段的應(yīng)用題目上雖然只有 54.0的CircularEval 分?jǐn)?shù),但相對 Qwen-Max-0428 已經(jīng)有著接近翻倍的表現(xiàn)。
  • 部分開源模型實(shí)力強(qiáng)勁
    如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有著超過 GPT3.5-Turbo-0125,接近 GPT4-0125-Preview 的表現(xiàn)。DeepSeek-Math-7B-RL 作為 7B 量級(jí)的開源數(shù)學(xué)模型表現(xiàn)亮眼,在應(yīng)用題目上甚至超過了 Qwen-72B-Chat。

在理論題上:

  • GPT-4o 各學(xué)段全面領(lǐng)先,展現(xiàn)扎實(shí)的基本數(shù)學(xué)功
    作為基本數(shù)學(xué)理論能力的展現(xiàn),MathBench-T 中不僅考察模型基本數(shù)學(xué)知識(shí),還加入常用的推論,以及精心設(shè)計(jì)的干擾項(xiàng)來迷惑模型,所以模型難以通過簡單背誦來得到高分。GPT-4o 在此階段全面領(lǐng)先各 API 模型,拿下應(yīng)用理論雙第一名??,證明了其不僅基礎(chǔ)扎實(shí),且會(huì)熟練運(yùn)用。
  • 理解理論并不代表能夠熟練應(yīng)用
    如 Qwen-1.5-110B-Chat 雖與 GPT-4o 在理論階段有著相似的分?jǐn)?shù),但在應(yīng)用階段兩者差距較大,可能因?yàn)樵谳^高階段的數(shù)學(xué)知識(shí)上,運(yùn)用要比理論需要更多的技巧,比如在高中和大學(xué)階段,兩者的應(yīng)用分?jǐn)?shù)差距越來越大,而理論上卻沒有相似的明顯差距。

模型整體分?jǐn)?shù)趨勢

下面是應(yīng)用階段的多個(gè)模型平均分?jǐn)?shù)的整體趨勢。

可以發(fā)現(xiàn),在基礎(chǔ)運(yùn)算(Arithmetic)階段和小學(xué)數(shù)學(xué)(Primary)階段有著類似的難度,而從初中起,隨著學(xué)段的增加,模型的平均表現(xiàn)下降明顯:

GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了?來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪!-AI.x社區(qū)

MathBench 應(yīng)用題在各學(xué)段上的平均模型結(jié)果,呈現(xiàn)自然梯度趨勢

中英文雙語言結(jié)果對比

下面是眾多大語言模型在 MathBench 上的中英雙語言結(jié)果對比,按語言平均分從從小到大排序。

其中某些模型有著較為明顯的語言 Gap,如 MammoTH-13B,MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明顯偏向于英文,而 GPT-4o 和 GPT-4-0125-Preview 在中英數(shù)學(xué)上有著相近的表現(xiàn)。

GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了?來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪!-AI.x社區(qū)

值得注意的是,為了 MathBench 的中英成績能代表該語言環(huán)境下的真實(shí)成績,在收集過程中并沒有將題目相互翻譯,所以在對比中僅供參考,因?yàn)轭}目不是中英文一一對應(yīng)的關(guān)系。

標(biāo)簽
已于2024-5-23 15:17:19修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦