真相了!大模型解數(shù)學(xué)題和人類真不一樣:死記硬背、知識欠缺明顯,GPT-4o表現(xiàn)最佳
本文作者來自北京郵電大學(xué)、騰訊微信、華中科技大學(xué)、北京理工大學(xué)。作者列表:喬潤祺,譚秋納,董冠霆,伍敏慧,孫沖,宋曉帥,公卻卓瑪,雷尚霖,衛(wèi)喆,張淼萱,喬潤楓,張一凡,縱曉,徐一達(dá),刁沐熙,包志敏,李琛,張洪剛。其中,共同第一作者喬潤祺是北京郵電大學(xué)博士生,譚秋納是北京郵電大學(xué)碩士生,通訊作者是北京郵電大學(xué)張洪剛副教授,該文章為喬潤祺在微信實(shí)習(xí)期間完成。
隨著人工智能技術(shù)的快速發(fā)展,能夠處理多種模態(tài)信息的多模態(tài)大模型(LMMs)逐漸成為研究的熱點(diǎn)。通過整合不同模態(tài)的信息,LMMs 展現(xiàn)出一定的推理和理解能力,在諸如視覺問答、圖像生成、跨模態(tài)檢索等任務(wù)中表現(xiàn)出色。這種多模態(tài)能力使得 LMMs 在各類復(fù)雜場景中的應(yīng)用潛力巨大,而為了嚴(yán)謹(jǐn)科學(xué)地檢驗(yàn) AI 是否具備較強(qiáng)的推理能力,數(shù)學(xué)問答已成為衡量模型推理能力的重要基準(zhǔn)。
回顧 AI 的發(fā)展歷程,我們發(fā)現(xiàn)人類的認(rèn)知和思考問題的方式對 AI 的發(fā)展產(chǎn)生了深遠(yuǎn)的影響。諸如神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等突破均與人類的思維模式息息相關(guān)。想象一下,人類在解答一個(gè)數(shù)學(xué)問題時(shí),首先需要熟知題目所考察的知識點(diǎn),而后利用相關(guān)知識進(jìn)行逐步推理從而得出答案。但模型在作答時(shí),其推理過程是否與人類一致呢?
聚焦于數(shù)學(xué)問題,我們發(fā)現(xiàn)模型可以回答出復(fù)雜問題,但在一些簡單問題面前卻捉襟見肘。為探究這一現(xiàn)象的原因,受人類解題思維模式的啟發(fā),我們首先對先掌握知識點(diǎn),再運(yùn)用其進(jìn)行邏輯推理的解題過程建模如下:
其中 (X, Y) 和 (x_i, y_i) 分別表示數(shù)學(xué)問題和每個(gè)子問題中的問題與答案,P_reason 代表 LMMs 的綜合運(yùn)用能力 (知識泛化)?;诖耍琖e-Math 首先基于 67 個(gè)原子知識點(diǎn)構(gòu)建了一個(gè)多層級樹狀知識體系,緊接著以原子知識及推理答案為依據(jù),通過將多知識點(diǎn)的復(fù)雜問題拆解為多個(gè)原子知識點(diǎn)對應(yīng)的子問題來探究模型的作答機(jī)制。
- 題目:WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
- 論文:https://arxiv.org/pdf/2407.01284
- 主頁:https://we-math.github.io/
- 代碼:https://github.com/We-Math/We-Math
- 數(shù)據(jù)集:https://huggingface.co/datasets/We-Math/We-Math
目前 We-Math 在當(dāng)日的 HuggingFace Daily Paper 中排名第一,并在推特上的瀏覽量達(dá)到 10K+!
We-Math Benchmark
1. 數(shù)據(jù)構(gòu)成
We-Math 測評數(shù)據(jù)集共包含 6.5k 個(gè)多模態(tài)小學(xué)數(shù)學(xué)問題和一個(gè)多層級知識架構(gòu),每一個(gè)數(shù)學(xué)問題均有對應(yīng)的知識點(diǎn)(1-3 個(gè))。其中所有問題的知識點(diǎn)均被 5 層 99 個(gè)節(jié)點(diǎn)(最后一層包含 67 個(gè)知識點(diǎn))的知識架構(gòu)所涵蓋。并且如下圖所示,為了緩解模型在解決問題過程中固有的問題,我們參考教材與維基百科,啟發(fā)式的引入了 67 個(gè)知識點(diǎn)的描述,從而為 LMMs 的推理過程提供必要的知識提示。
2. 題目拆解
為了合理的評估模型的作答機(jī)制,我們嚴(yán)格以人類作答的標(biāo)準(zhǔn)答案為依據(jù),按照復(fù)雜問題所包含的知識點(diǎn),將其拆解成了 n 個(gè)子問題,其中 n 表示復(fù)雜問題包含的知識點(diǎn)數(shù)量。
如下圖所示,對于一道復(fù)雜問題:Mary 從一個(gè)圓形花壇的最北端點(diǎn)沿花壇邊緣走到最東端點(diǎn),走過的距離是 50.24 米,求解圓形花壇的面積。在解題過程中,首先需要根據(jù) “東南西北方向” 知識點(diǎn),通過 “最北” 和 “最東” 兩個(gè)方向的條件,求得 Mary 走過路徑所對應(yīng)的圓心角大?。ā白畋薄?和 “最東” 的夾角為 90 度)。接著,根據(jù) “圓的周長” 知識點(diǎn),通過圓心角的大小為 90 度和 Mary 走過的路徑長度的條件,計(jì)算出圓形花壇的周長,并求得圓形花壇的半徑。最后,根據(jù) “圓的面積” 知識點(diǎn),通過求得的半徑的條件,計(jì)算出圓形花壇的面積,至此完成題目的求解。
分析上述解題過程,為了探究模型的答題機(jī)制以及模型的細(xì)粒度推理表現(xiàn),可以將原題按照其對應(yīng)的知識點(diǎn)拆解成三個(gè)子問題,具體而言,第一問:Mary 從一個(gè)圓形花壇的最北端點(diǎn)沿花壇邊緣走到最東端點(diǎn),求她走過路徑的圓弧所對應(yīng)的圓心角的度數(shù);第二問:圓形花壇中,90 度圓心角所對應(yīng)的圓弧弧長為 59.24m,求解圓形花壇的半徑;第三問:求半徑為 32m 的圓形花壇的面積。
3. 度量標(biāo)準(zhǔn)
在此基礎(chǔ)上,如下圖所示,我們引入一種新的四維度量標(biāo)準(zhǔn),即知識掌握不足 (IK)、泛化能力不足 (IG)、完全掌握 (CM) 和死記硬背 (RM)。
- 知識掌握不足 (IK): 模型無法作答出復(fù)雜問題,并在子問題中出現(xiàn)錯誤,我們推測模型無法作答出復(fù)雜問題的原因是因?yàn)閷χR點(diǎn)掌握不足所導(dǎo)致的。
- 泛化能力不足 (IG): 模型無法作答出復(fù)雜問題,但是所有的子問題中均回答正確,我們推測模型無法作答出復(fù)雜問題的原因是因?yàn)槿鄙倬C合運(yùn)用能力(泛化能力)。
- 完全掌握 (CM): 模型可以作答出復(fù)雜問題,并且可以作答出所有的子問題,這種現(xiàn)象是合理且被期望得到的。
- 死記硬背 (RM): 模型可以作答出復(fù)雜問題,但在子問題中出現(xiàn)錯誤,這與人類的邏輯思維相悖,如果一個(gè)模型可以解決復(fù)雜的多步問題,但無法作答出解答過程中所需的單步問題,我們認(rèn)為這種情況是不合理的,考慮模型存在機(jī)械記憶的情況。
其中 IK、IG、CM 之間存在 IK<IG<CM 的層次關(guān)系,即模型需要先掌握知識,才可以討論綜合運(yùn)用的能力,而 RM 我們認(rèn)為是一種不合理的現(xiàn)象。此外,考慮到模型的不穩(wěn)定性,當(dāng)前判定結(jié)果是否屬于 RM 的標(biāo)準(zhǔn)較為嚴(yán)格。因此,我們提出了一種更靈活的寬松標(biāo)準(zhǔn)。如上圖所示,在包含兩個(gè)知識點(diǎn)的問題中,TFT 和 FTT 情況根據(jù)寬松標(biāo)準(zhǔn)(Loose Metric)被視為 CM(而非 RM)。我們在文章的附錄中同樣討論了四維度指標(biāo)在三步問題中的情況。因此,結(jié)合上述情況我們最終提出了一個(gè)綜合打分度量標(biāo)準(zhǔn),以此評估 LMM 推理過程中的固有問題。
實(shí)驗(yàn)與結(jié)論
We-Math 目前在 17 個(gè)大模型中完成了評測,共包含 4 個(gè)閉源模型與 13 個(gè)開源模型。其中表 1 與圖 6 展示了 LMMs 在不同知識點(diǎn)數(shù)量下的結(jié)果與模型在第二層級知識點(diǎn)下的表現(xiàn);表 2 與圖 7、圖 8、圖 9 展示了 LMMs 在四維指標(biāo)下的結(jié)果以及在嚴(yán)格和寬松標(biāo)準(zhǔn)下的綜合打分結(jié)果;圖 10 展示了 KCA 策略對模型在 IK 問題中的緩解結(jié)果。
LMMs 在不同知識點(diǎn)數(shù)量下的表現(xiàn)及其在第二層級知識點(diǎn)下的表現(xiàn)
- 模型作答情況與題目所包含的知識點(diǎn)數(shù)量呈現(xiàn)較明顯的負(fù)相關(guān)關(guān)系,即題目包含的知識點(diǎn)越多,模型作答情況越不理想。我們也提議可以通過題目包含的知識點(diǎn)數(shù)量對題目的難易度進(jìn)行建模。
- 模型在與計(jì)算相關(guān)的知識點(diǎn)下表現(xiàn)較好,在細(xì)粒度視覺問題上表現(xiàn)欠佳。也進(jìn)一步表明 LMMs 在應(yīng)用公式上較為擅長,但在理解和綜合應(yīng)用知識方面仍有局限。
- GPT-4o 表現(xiàn)最佳,在包含不同知識點(diǎn)數(shù)量的題目中均保持領(lǐng)先,并在不同的知識點(diǎn)下基本保持領(lǐng)先。
- LMMs 展現(xiàn)了一定的參數(shù)壓縮潛力。在不同的 LMMs 中,LLaVA-NeXT-110B 的表現(xiàn)最接近 GPT-4。而令人驚喜的是,盡管參數(shù)規(guī)模較小,InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 等模型的表現(xiàn)也展現(xiàn)出了較好的表現(xiàn)。
LMMs 在四維指標(biāo)下的表現(xiàn)及其在嚴(yán)格和寬松標(biāo)準(zhǔn)下的綜合評分結(jié)果
- 多數(shù)模型存在 “知識掌握不足” 和 “死記硬背” 的問題,尤其是在較小的模型中更加明顯。并且,“知識掌握不足” 仍是大多數(shù)模型的主要問題。
- GPT-4o 在 “死記硬背” 的衡量維度上大幅領(lǐng)先于其他模型,進(jìn)一步說明 GPT-4o 更貼近于人類的解題方式,其所呈現(xiàn)的結(jié)果更加可靠,意味著模型真正的學(xué)到了知識,而不是 “死記硬背”。
- GPT-4o 在 “知識掌握不足” 這個(gè)衡量維度上大幅領(lǐng)先于其他模型,已經(jīng)逐漸邁向下一階段,需要進(jìn)一步提升 “知識泛化能力”。
LMMs 在 KCA 策略下的表現(xiàn)
- 模型在 KCA 策略下整體表現(xiàn)有所提升。如上圖所示,不同參數(shù)規(guī)模的 LMMs 在引入 KCA 策略后,在嚴(yán)格和寬松指標(biāo)上均表現(xiàn)出一致的性能提升。
- KCA 策略顯著緩解了 IK 問題,但對 IG 問題的改善并不明顯。這與人類直覺一致,因?yàn)橹R描述主要解決的是推理知識的缺口。然而,要解決 IG 問題,需要全面提升 LMMs 的知識泛化能力,這也為未來研究指明了方向。
總結(jié)
在本文中,我們提出了 WE-MATH,一個(gè)用于細(xì)粒度評測 LMMs 在視覺數(shù)學(xué)推理任務(wù)中作答機(jī)制的綜合基準(zhǔn)。WE-MATH 共包含 6.5k 個(gè)視覺數(shù)學(xué)問題,涵蓋 5 層 67 個(gè)知識點(diǎn)的多級知識架構(gòu)。我們開創(chuàng)性地根據(jù)題目所需的知識點(diǎn)將其拆解為多個(gè)子問題,并引入了一種新的四維度指標(biāo)用于細(xì)粒度的推理評估。通過 WE-MATH,我們對現(xiàn)有的 LMMs 在視覺數(shù)學(xué)推理中的表現(xiàn)進(jìn)行了全面評估,并揭示了模型作答情況與題目所包含的知識點(diǎn)數(shù)量呈現(xiàn)較明顯的負(fù)相關(guān)關(guān)系。
此外,我們發(fā)現(xiàn)多數(shù)模型存在死記硬背的問題 (RM),并且知識掌握不足(IK)是 LMMs 最大的缺陷。然而,GPT-4o 的主要挑戰(zhàn)已從 IK 逐漸轉(zhuǎn)向 IG,這表明它是第一個(gè)邁向下一個(gè)階段的模型。最后,我們對 KCA 策略和錯誤案例的分析進(jìn)一步啟發(fā)性地引導(dǎo)現(xiàn)有的 LMMs 向人類般的視覺數(shù)學(xué)推理發(fā)展。