今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評(píng)價(jià)基準(zhǔn)FineMath
引言:大語(yǔ)言模型數(shù)學(xué)能力評(píng)估的重要性
數(shù)學(xué)能力的評(píng)估對(duì)于理解和發(fā)展大語(yǔ)言模型(LLMs)至關(guān)重要。數(shù)學(xué)問(wèn)題不僅涉及對(duì)數(shù)字的理解和操作,還包括了抽象概念化、邏輯推理等核心能力的考察。因此,一個(gè)高質(zhì)量的數(shù)學(xué)評(píng)估基準(zhǔn)對(duì)于全面評(píng)估LLMs的能力具有重大意義。
傳統(tǒng)的數(shù)學(xué)問(wèn)題數(shù)據(jù)集,如AddSub和MultiArith(下圖),提供了基礎(chǔ)的數(shù)學(xué)詞匯問(wèn)題庫(kù),但這些通常只能評(píng)估模型在特定數(shù)學(xué)問(wèn)題上的準(zhǔn)確性。隨著中文LLMs的迅速發(fā)展,相應(yīng)的中文數(shù)學(xué)評(píng)估數(shù)據(jù)集也應(yīng)運(yùn)而生。然而,簡(jiǎn)單的準(zhǔn)確率評(píng)估并不能充分揭示模型掌握了哪些數(shù)學(xué)概念或技能。因此,迫切需要一個(gè)更全面的測(cè)試集,能夠細(xì)致地評(píng)估LLMs在不同難度級(jí)別的數(shù)學(xué)問(wèn)題上的推理能力。
▲FineMath能夠從三個(gè)方面評(píng)估LLMs的數(shù)學(xué)能力:理解抽象數(shù)學(xué)概念的準(zhǔn)確性、推理的準(zhǔn)確性以及整體的準(zhǔn)確性。
為了解決這一問(wèn)題,我們提出了FineMath,這是一個(gè)針對(duì)中文LLMs的細(xì)粒度數(shù)學(xué)評(píng)估基準(zhǔn)數(shù)據(jù)集(參見(jiàn)上圖)。該數(shù)據(jù)集包含小學(xué)數(shù)學(xué)的核心概念,分為17類數(shù)學(xué)詞匯問(wèn)題,用以深入分析LLMs的數(shù)學(xué)推理能力。所有數(shù)學(xué)詞匯問(wèn)題均經(jīng)手工標(biāo)注,按解決難度(推理步驟數(shù))分級(jí)。通過(guò)在FineMath上對(duì)多個(gè)LLMs進(jìn)行實(shí)驗(yàn),我們發(fā)現(xiàn)中文LLMs在數(shù)學(xué)推理上還有進(jìn)步空間。我們還深入分析了評(píng)估過(guò)程和方法,發(fā)現(xiàn)它們對(duì)模型結(jié)果和理解其數(shù)學(xué)推理能力有重大影響。FineMath數(shù)據(jù)集即將公開(kāi)。
論文標(biāo)題:
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models
論文鏈接:
???https://arxiv.org/pdf/2403.07747.pdf??
FineMath基準(zhǔn)的構(gòu)建與目標(biāo):細(xì)粒度評(píng)估中文LLMs的數(shù)學(xué)推理能力
1. 數(shù)據(jù)集概述與關(guān)鍵數(shù)學(xué)概念的覆蓋
FineMath基準(zhǔn)旨在全面評(píng)估中文LLMs的數(shù)學(xué)推理能力。該基準(zhǔn)涵蓋了小學(xué)數(shù)學(xué)中的主要關(guān)鍵數(shù)學(xué)概念,并進(jìn)一步細(xì)分為17類數(shù)學(xué)應(yīng)用題(Math Word Problems, MWPs),使得能夠深入分析LLMs的數(shù)學(xué)推理能力。這些關(guān)鍵概念和技能包括數(shù)字與運(yùn)算、代數(shù)、幾何、測(cè)量、數(shù)據(jù)分析與概率、問(wèn)題解決和推理等。
2. 17個(gè)數(shù)學(xué)問(wèn)題類別的詳細(xì)介紹
FineMath包含17種類型的MWPs(見(jiàn)下表),這些類型基于中國(guó)教育部制定的數(shù)學(xué)課程標(biāo)準(zhǔn)以及美國(guó)國(guó)家數(shù)學(xué)教師委員會(huì)(NCTM)設(shè)定的原則和標(biāo)準(zhǔn)。這些類別包括百分比、小數(shù)、分?jǐn)?shù)、因數(shù)與倍數(shù)、計(jì)數(shù)、比例和混合運(yùn)算等。每種類型的MWPs都包含三個(gè)難度級(jí)別,以促進(jìn)詳細(xì)的推理能力分析。
3. 難度分級(jí)與推理步驟的標(biāo)注
FineMath中的每個(gè)數(shù)學(xué)問(wèn)題都根據(jù)解決問(wèn)題所需的推理步驟數(shù)量手動(dòng)注釋難度級(jí)別。問(wèn)題被分為三個(gè)難度級(jí)別:一步推理的問(wèn)題為一級(jí)難度,兩步推理的問(wèn)題為二級(jí)難度,三步或更多步推理的問(wèn)題為三級(jí)難度。這種分類不僅反映了問(wèn)題的難度,還代表了推理過(guò)程。
數(shù)據(jù)收集與注釋過(guò)程
1. MWP分類與問(wèn)題標(biāo)準(zhǔn)化
在數(shù)據(jù)收集過(guò)程中,我們將收集到的問(wèn)題分類為17種類型,每種類型對(duì)應(yīng)一個(gè)關(guān)鍵或基本概念。我們將多個(gè)查詢的問(wèn)題標(biāo)準(zhǔn)化,確保每個(gè)問(wèn)題只包含一個(gè)查詢,并重新表述模糊查詢,以便模型能夠生成唯一的答案。
2. 數(shù)學(xué)推理與答案標(biāo)準(zhǔn)化
我們手動(dòng)進(jìn)行MWPs的回答過(guò)程,并由人工雙重檢查真實(shí)答案。我們要求注釋者提供回答每個(gè)MWP的步驟,每個(gè)步驟應(yīng)該是原子的、不可分割的。對(duì)于使用固定解決公式的計(jì)算,例如計(jì)算圓的面積,我們將其視為單步MWPs。
3. 多項(xiàng)選擇題的轉(zhuǎn)換
為了便于自動(dòng)評(píng)估,我們還將原始的MWPs轉(zhuǎn)換為多項(xiàng)選擇題形式,手動(dòng)提供額外的對(duì)比答案選項(xiàng),類似于AQUA數(shù)據(jù)集。
FineMath數(shù)據(jù)統(tǒng)計(jì)與分析
1. 數(shù)據(jù)集的整體統(tǒng)計(jì)信息
FineMath數(shù)據(jù)集旨在評(píng)估中文LLMs的數(shù)學(xué)推理能力,涵蓋了小學(xué)數(shù)學(xué)中的主要概念,并進(jìn)一步細(xì)分為17類數(shù)學(xué)應(yīng)用題。這些類別的題目都經(jīng)過(guò)手動(dòng)注釋,根據(jù)解決問(wèn)題所需的推理步驟數(shù)量來(lái)標(biāo)注難度等級(jí)。數(shù)據(jù)集包含1584個(gè)問(wèn)題,每個(gè)數(shù)學(xué)概念至少包含60個(gè)問(wèn)題,每個(gè)難度等級(jí)至少包含20個(gè)問(wèn)題。FineMath的數(shù)據(jù)統(tǒng)計(jì)顯示,所有問(wèn)題被分為五個(gè)主要數(shù)學(xué)概念和兩種經(jīng)典類型的數(shù)學(xué)應(yīng)用題,確保了數(shù)據(jù)集的多樣性和全面性。
2. 數(shù)據(jù)集污染分析及其對(duì)模型性能的影響
FineMath數(shù)據(jù)集的一個(gè)關(guān)鍵考量是測(cè)試數(shù)據(jù)污染問(wèn)題,即測(cè)試數(shù)據(jù)可能無(wú)意中被包含在模型的訓(xùn)練數(shù)據(jù)中。這種污染可能導(dǎo)致模型性能的高估,從而誤導(dǎo)我們對(duì)模型泛化能力的理解。為了評(píng)估污染情況,研究人員采用了與GPT-3相同的方法來(lái)計(jì)算FineMath與Ape210K(一個(gè)公開(kāi)的大規(guī)模中文數(shù)學(xué)應(yīng)用題數(shù)據(jù)集)之間的n-gram重疊情況(下圖)。通過(guò)這種方法,研究人員發(fā)現(xiàn)某些問(wèn)題類型的重疊率明顯高于其他類型,例如基礎(chǔ)幾何和比例問(wèn)題。
為了深入了解這些重疊示例對(duì)模型性能的影響,研究人員將測(cè)試示例分為兩個(gè)數(shù)據(jù)集:一個(gè)包含重疊示例的污染數(shù)據(jù)集和一個(gè)與Ape210k訓(xùn)練集沒(méi)有重疊的干凈數(shù)據(jù)集。在對(duì)比GPT-4和MathGLM-10B在這兩個(gè)數(shù)據(jù)集上的表現(xiàn)時(shí)(下表),發(fā)現(xiàn)MathGLM-10B在污染數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于干凈數(shù)據(jù)集。相比之下,GPT-4在兩個(gè)數(shù)據(jù)集上的表現(xiàn)相當(dāng)。這表明MathGLM-10B可能對(duì)重疊示例過(guò)擬合,而污染確實(shí)可以提高模型的性能。因此,為了確保模型之間的公平比較,并從FineMath基準(zhǔn)測(cè)試中得出準(zhǔn)確的結(jié)論,建議過(guò)濾掉訓(xùn)練集和FineMath基準(zhǔn)測(cè)試之間的重疊示例。
實(shí)驗(yàn)設(shè)計(jì)與評(píng)估的LLMs
1. 評(píng)估的LLMs類別與特點(diǎn)
在FineMath上進(jìn)行的實(shí)驗(yàn)評(píng)估了多種LLMs,包括OpenAI開(kāi)發(fā)的GPT-4和GPT-3.5-Turbo,以及專門(mén)為中文開(kāi)發(fā)的LLMs和使用中文數(shù)學(xué)數(shù)據(jù)微調(diào)的LLMs。這些模型的參數(shù)范圍從數(shù)十億到數(shù)千億不等,訓(xùn)練數(shù)據(jù)量從數(shù)十億到數(shù)萬(wàn)億不等(下表),這些因素都對(duì)模型的問(wèn)題解決和推理能力至關(guān)重要。
2. 實(shí)驗(yàn)中使用的提示(Prompts)
實(shí)驗(yàn)在零樣本設(shè)置下進(jìn)行,研究人員嘗試了多種提示來(lái)進(jìn)行評(píng)估和分析。這些提示包括不提供任何額外信息,只輸入問(wèn)題到模型中;不解釋原因,只提供問(wèn)題答案;以及提供問(wèn)題答案并解釋原因等(下表)。
3. 主要結(jié)果與不同類別的表現(xiàn)分析
在17個(gè)數(shù)學(xué)應(yīng)用題類別中,GPT-4在所有模型中表現(xiàn)最佳(下圖),其準(zhǔn)確率在不同類別中的表現(xiàn)差異顯著(下表)。例如,在“混合運(yùn)算”類別中,GPT-4的準(zhǔn)確率最高,達(dá)到89%,而在“計(jì)數(shù)”類別中,準(zhǔn)確率最低,為38%。GPT-4在概率和解析幾何類別中的表現(xiàn)超過(guò)其他所有模型,提高了超過(guò)25%。GPT-3.5-Turbo在不同的數(shù)學(xué)應(yīng)用題類別中的表現(xiàn)與GPT-4相似,但在概率、基礎(chǔ)幾何和解析幾何上有超過(guò)20%的顯著差異。
在數(shù)學(xué)推理步驟數(shù)量方面,LLMs的表現(xiàn)隨著推理步驟的增加而降低(下圖)。GPT-4在所有難度級(jí)別上保持了超過(guò)60%的準(zhǔn)確率,對(duì)于只需要一個(gè)推理步驟的數(shù)學(xué)應(yīng)用題,其準(zhǔn)確率高達(dá)82%。而GPT-3.5-Turbo的準(zhǔn)確率平均比GPT-4低10%。其他模型在不同的數(shù)學(xué)應(yīng)用題類別和推理步驟數(shù)量上的表現(xiàn)也有所不同,顯示出模型在數(shù)學(xué)推理能力上的差異。
分析:評(píng)估過(guò)程中的關(guān)鍵因素
1. 提示(Prompts)對(duì)模型準(zhǔn)確性的影響
在評(píng)估過(guò)程中,提示(Prompts)的使用對(duì)模型產(chǎn)生的答案準(zhǔn)確性有顯著影響。例如,GPT-4在不同提示下的整體準(zhǔn)確率分別為73%,59%,和58%(下表),這表明即使是簡(jiǎn)單的提示變化也可能導(dǎo)致模型性能的顯著差異。
提示如“Answer:”可能會(huì)促使模型跳過(guò)推理過(guò)程,直接輸出答案,從而增加了生成錯(cuò)誤答案的可能性。下表是示例。
2. 生成式評(píng)估與選擇題評(píng)估方法的比較
在初步實(shí)驗(yàn)中發(fā)現(xiàn),一些新開(kāi)發(fā)的LLMs不總是遵循指令,經(jīng)常生成與答案無(wú)關(guān)的大量文本。因此,將數(shù)據(jù)轉(zhuǎn)換為選擇題形式,模型可以從中選擇正確的答案。通過(guò)比較(下表),我們發(fā)現(xiàn)生成式評(píng)估與選擇題評(píng)估方法在準(zhǔn)確性上存在顯著差異,差距可能超過(guò)10%。值得注意的是,將任務(wù)結(jié)構(gòu)化為選擇題形式似乎降低了高性能模型的準(zhǔn)確性,同時(shí)提高了性能較差模型的準(zhǔn)確性。選擇題選項(xiàng)本身可能作為一種提示,影響模型的性能。
3. 模型響應(yīng)長(zhǎng)度與“信心”的關(guān)聯(lián)
對(duì)模型生成的響應(yīng)長(zhǎng)度進(jìn)行統(tǒng)計(jì)分析時(shí),發(fā)現(xiàn)兩個(gè)現(xiàn)象(下表)。首先,如GPT-4和GPT-3.5-Turbo這樣的模型傾向于生成緊密?chē)@問(wèn)題的響應(yīng),文本較短,這可能表明了高準(zhǔn)確性模型的特點(diǎn)。其次,數(shù)學(xué)問(wèn)題需要的推理步驟越多,模型生成的響應(yīng)往往越長(zhǎng)。我們推測(cè),模型在回答問(wèn)題時(shí)的“信心”影響了其響應(yīng)的長(zhǎng)度。在某些情況下,即使在指示模型只提供答案而不解釋的情況下,模型仍會(huì)為難度較大的問(wèn)題生成邏輯推理。
結(jié)論與展望
FineMath作為一個(gè)細(xì)粒度的基準(zhǔn)測(cè)試集,為全面評(píng)估中文LLMs的數(shù)學(xué)能力提供了重要工具。通過(guò)對(duì)多個(gè)LLMs的評(píng)估,我們不僅關(guān)注模型的準(zhǔn)確性,還深入分析了評(píng)估過(guò)程和方法,揭示了這些經(jīng)常被忽視的因素對(duì)評(píng)估結(jié)果和我們對(duì)模型數(shù)學(xué)推理能力理解的顯著影響。
FineMath的貢獻(xiàn)在于它提供了一個(gè)綜合性的基準(zhǔn),覆蓋了中國(guó)小學(xué)數(shù)學(xué)的主要概念,并將數(shù)學(xué)問(wèn)題分為17個(gè)類別,使得對(duì)LLMs的數(shù)學(xué)推理能力進(jìn)行深入分析成為可能。此外,F(xiàn)ineMath的污染分析使研究人員能夠檢查訓(xùn)練數(shù)據(jù)是否影響評(píng)估結(jié)果,從而確保了評(píng)估的公平性和有效性。
未來(lái)的研究方向可以包括進(jìn)一步提高評(píng)估方法的公平性和有效性,例如通過(guò)更復(fù)雜的提示和任務(wù)形式來(lái)測(cè)試模型的推理和理解能力。此外,可以探索如何減少訓(xùn)練數(shù)據(jù)中的污染,以及如何提高模型在處理更復(fù)雜數(shù)學(xué)問(wèn)題時(shí)的性能。隨著LLMs的不斷進(jìn)步,F(xiàn)ineMath及其后續(xù)版本有望成為評(píng)估和提升中文LLMs數(shù)學(xué)推理能力的重要工具。
本文轉(zhuǎn)載自夕小瑤科技說(shuō),作者:Tscom
