LLMs并非智能思考者:引入數(shù)學(xué)主題樹(shù)基準(zhǔn)來(lái)全面評(píng)估LLMs 原創(chuàng) 精華
摘要:大型語(yǔ)言模型(LLMs)在數(shù)學(xué)推理方面展示了令人印象深刻的能力。然而,盡管取得了這些成就,當(dāng)前的評(píng)估主要限于特定的數(shù)學(xué)主題,尚不清楚LLMs是否真正參與了推理。為了解決這些問(wèn)題,我們提出了數(shù)學(xué)主題樹(shù)(MaTT)基準(zhǔn),一個(gè)具有挑戰(zhàn)性和結(jié)構(gòu)化的基準(zhǔn),涵蓋了廣泛的數(shù)學(xué)科目,提供了1958個(gè)問(wèn)題,每個(gè)問(wèn)題都配有詳細(xì)的分層主題鏈。在使用MaTT基準(zhǔn)評(píng)估不同的LLMs后,我們發(fā)現(xiàn)最先進(jìn)的模型GPT-4在多項(xiàng)選擇題中僅取得了54%的準(zhǔn)確率。有趣的是,即使使用“思維鏈提示”方法,我們也觀察到幾乎沒(méi)有顯著的改進(jìn)。此外,當(dāng)問(wèn)題不提供選擇時(shí),LLMs的準(zhǔn)確率顯著下降,最高減少了24.2個(gè)百分點(diǎn)。對(duì)LLMs在各個(gè)主題上的表現(xiàn)進(jìn)行詳細(xì)分析后發(fā)現(xiàn),即使在同一一般數(shù)學(xué)領(lǐng)域內(nèi),密切相關(guān)的子主題之間也存在顯著差異。為了找出LLMs表現(xiàn)背后的原因,我們對(duì)在提供選擇時(shí)由GPT-4生成的解釋的完整性和正確性進(jìn)行了人工評(píng)估。令人驚訝的是,我們發(fā)現(xiàn)僅在53.3%的情況下,模型提供的正確答案的解釋被認(rèn)為是完整和準(zhǔn)確的,即模型真正進(jìn)行了推理。
1.引言
大型語(yǔ)言模型(LLMs)在數(shù)學(xué)推理方面表現(xiàn)出令人矚目的能力,凸顯了它們?cè)趶?fù)雜問(wèn)題解決領(lǐng)域的潛力(Chowdhery et al., 2022;Touvron et al., 2023;OpenAI, 2023;Team et al., 2023)。最近的研究表明,LLMs在應(yīng)用于數(shù)學(xué)問(wèn)題時(shí),可以展示出高度的推理能力,往往在某些情況下與人類(lèi)水平相當(dāng)甚至超越人類(lèi)。這種數(shù)學(xué)推理能力通過(guò)一些創(chuàng)新技術(shù)如思維鏈(Wei et al., 2022)、思維樹(shù)(Yao et al., 2024)和自我驗(yàn)證(Weng et al., 2022)得到了進(jìn)一步增強(qiáng),強(qiáng)調(diào)了在解決數(shù)學(xué)問(wèn)題過(guò)程中程序步驟的重要性。
盡管有這些進(jìn)步,我們對(duì)LLMs數(shù)學(xué)推理能力的理解仍存在幾個(gè)關(guān)鍵的空白。首先,尚不清楚LLMs在哪些特定的數(shù)學(xué)領(lǐng)域表現(xiàn)出色或不足,因?yàn)槿狈缍鄻訑?shù)學(xué)領(lǐng)域的全面評(píng)估。其次,區(qū)分LLMs依賴(lài)記憶與真正推理的實(shí)例具有挑戰(zhàn)性,令人質(zhì)疑它們理解的深度。第三,對(duì)多項(xiàng)選擇格式對(duì)LLMs行為的影響尚未充分了解,這表明模型的表現(xiàn)可能受到所提出問(wèn)題結(jié)構(gòu)的影響。這些空白強(qiáng)調(diào)了需要一個(gè)更為健全的基準(zhǔn),能夠全面評(píng)估LLMs,幫助我們解析它們的優(yōu)點(diǎn)、缺點(diǎn)及其解決問(wèn)題策略的細(xì)微差別。
在本文中,我們通過(guò)最初利用維基百科的“數(shù)學(xué)主題列表”2識(shí)別數(shù)學(xué)中的關(guān)鍵領(lǐng)域,開(kāi)發(fā)了數(shù)學(xué)主題樹(shù)(MaTT)基準(zhǔn),涵蓋了純數(shù)學(xué)和應(yīng)用數(shù)學(xué)的十二個(gè)主要主題。接著從維基百科提取每個(gè)主題的重要參考書(shū)籍,構(gòu)建詳細(xì)的主題樹(shù)。然后,我們使用這些書(shū)籍的目錄進(jìn)一步完善基準(zhǔn),構(gòu)建反映數(shù)學(xué)知識(shí)層次結(jié)構(gòu)的綜合樹(shù)。在完成主題樹(shù)后,我們從這些書(shū)籍的子章節(jié)中提取問(wèn)題,并將它們收集在葉節(jié)點(diǎn)下。最后,我們?yōu)槊總€(gè)問(wèn)題配上多項(xiàng)選擇選項(xiàng),增強(qiáng)了基準(zhǔn)在評(píng)估數(shù)學(xué)理解方面的實(shí)用性。圖1展示了MaTT的示意圖。
開(kāi)發(fā)MaTT后,我們?cè)u(píng)估了各種LLMs的數(shù)學(xué)推理能力,包括商業(yè)模型如GPT-4(OpenAI, 2023)和ChatGPT(Kocón et al., 2023)(turbo版本),以及開(kāi)源的LLM,Mistral(Jiang et al., 2023)。值得注意的是,在多項(xiàng)選擇格式中,最先進(jìn)的GPT-4僅取得了54%的準(zhǔn)確率。此外,使用思維鏈提示并未顯著提高LLMs的表現(xiàn),這強(qiáng)調(diào)了基準(zhǔn)的復(fù)雜性,并表明單純的逐步推理可能不足。當(dāng)問(wèn)題不提供多項(xiàng)選擇選項(xiàng)時(shí),我們觀察到LLMs的準(zhǔn)確率顯著下降,最高下降了24.2個(gè)百分點(diǎn)。此外,我們對(duì)LLMs在不同主題上的表現(xiàn)進(jìn)行了全面分析,發(fā)現(xiàn)存在顯著差異,突顯了模型在解決同一數(shù)學(xué)領(lǐng)域內(nèi)相關(guān)子主題時(shí)能力的不一致性。
為了理解LLMs表現(xiàn)不足及其在不同主題上結(jié)果不一致的根本原因,我們對(duì)GPT-4提供的解釋進(jìn)行了詳細(xì)評(píng)估。令人驚訝的是,在模型回答正確的情況下,只有53.3%的解釋被認(rèn)為是完整的,即GPT-4進(jìn)行了真正的推理。這些情況通常與較簡(jiǎn)單或更為人熟知的問(wèn)題相關(guān),這些問(wèn)題只需要一些簡(jiǎn)單的步驟即可解決。對(duì)于需要更多步驟、復(fù)雜計(jì)算或創(chuàng)造性/智能解決問(wèn)題的更復(fù)雜問(wèn)題,LLMs往往失敗或依賴(lài)于替代策略。這些策略包括選擇工程、不支持的定理使用、循環(huán)推理或盲目記憶,而非真正的數(shù)學(xué)推理。
圖 1:數(shù)學(xué)主題樹(shù) (MaTT) 基準(zhǔn)的概述,這是一項(xiàng)具有挑戰(zhàn)性且結(jié)構(gòu)化的基準(zhǔn),提出了涵蓋各種數(shù)學(xué)科目問(wèn)題的基準(zhǔn),每個(gè)科目都與詳細(xì)的層次結(jié)構(gòu)主題相關(guān)。
2.MaTT:數(shù)學(xué)主題樹(shù)基準(zhǔn)
近年來(lái),大型語(yǔ)言模型(LLMs)在數(shù)學(xué)推理方面展示了顯著的能力。然而,由于當(dāng)前基準(zhǔn)測(cè)試通常集中在特定的數(shù)學(xué)領(lǐng)域,其能力尚未完全理解。這種局限性阻礙了我們對(duì)LLMs推理能力深度和廣度的理解。迫切需要更全面的數(shù)學(xué)基準(zhǔn)測(cè)試,涵蓋更廣泛的主題,并深入了解模型的推理過(guò)程。這類(lèi)基準(zhǔn)不僅可以在更廣泛的數(shù)學(xué)范圍內(nèi)挑戰(zhàn)模型,還可以幫助更好地理解這些模型如何以及在何處應(yīng)用推理。
為了解決這一差距,本文創(chuàng)建了數(shù)學(xué)主題樹(shù)(MaTT)基準(zhǔn)。為了創(chuàng)建MaTT,我們首先利用維基百科上的“數(shù)學(xué)主題列表”作為基礎(chǔ)資源。這一探索對(duì)于確定我們要涵蓋的數(shù)學(xué)知識(shí)范圍至關(guān)重要。從維基百科提取數(shù)學(xué)主題列表后,我們確定了十二個(gè)主要主題,這些主題全面涵蓋了純數(shù)學(xué)和應(yīng)用數(shù)學(xué)的廣度。然后,我們從相應(yīng)的維基百科頁(yè)面上提取了每個(gè)主題的一個(gè)或多個(gè)關(guān)鍵參考書(shū)籍。這些主題及其對(duì)應(yīng)的資源如下:純數(shù)學(xué)包括代數(shù)(Meyer, 2023;Herstein, 1991;McGee, 2002)、微積分與分析(Stewart, 2012)、數(shù)論(Niven et al., 1991)、組合數(shù)學(xué)(Bóna, 2002)、幾何與拓?fù)洌–oxeter, 1969;Coxeter and Greitzer, 1967;Engelking, 1989)和邏輯(Mendelson, 2009)。應(yīng)用數(shù)學(xué)包括博弈論(Osborne and Rubinstein, 1994)、概率(Tijms, 2012, 2017)、運(yùn)籌學(xué)(Hillier and Lieberman, 2015)、微分方程(Boyce et al., 2021)、統(tǒng)計(jì)學(xué)(Hogg et al., 2013)以及信息理論與信號(hào)處理(Cover, 1999;Proakis, 2007)。
接下來(lái),我們利用這些選定參考書(shū)籍的目錄來(lái)豐富和構(gòu)建MaTT主題樹(shù)。這種方法使我們能夠按照這些書(shū)籍中呈現(xiàn)的主題和子主題的層次結(jié)構(gòu)進(jìn)行映射,從而創(chuàng)建一個(gè)反映數(shù)學(xué)領(lǐng)域深度和互聯(lián)性的綜合圖。創(chuàng)建MaTT的最后一步是從參考書(shū)籍的各章節(jié)中詳細(xì)提取問(wèn)題,并將它們收集在主題樹(shù)的葉節(jié)點(diǎn)下。對(duì)于每個(gè)識(shí)別出的問(wèn)題,我們?cè)O(shè)計(jì)了多項(xiàng)選擇選項(xiàng),以便于客觀評(píng)估框架的建立。為了生成這些選項(xiàng),我們選擇了與實(shí)際答案非常接近的選擇,如具有相似數(shù)值的選項(xiàng)、通過(guò)省略證明中的某一步得到的選項(xiàng),或提供替代組合的選項(xiàng)。例如,如果正確答案是“A & B”,我們會(huì)將“A or B”作為可能的選擇之一。圖1展示了MaTT的示意圖。
MaTT基準(zhǔn)的統(tǒng)計(jì)概述詳見(jiàn)表1。該基準(zhǔn)包含1958個(gè)示例,精心策劃于12個(gè)不同的數(shù)學(xué)主題,涵蓋了純數(shù)學(xué)和應(yīng)用數(shù)學(xué)的廣度。在匯集這些問(wèn)題時(shí),我們旨在確保所有主題具有廣泛而一致的難度范圍。在提取問(wèn)題時(shí),我們排除了過(guò)于流行或簡(jiǎn)單的問(wèn)題,以減少數(shù)據(jù)污染的風(fēng)險(xiǎn)。
3.實(shí)驗(yàn)細(xì)節(jié)
我們使用MaTT基準(zhǔn)評(píng)估了商業(yè)LLMs——GPT-4(OpenAI, 2023)和ChatGPT(Kocón et al., 2023)(turbo版本),以及開(kāi)源LLM,Mistral(Jiang et al., 2023)(Mistral-7B-Instruct-v0.2)的性能。在我們的評(píng)估中,我們將提示結(jié)構(gòu)化為要求LLMs首先生成解釋?zhuān)缓笤俳o出最終答案。在多項(xiàng)選擇設(shè)置中,我們特別指示模型選擇提供的選項(xiàng)(A、B、C或D)作為最終答案。此外,對(duì)于零樣本思維鏈提示,我們?cè)谔崾局懈郊恿恕白屛覀円徊揭徊降厮伎肌?。?shí)驗(yàn)中使用的提示示例在附錄中提供。
4.實(shí)驗(yàn)
在本節(jié)中,我們首先使用MaTT基準(zhǔn)分析LLMs的數(shù)學(xué)推理能力。隨后,我們考察模型在不同子主題上的表現(xiàn)差異。接著,我們通過(guò)不提供多項(xiàng)選擇選項(xiàng)來(lái)評(píng)估選擇可用性對(duì)LLMs的影響。最后,我們重點(diǎn)分析GPT-4的解釋?zhuān)謩?dòng)注釋每個(gè)解釋中的推理水平,并探索GPT-4用來(lái)得出正確答案的策略。
4.1 LLMs在MaTT上的表現(xiàn)
表2展示了LLMs在MaTT基準(zhǔn)上各個(gè)主題的準(zhǔn)確率。所有模型的表現(xiàn)都明顯較低,GPT-4僅達(dá)到約54%的準(zhǔn)確率,而Mistral的表現(xiàn)接近隨機(jī)選擇。詳細(xì)檢查發(fā)現(xiàn),Mistral經(jīng)常拒絕回答,聲稱(chēng)正確選項(xiàng)不在提供的選項(xiàng)中,而其他模型則嘗試選擇最接近的匹配項(xiàng),或者在計(jì)算的答案不在列表中時(shí),進(jìn)行某種形式的推理。
此外,LLMs在不同主題上的準(zhǔn)確率差異顯著,差距高達(dá)31%,這突顯了LLMs在理解和推理能力方面的顯著差異。最后,我們觀察到零樣本思維鏈提示大多未能提升模型性能,可能是由于問(wèn)題的復(fù)雜性。MaTT中的許多問(wèn)題需要復(fù)雜或大量的步驟,或需要智能/創(chuàng)造性的思維,僅僅按照幾個(gè)簡(jiǎn)單步驟無(wú)法解決。這一觀察結(jié)果對(duì)思維鏈提示在許多推理任務(wù)中的有效性假設(shè)提出了質(zhì)疑。許多現(xiàn)有的推理任務(wù)評(píng)估基準(zhǔn)設(shè)計(jì)為通過(guò)幾個(gè)簡(jiǎn)單步驟即可解決(Srivastava et al., 2022),而現(xiàn)實(shí)世界的推理通常涉及多個(gè)步驟并需要?jiǎng)?chuàng)造性的問(wèn)題解決。
4.2 LLMs表現(xiàn)的按主題細(xì)分
如上一節(jié)所述,對(duì)LLMs在各種主題或同一數(shù)學(xué)領(lǐng)域內(nèi)不同子主題上的數(shù)學(xué)推理能力的探索仍然顯著不足。圖2和圖3分別詳細(xì)展示了LLMs在MaTT基準(zhǔn)中純數(shù)學(xué)和應(yīng)用數(shù)學(xué)子主題上的準(zhǔn)確率。
這些圖表明,模型即使在同一主要主題的子主題內(nèi)也表現(xiàn)出不同程度的準(zhǔn)確率,強(qiáng)調(diào)了它們?cè)诶斫夂屯评砟芰Ψ矫娴牟町?,即使在密切相關(guān)的學(xué)科中也是如此。值得注意的是,我們發(fā)現(xiàn),在某些子主題上,如積分的應(yīng)用、參數(shù)方程、二次互反、丟番圖方程、對(duì)偶理論、非線性規(guī)劃、條件概率、連續(xù)時(shí)間馬爾可夫鏈和基礎(chǔ)統(tǒng)計(jì)學(xué),ChatGPT和Mistral的表現(xiàn)優(yōu)于GPT-4。這一觀察結(jié)果進(jìn)一步強(qiáng)調(diào)了不僅要超越高層次主題的整體表現(xiàn),還要在更細(xì)粒度的水平上考察模型的表現(xiàn),以全面理解它們的數(shù)學(xué)推理能力。
4.3 LLMs在無(wú)選項(xiàng)情況下的表現(xiàn)
為了更深入地探討LLMs的數(shù)學(xué)推理能力,我們?cè)u(píng)估了它們?cè)跊](méi)有多項(xiàng)選擇選項(xiàng)幫助下的MaTT基準(zhǔn)表現(xiàn)。我們手動(dòng)評(píng)估了在沒(méi)有選項(xiàng)情況下,模型在MaTT上的準(zhǔn)確率,并將結(jié)果列于表3中。結(jié)果顯示,性能大幅下降,其中GPT-4、ChatGPT和Mistral分別損失了29.4%、56.4%和69.7%的準(zhǔn)確率。這一顯著下降突顯了模型在推導(dǎo)答案時(shí)對(duì)選項(xiàng)的依賴(lài)性,顯示了它們?cè)谡嬲龜?shù)學(xué)推理方面的局限性。這也強(qiáng)調(diào)了不能僅依賴(lài)單一的總體評(píng)分來(lái)評(píng)估LLMs推理能力的重要性。我們?cè)诘?.5節(jié)中提供了對(duì)選擇可用性對(duì)LLMs預(yù)測(cè)影響的更詳細(xì)分析。
4.4 解釋的推理水平
為了理解LLMs在無(wú)選項(xiàng)情況下表現(xiàn)不佳及其在不同主題上準(zhǔn)確率變化的原因,我們對(duì)LLMs為其預(yù)測(cè)生成的解釋的完整性和準(zhǔn)確性進(jìn)行了手動(dòng)檢查。鑒于GPT-4相對(duì)于其他評(píng)估的LLMs表現(xiàn)較好,本節(jié)的分析特別集中在GPT-4生成的解釋上。我們的目標(biāo)是確定在正確預(yù)測(cè)的實(shí)例中(有選項(xiàng)時(shí)),解釋屬于以下類(lèi)別的百分比:(1)完整推理,解釋詳盡且邏輯合理;(2)選項(xiàng)/弱推理,模型利用給定選項(xiàng)或提供部分推理的策略;(3)無(wú)/錯(cuò)誤推理,解釋錯(cuò)誤或缺失,模型在沒(méi)有理由的情況下得出結(jié)論。此外,我們計(jì)算了在所有GPT-4正確回答(有選項(xiàng))的情況下,GPT-4在無(wú)選項(xiàng)時(shí)仍提供正確答案并給出完整解釋的實(shí)例百分比。
我們對(duì)GPT-4在有選項(xiàng)時(shí)預(yù)測(cè)正確的樣本的解釋進(jìn)行了手動(dòng)評(píng)估,結(jié)果詳見(jiàn)表4。值得注意的是,我們發(fā)現(xiàn)僅53.3%的正確回答問(wèn)題的解釋是完整的,即GPT-4進(jìn)行了實(shí)際推理,這突顯了GPT-4在實(shí)際推理能力上的顯著不一致性。此外,我們觀察到不同主題上的解釋完整性水平不一,并不一定與GPT-4在這些主題上的總體表現(xiàn)相關(guān)。當(dāng)比較有無(wú)選項(xiàng)情況下完整解釋的樣本時(shí),我們注意到一個(gè)顯著差距,這表明選項(xiàng)的存在有助于模型更好地導(dǎo)航或回憶推理過(guò)程。此外,我們注意到GPT-4主要在解決較簡(jiǎn)單或更為人熟知的問(wèn)題時(shí)真正進(jìn)行了推理,這些問(wèn)題通過(guò)幾個(gè)簡(jiǎn)單步驟即可解決,而在需要更多復(fù)雜步驟或創(chuàng)造性問(wèn)題解決的情況下,GPT-4經(jīng)常失敗或依賴(lài)于不同的策略(我們?cè)诘?.5節(jié)中更詳細(xì)地探討這些策略)。這與思維鏈提示在提升LLMs性能上的有限有效性觀察結(jié)果一致。我們?cè)诟戒浿刑峁┝烁嚓P(guān)于解釋的分析。
4.5 從解釋中觀察到的現(xiàn)象
除了注釋解釋的推理水平(如表4所示),我們還指出了GPT-4在不涉及推理時(shí)得出正確答案所采用的策略。我們總結(jié)了以下策略:
選項(xiàng)工程 指的是模型(如GPT-4)操縱或利用可用的多項(xiàng)選擇選項(xiàng)來(lái)確定答案,而不是依賴(lài)于深刻理解或真正的推理過(guò)程。這可以分為以下幾種情況:
- 使用選項(xiàng):在這種情況下,GPT-4直接使用選項(xiàng)并選擇最符合問(wèn)題的一個(gè)。例如,在線性規(guī)劃問(wèn)題中,盡管沒(méi)有選項(xiàng)時(shí)GPT-4無(wú)法回答任何優(yōu)化問(wèn)題,但在有選項(xiàng)時(shí),通過(guò)這種策略,GPT-4通過(guò)簡(jiǎn)單選擇選項(xiàng)中的最小或最大值,取得了很高的表現(xiàn)。
- 推導(dǎo)出一個(gè)合理的答案:在這種策略中,GPT-4通過(guò)排除不合理的選項(xiàng)來(lái)選擇答案,而不是實(shí)際推理。例如,生成具有參數(shù)α和β的貝塔分布的X時(shí),GPT-4通過(guò)排除不合理選項(xiàng)并提供類(lèi)似的論據(jù),正確得出了答案,但沒(méi)有進(jìn)行任何實(shí)際推理。
- 選項(xiàng)專(zhuān)家:GPT-4似乎了解選項(xiàng)通常是如何設(shè)置的。例如,在計(jì)算事件X和Y的概率時(shí),GPT-4僅能得出事件X的概率為1/3,然后在沒(méi)有任何推理的情況下,聲稱(chēng)事件Y的概率不能為1/3,然后選擇選項(xiàng)A,盡管還有“以上都不是”這個(gè)選項(xiàng)。
- 中間地帶規(guī)則:我們觀察到GPT-4傾向于在無(wú)法找到正確答案時(shí)選擇中間值。例如,在計(jì)算游戲預(yù)期持續(xù)時(shí)間的問(wèn)題中,GPT-4選擇了中間值作為最合理的選項(xiàng)。
定理使用 指的是模型(如GPT-4)利用一個(gè)定理或性質(zhì),這實(shí)際上是問(wèn)題的主要挑戰(zhàn)部分。通過(guò)直接應(yīng)用它,繞過(guò)復(fù)雜的推導(dǎo)而達(dá)到解決方案。例如,在求范德蒙矩陣行列式的問(wèn)題中,GPT-4直接給出了定理的結(jié)果,而沒(méi)有解釋或證明。
循環(huán)推理 是一種邏輯謬誤,其中論證的結(jié)論作為前提來(lái)支持自身。這種策略與幻覺(jué)密切相關(guān),且非常難以檢測(cè)。在這些情況下,推理從同一點(diǎn)開(kāi)始和結(jié)束,論證本質(zhì)上是說(shuō)“A是正確的,因?yàn)锽是正確的,而B(niǎo)是正確的因?yàn)锳是正確的”。
盲記憶 我們指的是LLMs有時(shí)傾向于盲目記住問(wèn)題的答案,而不學(xué)習(xí)其必要步驟或背后的推理。例如,在計(jì)算單位正方形、單位圓和邊長(zhǎng)為單位的等邊三角形內(nèi)隨機(jī)選擇的兩點(diǎn)之間的期望距離時(shí),GPT-4直接給出了已知的答案,而沒(méi)有進(jìn)行任何詳細(xì)的計(jì)算。這些例子說(shuō)明了盲記憶如何使LLMs在推理和回答相似問(wèn)題時(shí)無(wú)能為力。
5.相關(guān)工作
隨著LLMs的不斷增強(qiáng),它們?cè)诂F(xiàn)有基準(zhǔn)測(cè)試中的數(shù)學(xué)推理能力也顯著提升。然而,目前的評(píng)估范圍在涵蓋的數(shù)學(xué)領(lǐng)域廣度上仍有限,無(wú)法最終確定這些模型是否真正參與了推理,還是依賴(lài)于替代策略來(lái)找到答案。
數(shù)學(xué)基準(zhǔn)測(cè)試
先前的研究主要集中在為數(shù)學(xué)文字題(以書(shū)面描述形式呈現(xiàn)的數(shù)學(xué)問(wèn)題)開(kāi)發(fā)基準(zhǔn)測(cè)試——這些問(wèn)題通常只需要幾個(gè)步驟來(lái)解決,通常涉及基本算術(shù)或初等代數(shù)(Ling et al., 2017;Cobbe et al., 2021;Patel et al., 2021)。此外,Mishra等人(2022)的工作引入了一個(gè)全面的數(shù)學(xué)推理基準(zhǔn),涵蓋了四個(gè)維度的23項(xiàng)不同任務(wù):數(shù)學(xué)能力、語(yǔ)言格式、語(yǔ)言多樣性和外部知識(shí)。此外,Zhang等人(2023)提出了一個(gè)多模態(tài)基準(zhǔn),重點(diǎn)關(guān)注幾何學(xué)。與我們的研究最相關(guān)的是MATH(Hendrycks et al., 2021)和Theoremqa(Chen et al., 2023)基準(zhǔn)。盡管提供了各種主題的數(shù)學(xué)問(wèn)題,但它們的范圍比我們的基準(zhǔn)要窄得多,并且沒(méi)有為每個(gè)問(wèn)題提供詳細(xì)的主題細(xì)分。此外,最近的一項(xiàng)工作(Toshniwal et al., 2024)已經(jīng)開(kāi)始為L(zhǎng)LMs的指令調(diào)優(yōu)生成大規(guī)模的合成數(shù)學(xué)基準(zhǔn)。
LLMs與數(shù)學(xué)
近年來(lái),LLMs在數(shù)學(xué)推理方面取得了顯著成就(Srivastava et al., 2022;Liu et al., 2023)。這些成就得益于旨在提升LLMs性能的方法,主要通過(guò)分解推理。這些策略受到人類(lèi)問(wèn)題解決過(guò)程的啟發(fā),包括提供逐步指導(dǎo)(Wei et al., 2022;Yao et al., 2024;Besta et al., 2023)、采用驗(yàn)證機(jī)制以提高模型的一致性和準(zhǔn)確性(Weng et al., 2022),以及結(jié)合復(fù)雜的推理策略(Qi et al., 2023)。
6.結(jié)論
本文對(duì)LLMs的數(shù)學(xué)推理進(jìn)行了全面評(píng)估。我們創(chuàng)建了數(shù)學(xué)主題樹(shù)(MaTT)基準(zhǔn),一個(gè)具有挑戰(zhàn)性且系統(tǒng)組織的基準(zhǔn),提出了一系列涵蓋廣泛數(shù)學(xué)科目的問(wèn)題,每個(gè)問(wèn)題都與詳細(xì)的分層結(jié)構(gòu)主題相關(guān)。通過(guò)探索LLMs在MaTT上的準(zhǔn)確性,我們觀察到它們?cè)趶V泛的數(shù)學(xué)主題上表現(xiàn)掙扎,特別是在沒(méi)有多項(xiàng)選擇選項(xiàng)的情況下。我們還觀察到LLMs在不同主題上的表現(xiàn)差異,以及思維鏈提示并未顯著改進(jìn)性能。為了調(diào)查模型性能的差距,我們手動(dòng)分析了它們回答問(wèn)題時(shí)的解釋。我們發(fā)現(xiàn),GPT-4在提供正確答案的實(shí)例中,只有53.3%的解釋被認(rèn)為是完整的。此外,我們觀察到模型在解決簡(jiǎn)單問(wèn)題時(shí)表現(xiàn)較好,而在處理更復(fù)雜問(wèn)題時(shí)則采用替代策略。這表明LLMs在進(jìn)行深度、創(chuàng)造性和復(fù)雜數(shù)學(xué)思維方面存在根本性的差距。我們將公開(kāi)與MaTT基準(zhǔn)相關(guān)的所有代碼、注釋和數(shù)據(jù)。
7.局限性
本研究提出了幾個(gè)在解釋研究結(jié)果時(shí)應(yīng)考慮的局限性。
首先,我們使用MaTT基準(zhǔn)僅對(duì)三種廣泛采用的LLMs進(jìn)行了數(shù)學(xué)推理能力評(píng)估。這一有限的模型選擇可能無(wú)法完全代表LLMs的多樣化能力。在未來(lái)的評(píng)估中納入更多種類(lèi)的模型,可以更全面地理解LLMs在不同架構(gòu)和訓(xùn)練模式下的數(shù)學(xué)推理能力。
其次,我們?cè)u(píng)估模型推理能力的方法主要依賴(lài)于分析其自生成的解釋。雖然這種方法使我們能夠評(píng)估模型如何推理其答案,但它本身存在潛在的偏見(jiàn)和不準(zhǔn)確性。LLMs提供的解釋可能并不總是準(zhǔn)確反映其潛在的推理過(guò)程,有時(shí)甚至可能具有誤導(dǎo)性或不完整性。采用更客觀或多樣化的評(píng)估方法可能是必要的,以更清晰和準(zhǔn)確地了解LLMs如何處理和解決數(shù)學(xué)問(wèn)題。
Gholami Davoodi A, Pouyan Mousavi Davoudi S, Pezeshkpour P. LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs[J]. arXiv e-prints, 2024: arXiv: 2406.05194.
Carnegie Mellon University, Megagon Labs
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/MCXBX9qH2s5dkaDeLYlL1w??
