ACL 2024 | 對(duì)25個(gè)開(kāi)閉源模型數(shù)學(xué)評(píng)測(cè),GPT-3.5-Turbo才勉強(qiáng)及格
本文作者來(lái)自香港大學(xué)和騰訊。作者列表:李沁桐,Leyang Cui,趙學(xué)亮,孔令鵬,Wei Bi。其中,第一作者李沁桐是香港大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的博士生,研究方向涉及自然語(yǔ)言生成和文本推理,與博士生趙學(xué)亮共同師從孔令鵬教授。Leyang Cui 和 Wei Bi 是騰訊高級(jí)研究員。
前言
大型語(yǔ)言模型(LLMs)在解決問(wèn)題方面的非凡能力日益顯現(xiàn)。最近,一個(gè)值得關(guān)注的現(xiàn)象是,這些模型在多項(xiàng)數(shù)學(xué)推理的基準(zhǔn)測(cè)試中獲得了驚人的成績(jī)。以 GPT-4 為例,在高難度小學(xué)應(yīng)用題測(cè)試集 GSM8K [1] 中表現(xiàn)優(yōu)異,準(zhǔn)確率高達(dá) 90% 以上。同時(shí),許多開(kāi)源模型也展現(xiàn)出了不俗的實(shí)力,準(zhǔn)確率超過(guò) 80%。
然而在使用中我們經(jīng)常會(huì)發(fā)現(xiàn),當(dāng)數(shù)學(xué)問(wèn)題稍作改變時(shí),LLMs 可能會(huì)出現(xiàn)一些低級(jí)錯(cuò)誤,如下圖所示:
圖 1:GPT-3.5-Turbo 正確解答了一個(gè)數(shù)學(xué)問(wèn)題(左),但當(dāng)在原問(wèn)題的基礎(chǔ)上添加一個(gè)限制條件(右)時(shí),Turbo 因?yàn)闆](méi)有正確區(qū)分 “離開(kāi)” 和 “返回” 的方向,而誤用運(yùn)算符出錯(cuò)。
我們不禁要問(wèn):大型語(yǔ)言模型是否真的掌握了數(shù)學(xué)知識(shí)的精髓?它們是如何在這些測(cè)試中取得如此高分的?難道僅僅是因?yàn)槟7铝舜罅坑?xùn)練數(shù)據(jù)中的表面推理模式嗎?LLMs 是否真正理解數(shù)學(xué)概念,仍是一個(gè)值得探討的問(wèn)題。
為了探究這一問(wèn)題,本文作者設(shè)計(jì)了一個(gè)評(píng)估基準(zhǔn) GSM-Plus。這個(gè)測(cè)試旨在對(duì)一個(gè)問(wèn)題進(jìn)行 8 種不同的細(xì)粒度數(shù)學(xué)變換,系統(tǒng)地評(píng)估當(dāng)前 LLMs 在處理基礎(chǔ)數(shù)學(xué)應(yīng)用題時(shí)的能力。在這一全新的基準(zhǔn)測(cè)試中,論文對(duì) 25 個(gè)不同的 LLMs 進(jìn)行了嚴(yán)格評(píng)測(cè),包括業(yè)界的開(kāi)源和閉源模型。
實(shí)驗(yàn)結(jié)果表明,對(duì)于大多數(shù) LLMs 來(lái)說(shuō),GSM-Plus 是一個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試。即便是在 GSM8K 上,GPT-3.5-Turbo 已能取得 73.62% 的準(zhǔn)確率,但在 GSM-Plus 上僅能達(dá)到 61.19% 的準(zhǔn)確率。本文工作已經(jīng)以4,4, 4.5分被ACL2024錄用。
- 論文標(biāo)題:GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
- 論文地址:https://arxiv.org/pdf/2402.19255
- 論文主頁(yè):https://qtli.github.io/GSM-Plus/
背景
數(shù)學(xué)推理是人工智能發(fā)展的重要證明。它需要嚴(yán)格的問(wèn)題理解、策略制定和計(jì)算執(zhí)行能力。在過(guò)去幾年中,諸多公開(kāi)數(shù)據(jù)集被用于評(píng)估人工智能系統(tǒng)的數(shù)學(xué)推理能力。早期的數(shù)學(xué)數(shù)據(jù)集側(cè)重于基于方程的數(shù)學(xué)問(wèn)題。隨后,更難的數(shù)據(jù)集被引入,涵蓋了小學(xué)、高中和大學(xué)水平的數(shù)學(xué)問(wèn)題。
隨著評(píng)測(cè)數(shù)據(jù)難度的不斷提高,LLMs 的發(fā)展也變得十分迅速。為了提升 LLMs 在數(shù)學(xué)領(lǐng)域的性能,可以通過(guò)在多樣化的任務(wù)數(shù)據(jù)上進(jìn)行訓(xùn)練,使用監(jiān)督微調(diào)(SFT)來(lái)快速幫助 LLMs 適應(yīng)到數(shù)學(xué)領(lǐng)域。在推理階段,通過(guò)設(shè)計(jì)巧妙的輸入提示(例如,Chain-of-Thought 和 Program-of-Thought)也可以有效激發(fā) LLMs 的數(shù)學(xué)能力。
對(duì)于大多數(shù) LLMs 而言,面對(duì)高中及以上的數(shù)學(xué)問(wèn)題仍有很大的提升空間。然而,在小學(xué)數(shù)學(xué)領(lǐng)域,LLMs 已經(jīng)展現(xiàn)出巨大的潛力。這讓我們不禁思考,在現(xiàn)實(shí)環(huán)境中 LLMs 是否能依然保持高性能?
對(duì)抗性評(píng)測(cè)數(shù)據(jù)集 GSM-Plus
本研究旨在推出一個(gè)綜合性基準(zhǔn)測(cè)試 GSM-Plus,以系統(tǒng)地檢驗(yàn) LLMs 在解決基礎(chǔ)數(shù)學(xué)問(wèn)題時(shí)的魯棒性。受 Polya 原則 [2] 中解決數(shù)學(xué)問(wèn)題的能力分類(lèi)法的啟發(fā),本文確定了五個(gè)方面的指導(dǎo)原則用于構(gòu)建 GSM-Plus 數(shù)據(jù)集:
為了便于理解,此處以「 珍妮特的鴨子每天下 16 個(gè)蛋。她每天早上吃三個(gè)蛋作為早餐,并且用四個(gè)蛋烤松餅給她的朋友。她每天以每個(gè)鴨蛋 2 美元的價(jià)格在農(nóng)貿(mào)市場(chǎng)出售剩余的蛋。她每天在農(nóng)貿(mào)市場(chǎng)上賺多少美元?」問(wèn)題為例。
(1)數(shù)值變化:指改變數(shù)值數(shù)據(jù)或其類(lèi)型,本文定義了三個(gè)子類(lèi)別:
- 數(shù)值替換:在同等數(shù)位和類(lèi)型下替換數(shù)值,例如將問(wèn)題中的 “16” 替換為 “20”。
- 數(shù)位擴(kuò)展:增加數(shù)值的位數(shù),例如將 “16” 替換為 “1600”。
- 整數(shù) - 小數(shù) - 分?jǐn)?shù)轉(zhuǎn)換:將整數(shù)更換為小數(shù)或分?jǐn)?shù),例如將 “2” 轉(zhuǎn)換為 “2.5”。
(2)算術(shù)變化:指對(duì)數(shù)學(xué)問(wèn)題引入額外的運(yùn)算或者進(jìn)行反轉(zhuǎn),但只限于加、減、乘、除運(yùn)算:
- 運(yùn)算擴(kuò)充:在原問(wèn)題基礎(chǔ)上增加限制條件。例如,增加新條件“她每天還會(huì)使用兩個(gè)雞蛋自制發(fā)膜”。
- 運(yùn)算逆轉(zhuǎn):將原問(wèn)題的某個(gè)已知條件轉(zhuǎn)換為 GSM-Plus 變體問(wèn)題的待求解變量。例如,圖 2 中原問(wèn)題的陳述 “每個(gè)鴨蛋 2 美元” 轉(zhuǎn)換為新問(wèn)題的疑問(wèn)句 “每個(gè)鴨蛋的價(jià)格是多少?”,而原問(wèn)題疑問(wèn)句” 每天在農(nóng)貿(mào)市場(chǎng)上賺多少美元?” 則轉(zhuǎn)換為新問(wèn)題的已知條件” 她每天在農(nóng)貿(mào)市場(chǎng)賺 18 美元”
(3)問(wèn)題理解:指在意思不變的前提下,用不同詞句重新表述數(shù)學(xué)問(wèn)題,如” 珍妮特養(yǎng)了一群鴨子,這些鴨子每天產(chǎn) 16 個(gè)鴨蛋。她早餐消耗三個(gè)鴨蛋,然后消耗四個(gè)鴨蛋烤松餅給她的朋友。珍妮特在農(nóng)貿(mào)市場(chǎng)上以每個(gè)新鮮的鴨蛋 2 美元的價(jià)格將剩余的鴨蛋全部出售。她每天通過(guò)在農(nóng)貿(mào)市場(chǎng)出售鴨蛋賺多少錢(qián)?”
(4)干擾項(xiàng)插入:指將與主題相關(guān)、包含數(shù)值但對(duì)求解無(wú)用的句子插入到原問(wèn)題中,如” 珍妮特還想用兩個(gè)鴨蛋喂養(yǎng)她的寵物鸚鵡,所幸她的鄰居每天送她兩個(gè)鴨蛋用于喂養(yǎng)鸚鵡”。
(5)批判性思維:側(cè)重于當(dāng)數(shù)學(xué)問(wèn)題缺乏必要條件時(shí),LLMs 是否具有提問(wèn)或懷疑能力,例如” 珍妮特的鴨子每天都會(huì)下蛋。她每天早上吃三個(gè)蛋作為早餐,并且每天用四個(gè)蛋烤松餅給她的朋友。她每天以每個(gè)鴨蛋 2 美元的價(jià)格在農(nóng)貿(mào)市場(chǎng)出售剩余的蛋。她每天在農(nóng)貿(mào)市場(chǎng)上賺多少美元?”。
基于 GSM8K 的 1,319 個(gè)測(cè)試問(wèn)題,本文為每個(gè)問(wèn)題創(chuàng)建了八個(gè)變體,從而生成了包含 10,552 個(gè)問(wèn)題變體的 GSM-Plus 數(shù)據(jù)集(本文還提供了一個(gè)包含 2,400 個(gè)問(wèn)題變體的測(cè)試子集,以便快速評(píng)測(cè))。通過(guò)使用每個(gè)問(wèn)題及其八個(gè)變體測(cè)試 LLMs,GSM-Plus 可以幫助研究人員全面評(píng)估 LLMs 在解決數(shù)學(xué)問(wèn)題中的魯棒性。
圖 2:基于一個(gè)種子數(shù)學(xué)題,使用 5 個(gè)角度的 8 種擾動(dòng)生成問(wèn)題變體。主要修改內(nèi)容以綠色標(biāo)出。
通過(guò)使用 GSM-Plus 評(píng)估 25 個(gè)不同規(guī)模、不同預(yù)訓(xùn)練方式、不同任務(wù)微調(diào)的 LLMs,以及組合 4 種常用的提示技術(shù),本文發(fā)現(xiàn) LLMs 整體上可以準(zhǔn)確解決 GSM8K 問(wèn)題,但在回答 GSM-Plus 中的變體問(wèn)題時(shí)會(huì)遇到明顯困難。主要發(fā)現(xiàn)如下:
- 任務(wù)特定的優(yōu)化,即在數(shù)學(xué)相關(guān)的數(shù)據(jù)集上微調(diào),通??梢蕴岣呦掠稳蝿?wù)準(zhǔn)確性;而魯棒性的高低更多地取決于基礎(chǔ)模型和微調(diào)數(shù)據(jù)集的選擇。
- 當(dāng)需要 “批判性思維”、涉及 “算術(shù)變化” 和 “干擾因素插入” 時(shí),LLMs 的性能會(huì)迅速下降;但對(duì)于 “數(shù)值變化” 和 “問(wèn)題理解” 的擾動(dòng),LLMs 的性能比較穩(wěn)定。
- 先前的提示技術(shù)(例如,CoT,PoT,LtM 和 Complexity-based CoT)對(duì)于魯棒性增強(qiáng)作用不顯著,特別是對(duì)于 “算術(shù)變化 “和” 批判性思維”。在前人工作的基礎(chǔ)上,本文進(jìn)一步探索了一種組合提示方法,通過(guò)迭代生成和驗(yàn)證每個(gè)推理思維,可以同時(shí)提升 LLMs 在 GSM8K 和 GSM-Plus 上的性能。
GSM-Plus 特點(diǎn)
- 質(zhì)量保證:采用兩階段生成 GSM-Plus 評(píng)測(cè)題。首先,利用 GPT-4 的問(wèn)題改寫(xiě)能力生成問(wèn)題變體,然后為這些變體生成候選答案;為確保數(shù)據(jù)質(zhì)量,所有由 GPT-4 生成的問(wèn)題變體和答案都要經(jīng)過(guò)人工標(biāo)注團(tuán)隊(duì)進(jìn)行嚴(yán)格檢查。人工標(biāo)注團(tuán)隊(duì)修正了 18.85% 的 GPT-4 改寫(xiě)的問(wèn)題。
- 細(xì)粒度評(píng)估:對(duì)于主流評(píng)測(cè)數(shù)據(jù)集 GSM8K 的每個(gè)測(cè)試題,GSM-Plus 提供了 8 個(gè)擾動(dòng)方向的變體問(wèn)題,充分測(cè)試了在不同上下文下,大模型靈活解決數(shù)學(xué)應(yīng)用題的能力。
- 挑戰(zhàn)性:相比于 GSM8K,GSM-Plus 的問(wèn)題變體更具挑戰(zhàn)性,所有參與評(píng)估的 LLMs 的性能都顯著下降。在接下來(lái)的分析中,本文會(huì)特別分析 LLMs 在不同類(lèi)型擾動(dòng)下的解題魯棒性。
與其他小學(xué)數(shù)學(xué)應(yīng)用題數(shù)據(jù)的比較
表 1:不同顏色代表不同的擾動(dòng)類(lèi)型:數(shù)值替換,
數(shù)位擴(kuò)展,
整數(shù) - 小數(shù) - 分?jǐn)?shù)轉(zhuǎn)換,
運(yùn)算擴(kuò)充,
運(yùn)算逆轉(zhuǎn),
問(wèn)題理解,
干擾項(xiàng)插入,
批判性思維。
從上表可以看出,先前的研究使用不同的擾動(dòng)來(lái)檢驗(yàn)數(shù)學(xué)推理的魯棒性,但是評(píng)估設(shè)置僅涵蓋部分?jǐn)_動(dòng)類(lèi)型,且大多是通過(guò)自動(dòng)方法構(gòu)建引入擾動(dòng),質(zhì)量難以保證。相比之下,GSM-Plus 使用八種不同的數(shù)學(xué)推理技能對(duì)單一問(wèn)題進(jìn)行擾動(dòng),覆蓋面更全,且經(jīng)過(guò)嚴(yán)格的質(zhì)量控制。
實(shí)驗(yàn)分析
評(píng)測(cè)指標(biāo)
- 性能下降率(PDR):與原問(wèn)題相比,LLMs 在擾動(dòng)后的問(wèn)題上的性能下降程度。
- 同時(shí)解決的問(wèn)題對(duì)的百分比(ASP):原問(wèn)題及其對(duì)應(yīng)的某個(gè)問(wèn)題變體均被 LLMs 正確解答的比例。
整體性能
如下表所示,相較于 GSM8K,大多數(shù) LLMs 在 GSM-Plus 上的性能都大幅下降。
GPT-4 表現(xiàn)出最高的魯棒性,其 PDR 最小僅為 8.23%。而 CodeLlama 的 PDR 最大,其中 7B、13B 和 34B 的模型分別為 40.56%、39.71%和 34.27%,超過(guò)了其基座模型 LLaMA-2-7B(39.49%),以及在其上微調(diào)的數(shù)學(xué) SFT 模型,如 SEGO-7B(34.91%)。這表明僅使用程序語(yǔ)言推理對(duì)于擾動(dòng)是很脆弱的。
在面對(duì)數(shù)學(xué)擾動(dòng)時(shí),模型規(guī)模越大,性能越穩(wěn)定。雖然監(jiān)督微調(diào)可以提高在下游任務(wù)上的準(zhǔn)確率,但并不能顯著增強(qiáng)模型對(duì)于擾動(dòng)的魯棒性(即更低的 PDR)。監(jiān)督微調(diào)的數(shù)據(jù)對(duì)于魯棒性非常重要。同樣是基于 LLaMA-2 進(jìn)行微調(diào),使用不同的數(shù)據(jù),會(huì)導(dǎo)致模型的準(zhǔn)確率和魯棒性具有較大差異。
表 2:整體性能
細(xì)粒度實(shí)驗(yàn)分析
不同擾動(dòng)下 LLMs 的性能表現(xiàn)
本文進(jìn)一步評(píng)估了 LLMs 在 8 種問(wèn)題變體下的性能穩(wěn)定性。與人類(lèi)基線(xiàn)相比,對(duì)于 “批判性思維”(紫色)、“運(yùn)算擴(kuò)充” 和 “運(yùn)算逆轉(zhuǎn)”(藍(lán)色)、“干擾項(xiàng)插入”(粉色)以及 “整數(shù) - 小數(shù) - 分?jǐn)?shù)轉(zhuǎn)換”(橙色)擾動(dòng),LLMs 性能下降明顯。而對(duì)于 “數(shù)值替換” 和 “問(wèn)題理解”,LLMs 的性能穩(wěn)定,甚至有輕微的提升。
圖 3:細(xì)粒度實(shí)驗(yàn)分析
數(shù)學(xué)推理能力的遷移性
前面的分析主要基于數(shù)據(jù)集整體。接下來(lái),本文根據(jù)數(shù)學(xué)題是否被正確回答將 2 個(gè)數(shù)據(jù)集分割,分析當(dāng) LLMs 成功解決 GSM8K 問(wèn)題時(shí),是否意味著正確回答 GSM-Plus 變體問(wèn)題的可能性變高(即高 ASP 值),反之亦然。如果這種斷言成立,可以認(rèn)為 LLMs 在這類(lèi)特定的數(shù)學(xué)題子集上性能穩(wěn)定,即使在整個(gè)數(shù)據(jù)集上并非如此。在實(shí)驗(yàn)設(shè)置中,每個(gè) GSM8K 問(wèn)題及其在 GSM-Plus 中的變體轉(zhuǎn)化為 8 個(gè)問(wèn)題對(duì),結(jié)果如圖 4 所示。
圖 4:LLMs 在 GSM8K 和 GSM-Plus 問(wèn)題對(duì)之間的推理可遷移性。紫色(均正確)和藍(lán)色(均錯(cuò)誤)的條形圖表示一致的模型行為,而紅色(GSM8K 正確 & GSM-Plus 錯(cuò)誤)和黃色(GSM8K 錯(cuò)誤 & GSM-Plus 正確)的條形圖則表示不一致的模型行為。紫色和紅色條形圖的高度和表示 LLMs 正確解決 GSM8K 問(wèn)題的數(shù)量。
紅色條形圖的存在(LLMs 正確回答原問(wèn)題,但未解決變體問(wèn)題),表明大多數(shù)模型的性能可遷移性有限。雖然 LLMs 在 GSM8K 問(wèn)題上性能有所差異(紫色和紅色條形圖的高度),但性能可遷移性相似(紅色條形圖的高度)。這意味著現(xiàn)有的基準(zhǔn)測(cè)試無(wú)法準(zhǔn)確評(píng)估模型在數(shù)學(xué)推理方面的真實(shí)能力。高準(zhǔn)確率并不等價(jià)于強(qiáng)大的推理魯棒性。
提示對(duì)于 LLMs 性能魯棒性的幫助
先前的工作表明,良好的提示指令對(duì)于激發(fā)語(yǔ)言模型的數(shù)學(xué)能力十分重要。本文選擇了 4 個(gè)代表性模型,并測(cè)試它們?cè)诓煌奶崾局噶钕陆忸}的表現(xiàn)。如下圖所示,當(dāng)面對(duì)干擾時(shí),使用復(fù)雜的示例作為上下文演示(Complexity-based CoT)時(shí),LLMs 表現(xiàn)最為穩(wěn)定;相比之下,僅使用程序語(yǔ)言表示中間推理(Program-of-Thought)時(shí),LLMs 更容易受到干擾的影響??傮w而言,這些提示技巧都不足以讓 LLMs 在 GSM-Plus 上維持與 GSM8K 相同的性能。
圖 5:提示對(duì)于 LLMs 性能魯棒性的影響
組合提示是否有效?
如何基于現(xiàn)有的提示方法增強(qiáng) LLMs 的魯棒性呢?本文發(fā)現(xiàn) LLMs 在解題過(guò)程中常常會(huì)忽略重要條件或出現(xiàn)計(jì)算錯(cuò)誤。為此,本文探索了一種組合提示方法 Comp。該方法首先提示 LLMs 提取問(wèn)題中與數(shù)值相關(guān)的必要條件(Prompt1)。接著,根據(jù)問(wèn)題和關(guān)鍵條件,指示 LLMs 迭代地生成推理目標(biāo)(Prompt2)和計(jì)算目標(biāo)(Prompt3),并讓其為生成的歷史解題步驟提供反饋,以確定是否獲得了最終答案(Prompt4)。具體實(shí)現(xiàn)如圖 6 所示。
圖 6:Comp 迭代提示方式的示意圖
可以看出,Comp 通過(guò)迭代生成和自我驗(yàn)證可以改善 LLMs 在各種問(wèn)題變化類(lèi)型下的性能,但它仍然無(wú)法彌合 LLMs 在標(biāo)準(zhǔn)測(cè)試集和對(duì)抗性測(cè)試集之間的性能差距。該研究期待未來(lái)有更多的方法進(jìn)一步提升模型的魯棒性,推動(dòng) LLMs 在數(shù)學(xué)推理領(lǐng)域的進(jìn)一步發(fā)展。
表 3:Comp 迭代提示的性能
生成示例
下圖展示了在 GSM8K 問(wèn)題和基于 “運(yùn)算逆轉(zhuǎn)” 的 GSM-Plus 改寫(xiě)問(wèn)題上,不同提示技術(shù)下 GPT-3.5-Turbo 的表現(xiàn)。雖然所有提示都可以激發(fā) Turbo 準(zhǔn)確回答 GSM8K 問(wèn)題,但只有 Comp 能夠幫助 Turbo 在 GSM-Plus 變體問(wèn)題上生成正確的答案。
圖 7:在不同提示設(shè)置下,模型回答數(shù)學(xué)問(wèn)題的示例
結(jié)語(yǔ)
本文介紹了一個(gè)對(duì)抗性小學(xué)數(shù)學(xué)應(yīng)用題評(píng)測(cè)集 GSM-Plus,旨在系統(tǒng)分析 LLMs 在解決數(shù)學(xué)應(yīng)用題中的魯棒性。實(shí)驗(yàn)分析發(fā)現(xiàn),大多數(shù) LLMs 在面臨擾動(dòng)時(shí),性能相較于它們?cè)跇?biāo)準(zhǔn)基準(zhǔn)上的表現(xiàn)顯著下降,遠(yuǎn)遠(yuǎn)達(dá)不到人類(lèi)的表現(xiàn)水平。研究者期望本文的工作能夠促進(jìn)更多未來(lái)研究,包括但不限于:(1)對(duì) LLMs 的數(shù)學(xué)技能進(jìn)行系統(tǒng)評(píng)估;(2)構(gòu)建能夠靈活進(jìn)行數(shù)學(xué)推理的模型。