自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

進(jìn)能形式邏輯,退能四則運(yùn)算,MAmmoT讓LLM成為數(shù)學(xué)通才

人工智能 新聞
一個(gè)新數(shù)據(jù)集外加思維鏈和思維程序兩種方法之長(zhǎng),竟能讓開(kāi)源 LLM 的數(shù)學(xué)推理追上 GPT-4 等閉源大模型。

數(shù)學(xué)推理是現(xiàn)代大型語(yǔ)言模型(LLM)的一項(xiàng)關(guān)鍵能力。盡管這一領(lǐng)域近來(lái)進(jìn)展不錯(cuò),但閉源和開(kāi)源 LLM 之間仍然存在明顯的差距——GPT-4、PaLM-2 和 Claude 2 等閉源模型主宰了 GSM8K 和 MATH 等常用數(shù)學(xué)推理基準(zhǔn),而 Llama、Falcon 和 OPT 等開(kāi)源模型在所有基準(zhǔn)上都大幅落后。

為了解決這一問(wèn)題,研究界正在兩個(gè)方向進(jìn)行努力:

(1)Galactica 和 MINERVA 等持續(xù)型預(yù)訓(xùn)練方法,其能在超過(guò)千億 token 的數(shù)學(xué)相關(guān)網(wǎng)絡(luò)數(shù)據(jù)上對(duì) LLM 進(jìn)行持續(xù)訓(xùn)練。這一方法能提升模型的一般科學(xué)推理能力,但代價(jià)是高計(jì)算成本。

(2)拒絕采樣微調(diào)(RFT)和 WizardMath 等針對(duì)特定數(shù)據(jù)集進(jìn)行微調(diào)的方法,即使用特定數(shù)據(jù)集的監(jiān)督數(shù)據(jù)對(duì) LLM 進(jìn)行微調(diào)。盡管這些方法能提升在具體領(lǐng)域內(nèi)的性能,但無(wú)法泛化到微調(diào)數(shù)據(jù)之外的更廣范圍的數(shù)學(xué)推理任務(wù)。舉個(gè)例子,RFT 和 WizardMath 可將在 GSM8K(這是微調(diào)數(shù)據(jù)集之一)上的準(zhǔn)確度提升 30% 以上,但卻有損在 MMLU-Math 和 AQuA 等領(lǐng)域外數(shù)據(jù)集上的準(zhǔn)確度——使之降低多達(dá) 10%。

近日,來(lái)自滑鐵盧大學(xué)和俄亥俄州立大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種輕量級(jí)卻又可泛化的數(shù)學(xué)指令微調(diào)方法,可用于增強(qiáng) LLM 的一般性(即不限于微調(diào)任務(wù))數(shù)學(xué)推理能力。

之前已有的方法關(guān)注的重點(diǎn)是思維鏈(CoT)方法,即通過(guò)一步步的自然語(yǔ)言描述來(lái)解決數(shù)學(xué)問(wèn)題。這種方法的通用性很強(qiáng),可覆蓋大多數(shù)數(shù)學(xué)科目,但卻在計(jì)算精度和復(fù)雜的數(shù)學(xué)或算法推理過(guò)程(例如求解二次方程根和計(jì)算矩陣特征值)方面存在困難。

相比之下,像思維程序(PoT)和 PAL 這樣的代碼格式 prompt 設(shè)計(jì)方法則是利用外部工具(即 Python 解釋器)來(lái)大幅簡(jiǎn)化數(shù)學(xué)求解過(guò)程。這種方法是將計(jì)算過(guò)程卸載到外部 Python 解釋器來(lái)求解復(fù)雜的數(shù)學(xué)和算法推理(例如使用 sympy 求解二次方程或使用 numpy 計(jì)算矩陣特征值)。但是,PoT 難以應(yīng)對(duì)更抽象的推理場(chǎng)景,比如常識(shí)推理、形式邏輯和抽象代數(shù),尤其是沒(méi)有內(nèi)置的 API 時(shí)。

為了取 CoT 和 PoT 兩種方法之長(zhǎng),該團(tuán)隊(duì)引入了一個(gè)新的數(shù)學(xué)混合指令微調(diào)數(shù)據(jù)集 MathInstruct,其有兩大主要特性:(1) 廣泛涵蓋不同的數(shù)學(xué)領(lǐng)域和復(fù)雜程度,(2) 將 CoT 和 PoT 原理組合到了一起。

MathInstruct 基于七個(gè)現(xiàn)有的數(shù)學(xué)原理數(shù)據(jù)集和六個(gè)新整理出的數(shù)據(jù)集。他們使用 MathInstruct 微調(diào)了不同大?。◤?7B 到 70B)的 Llama 模型。他們將所得到的模型稱(chēng)為 MAmmoTH 模型,結(jié)果發(fā)現(xiàn) MAmmoTH 的能力是前所未有的,就像是一個(gè)數(shù)學(xué)通才。

圖片

為了評(píng)估 MAmmoTH,該團(tuán)隊(duì)使用了一系列評(píng)估數(shù)據(jù)集,包括領(lǐng)域內(nèi)的測(cè)試集(GSM8K、MATH、AQuA-RAT、NumGLUE)和領(lǐng)域外的測(cè)試集(SVAMP、SAT、MMLU-Math、Mathematics、SimulEq)。

結(jié)果發(fā)現(xiàn),相比于之前的方法,MAmmoTH 模型能更好地泛化用于領(lǐng)域外數(shù)據(jù)集,并能大幅提升開(kāi)源 LLM 的數(shù)學(xué)推理能力。

值得注意的是,在常用的競(jìng)賽級(jí) MATH 數(shù)據(jù)集上,7B 版本的 MAmmoTH 模型能以 3.5 倍的優(yōu)勢(shì)(35.2% vs 10.7%)擊敗 WizardMath(這是 MATH 上之前最佳的開(kāi)源模型),而 34B MAmmoTH-Coder(在 Code Llama 上進(jìn)行過(guò)微調(diào))甚至可以勝過(guò)使用 CoT 的 GPT-4。

這項(xiàng)研究的貢獻(xiàn)可以總結(jié)成兩個(gè)方面:(1) 從數(shù)據(jù)工程方面看,他們提出了一個(gè)高質(zhì)量的數(shù)學(xué)指令微調(diào)數(shù)據(jù)集,其中包含多種不同的數(shù)學(xué)問(wèn)題和混合原理。(2) 從建模方面講,他們訓(xùn)練和評(píng)估了大小從 7B 到 70B 的 50 多個(gè)不同的新模型和基準(zhǔn)模型,以此探究了不同數(shù)據(jù)源和輸入-輸出格式的影響。

結(jié)果發(fā)現(xiàn),MAmmoTH 和 MAmmoTH-Coder 等新模型在準(zhǔn)確度方面都顯著優(yōu)于之前的開(kāi)源模型。

圖片

  • 論文:https://arxiv.org/pdf/2309.05653.pdf
  • 代碼:https://github.com/TIGER-AI-Lab/MAmmoTH
  • 數(shù)據(jù)集與模型:https://huggingface.co/datasets/TIGER-Lab/MathInstruct

該團(tuán)隊(duì)已經(jīng)發(fā)布了他們整理得到的數(shù)據(jù)集,并開(kāi)源了新方法的代碼,也在 Hugging Face 發(fā)布了訓(xùn)練好的不同大小的模型。

新提出的方法

整理一個(gè)多樣化的混合指令微調(diào)數(shù)據(jù)集

該團(tuán)隊(duì)的目標(biāo)是編制一份列表,其中包含高質(zhì)量且多樣化的數(shù)學(xué)指令微調(diào)數(shù)據(jù)集,其應(yīng)具有兩個(gè)主要特征:(1) 廣泛涵蓋不同的數(shù)學(xué)領(lǐng)域和復(fù)雜程度,(2) 將 CoT 和 PoT 原理組合到一起。

對(duì)于第一個(gè)特征,他們首先選出了一些使用廣泛并且涉及不同數(shù)學(xué)領(lǐng)域和復(fù)雜程度的高質(zhì)量數(shù)據(jù)集,比如 GSM8K、MATH、AQuA、Camel 和 TheoremQA。然后他們注意到現(xiàn)有數(shù)據(jù)集沒(méi)有大學(xué)水平的數(shù)學(xué)知識(shí),比如抽象代數(shù)和形式邏輯。針對(duì)這個(gè)問(wèn)題,他們借助于網(wǎng)上找到的少量種子示例,使用 GPT-4 為 TheoremQA 中的問(wèn)題合成 CoT 原理并通過(guò) Self-Instruct 創(chuàng)建「問(wèn)題-CoT」配對(duì)。

對(duì)于第二個(gè)特征,將 CoT 和 PoT 原理組合到一起可以提升數(shù)據(jù)集的多功能性,使其訓(xùn)練的模型有能力解決不同類(lèi)型的數(shù)學(xué)問(wèn)題。但是,大多數(shù)現(xiàn)有數(shù)據(jù)集提供的程序原理有限,導(dǎo)致 CoT 和 PoT 原理之間不平衡。為此,該團(tuán)隊(duì)又用到了 GPT-4,來(lái)為所選數(shù)據(jù)集補(bǔ)充 PoT 原理,包括 MATH、AQuA、 GSM8K 和 TheoremQA。然后再對(duì)這些 GPT-4 合成的程序進(jìn)行過(guò)濾,做法是將它們的執(zhí)行結(jié)果與人類(lèi)標(biāo)注的基本真值進(jìn)行比較,這能確保所添加的都是高質(zhì)量的原理。

遵循這些準(zhǔn)則,他們創(chuàng)建了一個(gè)新的數(shù)據(jù)集 MathInstruct,詳見(jiàn)下表 1。

其中包含 26 萬(wàn)對(duì) (指令,響應(yīng)),覆蓋廣泛的核心數(shù)學(xué)領(lǐng)域(算術(shù)、代數(shù)、概率學(xué)、微積分和幾何等),包含混合的 CoT 和 PoT 原理,并有不同的語(yǔ)言和難度。

訓(xùn)練設(shè)置

MathInstruct 的所有子集都統(tǒng)一成了類(lèi)似 Alpaca 的指令數(shù)據(jù)集的結(jié)構(gòu)。這種標(biāo)準(zhǔn)化操作可確保微調(diào)得到的模型能夠一致地處理數(shù)據(jù),無(wú)論原始數(shù)據(jù)集格式如何。

在基礎(chǔ)模型方面,該團(tuán)隊(duì)的選擇是 Llama-2 和 Code Llama。

通過(guò)在 MathInstruct 上進(jìn)行微調(diào),他們得到了 7B、13B、34B 和 70B 等大小不同的模型。

實(shí)驗(yàn)

評(píng)估數(shù)據(jù)集

為了評(píng)估模型的數(shù)學(xué)推理能力,該團(tuán)隊(duì)選擇了一些評(píng)估數(shù)據(jù)集,見(jiàn)下表 2,其中包含許多不同領(lǐng)域內(nèi)和領(lǐng)域外樣本,涉及多個(gè)不同數(shù)學(xué)領(lǐng)域。

圖片

這個(gè)評(píng)估數(shù)據(jù)集也包含不同的難度等級(jí),包括小學(xué)、中學(xué)和大學(xué)水平。某些數(shù)據(jù)集甚至包括形式邏輯和常識(shí)推理。

所選擇的評(píng)估數(shù)據(jù)集既有開(kāi)放式問(wèn)題,也有多項(xiàng)選擇題。

對(duì)于開(kāi)放式問(wèn)題(如 GSM8K 和 MATH),研究者采用了 PoT 解碼,因?yàn)榇蠖鄶?shù)這類(lèi)問(wèn)題可以通過(guò)程序求解。、

對(duì)于多項(xiàng)選擇題(如 AQuA 和 MMLU),研究者采用了 CoT 解碼,因?yàn)檫@個(gè)數(shù)據(jù)集中的大部分問(wèn)題都可以通過(guò) CoT 更好地處理。

CoT 解碼不需要任何觸發(fā)詞,而 PoT 解碼需要一個(gè)觸發(fā)語(yǔ):「Let’s write a program to solve the problem」。

主要結(jié)果

下表 3 和表 4 分別報(bào)告了在領(lǐng)域內(nèi)外數(shù)據(jù)上的結(jié)果。

總體而言,在不同的模型大小上,MAmmoTH 和 MAmmoTH-Coder 都優(yōu)于之前最佳的模型。新模型在領(lǐng)域外數(shù)據(jù)集上取得的性能增長(zhǎng)多于在領(lǐng)域內(nèi)數(shù)據(jù)集上所獲增長(zhǎng)。這些結(jié)果表明新模型確實(shí)有成為數(shù)學(xué)通才的潛力。MAmmoTH-Coder-34B 和 MAmmoTH-70B 在一些數(shù)據(jù)集上的表現(xiàn)甚至超過(guò)了閉源 LLM。

研究者也比較了使用不同基礎(chǔ)模型的情況。具體來(lái)說(shuō),他們實(shí)驗(yàn)了 Llama-2 和 Code-Llama 這兩種基礎(chǔ)模型。從上面兩張表可以看出,Code-Llama 整體上要優(yōu)于 Llama-2,尤其是在領(lǐng)域外數(shù)據(jù)集上。MAmmoTH 和 MAmmoTH-Coder 之間的差距甚至可達(dá) 5%。

在數(shù)據(jù)源上的消融研究

他們通過(guò)消融研究探索了性能增益的來(lái)源。為了更好地理解 MAmmoTH 相對(duì)于已有基準(zhǔn)模型的優(yōu)勢(shì)的來(lái)源,研究者進(jìn)行了一系列對(duì)照實(shí)驗(yàn),結(jié)果如下圖 2 所示。

總結(jié)起來(lái),MAmmoTH 的顯著性能優(yōu)勢(shì)可以歸功于:1) 涵蓋不同的數(shù)學(xué)領(lǐng)域和復(fù)雜程度的多樣化數(shù)據(jù)源,2) CoT 和 PoT 指令微調(diào)的混合策略。

他們也研究了主要子集的影響。對(duì)于用于訓(xùn)練 MAmmoTH 的 MathInstruct 的多樣化來(lái)源,理解各個(gè)來(lái)源對(duì)模型整體性能的貢獻(xiàn)程度也很重要。他們關(guān)注的重點(diǎn)是四個(gè)主要子集:GSM8K、MATH、 Camel 和 AQuA。他們進(jìn)行了一項(xiàng)實(shí)驗(yàn):逐漸將每個(gè)數(shù)據(jù)集添加到訓(xùn)練中,并將性能與在整個(gè) MathInstruct 上微調(diào)的模型進(jìn)行比較。

圖片

從表 5 的結(jié)果可以看到,如果一開(kāi)始訓(xùn)練的數(shù)據(jù)集不夠多樣化(比如只有 GSM8K 時(shí)),整體的泛化能力非常差:模型只擬合了分布內(nèi)的數(shù)據(jù),難以解答 GSM 問(wèn)題之外的問(wèn)題。

這些結(jié)果凸顯了多樣化數(shù)據(jù)源對(duì) MAmmoTH 的重要影響,它們是讓 MAmmoTH 成為數(shù)學(xué)通才的核心關(guān)鍵。這些結(jié)果也貢獻(xiàn)了寶貴的見(jiàn)解,能為我們未來(lái)的數(shù)據(jù)整理收集工作提供指導(dǎo)比如我們應(yīng)該總是收集多樣化的數(shù)據(jù),避免只收集特定類(lèi)型的數(shù)據(jù)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-07-12 08:19:16

XJSON四則運(yùn)算場(chǎng)景

2022-07-04 08:16:43

JSONJSON庫(kù)對(duì)象

2009-10-20 13:58:00

CCIE學(xué)習(xí)筆記

2011-08-18 14:05:12

NoSQL

2021-07-27 05:04:12

python初等函數(shù)

2022-10-27 10:06:16

Presto SQLAntlr大數(shù)據(jù)

2017-09-13 10:58:51

JavaScript轉(zhuǎn)換規(guī)則

2021-02-06 23:00:39

機(jī)器學(xué)習(xí)工程人工智能

2016-12-12 13:41:37

iOS簡(jiǎn)易加法開(kāi)發(fā)

2011-12-08 09:52:37

2024-11-25 14:10:00

2017-10-16 10:42:27

前端JavaScript浮點(diǎn)數(shù)

2012-03-09 15:07:35

2012-03-13 15:50:12

2017-09-05 16:17:35

JavaScript運(yùn)算轉(zhuǎn)換

2012-02-01 10:37:36

中小企業(yè)惠普惠商四則運(yùn)算

2021-03-29 14:53:01

大數(shù)據(jù)人工智能司法

2024-03-25 13:59:20

機(jī)器學(xué)習(xí)工業(yè)應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)