自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4 做「世界模型」,讓LLM從「錯(cuò)題」中學(xué)習(xí),推理能力顯著提升

人工智能 新聞
在最近的一篇論文,來(lái)自西安交大、微軟、北大的研究者嘗試探討了另外一種提升思路:是否可以通過(guò)逆向?qū)W習(xí)過(guò)程(即從 LLM 犯過(guò)的錯(cuò)誤中學(xué)習(xí))進(jìn)一步提高其推理能力?

這段時(shí)間,大語(yǔ)言模型在各種 NLP 任務(wù)中取得了重大進(jìn)展,尤其是在需要復(fù)雜的思維鏈(CoT)推理的數(shù)學(xué)問(wèn)題方面。

比如在 GSM8K、MATH 這樣的高難度數(shù)學(xué)任務(wù)的數(shù)據(jù)集中,包括 GPT-4 和 PaLM-2 在內(nèi)的專(zhuān)有模型已取得顯著成果。在這方面,開(kāi)源大模型還有相當(dāng)?shù)奶嵘臻g。為了進(jìn)一步提高開(kāi)源大模型處理數(shù)學(xué)任務(wù)的 CoT 推理能力,一種常見(jiàn)的方法是使用注釋 / 生成的問(wèn)題 - 推理數(shù)據(jù)對(duì)( CoT 數(shù)據(jù))對(duì)這些模型進(jìn)行微調(diào),這些數(shù)據(jù)對(duì)會(huì)直接教導(dǎo)模型如何在這些任務(wù)中執(zhí)行 CoT 推理。

在最近的一篇論文,來(lái)自西安交大、微軟、北大的研究者嘗試探討了另外一種提升思路:是否可以通過(guò)逆向?qū)W習(xí)過(guò)程(即從 LLM 犯過(guò)的錯(cuò)誤中學(xué)習(xí))進(jìn)一步提高其推理能力?

就像是一個(gè)剛開(kāi)始學(xué)習(xí)數(shù)學(xué)的學(xué)生,首先會(huì)從書(shū)本上的知識(shí)點(diǎn)和例題中學(xué)習(xí),但也會(huì)進(jìn)行練習(xí)。解題失敗后,他便知道自己犯了什么錯(cuò)誤、如何改正,形成一個(gè)「錯(cuò)題本」。正是通過(guò)從錯(cuò)誤中學(xué)習(xí),推理能力得到了進(jìn)一步提高。

受這個(gè)過(guò)程的啟發(fā),這項(xiàng)工作探討了 LLM 的推理能力如何從理解和糾正錯(cuò)誤中受益。

圖片

論文地址:https://arxiv.org/pdf/2310.20689.pdf

具體來(lái)說(shuō),研究者首先生成錯(cuò)誤 - 修正數(shù)據(jù)對(duì)(稱(chēng)為修正數(shù)據(jù)),然后利用修正數(shù)據(jù)對(duì) LLM 進(jìn)行微調(diào)。在生成修正數(shù)據(jù)時(shí),他們使用了多個(gè) LLM(包括 LLaMA 和 GPT 系列模型)來(lái)收集不準(zhǔn)確的推理路徑(即最終答案不正確),然后使用 GPT-4 作為 「修正器」,為這些不準(zhǔn)確的推理路徑生成修正。

生成的修正包含三條信息:(1) 原始解法中不正確的步驟;(2) 解釋該步驟不正確的原因;(3) 如何修正原始解法以得出正確的最終答案。在過(guò)濾掉最終答案不正確的修正后,人工評(píng)估結(jié)果表明,修正數(shù)據(jù)在后續(xù)的微調(diào)階段表現(xiàn)出了足夠的質(zhì)量。研究者使用 QLoRA 對(duì) CoT 數(shù)據(jù)和修正數(shù)據(jù)微調(diào)了 LLM,從而執(zhí)行了「從錯(cuò)誤中學(xué)習(xí)」(LEMA)。

研究者指出,當(dāng)前 LLM 能夠在解決問(wèn)題時(shí)采用循序漸進(jìn)(step-by-step)的方法,然而這種多步驟生成過(guò)程并不意味著 LLM 本身就擁有強(qiáng)大的推理能力,因?yàn)樗鼈兛赡苤皇悄7氯祟?lèi)推理的表面行為,而沒(méi)有真正理解精確推理所需的底層邏輯和規(guī)則。

這種不理解會(huì)導(dǎo)致在推理過(guò)程中出現(xiàn)錯(cuò)誤,因此需要「世界模型」的幫助,因?yàn)椤甘澜缒P汀箤?duì)現(xiàn)實(shí)世界的邏輯和規(guī)則具有先驗(yàn)意識(shí)。從這個(gè)角度來(lái)看,本文中 LEMA 框架可以看成是采用了 GPT-4 作為「世界模型」,教導(dǎo)更小的模型遵守這些邏輯和規(guī)則,而不僅僅是模仿 step-by-step 的行為。

接下來(lái),我們看一下這項(xiàng)研究的具體方法。

方法概覽

下圖 1(左)為 LEMA 的整體流程,包括兩個(gè)主要階段,分別是生成修正數(shù)據(jù)和微調(diào) LLM。圖 1(右)為 LEMA 在 GSM8K 和 MATH 數(shù)據(jù)集上的性能表現(xiàn)。

圖片

生成修正數(shù)據(jù)

給定一個(gè)問(wèn)答示例圖片、一個(gè)修正器模型 M_c 和一個(gè)推理模型 M_r,研究者生成了錯(cuò)誤修正數(shù)據(jù)對(duì)圖片,其中圖片表示問(wèn)題 q_i 的不準(zhǔn)確推理路徑,c_i 表示對(duì)圖片的修正。


修正不準(zhǔn)確的推理路徑。研究者首先使用推理模型 M_r,為每個(gè)問(wèn)題 q_i 采樣了多個(gè)推理路徑,然后只保留那些最終得不出正確答案 a_i 的路徑,如下公式(1)所示。

圖片

為錯(cuò)誤生成修正。對(duì)于問(wèn)題 q_i 和不準(zhǔn)確的推理路徑圖片,研究者使用修正器模型 M_c 來(lái)生成一個(gè)修正,然后在修正中檢查正確答案,如下公式(2)所示。

圖片

這里 P_c 包含 4 個(gè)帶注釋的錯(cuò)誤修正示例,以指導(dǎo)修正器模型應(yīng)該在生成的修正中包含什么類(lèi)型的信息。

具體來(lái)講,帶注釋的修正包含以下三類(lèi)信息:

  • 錯(cuò)誤步驟:原始推理路徑中哪一步出錯(cuò)了。
  • 解釋?zhuān)涸摬襟E中出現(xiàn)了什么類(lèi)型的錯(cuò)誤;
  • 正確解決方案:如何修正不準(zhǔn)確的推理路徑以更好地解決原始問(wèn)題。

下圖示例 1 簡(jiǎn)要地展示了生成修正所用的 prompt。

圖片

生成修正的人工評(píng)估。在生成更大規(guī)模的數(shù)據(jù)之前,研究者首先手動(dòng)評(píng)估了生成修正的質(zhì)量。他們以 LLaMA-2-70B 為 M_r、以 GPT-4 為 M_c,并基于 GSM8K 訓(xùn)練集生成了 50 個(gè)錯(cuò)誤修正數(shù)據(jù)對(duì)。

研究者將修正劃分為了三個(gè)質(zhì)量等級(jí),分別為優(yōu)秀(Excellent)、良好(Good)和糟糕(Poor)。三者的示例分別如下所示。

圖片

圖片

圖片

評(píng)估結(jié)果發(fā)現(xiàn),50 個(gè)生成修正中有 35 個(gè)達(dá)到了優(yōu)秀質(zhì)量、11 個(gè)為良好、4 個(gè)為糟糕。根據(jù)這一評(píng)估結(jié)果,研究者推斷使用 GPT-4 生成修正的整體質(zhì)量足以進(jìn)行進(jìn)一步的微調(diào)階段。因此,他們生成了更多大規(guī)模的修正,并將所有最終得出正確答案的修正用于微調(diào) LLM。

微調(diào) LLM

在生成修正數(shù)據(jù)之后,研究者微調(diào)了 LLM,從而評(píng)估這些模型是否可以從錯(cuò)誤中學(xué)習(xí)。他們主要在以下兩種微調(diào)設(shè)置下進(jìn)行性能比較。

一是在思維鏈(CoT)數(shù)據(jù)上微調(diào)。研究者僅在問(wèn)題原理(question-rationale)數(shù)據(jù)上微調(diào)模型。盡管每個(gè)任務(wù)中有帶注釋的數(shù)據(jù),但他們額外采用了 CoT 數(shù)據(jù)增強(qiáng)。研究者使用 GPT-4 為訓(xùn)練集中的每個(gè)問(wèn)題生成了更多推理路徑,并過(guò)濾掉最終答案錯(cuò)誤的路徑。他們利用 CoT 數(shù)據(jù)增強(qiáng)來(lái)構(gòu)建一個(gè)強(qiáng)大的微調(diào)基線(xiàn),該基線(xiàn)僅使用 CoT 數(shù)據(jù),并有助于對(duì)控制微調(diào)的數(shù)據(jù)大小進(jìn)行消融研究。

二是在 CoT 數(shù)據(jù) + 修正數(shù)據(jù)上微調(diào)。除了 CoT 數(shù)據(jù),研究者還將生成的錯(cuò)誤修正數(shù)據(jù)用于微調(diào)(即 LEMA)。他們同樣進(jìn)行了控制數(shù)據(jù)大小的消融實(shí)驗(yàn),以減少增量對(duì)數(shù)據(jù)大小的影響。

下圖附錄 A 中的示例 5 和示例 6 分別展示了用于微調(diào)的 CoT 數(shù)據(jù)和修正數(shù)據(jù)的輸入 - 輸出格式。

圖片

實(shí)驗(yàn)結(jié)果

研究者在五個(gè)開(kāi)源 LLM 和兩個(gè)具有挑戰(zhàn)性的數(shù)學(xué)推理任務(wù)上的實(shí)驗(yàn)結(jié)果證明了 LEMA 的有效性。

圖片

與僅在 CoT 數(shù)據(jù)上進(jìn)行微調(diào)相比,LEMA 在各種 LLM 和任務(wù)中都能起到持續(xù)提升性能的作用。例如,使用 LLaMA-2-70B 的 LEMA 在 GSM8K 和 MATH 上分別取得了 83.5% 和 25.0% 的成績(jī),而僅在 CoT 數(shù)據(jù)上進(jìn)行微調(diào)則分別取得了 81.4% 和 23.6% 的成績(jī)。

圖片

此外,LEMA 與專(zhuān)有 LLM 兼容:帶有 WizardMath-70B /MetaMath-70B 的 LEMA 在 GSM8K 上實(shí)現(xiàn)了 84.2%/85.4% 的 pass@1 準(zhǔn)確率,在 MATH 上實(shí)現(xiàn)了 27.1%/26.9% 的 pass@1 準(zhǔn)確率,超過(guò)了眾多開(kāi)源模型在這些挑戰(zhàn)性任務(wù)上取得的 SOTA 性能。

隨后的消融研究表明,在相同的數(shù)據(jù)量下,LEMA 仍然優(yōu)于 CoT-alone 微調(diào)。這表明,CoT 數(shù)據(jù)和校正數(shù)據(jù)的有效性并不相同,因?yàn)閮煞N數(shù)據(jù)源的結(jié)合比使用單一數(shù)據(jù)源能產(chǎn)生更多的改進(jìn)。這些實(shí)驗(yàn)結(jié)果和分析強(qiáng)調(diào)了從錯(cuò)誤中學(xué)習(xí)在增強(qiáng) LLM 推理能力方面的潛力。

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-05-15 15:38:59

AI模型

2024-07-16 13:13:26

2023-08-15 13:24:04

GPT-4AGI模型

2023-05-22 15:17:02

谷歌AI

2023-05-29 09:29:52

GPT-4語(yǔ)言模型

2024-08-08 13:04:28

2023-03-27 18:18:47

GPT-4AI

2023-04-04 11:20:40

GPT-4OpenAI

2023-10-14 17:24:49

2023-03-29 10:31:40

MIT論文

2024-07-08 08:38:00

模型推理

2023-08-17 08:00:00

2024-06-11 14:30:18

2023-06-19 08:19:50

2023-11-07 14:07:51

GPT-4大語(yǔ)言模型

2023-05-24 10:01:24

代碼模型

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2023-12-26 08:17:23

微軟GPT-4

2023-08-11 13:34:06

GPT-4訓(xùn)練

2024-01-30 21:18:57

模型智能CMMLU
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)