自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人會(huì)逆向思維,LLM也可以?DeepMind研究表明還能提升推理能力

人工智能
近日,北卡羅來(lái)納大學(xué)教堂山分校、谷歌 Cloud AI Research、谷歌 DeepMind 的一個(gè)聯(lián)合團(tuán)隊(duì)。他們發(fā)布的論文表明,逆向思維可以顯著 LLM 的推理能力,并且不限于數(shù)學(xué)任務(wù)。他們還提出了一個(gè)名叫 RevThink 的框架,可將逆向思維「灌輸」給語(yǔ)言模型。

人能逆向思維,LLM 也可以嗎?北卡羅來(lái)納大學(xué)教堂山分校與谷歌最近的一項(xiàng)研究表明,LLM 確實(shí)可以,并且逆向思維還能幫助提升 LLM 的正向推理能力!

圖片

論文一作 Justin Chih-Yao Chen 的推文

簡(jiǎn)單來(lái)說(shuō),正向思維就是從問(wèn)題開(kāi)始,一步步地得出答案;而逆向思維則是先從一個(gè)預(yù)測(cè)答案開(kāi)始,逆推到原始問(wèn)題。

組合使用正向和逆向思維可讓我們驗(yàn)證解答的正確性并找到可能的錯(cuò)誤。

舉個(gè)簡(jiǎn)單例子,如果小明有 2 個(gè)蘋(píng)果,小紅有 3 個(gè)蘋(píng)果,那么他們一共有多少個(gè)蘋(píng)果?

使用正向推理,我們可以得出 2 + 3 = 5。再使用逆向推理,我們可以從共有 5 個(gè)蘋(píng)果的結(jié)論開(kāi)始,然后根據(jù)小明有 2 個(gè)來(lái)逆向得知小紅有 3 個(gè)。這些數(shù)值與原始問(wèn)題相符,故此可以驗(yàn)證 5 這個(gè)答案的正確性。如果正向推理出錯(cuò)了,比如答案是 6 個(gè),那么逆向推理時(shí)就會(huì)得到與原始問(wèn)題不一樣的數(shù)值:小紅有 4 個(gè)蘋(píng)果。這種矛盾可讓我們重新檢視自己的推理過(guò)程哪里有誤。

大型語(yǔ)言模型(LLM)的數(shù)學(xué)能力也能通過(guò)正向 - 逆向推理得到提升,原因有二:

  • 數(shù)學(xué)本身是高度結(jié)構(gòu)化的,因此正向和逆向推理之間存在明確的逆反關(guān)系;
  • 只需替換名稱(chēng)或數(shù)值等變量,就可以創(chuàng)建出新的數(shù)學(xué)問(wèn)題。

那么問(wèn)題來(lái)了:逆向思維能否應(yīng)用于更廣泛、結(jié)構(gòu)性較差的領(lǐng)域?

此外,這些方法通常是測(cè)試時(shí)使用,目的是驗(yàn)證:給定一個(gè)解,讓 LLM 逆向思考并查看正向推理是否正確。雖然它們比其它測(cè)試時(shí)方法(例如自我一致性)的表現(xiàn)稍微好一點(diǎn),但還是存在未解的疑問(wèn):我們能否訓(xùn)練一個(gè)本身就能逆向思維的模型,從而提升其正向推理效果,而不是在測(cè)試時(shí)使用逆向推理進(jìn)行驗(yàn)證?

近日,北卡羅來(lái)納大學(xué)教堂山分校、谷歌 Cloud AI Research、谷歌 DeepMind 的一個(gè)聯(lián)合團(tuán)隊(duì)為上面兩個(gè)問(wèn)題提供了解答。他們發(fā)布的論文表明,逆向思維可以顯著 LLM 的推理能力,并且不限于數(shù)學(xué)任務(wù)。他們還提出了一個(gè)名叫 RevThink 的框架,可將逆向思維「灌輸」給語(yǔ)言模型。

圖片

  • 論文標(biāo)題:Reverse Thinking Makes LLMs Stronger Reasoners
  • 論文地址:https://arxiv.org/pdf/2411.19865

論文發(fā)布后,吸引來(lái)不少稱(chēng)贊之聲。

圖片

圖片

方法

RevThink 主要包含兩個(gè)階段:數(shù)據(jù)增強(qiáng)和全新的學(xué)習(xí)目標(biāo)。

圖片

數(shù)據(jù)增強(qiáng)

首先,對(duì)于推理數(shù)據(jù)集,該團(tuán)隊(duì)使用了一個(gè)更大、能力更強(qiáng)的教師模型來(lái)對(duì)其進(jìn)行增強(qiáng)。

我們知道,一般來(lái)說(shuō),推理基準(zhǔn)數(shù)據(jù)由一個(gè)問(wèn)題和一個(gè)答案構(gòu)成。那么該如何增強(qiáng)它呢?該團(tuán)隊(duì)的方法是通過(guò)對(duì)教師模式使用少樣本提示來(lái)(few-shot prompting)生成三種新數(shù)據(jù):正向推理、逆向問(wèn)題、逆向推理。其中正向和逆向推理都會(huì)使用思維鏈。

只有當(dāng)數(shù)據(jù)點(diǎn)的正向推理準(zhǔn)確(與 ground truth 相符)且逆向推理與原始問(wèn)題一致(通過(guò)提示教師模型進(jìn)行驗(yàn)證)時(shí),該數(shù)據(jù)點(diǎn)才會(huì)被保留下來(lái)。

學(xué)習(xí)目標(biāo)

完成數(shù)據(jù)集增強(qiáng)之后,該團(tuán)隊(duì)還提出了三個(gè)用于訓(xùn)練更小的學(xué)生模型的關(guān)鍵目標(biāo)。

圖片

具體來(lái)說(shuō),學(xué)生模型需要學(xué)會(huì):

  • 基于問(wèn)題生成正確的正向推理;
  • 基于原始問(wèn)題生成逆向問(wèn)題;
  • 基于逆向問(wèn)題生成逆向推理。

之所以要設(shè)置這三個(gè)目標(biāo),該團(tuán)隊(duì)說(shuō)明了三點(diǎn)原因:

  • 基于問(wèn)題生成正確的正向推理是知識(shí)蒸餾的標(biāo)準(zhǔn)方法;
  • 生成逆向問(wèn)題會(huì)促使學(xué)生模型「思考」如何逆向一個(gè)問(wèn)題并確定要問(wèn)的正確問(wèn)題;
  • 最后,解決這個(gè)逆向問(wèn)題可以增強(qiáng)學(xué)生模型逆向推理的能力。

在測(cè)試時(shí),首先會(huì)使用問(wèn)題來(lái)詢(xún)問(wèn)該學(xué)生模型,而它只會(huì)生成前向推理 —— 類(lèi)似于標(biāo)準(zhǔn)的零樣本推理。

本質(zhì)上講,這個(gè)流程是在訓(xùn)練過(guò)程中內(nèi)化了逆向推理的能力,同時(shí)還能保證測(cè)試時(shí)間計(jì)算與零樣本方法一樣高效。

如圖 1 傳統(tǒng)的監(jiān)督式微調(diào)側(cè)重于從問(wèn)題到答案的單向推理。相比之下,RevThink 基于新提出的數(shù)據(jù)增強(qiáng)方法和目標(biāo),通過(guò)學(xué)習(xí)兩個(gè)方向的推理而引入了雙向思維。這能為模型帶來(lái)更大的提升。

圖片

實(shí)驗(yàn)和評(píng)估

該團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)驗(yàn)證了 RevThink 的有效性。具體來(lái)說(shuō),他們使用的教師模型是 Gemini-1.5-Pro-001,學(xué)生模型是 Mistral-7B-Instruct-v0.3 和 Gemma-7B-Instruct。訓(xùn)練中,他們使用了 LoRA 微調(diào),秩設(shè)為 32。所有比較方法都使用了 vllm 和貪婪解碼。

他們也選擇了多種任務(wù)進(jìn)行評(píng)估,包括常識(shí)推理(StrategyQA、CommonsenseQA、ARCchallenge),數(shù)學(xué)推理(MATH、GSM8K),表格數(shù)據(jù)推理(TabMWP)、自然語(yǔ)言推理(ANLI),邏輯推理(Date Understanding)。

參與比較的方法大致可分為三類(lèi):零樣本方法、知識(shí)蒸餾(包含符號(hào)知識(shí)蒸餾和逐步蒸餾)和數(shù)據(jù)增強(qiáng)(包含問(wèn)題重新表述、問(wèn)題增強(qiáng)、答案增強(qiáng))。更多實(shí)驗(yàn)設(shè)置請(qǐng)參閱原論文。

主要結(jié)果

表 1 給出了主要結(jié)果。

圖片

首先,RevThink 的平均性能表現(xiàn)很好,在不同數(shù)據(jù)集和模型上都優(yōu)于基線(xiàn)。與學(xué)生模型的零樣本性能相比,RevThink 使用 Mistral 時(shí)實(shí)現(xiàn)了 12.68% 的平均提升,使用 Gemma 時(shí)實(shí)現(xiàn)了 14.37% 的平均提升。

圖片

此外,相比于符號(hào)知識(shí)蒸餾(SKD)和逐步蒸餾(Distill Step-by-Step)—— 依賴(lài)于使用來(lái)自教師模型的正確推理鏈來(lái)執(zhí)行監(jiān)督式微調(diào),RevThink 有 6.44% 至 7.15% 的顯著提升。

與基于數(shù)據(jù)增強(qiáng)的基線(xiàn)方法相比,RevThink 帶來(lái)的增益也更為顯著,特別是在常識(shí)推理、表格推理和日期理解方面。雖然其中一些增強(qiáng)方法(例如答案增強(qiáng) (AnsAug))對(duì)于數(shù)學(xué)推理很有效,但它們?yōu)槠渌I(lǐng)域帶來(lái)的改進(jìn)較少。這表明數(shù)學(xué)是一個(gè)更結(jié)構(gòu)化的領(lǐng)域,會(huì)隨著數(shù)據(jù)的增加而更好地?cái)U(kuò)展。

相比之下,RevThink 在各種推理任務(wù)上都能帶來(lái)穩(wěn)定的提升。并且表 3 表明,在留存數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),RevThink 在領(lǐng)域外數(shù)學(xué)數(shù)據(jù)集上也能帶來(lái)更大的增益,表現(xiàn)出了更好的泛化能力。

圖片

下面還列出了 RevThink 的更多優(yōu)勢(shì),相關(guān)詳情請(qǐng)?jiān)L問(wèn)原論文:

  • RevThink 表現(xiàn)出了很好的樣本效率。
  • 逆向問(wèn)題生成可提高性能,但充分利用新的數(shù)據(jù)集可獲得最佳性能。
  • RevThink 的目標(biāo)比使用指令調(diào)整的單獨(dú)實(shí)例更有效。
  • 只需稍多一點(diǎn) token,RevThink 就能獲得更大提升。
  • RevThink 與模型大小呈正相關(guān)。
  • RevThink 可泛化至 OOD 數(shù)據(jù)集。
  • RevThink 可作為現(xiàn)有方法的補(bǔ)充。
  • RevThink 在可逆問(wèn)題和中等難度問(wèn)題上表現(xiàn)出了更大的提升。
責(zé)任編輯:姜華 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-07-05 15:06:00

2024-06-17 13:34:54

2025-02-10 13:00:00

模型訓(xùn)練AI

2021-04-02 09:40:06

量子計(jì)算芯片超算

2024-11-11 11:05:00

大語(yǔ)言模型系統(tǒng)

2024-10-22 18:44:48

2022-12-01 08:00:00

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2025-02-17 14:43:51

2025-01-14 13:52:56

2023-11-03 13:07:00

AI模型

2023-05-22 15:17:02

谷歌AI

2024-06-11 07:45:00

2022-09-16 07:23:24

人工智能自然語(yǔ)言系統(tǒng)

2023-10-11 12:32:53

AI模型

2025-01-22 08:30:00

2014-04-03 19:34:39

Adobe

2025-04-07 09:23:00

大模型LLM推理

2019-08-26 13:17:43

2023-11-15 14:17:23

微軟語(yǔ)言模型AI 模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)