自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

兩個(gè)小模型互相驗(yàn)證,直接比肩大模型?微軟的rStar甚至沒(méi)用CoT和微調(diào)

人工智能 新聞
為了在沒(méi)有更優(yōu)模型的前提下提升推理能力,一種頗有希望的范式是利用 LLM 自身之中的知識(shí)。

眾所周知,LLM 很強(qiáng)大,但執(zhí)行復(fù)雜推理的能力還不夠強(qiáng)。

舉個(gè)例子,在 GSM8K 數(shù)據(jù)集上,Mistral-7B 即使使用思維鏈(CoT)等技術(shù),也只能達(dá)到 36.5% 的準(zhǔn)確度。盡管微調(diào)確實(shí)也能有效地提升推理能力,但大多數(shù) LLM 依靠的微調(diào)數(shù)據(jù)都是經(jīng)過(guò) GPT-4 等更強(qiáng)大模型蒸餾過(guò)的,甚至可能原本就是這些強(qiáng)大模型合成的。

同時(shí),研究者們也在積極開(kāi)發(fā)一種能提供輔助但也更困難的方法:使用一個(gè)更優(yōu)的教師 LLM 來(lái)提升推理能力。

為了在沒(méi)有更優(yōu)模型的前提下提升推理能力,一種頗有希望的范式是利用 LLM 自身之中的知識(shí)。舉個(gè)例子,一種名為 RAP 的方法采用了一種自我探索式的解決方法,即通過(guò)自我獎(jiǎng)勵(lì)的反饋來(lái)迭代式地提升 LLM 的推理性能。不幸的是,研究表明這一范式具有兩大根本性問(wèn)題。

第一,在執(zhí)行推理時(shí),LLM 往往難以有效地探索解答空間。這種自我探索式方法往往會(huì)因推理步驟質(zhì)量不佳而受困于某個(gè)解答空間,即使多次嘗試也是如此。

第二,即使自我探索找到了高質(zhì)量的推理步驟,小版本的大型語(yǔ)言模型(SLM)也難以辨別哪些推理步驟的質(zhì)量更高,也難以確定最終答案是否正確,由此難以有效地引導(dǎo)自我探索。研究表明,基于基本的常規(guī)獎(jiǎng)勵(lì)的自我探索引導(dǎo)得到的結(jié)果并不比隨機(jī)猜測(cè)更好。

更麻煩的是,小版本的大型語(yǔ)言模型(SLM)更容易出現(xiàn)上述兩個(gè)問(wèn)題,因?yàn)樗鼈兊哪芰Ω钜恍?。舉個(gè)例子,GPT-4 能通過(guò)自我優(yōu)化來(lái)提升輸出結(jié)果,但 SLM 卻很難做到這一點(diǎn),甚至可能導(dǎo)致輸出結(jié)果質(zhì)量下降。這會(huì)嚴(yán)重妨礙神經(jīng)語(yǔ)言模型的推廣應(yīng)用。

針對(duì)這些問(wèn)題,微軟亞洲研究院和哈佛大學(xué)的一個(gè)研究團(tuán)隊(duì)提出了 Self-play muTuAl Reasoning,即自博弈相互推理,簡(jiǎn)稱(chēng) rStar。簡(jiǎn)單來(lái)說(shuō),該方法就類(lèi)似于讓兩個(gè)學(xué)習(xí)平平的人互相檢查考卷答案,最終提升得分,甚至達(dá)到比肩學(xué)霸的程度。該團(tuán)隊(duì)宣稱(chēng) rStar 「無(wú)需微調(diào)或更優(yōu)模型就能提升 SLM 的推理能力」。

圖片

  • 論文標(biāo)題:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
  • 論文地址:https://arxiv.org/pdf/2408.06195
  • 代碼地址:https://github.com/zhentingqi/rStar (尚待發(fā)布)

方法

為了解決上述難題,rStar 的做法是將推理過(guò)程分成了解答生成和相互驗(yàn)證兩部分,如圖 2 所示。

圖片

針對(duì)第一個(gè)難題,該團(tuán)隊(duì)引入了一個(gè)集合,其中包含豐富的類(lèi)似人類(lèi)的推理動(dòng)作,可透徹地探索多種不同的推理任務(wù)空間。

針對(duì)第二個(gè)難題,他們?cè)O(shè)計(jì)了一個(gè)專(zhuān)門(mén)針對(duì) SLM 的獎(jiǎng)勵(lì)函數(shù),這能對(duì)中間步驟進(jìn)行評(píng)估,從而避免依賴(lài)它們那往往并不可靠的自我評(píng)估。

此外,該團(tuán)隊(duì)還使用了另一個(gè) SLM 作為判別器來(lái)增強(qiáng) MCTS 過(guò)程,與判別器 SLM 互相驗(yàn)證每條軌跡的正確性。

使用 MCTS Rollout 自己生成推理軌跡

一個(gè)包含豐富的類(lèi)人推理動(dòng)作的集合。MCTS 生成的核心在于動(dòng)作空間,其定義了樹(shù)探索的范圍。大多數(shù)基于 MCTS 的方法在構(gòu)建樹(shù)時(shí)都使用了單一動(dòng)作類(lèi)型。比如 RAP 中的動(dòng)作是提出下一個(gè)子問(wèn)題,而 AlphaMath 和 MindStar 中的動(dòng)作是生成下一推理步驟。但是,依賴(lài)單一動(dòng)作類(lèi)型可能容易導(dǎo)致空間探索效果不佳。

為了解決這個(gè)問(wèn)題,該團(tuán)隊(duì)回顧了人類(lèi)執(zhí)行推理的方法。不同的人解決問(wèn)題的方法也不同:某些人會(huì)將問(wèn)題分解成子問(wèn)題,另一些則會(huì)直接解決問(wèn)題,還有些人則會(huì)換個(gè)視角重新表述問(wèn)題。此外,人們還會(huì)根據(jù)當(dāng)前狀態(tài)調(diào)整自己的方法,按需求選擇不同的動(dòng)作。

受人類(lèi)推理過(guò)程的啟發(fā),該團(tuán)隊(duì)構(gòu)建了一個(gè)更為豐富的數(shù)據(jù)集,其中包含 5 類(lèi)動(dòng)作,以盡可能地提升 SLM 正確解決復(fù)雜推理問(wèn)題的潛力。

動(dòng)作 1:提議一步思路。針對(duì)給定問(wèn)題,該動(dòng)作會(huì)讓 LLM 基于已有的推理步驟生成接下來(lái)的一步思路。

動(dòng)作 2:提議余下的思路步驟。該動(dòng)作與標(biāo)準(zhǔn) CoT 一樣,能實(shí)現(xiàn)「快速思考」,從而解決只需少量步驟的簡(jiǎn)單問(wèn)題。給定已經(jīng)生成的推理步驟,它會(huì)讓 LLM 直接生成剩余步驟,直到得到最終答案。

動(dòng)作 3:提議下一個(gè)子問(wèn)題及其答案。

動(dòng)作 4:再次回答這個(gè)子問(wèn)題??紤]到動(dòng)作 3 有可能無(wú)法正確回答對(duì)應(yīng)的子問(wèn)題,因此這個(gè)動(dòng)作的作用是再次回答它。

動(dòng)作 5:重新表述問(wèn)題 / 子問(wèn)題。這個(gè)新動(dòng)作是以更簡(jiǎn)單的方式重新表述該問(wèn)題。具體來(lái)說(shuō),這里是讓 LLM 清晰列出問(wèn)題陳述中的所有條件。

以上五個(gè)動(dòng)作定義了一個(gè)高度多樣化的動(dòng)作空間 {A1, A2, A3, A4, A5}。

在每個(gè)步驟 i,MCTS 從該空間選取一個(gè)動(dòng)作 a_i。然后基于當(dāng)前狀態(tài)(即之前生成的軌跡 x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i?1}),使用該動(dòng)作 a_i 讓 LLM 生成下一推理步驟 s_i。請(qǐng)注意某些動(dòng)作需要按順序執(zhí)行。圖 3 給出了一個(gè)示例。

圖片

如表 1 所示,在提升最終推理準(zhǔn)確度方面,每個(gè)動(dòng)作都具有重要作用。

圖片

  • 獎(jiǎng)勵(lì)函數(shù)

MCTS 的另一個(gè)關(guān)鍵組件是獎(jiǎng)勵(lì)函數(shù),其作用是評(píng)估每個(gè)動(dòng)作的價(jià)值并為樹(shù)的擴(kuò)展提供指示。針對(duì) SLM,該團(tuán)隊(duì)設(shè)計(jì)了一個(gè)簡(jiǎn)單卻有效的獎(jiǎng)勵(lì)函數(shù)。他們的方法靈感來(lái)自 AlphaGo,即基于每個(gè)中間節(jié)點(diǎn)對(duì)最終正確答案的貢獻(xiàn)對(duì)它們進(jìn)行評(píng)分。這樣一來(lái),經(jīng)常得到正確答案的動(dòng)作就能獲得更高獎(jiǎng)勵(lì),它們也就更可能在未來(lái)的 MCTS 樹(shù)擴(kuò)展中被選取。

這里將執(zhí)行動(dòng)作 a 后生成的節(jié)點(diǎn) s 的獎(jiǎng)勵(lì)值定義為 Q (s, a)。一開(kāi)始,所有未被探索過(guò)的節(jié)點(diǎn)都被分配了 Q (s_i, a_i) = 0,從而實(shí)現(xiàn)隨機(jī)的樹(shù)擴(kuò)展。在抵達(dá)首個(gè)端節(jié)點(diǎn) n_d 時(shí),根據(jù)其是否得到正確答案而計(jì)算一個(gè)獎(jiǎng)勵(lì)分?jǐn)?shù) Q (s_d, a_d)。

然后,沿軌跡 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d 將該分?jǐn)?shù)反向傳播給每個(gè)中間節(jié)點(diǎn)。具體來(lái)說(shuō),對(duì)于每個(gè) s_i,都以如下方式更新其 Q 值:Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d)。為了計(jì)算端節(jié)點(diǎn)的 Q (s_d, a_d),這里使用的獎(jiǎng)勵(lì)值是自洽多數(shù)投票的似然(置信度)。

  • 使用 MCTS Rollout 生成解答

下面描述 MCTS 生成候選推理軌跡的方式。從初始的根節(jié)點(diǎn) s_0 開(kāi)始,執(zhí)行包括選取、擴(kuò)展、模擬和反向傳播在內(nèi)的多種搜索。具體來(lái)說(shuō),模擬使用的是默認(rèn)的 Rollout 策略。為了得到更準(zhǔn)確的獎(jiǎng)勵(lì)估計(jì),該團(tuán)隊(duì)會(huì)執(zhí)行多次 Rollout。為了平衡探索與利用,他們使用了著名的 UCT(樹(shù)的置信度上界)來(lái)選取每個(gè)節(jié)點(diǎn)。這個(gè)選取過(guò)程的數(shù)學(xué)形式為:

其中 N (s, a) 是之前的迭代中節(jié)點(diǎn) s 被訪問(wèn)的次數(shù),N_parent (s) 表示對(duì) s 的父節(jié)點(diǎn)的訪問(wèn)次數(shù)。Q (s, a) 是估計(jì)的獎(jiǎng)勵(lì)值,會(huì)在反向傳播過(guò)程中得到更新。c 是平衡探索與利用的常量。

一旦搜索到達(dá)某個(gè)端節(jié)點(diǎn)(可能是一個(gè)終端狀態(tài),也可能到達(dá)了預(yù)定義的最大樹(shù)深度 d),便能得到一條從根到端節(jié)點(diǎn)的軌跡。將 Rollout 迭代得到的所有軌跡收集起來(lái)作為候選解答。接下來(lái)就需要對(duì)它們進(jìn)行驗(yàn)證。

使用互恰性選擇推理軌跡

基于收集到的所有軌跡,該團(tuán)隊(duì)提出使用推理互恰性來(lái)選擇答案。

  • 通過(guò)判別器 SLM 實(shí)現(xiàn)推理互恰性

如圖 2 所示,除了目標(biāo) SLM 外,該團(tuán)隊(duì)還引入了一個(gè)判別器 SLM,其作用是為每個(gè)候選軌跡提供外部無(wú)監(jiān)督反饋。

具體來(lái)說(shuō),對(duì)于 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d,遮掩從某個(gè)隨機(jī)采樣的步驟 i 處開(kāi)始的推理步驟。然后將之前的推理軌跡 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} 作為 prompt 提供給判別器 SLM,讓其補(bǔ)全剩余步驟。由于將之前的 i-1 個(gè)推理步驟作為了提示,因此難度降低了,判別器 SLM 便更有可能給出正確答案。

圖 4 中比較了判別器 SLM 補(bǔ)全的答案是否與原始軌跡 t 匹配。如果兩者一致,則認(rèn)為 t 是可以最終選擇的已驗(yàn)證軌跡。

圖片

由目標(biāo) SLM 選取最終軌跡。在對(duì)所有候選軌跡使用了推理互恰性之后,再回到目標(biāo) SLM,讓其從已驗(yàn)證軌跡中選出最終軌跡。為了計(jì)算每條軌跡的最終分?jǐn)?shù),該團(tuán)隊(duì)的做法是用其獎(jiǎng)勵(lì)乘以通過(guò) Rollout 得到的其端節(jié)點(diǎn)的置信度分?jǐn)?shù)。最終分?jǐn)?shù)最高的軌跡被選作解答。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

rStar 適用于多種 LLM 和推理任務(wù)。該團(tuán)隊(duì)評(píng)估了 5 個(gè) SLM:Phi3-mini、LLaMA2-7B、Mistral-7B、LLaMA3-8B、LLaMA3-8B-Instruct。

測(cè)試的推理任務(wù)有 5 個(gè),其中包括 4 個(gè)數(shù)學(xué)任務(wù)(GSM8K、GSM-Hard、MATH、SVAMP)和 1 個(gè)常識(shí)任務(wù)(StrategyQA)。

實(shí)驗(yàn)細(xì)節(jié)請(qǐng)?jiān)L問(wèn)原論文。

主要結(jié)果

該團(tuán)隊(duì)首先評(píng)估了 rStar 在一般推理基準(zhǔn)上的有效性。表 2 比較了 rStar 和其它當(dāng)前最佳方法在不同 SLM 和推理數(shù)據(jù)集上的準(zhǔn)確度。為了演示新生成器的效果,該團(tuán)隊(duì)還提供了 rStar (generator @maj) 的準(zhǔn)確度,即不使用判別器,僅使用多數(shù)投票來(lái)驗(yàn)證答案而得到的準(zhǔn)確度。

圖片

該團(tuán)隊(duì)指出了其中的三項(xiàng)關(guān)鍵結(jié)果:

1. 得到 rStar 助力的 SLM 解決問(wèn)題的能力更強(qiáng)。比如,在 GSM8K 數(shù)據(jù)集上,使用少樣本 CoT 的 LLaMA2-7B 的準(zhǔn)確度只有 12.51%。但有了 rStar 的幫助,其準(zhǔn)確度提升到了 63.91%,這一成績(jī)接近使用微調(diào)得到的準(zhǔn)確度,如圖 1 所示。類(lèi)似地,使用 rStar 的 Mistral 的性能甚至比微調(diào)版的 MetaMath 還高 4.18%。這樣的提升表明,SLM 本身已經(jīng)具備很強(qiáng)的推理能力,但需要引導(dǎo)才能生成和選出正確解答。

圖片

2.rStar 可以穩(wěn)定地將被評(píng)估的多種 SLM 在不同任務(wù)上的推理準(zhǔn)確度提升至當(dāng)前最佳水平。相較之下,其它對(duì)比方法都無(wú)法穩(wěn)定地在所有四個(gè)基準(zhǔn)上取得優(yōu)良表現(xiàn)。舉個(gè)例子,盡管 SC(自我一致性)擅長(zhǎng)三個(gè)數(shù)學(xué)任務(wù),但卻無(wú)法有效解決 StrategyQA 的邏輯推理任務(wù)。

3. 即使沒(méi)有新提出的用于驗(yàn)證推理軌跡的判別器,新提出的 MCTS 生成器在提升 SLM 的推理準(zhǔn)確度方面依然效果很好。比如,在 GSM8K 數(shù)據(jù)集上,rStar (generator @maj) 的準(zhǔn)確度比 RAP 高 2.88%-16.39%、比 ToT 高 10.60%- 38.37%、比 SC 高 1.69% - 7.34%。

  • 在高難度數(shù)學(xué)數(shù)據(jù)集上的結(jié)果

該團(tuán)隊(duì)還在一個(gè)更高難度的數(shù)學(xué)數(shù)據(jù)集上評(píng)估了 rStar。為此他們選擇了 GSM-Hard 和 MATH 數(shù)據(jù)集。遵照同類(lèi)研究的慣例,他們使用了 MATH-500,這是來(lái)自 MATH 數(shù)據(jù)集的一個(gè)包含代表性問(wèn)題的子集。這樣做是為了提升評(píng)估速度。如表 2 和 3 所示,rStar 能夠顯著提高 SLM 在這些高難度數(shù)學(xué)數(shù)據(jù)集上的推理準(zhǔn)確度。

圖片

消融研究

  • 不同 Rollout 的有效性

rStar 使用了 Rollout 策略來(lái)執(zhí)行 MCTS 樹(shù)擴(kuò)展。更多 Rollout 會(huì)生成更多候選解答軌跡,但也會(huì)抬高推理成本。圖 5 比較了在 GSM8K 上,SC、RAP 和 rStar 使用不同 Rollout 時(shí)的準(zhǔn)確度。

圖片

這里得到兩個(gè)關(guān)鍵觀察結(jié)果:

1. 即使僅 2 次 Rollout,rStar 也能大幅提升 SLM 的推理準(zhǔn)確度,這表明了其有效性;

2.Rollout 更多時(shí)對(duì) rStar 和 SC 都有利,而 RAP 在 4 次 Rollout 之后往往會(huì)飽和甚至下降。一個(gè)原因是 RAP 的單類(lèi)型動(dòng)作空間會(huì)限制 MCTS 探索的效果。

  • MCTS 生成器的有效性

該團(tuán)隊(duì)比較了 MCTS 生成器與其它三種生成器的效果。如表 4 所示,新提出的 MCTS 生成器全面勝過(guò)其它生成器。此外,針對(duì) SLM 調(diào)整過(guò)的獎(jiǎng)勵(lì)函數(shù)的有效性也得到了證明,因?yàn)樽晕以u(píng)估會(huì)降低新生成器的準(zhǔn)確度。

圖片

  • 判別器的有效性

該團(tuán)隊(duì)設(shè)置了兩個(gè)評(píng)估實(shí)驗(yàn)。

第一個(gè)實(shí)驗(yàn)是將判別方法與多數(shù)投票和自我驗(yàn)證方法進(jìn)行比較。結(jié)果見(jiàn)表 5(左),可以看到判別方法的優(yōu)勢(shì)非常顯著。

圖片

第二個(gè)實(shí)驗(yàn)則是研究不同的判別器模型的影響。結(jié)果見(jiàn)表 5(右),可以看到選擇不同的判別器模型通常不會(huì)影響推理互恰性方法驗(yàn)證答案的效果。值得注意的是,即使使用強(qiáng)大的 GPT-4 作為判別器,性能也只有略微提升(從 91.13% 提升到 92.57%)。這表明推理互恰性方法可以有效地使用 SLM 來(lái)驗(yàn)證答案。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-10-28 13:29:27

2023-06-07 08:22:59

LLM微調(diào)技術(shù)

2024-05-07 08:00:00

自然語(yǔ)言處理機(jī)器學(xué)習(xí)

2024-09-19 13:40:00

2021-11-19 10:13:01

模型人工智能計(jì)算

2023-12-13 12:55:39

模型數(shù)據(jù)

2024-09-09 07:46:16

2025-04-10 07:59:51

2023-10-20 17:53:05

2025-02-28 10:25:09

2021-09-30 11:27:58

模型人工智能神經(jīng)網(wǎng)絡(luò)

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-08-22 18:58:27

英偉達(dá)微軟小語(yǔ)言模型

2024-11-21 08:22:45

2025-01-14 10:56:14

2023-04-10 09:59:48

昇思

2024-07-24 12:40:44

2024-04-15 12:50:00

大型語(yǔ)言模型ReFT

2024-09-26 10:42:20

2024-07-18 12:53:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)