自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型

發(fā)布于 2024-7-31 01:15
瀏覽
0收藏

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

一、結(jié)論寫在前面

論文標(biāo)題:Distilling System 2 into System 1

論文鏈接:??https://arxiv.org/pdf/2407.06023v2??

LLMs在推理過程中可以額外消耗計(jì)算資源來生成中間思維,這有助于產(chǎn)生更好的最終響應(yīng)。自思維鏈以來,已經(jīng)提出了許多此類系統(tǒng)2技術(shù),例如重述與響應(yīng)(Rephrase and Respond )、系統(tǒng)2注意力(System 2 Attention)和分支-解決-合并(Branch-Solve-Merge)。    

論文研究了自監(jiān)督方法(self-supervised),將系統(tǒng)2技術(shù)的高質(zhì)量輸出“編譯”(蒸餾,distill)回LLM生成中,而不需要中間推理token序列,因?yàn)檫@種推理已經(jīng)被蒸餾到系統(tǒng)1中。

論文進(jìn)行了跨4種不同System 2 LLM方法和5種不同任務(wù)的實(shí)驗(yàn)。論文發(fā)現(xiàn),論文的方法能夠在多種環(huán)境下將System 2推理蒸餾為System 1,有時(shí)甚至能超越System 2教師模型的效果。此外,這些預(yù)測(cè)現(xiàn)在以極低的計(jì)算成本生成。例如,論文在處理偏見觀點(diǎn)或無關(guān)信息的任務(wù)(System 2注意力)、澄清和改進(jìn)某些推理任務(wù)的響應(yīng)(重述與回應(yīng))以及對(duì)LLM進(jìn)行細(xì)粒度評(píng)估(分支-解決-合并)方面看到了成功的蒸餾。

然而,論文也表明并非所有任務(wù)都能蒸餾到System 1,特別是需要鏈?zhǔn)剿季S的復(fù)雜數(shù)學(xué)推理任務(wù)。這一點(diǎn)在人類中也得到了體現(xiàn),有些任務(wù)沒有刻意的System 2推理是無法執(zhí)行的。   

二、論文的簡(jiǎn)單介紹

2.1 論文的背景

人類 System 1 System 1推理被描述為能夠識(shí)別模式、快速做出判斷以及理解簡(jiǎn)單或熟悉的符號(hào)。例如,它用于識(shí)別常見的交通標(biāo)志、識(shí)別人臉或關(guān)聯(lián)基本符號(hào)與特定情緒或想法。

人類 System 2 對(duì)于復(fù)雜的問題解決或例如抽象符號(hào)(如代數(shù)方程或邏輯陳述)的操作,System 2推理被認(rèn)為是必要的。在心理學(xué)中,自動(dòng)性概念描述了行為變得如此熟練以至于可以在幾乎沒有意識(shí)思考的情況下執(zhí)行,例如駕駛熟悉的路線。一般來說,人類被認(rèn)為使用程序記憶將特定任務(wù)整合到記憶中,通過實(shí)踐學(xué)習(xí),以便之后無需意識(shí)就能執(zhí)行。無意識(shí)能力概念被歸類為學(xué)習(xí)的后期階段。最初,一個(gè)人認(rèn)識(shí)到自己的無能,并有意學(xué)習(xí)一項(xiàng)技能,直到獲得有意識(shí)的能力。最終目標(biāo)是在無需意識(shí)思考的情況下使用它,這時(shí)它被稱為,用通俗的話說,“第二天性”。

模型 System 1 論文將直接輸出響應(yīng)而不產(chǎn)生中間輸出的神經(jīng)網(wǎng)絡(luò)稱為系統(tǒng)1模型。盡管如此,這類網(wǎng)絡(luò)在其層中仍可計(jì)算中間的潛在表征,然后輸出響應(yīng)。由于這些狀態(tài)以向量形式表示,它們通常編碼分布式知識(shí)而非離散決策,并且難以直接處理復(fù)雜的符號(hào)推理任務(wù),這與人類系統(tǒng)1推理存在的問題類似。盡管如此,許多任務(wù)可以直接通過這種方式成功解決,無需中間生成(Radford et al., 2019)。    

模型 System 2 同一個(gè)無法執(zhí)行復(fù)雜多步驟計(jì)算的語(yǔ)言模型,在要求其通過少樣本提示或監(jiān)督訓(xùn)練生成中間步驟到“草稿板”上時(shí),能夠完成這些任務(wù)。鏈?zhǔn)剿季S推理已被證明可以通過零樣本提示、監(jiān)督訓(xùn)練或少量樣本方法從大型語(yǔ)言模型中引發(fā)。大型語(yǔ)言模型的預(yù)訓(xùn)練使得這種推理能夠融入模型中,因?yàn)橛?xùn)練語(yǔ)料庫(kù)中包含了人類編寫的離散符號(hào)(文本)的推理步驟。這類系統(tǒng)2模型方法輸出離散的token,有利于進(jìn)行連續(xù)正確的邏輯推理步驟——但顯然,如果推理生成錯(cuò)誤,則存在缺點(diǎn)。錯(cuò)誤的離散決策難以恢復(fù),與可能更容易建模分布的潛在向量推理不同。

生成中間思考過程允許模型進(jìn)行推理和規(guī)劃,以成功完成任務(wù)或響應(yīng)指令。論文將這種深思熟慮的思考稱為系統(tǒng)2推理,這一概念源自Sloman(1996)和Kahneman(2011)對(duì)人類的描述,后來也被應(yīng)用于人工智能模型。在系統(tǒng)2推理中,消耗大量認(rèn)知資源來處理復(fù)雜問題和重要決策。因此,在標(biāo)準(zhǔn)的大型語(yǔ)言模型(LLMs)中,論文將系統(tǒng)1定義為直接應(yīng)用Transformer來根據(jù)輸入生成響應(yīng),而不生成中間token。論文將系統(tǒng)2定義為任何生成中間token的方法,包括執(zhí)行搜索或多次提示,然后最終生成響應(yīng)的方法。

目前已提出了一系列這樣的系統(tǒng)2技術(shù),其中包括思維鏈(Chain-of-Thought)、思維樹(Tree-of-Thoughts)、思維圖(Graph-of-Thoughts)、分支-解決-合并(Branch-Solve-Merge)、系統(tǒng)2注意力(System 2 Attention)、重述和回應(yīng)(Rephrase and Respond)等等。許多這些方法通過顯式推理被證明能產(chǎn)生更準(zhǔn)確的結(jié)果,但通常會(huì)以更高的推理成本和響應(yīng)延遲為代價(jià)。由于后者的原因,許多這些方法并未在生產(chǎn)系統(tǒng)中使用,生產(chǎn)系統(tǒng)主要使用系統(tǒng)1生成。    

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

圖1:系統(tǒng)2蒸餾概覽。通過在未token數(shù)據(jù)上運(yùn)行系統(tǒng)2方法(如分支-求解-合并(BSM))收集過濾后的訓(xùn)練樣本,這些方法利用額外計(jì)算產(chǎn)生更高質(zhì)量的輸出。然后將這些目標(biāo)蒸餾到標(biāo)準(zhǔn)(系統(tǒng)1)語(yǔ)言模型中

對(duì)于人類而言,心理學(xué)中將技能從有意識(shí)(系統(tǒng)2)轉(zhuǎn)移到自動(dòng)(系統(tǒng)1)的過程被稱為自動(dòng)性,并利用程序性記憶。例如,首次駕車上班時(shí),人們可能會(huì)耗費(fèi)大量意識(shí)努力進(jìn)行規(guī)劃和決策以到達(dá)目的地。經(jīng)過多次重復(fù)這條路線后,駕駛過程便“編譯”為潛意識(shí)(Charlton and Starkey, 2013)。同樣,像打網(wǎng)球這樣的運(yùn)動(dòng)可以變得“習(xí)以為?!薄?/p>

論文探索了一種類似的技術(shù)應(yīng)用于AI模型。論文的方法以無監(jiān)督方式進(jìn)行這種編譯,論文稱之為系統(tǒng)2蒸餾,給定一組未token樣本。對(duì)于每個(gè)樣本,論文應(yīng)用給定的系統(tǒng)2方法,然后以無監(jiān)督方式衡量預(yù)測(cè)質(zhì)量。例如,對(duì)于具有唯一答案的任務(wù),論文采用自一致性(self-consistency),多次采樣。對(duì)于系統(tǒng)2足夠一致的樣本,論文假設(shè)此結(jié)果應(yīng)被蒸餾,并將其添加到蒸餾池中。隨后,論文微調(diào)系統(tǒng)1以匹配系統(tǒng)2方法在收集的樣本池上的預(yù)測(cè),但不生成中間步驟。圖1展示了將系統(tǒng)2蒸餾為系統(tǒng)1的整體過程。    

?2.2 將系統(tǒng)2蒸餾至系統(tǒng)1

2.2.1 設(shè)置:系統(tǒng)1與系統(tǒng)2模型?

給定輸入 論文x論文,本工作考慮單一模型的情景,即大型語(yǔ)言模型(LLM),該模型具備兩種響應(yīng)模式:

(i) 系統(tǒng)1:直接生成輸出 論文y論文。這是通過前向傳播底層自回歸神經(jīng)網(wǎng)絡(luò)(Transformer)的各層以生成輸出token來實(shí)現(xiàn)的。

(ii) 系統(tǒng)2:論文將系統(tǒng)2模型定義為利用底層Transformer在生成最終響應(yīng)token之前生成任意類型的中間輸出token 論文z論文 的方法。這可能包括多次調(diào)用(提示)。

更正式地,論文將一個(gè)System 2模型S視為一個(gè)函數(shù),該函數(shù)接受一個(gè)LLM 和輸入x,并可能多次調(diào)用LLM以使用特定算法生成中間token,然后返回一個(gè)輸出論文y:

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

System 2方法可能涉及多個(gè)提示、分支、迭代和搜索,同時(shí)利用LLM生成中間結(jié)果以進(jìn)行進(jìn)一步處理。相比之下,一個(gè)System 1模型僅考慮原始輸入x,并直接調(diào)用LLM生成輸出y:


Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

    

有許多現(xiàn)有的System 2模型實(shí)例。思維鏈提示僅需要單個(gè)LLM提示,但仍輸出中間生成內(nèi)容,然后給出最終響應(yīng),通常用于數(shù)學(xué)和其他推理任務(wù))。

諸如System 2 Attention和Rephrase and Respond(等方法需要兩次調(diào)用LLM,在前者中,第一次調(diào)用用于關(guān)注上下文并消除偏見,而在后者中用于擴(kuò)展問題。第二次調(diào)用則用于根據(jù)中間生成內(nèi)容最終回答問題。某些方法更為復(fù)雜,例如Branch-Solve-Merge(,它通過LLM生成計(jì)劃,該計(jì)劃分支成多個(gè)LLM調(diào)用,直到最終階段合并結(jié)果。

論文將對(duì)上述四種方法進(jìn)行實(shí)驗(yàn),但還有許多其他System 2方法,例如Tree-of-Thoughts、Graph-of-Thoughts等。

2.2.2 方法:系統(tǒng)2蒸餾

許多系統(tǒng)2方法本質(zhì)上在推理時(shí)由于多次提示調(diào)用和生成中間token而顯著較慢。系統(tǒng)2蒸餾的目標(biāo)是將所有推理從S_II蒸餾回S_I,以便語(yǔ)言模型的直接輸出p_θ( x)得到改進(jìn)。論文假設(shè)模型可以訪問未token的輸入t,從中它可以學(xué)習(xí),類似于人類如何在無監(jiān)督的情況下學(xué)習(xí)程序記憶。對(duì)于基于語(yǔ)言的任務(wù),通常可以訪問遵循指令的提示(輸入),因?yàn)樗鼈兛梢杂扇祟愂占?,例如發(fā)布的1M Wild-Chat交互,其中提供了輸入但正確標(biāo)簽未知。因此,這是一個(gè)現(xiàn)實(shí)的設(shè)置。

所提出方法的第一步是使用系統(tǒng)2模型在未token的輸入t上生成響應(yīng):

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

這些響應(yīng)可以直接用作微調(diào)系統(tǒng)1模型的系統(tǒng)2蒸餾目標(biāo)。然而,它們受到噪聲的影響:其中一些響應(yīng)可能是高質(zhì)量的,而其他可能是低質(zhì)量或不正確的。對(duì)于涉及短響應(yīng)且通常具有唯一正確(但未知)答案的短形式QA和推理任務(wù),論文因此考慮一個(gè)無監(jiān)督的篩選步驟,以嘗試提高訓(xùn)練數(shù)據(jù)質(zhì)量。論文考慮兩種變體,兩者都依賴于一致性標(biāo)準(zhǔn):

?輸出自一致性:論文總共采樣S_II(x^ i ; p_θ) N次,并接受多數(shù)投票的響應(yīng);如果沒有多數(shù)勝出者,論文丟棄該示例。    

?輸入擾動(dòng)下的自一致性:論文以輸出不應(yīng)改變的方式擾動(dòng)輸入w,例如改變提示中多項(xiàng)選擇項(xiàng)的順序,并為每個(gè)擾動(dòng)計(jì)算S_I;如果輸出不一致,論文丟棄該示例。

隨后,論文得到合成數(shù)據(jù)集(X_S_II , Y_S_II),其中 論文X_S_II是X的過濾子集,目標(biāo)為Y_S_II)。最后一步是使用這個(gè)蒸餾的訓(xùn)練集對(duì)具有參數(shù)pθ的大型語(yǔ)言模型(LLM)進(jìn)行有監(jiān)督的微調(diào)。論文通常從當(dāng)前狀態(tài)pθ初始化模型,并繼續(xù)使用新數(shù)據(jù)集進(jìn)行訓(xùn)練。

微調(diào)后,論文獲得一個(gè) LLM p_θ,這是一個(gè)系統(tǒng)1模型,預(yù)計(jì)其輸出和性能提升與評(píng)估的系統(tǒng)2模型相似。

?2.3 實(shí)驗(yàn)

2.3.1 訓(xùn)練與評(píng)估設(shè)置?

論文使用 Llama-2-70B-chat作為所有實(shí)驗(yàn)的基礎(chǔ)模型。論文需要一個(gè)足夠強(qiáng)大的基礎(chǔ)模型,使其能作為系統(tǒng)2模型表現(xiàn)出色,同時(shí)具有可微調(diào)的開源權(quán)重,因此選擇了此模型。論文考慮了幾種系統(tǒng)2方法,包括重述與回應(yīng)(RaR)、系統(tǒng)2注意力(S2A)、分支-解決-合并(BSM)和思維鏈(CoT),重點(diǎn)關(guān)注每種方法已展示出強(qiáng)大性能的任務(wù)。對(duì)于系統(tǒng)1,論文使用指令調(diào)優(yōu)的基礎(chǔ)模型進(jìn)行零樣本推理,作為標(biāo)準(zhǔn)基線。論文報(bào)告每個(gè)任務(wù)的特定指標(biāo),以及“#Tokens”指標(biāo),該指標(biāo)衡量評(píng)估集中每個(gè)輸入生成的平均token數(shù)量。對(duì)于系統(tǒng)2方法,這包括中間token生成和最終輸出token生成。

2.3.2 重述與回應(yīng)蒸餾(Rephrase and Respond Distillation)

重述與回應(yīng)(RaR)是一種系統(tǒng)2方法,首先提示語(yǔ)言模型對(duì)原始問題進(jìn)行進(jìn)一步闡述的重述,然后基于重述的問題生成回應(yīng),旨在提供更優(yōu)質(zhì)的輸出。作者介紹了兩種方法,1步RaR和2步RaR,后者涉及兩個(gè)單獨(dú)的提示,而不是像前者那樣的組合提示,具體提示見附錄A.1。他們發(fā)現(xiàn)2步RaR在幾個(gè)對(duì)基線LLM具有挑戰(zhàn)性的推理任務(wù)上顯著提高了性能。論文考慮了原文中表現(xiàn)良好的兩個(gè)任務(wù):最后一個(gè)字母連接任務(wù)和硬幣翻轉(zhuǎn)推理。然后評(píng)估是否可能蒸餾這種系統(tǒng)2方法。    

蒸餾數(shù)據(jù)集 論文為RaR構(gòu)建了系統(tǒng)2蒸餾數(shù)據(jù)集,利用輸出的自一致性。對(duì)于每個(gè)輸入,論文對(duì)最后一個(gè)字母任務(wù)進(jìn)行八次采樣迭代,并對(duì)硬幣翻轉(zhuǎn)任務(wù)的每個(gè)階段進(jìn)行八次采樣迭代。然后,論文通過多數(shù)表決來確定最終輸出。

2.3.2.1 最后一個(gè)字母拼接任務(wù)(Last letter Concatenation Task)

此任務(wù)側(cè)重于符號(hào)推理,要求模型拼接給定單詞的最后一個(gè)字母。例如,指令:“取Edgar Bob中單詞的最后一個(gè)字母并拼接它們。”正如Deng等人(2023a)所示,此任務(wù)從RaR方法的應(yīng)用中獲益顯著。論文通過隨機(jī)選擇1200個(gè)獨(dú)特的英語(yǔ)單詞來編譯數(shù)據(jù)集。利用這些單詞,論文分別為訓(xùn)練、驗(yàn)證和測(cè)試構(gòu)建了200個(gè)樣本。

結(jié)果 總體結(jié)果見表1?;鶞?zhǔn)系統(tǒng)1模型(Llama-2-70B-chat)達(dá)到30.0%的準(zhǔn)確率,被1步和2步RaR的系統(tǒng)2方法(分別為39.5%和44.5%)超越。通過論文的無監(jiān)督技術(shù)將2步RaR方法蒸餾回系統(tǒng)1 Llama-2-70B-chat模型,論文實(shí)現(xiàn)了驚人的98.0%準(zhǔn)確率。與零樣本聊天模型相比,該模型能有效學(xué)習(xí)如何解決此任務(wù)。重述并回應(yīng)的蒸餾有效繼承了系統(tǒng)2和系統(tǒng)1的優(yōu)勢(shì)。它在保持系統(tǒng)2的準(zhǔn)確性優(yōu)勢(shì)的同時(shí),推理成本與系統(tǒng)1相當(dāng)(見生成token數(shù)量)。

分析與消融實(shí)驗(yàn) 為了評(píng)估論文利用輸出自一致性的無監(jiān)督篩選步驟的有效性和必要性,論文通過創(chuàng)建一個(gè)不應(yīng)用自一致性過濾器的蒸餾數(shù)據(jù)集進(jìn)行了消融研究。當(dāng)論文在這個(gè)未經(jīng)過濾的數(shù)據(jù)集上使用相同的設(shè)置對(duì)System 2模型進(jìn)行了蒸餾,其精確匹配準(zhǔn)確率達(dá)到了87.5%(過濾版本為98%)。這一比較突顯了一致性過濾的關(guān)鍵作用。盡管如此,在兩種情況下,構(gòu)建訓(xùn)練數(shù)據(jù)確實(shí)比零樣本性能有所提升。論文還嘗試使用相同的過濾技術(shù)對(duì)System 1預(yù)測(cè)進(jìn)行蒸餾,結(jié)果準(zhǔn)確率較低,為69.5%。    

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

表1:重述并回應(yīng)的系統(tǒng)2蒸餾:硬幣翻轉(zhuǎn)和最后一個(gè)字母拼接任務(wù)。論文報(bào)告精確匹配(EM)測(cè)試準(zhǔn)確率和生成(中間和輸出)token數(shù)量

2.3.2.2 硬幣翻轉(zhuǎn)推理任務(wù)?

這一符號(hào)推理任務(wù)在研究中經(jīng)常被測(cè)試,包括在Wei等人(2022)和Deng等人(2023a)的研究中。它涉及從已知初始位置開始,經(jīng)過一系列自然語(yǔ)言描述的翻轉(zhuǎn)后,確定硬幣的最終面(正面或反面),例如“一枚硬幣正面朝上。Roxas沒有翻轉(zhuǎn)硬幣。Schneiderman沒有翻轉(zhuǎn)硬幣。硬幣還是正面朝上嗎?”Deng等人(2023a)表明,即使是強(qiáng)大的語(yǔ)言模型也無法成功完成這一任務(wù),而應(yīng)用RaR方法則能提高它們的性能。該任務(wù)有20k個(gè)訓(xùn)練示例(無標(biāo)簽,用于無監(jiān)督學(xué)習(xí)),3.33k個(gè)驗(yàn)證示例和1.33k個(gè)測(cè)試示例。

結(jié)果 總體結(jié)果見表1。Llama-2-70B-chat(零樣本)在該任務(wù)上的成功率為56.1%,而1-Step和2-Step RaR的成功率分別為58.59%和77.2%。因此,論文僅在2-Step方法中看到了顯著的改進(jìn)。通過論文的無監(jiān)督技術(shù)將2-Step RaR蒸餾回System 1 Llama-2-70B-chat,成功率為75.69%。因此,論文發(fā)現(xiàn)論文的蒸餾System 2模型提供了與System 2(2 Step RaR)相當(dāng)?shù)男阅?,但無需執(zhí)行LLM程序。    

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

表2:System 2注意力蒸餾:TriviaQA任務(wù),報(bào)告有偏和無偏評(píng)估集的準(zhǔn)確率

分析與消融實(shí)驗(yàn) Deng等(2023a)的RaR方法包含了提示工程技巧,例如在原始查詢后附加"Flip意味著反轉(zhuǎn)。回答是或否問題"等短語(yǔ),這已被證明可以提高模型性能。遵循他們的方法,論文使用不同的提示評(píng)估了模型性能,見表6。當(dāng)使用"Flip意味著反轉(zhuǎn)"和"Flip意味著反轉(zhuǎn)?;卮鹗腔蚍駟栴}"等提示測(cè)試Llama-2-70B-chat模型(系統(tǒng)1)時(shí),論文觀察到性能顯著提升,從56.11%提高到66.84%。這突顯了提示選擇在優(yōu)化系統(tǒng)1模型性能中的關(guān)鍵作用。然而,這種對(duì)提示工程的依賴也代表了一個(gè)局限性,需要額外的人力投入。

論文還嘗試對(duì)系統(tǒng)1模型進(jìn)行蒸餾,但得到了較差的性能。在這種情況下,論文同樣觀察到不同提示下性能的波動(dòng)。相比之下,蒸餾后的系統(tǒng)2模型在各種提示下表現(xiàn)出一致的性能,對(duì)提示變化的敏感度較低。這種一致性表明,對(duì)于蒸餾后的系統(tǒng)2模型,可能不需要進(jìn)行大量的提示工程。

2.3.3 系統(tǒng) 2 注意力蒸餾

Weston 和 Sukhbaatar 在 2023 年提出了系統(tǒng) 2 注意力(S2A),這是一種有助于減少模型推理缺陷的方法,如依賴輸入中的偏見信息或關(guān)注無關(guān)上下文。S2A 是一種兩階段推理方法,第一階段重寫輸入,使其不包含如偏見或無關(guān)上下文等不期望的信息,第二階段關(guān)注重寫后的較短上下文(與 Rak 擴(kuò)展上下文相反),參見圖 6。在本研究中,論文驗(yàn)證了將 S2A 蒸餾到系統(tǒng) 1 的可行性。特別地,論文關(guān)注了 SycophancyEval 問答任務(wù)(Sharma 等人,2023),該任務(wù)的輸入中包含已知會(huì)損害大語(yǔ)言模型(LLM)性能的偏見信息。論文使用了來自 SycophancyEval 的 6668 個(gè)示例作為未token訓(xùn)練數(shù)據(jù),以及 400 個(gè)示例用于評(píng)估,后者被分為偏見輸入(350 個(gè))和無偏見輸入(50 個(gè))。    

蒸餾數(shù)據(jù) 論文使用通用自一致性(USC)(Chen et al., 2023)來篩選高質(zhì)量的目標(biāo)。具體而言,論文采樣20個(gè)生成結(jié)果,然后利用Llama-70B-chat模型配合USC提示(如圖12所示)來組合一個(gè)自一致性(多數(shù))的最終答案,該答案作為蒸餾目標(biāo)。

結(jié)果 結(jié)果如表2所示,報(bào)告了3個(gè)隨機(jī)種子的平均準(zhǔn)確率。基線(系統(tǒng)1)LLM在偏見部分的準(zhǔn)確率較低,正如預(yù)期,因?yàn)槠淙菀资艿狡娸斎氲挠绊?。S2A顯著提升了偏見輸入的性能。系統(tǒng)2蒸餾顯示出與系統(tǒng)2方法相似的強(qiáng)勁性能。然而,與基線和S2A模型相比,平均使用的token數(shù)量有顯著減少。這是因?yàn)槠娸斎胪够€LLM生成更多的輸出token,而S2A還需要生成中間token。圖11展示了一個(gè)代表性示例。最后,論文通過報(bào)告不使用USC的結(jié)果(最后一行),顯示后者提供的結(jié)果較差,從而表明使用USC進(jìn)行蒸餾對(duì)整體結(jié)果的重要性。這突出了在微調(diào)過程中使用的蒸餾數(shù)據(jù)質(zhì)量的重要性。

2.3.4 分支-解決-合并蒸餾

分支-解決-合并(BSM)(Saha et al., 2023)由三個(gè)模塊組成:分支、解決和合并。這些模塊協(xié)同工作,將任務(wù)分解為多個(gè)并行子任務(wù),每個(gè)子任務(wù)由特定提示引導(dǎo)。BSM在LLM作為評(píng)判者的情境中已被證明有效,如圖14所示。該方法首先提示語(yǔ)言模型列出針對(duì)特定用戶查詢定制的評(píng)估指標(biāo)(分支)。隨后,LLM被查詢以基于每個(gè)指標(biāo)獨(dú)立并行地評(píng)估響應(yīng)(解決)。最后,來自每個(gè)分支的分?jǐn)?shù)被平均以得出一個(gè)全面的評(píng)估決策(合并)。值得注意的是,這種方法的推理成本是傳統(tǒng)(系統(tǒng)1)LLM評(píng)估方法的5-6倍,使其實(shí)用性大打折扣。論文評(píng)估了蒸餾BSM的可行性,旨在保留其優(yōu)勢(shì)的同時(shí)降低計(jì)算成本。    

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

表3 系統(tǒng) 2 分支-解決-合并 (BSM) 的蒸餾:Open Assistant (OASST2) 和 MT-bench 對(duì) LLM 作為判斷者的評(píng)估。系統(tǒng) 2 BSM 的蒸餾優(yōu)于 BSM 本身,甚至優(yōu)于 GPT4 作為判斷者,盡管使用的是 Llama-2-70B-chat。蒸餾后的 BSM 具有更高的人類一致性(一致性),更少的位置偏差,并且不一致樣本的百分比為 9.1%

蒸餾數(shù)據(jù) 遵循 Yuan 等人 (2024) 和 Li 等人 (2023b) 的方法,論文使用了 Open Assistant Dataset v2 (OASST2) (Kopf 等人, 2024) 的第一輪和僅限英語(yǔ)的數(shù)據(jù)。論文使用 OASST2 訓(xùn)練集中的查詢及其兩個(gè)候選響應(yīng)作為輸入(總共 19,672 個(gè)樣本)。論文通過輸入擾動(dòng)下的自一致性來確保蒸餾數(shù)據(jù)的質(zhì)量。具體來說,由于需要判斷兩個(gè)響應(yīng),論文對(duì)每個(gè)樣本進(jìn)行兩次 BSM 評(píng)估——一次按原始順序,一次按交換順序。無論順序如何,獲勝的響應(yīng)應(yīng)保持一致。論文過濾掉在響應(yīng)順序交換時(shí)未能產(chǎn)生一致獲勝者的樣本。

評(píng)估 論文在兩個(gè)流行的基準(zhǔn)上評(píng)估論文的模型,即 OASST2 驗(yàn)證集和 MT-bench (Zheng 等人, 2024)。OASST2 驗(yàn)證集包含 273 個(gè)樣本,僅限于第一輪和英語(yǔ)語(yǔ)言。對(duì)響應(yīng)對(duì)的評(píng)估在原始順序和交換順序下進(jìn)行。由于論文的蒸餾模型是在 OASST2 訓(xùn)練集上訓(xùn)練的,OASST2 驗(yàn)證集作為分布內(nèi)評(píng)估集,而 MT-bench 則更具分布外特性。MT-bench 是一個(gè)流行的基準(zhǔn),評(píng)估 LLM 作為有用 AI 助手對(duì)話時(shí)對(duì)其他 LLM 響應(yīng)的判斷。它包含來自 8 個(gè)不同領(lǐng)域的指令,例如寫作、推理、數(shù)學(xué)、編碼等。

遵循 Zheng 等人 (2024) 的方法,論文評(píng)估了模型投票與人類專家投票之間的一致性。LLM 作為判斷者的一個(gè)已知局限是位置偏差,即語(yǔ)言模型 (LLM) 傾向于偏好某些位置而非其他位置。這種偏差在改變?cè)u(píng)估提示中響應(yīng)的位置時(shí),常常導(dǎo)致模型做出不同的決策。為了量化這一點(diǎn),論文不僅測(cè)量一致性,還計(jì)算不一致樣本的百分比以評(píng)估位置偏差。    

OASST2評(píng)估結(jié)果 表3提供了在OASST2數(shù)據(jù)集上的結(jié)果。與基線(系統(tǒng)1)大型語(yǔ)言模型相比,思維鏈(CoT)方法通過提高一致性和降低不一致率來改善性能(參見附錄中的提示)。雖然BSM表現(xiàn)優(yōu)于CoT,但這是以增加推理時(shí)間(#To-kens)為代價(jià)的。值得注意的是,論文蒸餾的系統(tǒng)2 BSM模型僅需生成四個(gè)token,仍然優(yōu)于CoT和BSM。此外,論文基于Llama-2-70B-chat的蒸餾模型超過了GPT-4-0125-preview,實(shí)現(xiàn)了更高的人類一致性和更大的連貫性。

MT-Bench評(píng)估結(jié)果 表3也提供了在MT-bench上的結(jié)果,該測(cè)試作為分布外測(cè)試。結(jié)果與OASST2評(píng)估的結(jié)果相呼應(yīng)。思維鏈(CoT)和BSM都提高了模型性能,但代價(jià)是顯著增加的推理成本。論文的蒸餾BSM模型不僅實(shí)現(xiàn)了更高的人類一致性和更低的不一致率,而且需要的計(jì)算資源更少。盡管論文的模型在一致性上略遜于最先進(jìn)的GPT-4-0125-preview模型,但它僅基于Llama-2-70B-chat在OASST2上的未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。盡管如此,它在連貫性上更優(yōu),且在輸出token方面推理成本低廉。

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

圖2:MT-bench上LM評(píng)判與人類偏好之間的一致性,按評(píng)估類別劃分    

Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型-AI.x社區(qū)

表3:GSM8k測(cè)試集準(zhǔn)確率。多數(shù)投票中的投票數(shù)k表示為收集預(yù)測(cè)答案的投票而采樣的候選數(shù)量。在這種情況下,系統(tǒng)2的CoT蒸餾效果不佳

按類別分析 在此,論文進(jìn)一步按類別分析MT-Bench結(jié)果中的一致性。圖2展示了按類別的一致性。論文觀察到,與基礎(chǔ)模型(Llama-2-70B-Chat)相比,CoT在所有類別上提高了一致性。BSM優(yōu)于CoT,而論文的蒸餾BSM甚至優(yōu)于BSM。盡管蒸餾BSM在所有類別上相較于基線取得了優(yōu)越的性能,但在推理、編碼和提取方面仍落后于GPT-4-0125-preview。然而,在寫作、數(shù)學(xué)和STEM方面,它超過了GPT-4-0125-preview。

2.3.5 思維鏈蒸餾

思維鏈(CoT)已被證明是提高LLM推理能力的有效方法,例如解決研究生數(shù)學(xué)問題。LLM生成中間token,這些token是推理(思維)的步驟(鏈),然后產(chǎn)生最終答案。論文考慮了該方法的兩個(gè)變體:(i)少樣本CoT,即從訓(xùn)練集中提供多個(gè)[問題,CoT,答案]示例作為上下文,隨后是問題;(ii)零樣本,即在提示中除了問題外還添加了“一步一步”思考的明確指令,詳見附錄圖10。

蒸餾數(shù)據(jù) 論文使用CoT為GSM8k訓(xùn)練集中的問題(論文認(rèn)為這些是無標(biāo)簽的,由Cobbe等人,2021年提出)生成答案,采用K=10的多數(shù)投票方法。由此產(chǎn)生的蒸餾訓(xùn)練集包含7461個(gè)[問題, 答案]對(duì),即不包含任何中間推理步驟。為了分析目的計(jì)算的自監(jiān)督目標(biāo)準(zhǔn)確率為56.81%。

評(píng)估 論文在GSM8k測(cè)試集上使用不同K值的多數(shù)投票方法計(jì)算并報(bào)告評(píng)估準(zhǔn)確率。與之前的實(shí)驗(yàn)類似,論文報(bào)告每種方法預(yù)測(cè)的平均token數(shù)。請(qǐng)注意,論文在進(jìn)行多數(shù)投票時(shí)計(jì)算所有生成token的平均值,以觀察K值的增加如何影響推理成本。論文考慮了幾個(gè)基線:系統(tǒng)1和系統(tǒng)2(CoT)方法在零樣本或8樣本輸入上下文中進(jìn)行評(píng)估。需要注意的是,系統(tǒng)2在8樣本情況下意味著在少量樣本輸入中提供了CoT,而系統(tǒng)1則意味著少量樣本示例包含問題和答案,但沒有CoT。    

結(jié)果 評(píng)估結(jié)果如表3所示。首先,正如預(yù)期,使用CoT方法帶來了改進(jìn):將其作為少樣本上下文的一部分或作為提示模板中的指令的一部分時(shí),這種方法有所幫助。這些改進(jìn)伴隨著推理成本的增加:與System 1方法相比,使用CoT方法預(yù)測(cè)的序列長(zhǎng)度顯著增加。其次,論文的System 2蒸餾方法在各種解碼超參數(shù)下表現(xiàn)不佳。GSM8k任務(wù)(數(shù)學(xué)問題)所需的推理類型與論文在此工作中考慮的其他任務(wù)截然不同。這突顯了System 2蒸餾的非平凡性:所提出的蒸餾算法在許多情況下有效,但并非總是如此。這為未來的研究留下了空間,以闡明在何種具體情況下應(yīng)用蒸餾,以及何時(shí)不應(yīng)應(yīng)用,或許可以采用類似于人類的方法。

本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無影寺

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦