自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大型語言模型的知識融合(ICLR2024) 原創(chuàng)

發(fā)布于 2024-9-6 13:49
瀏覽
0收藏

?摘要: 從頭開始訓練大型語言模型(LLM)可以生成具有獨特功能和優(yōu)勢的模型,但這需要巨大的成本,并可能導致冗余功能。另一種具有成本效益且引人注目的方法是將現(xiàn)有的預訓練LLM合并為一個更強大的模型。然而,由于這些LLM架構(gòu)各不相同,直接融合它們的權(quán)重并不可行。在本文中,我們引入了LLM知識融合的概念,旨在將現(xiàn)有LLM的能力整合并轉(zhuǎn)移到一個單一的LLM中。通過利用源LLM的生成分布,我們外化了它們的集體知識和獨特優(yōu)勢,從而有可能將目標模型的能力提升到超越任何單一源LLM的水平。我們使用三種具有不同架構(gòu)的流行LLM——Llama-2、MPT 和 OpenLLaMA——在各種基準和任務中驗證了我們的方法。我們的研究結(jié)果表明,LLM的融合可以提高目標模型在推理、常識和代碼生成等多種能力上的表現(xiàn)。我們的代碼、模型權(quán)重和數(shù)據(jù)已公開在(https://github.com/fanqiwan/FuseLLM)。

(論文思想:假設我們有三個大型語言模型(LLMs):Llama-2、OpenLLaMA和MPT,它們分別擅長不同任務。Llama-2在推理任務中表現(xiàn)最佳,OpenLLaMA在常識問答上表現(xiàn)出色,而MPT在代碼生成方面非常強大。

現(xiàn)在,我們希望通過FUSELLM方法將這三個模型的知識融合到一個新的目標模型中,讓這個目標模型同時具備這三種能力。以下是FUSELLM方法如何工作的一個簡化示例:

1. 概率分布提?。何覀兲峁┮粋€文本序列,比如 `"The capital of France is..."`,讓Llama-2、OpenLLaMA和MPT分別預測下一個單詞是什么,并生成它們的概率分布。Llama-2可能對“Paris”有較高的概率,OpenLLaMA對“Paris”也有類似的預測,而MPT雖然更擅長代碼生成,但也會給出一個相對較低的概率。

2. 詞匯對齊:由于每個模型使用的分詞器可能不同,我們需要對齊它們生成的tokens,確保這些模型的輸出可以被比較和融合。例如,如果一個模型預測的是“Paris”,而另一個模型可能將其分為兩個token:“Par-” 和 “-is”,我們通過最小編輯距離對齊這些token。

3. 概率融合:我們將三個模型的概率分布進行融合。假設Llama-2和OpenLLaMA在常識問答中表現(xiàn)較好,它們的預測權(quán)重會更高。我們選擇使用MinCE方法,也就是選擇具有最小交叉熵分數(shù)的模型概率分布,因此目標模型會傾向于使用Llama-2和OpenLLaMA的預測。

4. 持續(xù)訓練:接著,我們用這些融合后的概率分布來指導目標模型的訓練,通過最小化目標模型的預測與融合分布之間的差異,讓目標模型逐步學習這三個模型的能力。

最終,目標模型經(jīng)過持續(xù)訓練,不僅可以像Llama-2那樣擅長推理,還能像OpenLLaMA一樣處理常識問題,并在代碼生成任務上有類似MPT的表現(xiàn)。這個融合后的模型將具備更廣泛的能力,能夠在多種任務中表現(xiàn)出色。)

1、引言

隨著大型語言模型(LLMs)如GPT(Brown et al., 2020)和LLaMA(Touvron et al., 2023)系列在各種自然語言處理(NLP)任務中的持續(xù)成功,開發(fā)屬于自己的LLM已成為公司戰(zhàn)略的關鍵。然而,LLM開發(fā)成本極其高昂。除了需要大量的訓練數(shù)據(jù)、高級技術(shù)、巨大的計算資源和熟練的勞動力外,開發(fā)過程還對能源消耗和環(huán)境造成巨大壓力(Rillig et al., 2023)。雖然這些LLMs在結(jié)構(gòu)和功能上有所不同,但它們在一系列NLP任務上有著相似的能力。因此,除了從零開始訓練LLM的傳統(tǒng)方法外,還有一種替代選擇是將現(xiàn)有的LLM組合成一個新的、更強大的模型,本文稱之為LLM的知識融合。如果成功,這種融合不僅可以降低初始訓練成本,還能使集成模型受益于所有LLM的優(yōu)勢。該新模型也可以通過微調(diào)和適應各種下游任務。此外,融合也可以發(fā)生在專注于特定任務的微調(diào)LLM之間。

整合多個模型能力的嘗試由來已久。例如,集成方法(Littlestone & Warmuth, 1994; Jiang et al., 2023)直接聚合不同模型的輸出,以增強預測性能和魯棒性。然而,這種方法需要維護多個訓練好的模型,并在推理時執(zhí)行每一個模型,這對于LLM來說是不可行的,因為它們需要大量的內(nèi)存和推理時間。同樣,這種方法不支持微調(diào),而微調(diào)對于許多LLM來說至關重要。另一種方法是通過參數(shù)級的算術(shù)操作直接將多個神經(jīng)網(wǎng)絡合并為一個網(wǎng)絡(Wortsman et al., 2022; Jin et al., 2022)。這種方法通常假設網(wǎng)絡架構(gòu)統(tǒng)一,并嘗試在不同神經(jīng)網(wǎng)絡權(quán)重之間建立映射,但在LLM的上下文中,這往往是難以實現(xiàn)的。此外,當參數(shù)空間存在較大差異時,權(quán)重融合可能會導致次優(yōu)結(jié)果(Li et al., 2022)。

在本文中,我們從概率分布的角度探討LLM的融合。對于一個輸入文本,我們認為不同源LLM生成的概率分布可以反映它們對該文本的固有知識。因此,提出的FUSELLM方法利用源LLM的生成分布,將它們的集體知識和個體優(yōu)勢外化,并通過輕量級的持續(xù)訓練將這些知識轉(zhuǎn)移到目標LLM中。為此,我們開發(fā)了一種新策略,用于對齊來自不同LLM的分詞,并探索了兩種融合這些多樣化LLM生成的概率分布的方法。在持續(xù)訓練過程中,F(xiàn)USELLM非常重視最小化目標LLM的概率分布與源LLM的概率分布之間的差異。

為了實證證明FUSELLM的有效性,我們在一個具有挑戰(zhàn)性但通用的LLM融合場景中進行實驗,其中源模型之間的共性最小。具體來說,我們重點關注三個具有不同架構(gòu)和功能的流行開源LLM:Llama-2(Touvron et al., 2023)、OpenLLaMA(Geng & Liu, 2023)和MPT(Team, 2023)。通過對跨越推理、常識和代碼生成的三個基準共42個任務的評估,驗證了我們的方法訓練出的目標模型在大多數(shù)任務中都優(yōu)于每個源LLM和基線。此外,我們通過在多個特定領域語料庫上持續(xù)訓練單個基礎模型,模擬了具有相同架構(gòu)但功能不同的LLM的存在。根據(jù)困惑度(perplexity)的評估結(jié)果表明,F(xiàn)USELLM在將這些結(jié)構(gòu)相同的LLM的能力組合起來時,表現(xiàn)出比傳統(tǒng)的集成和權(quán)重融合方法更強的潛力。

總而言之,本文探討了一個新的挑戰(zhàn),即LLM的融合,旨在創(chuàng)建一個能夠有效利用多樣化LLM集體能力和獨特優(yōu)勢的統(tǒng)一模型。如圖1所示,我們提出的方法區(qū)別于傳統(tǒng)的集成和權(quán)重融合技術(shù),通過優(yōu)先外化和轉(zhuǎn)移多個LLM的知識進行融合。本研究得出了一些可能引發(fā)未來研究的發(fā)現(xiàn)。首先,盡管我們通過輕量級的持續(xù)訓練在緊湊、高質(zhì)量的語料庫上展示了我們方法的有效性,但訓練語料庫的精心選擇可能是一個關鍵考慮因素,尤其是其與下游任務的相關性。其次,在源LLM能力差異顯著的情況下,融合功能對于有效結(jié)合各自的優(yōu)勢至關重要。最后,與傳統(tǒng)的模型集成和融合技術(shù)相比,LLM融合領域似乎是一條更具探索前景的途徑,特別是在考慮到LLM的多樣化結(jié)構(gòu)和巨大的模型規(guī)模時。

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

圖1:展示了傳統(tǒng)模型融合技術(shù)(集成和權(quán)重合并)以及我們針對大型語言模型(LLMs)的知識融合方法(FUSELLM)。不同的動物圖標代表不同的LLMs,不同種類表示擁有不同架構(gòu)的LLMs。FUSELLM將多個LLMs的知識外化,并將它們的能力轉(zhuǎn)移到目標LLM上。

2、相關工作

模型融合

整合不同模型的能力一直是一個長期的目標,現(xiàn)有的方法主要分為兩類。首先,傳統(tǒng)的模型集成技術(shù)通過結(jié)合多個模型的輸出來增強系統(tǒng)整體性能(Littlestone & Warmuth, 1994;Sagi & Rokach, 2018)。需要注意的是,這種技術(shù)并不涉及將多個模型顯式地合并為一個新模型。常見的模型集成方法包括加權(quán)平均(Littlestone & Warmuth, 1994)或多數(shù)投票(Monteith et al., 2011),以整合不同模型的預測結(jié)果。最近,Jiang等人(2023)引入了一個集成框架,旨在利用多個開源LLM的多樣化優(yōu)勢。該框架首先使用成對比較方法來檢測候選輸出之間的細微差異,隨后結(jié)合最優(yōu)的候選結(jié)果以產(chǎn)生增強的輸出,發(fā)揮其優(yōu)勢并減少其劣勢。

其次,權(quán)重融合是另一種通過參數(shù)層面實現(xiàn)模型融合的方法。Gupta等人(2020)和Wortsman等人(2022)通過不同策略或配置獲得的具有相同結(jié)構(gòu)的模型權(quán)重進行融合,以提高整體性能。同樣,Cha等人(2021)、Rame等人(2022)和Arpit等人(2022)通過加權(quán)平均不同配置的模型來提高分布外(out-of-distribution)的泛化能力。此外,Jin等人(2022)將為特定領域或任務設計的模型融合在一起,以創(chuàng)建能夠處理所有領域或任務的通用模型。除了對整個模型進行參數(shù)融合之外,Wang等人(2022b)、Huang等人(2023)和Zhang等人(2023)還應用線性數(shù)學運算對適配器參數(shù)進行融合,以實現(xiàn)更好的泛化性能。

總而言之,雖然模型集成需要并行部署多個模型,權(quán)重融合通常僅限于結(jié)構(gòu)相同的模型。相比之下,本文提出的方法支持通過顯式轉(zhuǎn)移其知識和能力,將具有不同架構(gòu)的多個LLM進行融合。

知識蒸餾

知識蒸餾(Hinton et al., 2015)最初提出用于模型壓縮,它包括在一個或多個教師模型的指導下訓練學生模型。在NLP領域,知識蒸餾廣泛應用于文本分類任務中。這些應用包括訓練學生模型以復制教師模型的輸出分布(Sanh et al., 2019;Turc et al., 2019),以及教師模型中間層提取的特征(Sun et al., 2019;Jiao et al., 2020)和關系(Wang et al., 2020)。在文本生成領域,傳統(tǒng)方法側(cè)重于最小化學生模型和教師模型生成分布之間的KL散度。這是通過使用教師在每個時間步的概率分布作為監(jiān)督來實現(xiàn)的(Khanuja et al., 2021;Gu et al., 2023),或者直接在教師生成的文本上進行訓練(Peng et al., 2023;Xu et al., 2023)。

盡管我們的方法框架類似于多教師知識蒸餾,但存在兩個顯著區(qū)別。首先,在傳統(tǒng)的知識蒸餾中,學生模型通常被限制為比教師模型小的尺寸。然而,在我們的場景中,對目標模型的尺寸沒有限制。其次,傳統(tǒng)的知識蒸餾通常會導致學生模型在蒸餾后性能低于教師模型。相反,我們期望在融合之后,目標模型的性能能超越任何單個源模型。

3、大型語言模型的知識融合

LLM融合的主要目標是外化多個源LLM中嵌入的集體知識,并將它們的能力整合到目標LLM中。給定 K 個源LLM {Msj}j=1K,這些模型架構(gòu)各異,并分別在不同的數(shù)據(jù)集上進行預訓練或微調(diào)。我們提出的核心思想是通過預測下一個token來激發(fā)這些LLM展現(xiàn)其固有的知識。通過評估這些預測生成的概率分布,我們使用最準確的預測來對目標LLM Mt 進行持續(xù)訓練,使用語料庫 C 并基于因果語言建模(CLM)目標進行訓練。在接下來的部分中,我們首先簡要介紹基本概念,然后詳細說明我們的LLM融合框架,最后討論實現(xiàn)細節(jié)。

3.1 基本概念

設 t 表示從語料庫 C 中采樣的長度為 N 的文本序列,t_{<i} = (t_1, t_2, ..., t_{i-1}) 表示第 i 個token之前的序列?;谝蚬Z言建模(CLM)目標對參數(shù)化為 θ 的語言模型進行訓練,其定義為最小化負對數(shù)似然:

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

其中,p_{θ}(t_i | t_{<i}) 是模型給定前面token后對token t_i 的預測概率。

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

上述目標將序列的似然分解為token級的交叉熵損失,將每個token的預測分布與其單熱(one-hot)表示進行比較。為了提供一個更廣泛的視角,我們將這種token級的視圖重新框定為順序分布的格式。具體而言,對于文本序列 t,我們將token級預測聚合并創(chuàng)建一個概率分布矩陣 P_{θ}^t in mathbb{R}^{N times V},其中第 i 行表示模型對第 i 個token在詞匯表大小為 V 的情況下預測的分布。然后,CLM目標可以解釋為減少 P_{θ}^t 和單熱標簽矩陣 O^t in 0, 1^{N times V} 之間的差異,每行都是對應金標token的單熱表示。形式上,CLM目標轉(zhuǎn)化為以下表示:

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

其中 D(·,·) 表示兩個矩陣之間的差異函數(shù),當使用KL散度實現(xiàn)時,等價于公式(1)。

3.2 LLM的融合

基于對語言模型的這一觀點,我們認為概率分布矩陣可以反映其對文本理解中的某些固有知識。因此,來自不同LLM的相同文本的不同概率分布矩陣可用于表示這些模型中嵌入的多樣化知識。考慮到這一點,所提出的FUSELLM方法通過概率建模來處理LLM的融合,旨在通過融合源LLM的概率分布來創(chuàng)建一個統(tǒng)一的LLM。為實現(xiàn)這一點,在開始融合一組LLM時,F(xiàn)USELLM會對目標LLM進行輕量級的持續(xù)訓練,使用一個與預訓練數(shù)據(jù)集類似的原始文本語料庫。除了依賴CLM目標外,F(xiàn)USELLM還重點最小化目標LLM的預測概率分布與源LLM概率分布之間的差異。

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

對于語料庫 C 中的每個文本,我們應用提供的 K 個源LLM并獲得一組概率分布矩陣,表示為 P_{θ_j}^t_{j=1}^{K},其中 θ_j 表示第 j 個LLM的參數(shù)。利用這些矩陣,我們將單個模型的知識外化到一個統(tǒng)一的空間,實際上是在文本上創(chuàng)建了統(tǒng)一的概率表示。我們承認源LLM之間詞匯表的差異可能導致矩陣 P_{θ_j}^t_{j=1}^{K} 未對齊。為了解決這個問題,我們采用了一個詞匯對齊策略,這將在3.3節(jié)中進行解釋,以促進跨模型的更一致概率解釋。

在對齊概率矩陣后,我們繼續(xù)將它們?nèi)诤蠟橐粋€緊湊的表示??梢詰枚喾N融合策略來實現(xiàn)這一目標,具體將在3.3節(jié)中詳細介紹。我們用 P^t 來表示融合后的表示矩陣,定義如下:

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

其中 text{Fusion}(·) 表示組合多個矩陣的函數(shù),結(jié)果矩陣 P^t 被視為源LLM集體知識和獨特優(yōu)勢的表示。

為了將源LLM的能力轉(zhuǎn)移到目標LLM,我們在目標LLM的預測與融合表示矩陣 P^t 之間強制對齊。我們用 Q^t 來表示目標LLM對文本 t 的輸出分布矩陣,然后將融合目標定義為:

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

我們的持續(xù)訓練的總體目標包括CLM目標 L_{text{CLM}} 和融合目標 L_{text{Fusion}} 的加權(quán)組合,公式如下:

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

3.3 FUSELLM的實現(xiàn)

在本節(jié)中,我們介紹FUSELLM方法中詞匯對齊和融合函數(shù)的實現(xiàn)細節(jié)。

詞匯對齊

確保多個LLM之間的token對齊對知識融合至關重要,因為它可以保證概率分布矩陣的正確映射。Fu等人(2023)采用動態(tài)規(guī)劃的方法,通過遞歸最小化將一個token序列編輯為另一個序列的總成本。如果兩個token之間存在一對一的映射,則對應的概率分布完全映射。否則,映射的分布退化為單熱向量。由于由不同分詞器為相同序列生成的token通常差異有限,我們建議通過用最小編輯距離(MinED)策略替換Fu等人(2023)提出的精確匹配(EM)約束,以基于最小編輯距離對不同分詞器生成的token進行映射。這種對齊方式的放寬有助于在分布矩陣中保留大量信息,同時引入的誤差很小。更多詞匯對齊的細節(jié)可參考附錄A。

融合策略

為了在保留源LLM獨特優(yōu)勢的同時整合其集體知識,評估不同LLM的質(zhì)量并對其相應的分布矩陣賦予不同的重要性是至關重要的。為此,在處理文本 t 時,我們使用分布矩陣與金標標簽之間的交叉熵損失作為LLM預測質(zhì)量的指標(Marion et al., 2023)。較低的交叉熵分數(shù)表明源LLM對文本的理解更準確,其預測應賦予更大的權(quán)重?;谶@一標準,我們引入了兩種融合函數(shù):(1) MinCE:該函數(shù)輸出交叉熵分數(shù)最低的分布矩陣;(2) AvgCE:該函數(shù)根據(jù)交叉熵分數(shù)對分布矩陣進行加權(quán)平均。

FUSELLM方法的完整流程在算法1中描述。

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)


4、實驗

在我們的實驗中,我們考慮了一種通用但具有挑戰(zhàn)性的LLM融合場景,其中源模型在架構(gòu)或功能上幾乎沒有共性。具體來說,我們在7B規(guī)模下進行實驗,并選擇了三個具有代表性的開源模型:Llama-2、OpenLLaMA和MPT作為融合的源LLM。對于目標LLM,我們選擇了另一個Llama-2 7B,它通常是三個源LLM中最強大的一個。目標LLM從與源模型相同的預訓練權(quán)重開始,但在訓練期間會更新參數(shù)。為了評估FUSELLM的性能,我們在推理、常識和代碼生成能力的基準上進行了實驗。

4.1 實驗設置

用于持續(xù)訓練的數(shù)據(jù)集

為了持續(xù)訓練目標LLM進行LLM融合,重要的是選擇一個緊湊且多樣化的訓練數(shù)據(jù)集。我們選擇了MiniPile,這是通過仔細的聚類和篩選過程生成的精選數(shù)據(jù)集。MiniPile由大約100萬個文檔組成,涵蓋22個領域,包含18億個token,約占Llama-2訓練token的0.1%。更多數(shù)據(jù)集的詳細信息可參見附錄B。

融合函數(shù)

對于融合函數(shù),我們使用最小交叉熵(MinCE)。然而,我們將在第4.4節(jié)中考察使用其他融合函數(shù)的影響。

訓練細節(jié)

我們使用批量大小為128、最大長度為2048的Llama-2 7B目標LLM,訓練在配備8個每個40GB顯存的NVIDIA A100 GPU的單節(jié)點上進行。我們的訓練框架基于Huggingface Transformers(Wolf et al., 2020)并通過FlashAttention(Dao et al., 2022)加速。我們經(jīng)驗性地將公式(5)中的組合權(quán)重(lambda)設置為0.9。訓練僅進行一個epoch,約需33小時。更多超參數(shù)的細節(jié)可參見附錄C。

評估

我們在三個基準上評估FUSELLM,這些基準代表LLM的不同核心能力,涵蓋推理、常識和代碼生成。

- Big-Bench Hard (BBH)(Suzgun et al., 2022)是一個評估LLM推理能力的基準。它包含23個選擇題任務和4個自由生成任務,來自Big-Bench(Srivastava et al., 2022),可分為四類:算法和算術(shù)推理、自然語言理解、世界知識和多語言知識與推理。我們遵循之前的工作(Wang et al., 2023b),基于少樣本鏈式思維(CoT)提示生成預測并計算精確匹配(EM)準確率。

- Common Sense (CS) 是一個評估LLM常識能力的基準。我們考慮了5個標準選擇題任務:ARC easy和ARC challenge(Clark et al., 2018)、BoolQ(Clark et al., 2019a)、HellaSwag(Zellers et al., 2019)和OpenBookQA(Mihaylov et al., 2018)。我們使用lm-eval-hardness(Gao et al., 2021)進行基于似然的零樣本評估。具體來說,我們選擇給定上下文情況下似然最高的選項并報告準確率。

- MultiPL-E (ME)(Cassano et al., 2022)是一個多語言編程基準,用于評估LLM的代碼生成能力。它由Python基準(Chen et al., 2021)翻譯而成,覆蓋18種編程語言的平行數(shù)據(jù)集。我們使用bigcode-evaluation-hardness(Ben Allal et al., 2022)進行零樣本代碼生成,涉及10種流行編程語言的HumanEval類任務,并基于每個問題生成的20個樣本報告pass@1(Chen et al., 2021)得分。

基線

在我們的實驗中,我們將FUSELLM與兩組基線進行比較:(1) 原始LLM,包括Llama-2 7B、OpenLLaMA 7B和MPT 7B;(2) Llama-2 CLM:僅使用因果語言建模目標在MiniPile上持續(xù)訓練的Llama-2 7B。

4.2 總體結(jié)果

表1展示了FUSELLM與基線方法在BBH上的總體結(jié)果??梢钥吹?,三個源LLM在27個BBH任務上的表現(xiàn)各不相同,通常Llama-2表現(xiàn)優(yōu)于其他模型。使用緊湊且多樣的語料庫進行持續(xù)訓練后,Llama-2 CLM相較于Llama-2表現(xiàn)出1.86%的相對提升,盡管這一提升相對溫和且在不同任務中的一致性不高??傮w而言,F(xiàn)USELLM在所有27個任務中的平均相對性能提升為5.16%,顯著優(yōu)于原始Llama-2。在某些特定任務中,F(xiàn)USELLM的增強效果尤為顯著(例如,Hyperbaton任務中的準確率從54.40提升至65.20)。在一些簡單持續(xù)預訓練導致性能下降的任務中(如Dyck Languages),F(xiàn)USELLM通過結(jié)合個體源LLM的優(yōu)勢實現(xiàn)了性能恢復。需要注意的是,F(xiàn)USELLM偶爾在某些任務(如Geometric Shapes和Word Sorting)上表現(xiàn)不佳,這可能有兩個原因。首先,除了Llama-2以外的其他源LLM在這些任務上的表現(xiàn)較差,影響了融合結(jié)果。其次,持續(xù)訓練數(shù)據(jù)集與下游任務的相關性也對性能下降有所貢獻。


大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

表2展示了FUSELLM與基線方法在Common Sense基準上的零樣本性能。結(jié)果表明,F(xiàn)USELLM在所有五個任務上持續(xù)超越基線,平均相對性能提升為1.25%。相比之下,Llama-2 CLM僅表現(xiàn)出0.16%的相對提升,且提升幅度較小。在具有挑戰(zhàn)性的ARC-challenge(2.40%)和OpenBookQA(2.71%)任務中,從Llama-2到FUSELLM的顯著提升突顯了FUSELLM在利用集體知識解決復雜問題方面的有效性。

對于代碼生成評估,表3展示了FUSELLM在MultiPL-E基準上的零樣本性能。我們觀察到,F(xiàn)USELLM在10個任務中的9個上優(yōu)于Llama-2,特別是在某些編程語言(如R)的pass@1得分上有顯著提升,從4.97提升至5.84。由于OpenLLaMA和MPT在代碼生成任務中相比Llama-2表現(xiàn)出色,通過FUSELLM融合的結(jié)果在平均表現(xiàn)上提升了6.36%,遠高于Llama-2 CLM的1.37%提升。然而,值得注意的是,在該評估中FUSELLM仍然表現(xiàn)出與OpenLLaMA或MPT相比的性能差距。這種差異可以歸因于兩個主要原因:Llama-2作為目標模型在代碼生成上的初始表現(xiàn)較差,以及持續(xù)訓練語料庫中與代碼相關的文本比例不足,估計約為7.59%。


大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

4.3 融合概率分布的效果

我們探討了從多個LLM獲得的融合概率分布的有效性,并跟蹤訓練過程中性能提升的趨勢。圖2展示了在BBH上的少樣本CoT性能隨訓練數(shù)據(jù)規(guī)模的變化情況。我們的觀察表明,F(xiàn)USELLM相比Llama-2 CLM在精確匹配(EM)準確率上提升了2.5%,并在僅使用0.52億個token時達到了Llama-2 CLM最佳性能。值得注意的是,與Llama-2 CLM需要的15.7億個token相比,這代表了訓練token需求的3.9倍減少。這些結(jié)果表明,LLM生成的概率分布包含比原始文本序列更易學習的知識,從而加速了優(yōu)化過程。


大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

4.4 實現(xiàn)過程分析

在本節(jié)中,我們深入探討了FUSELLM實現(xiàn)中的關鍵要素,包括源LLM的數(shù)量、詞匯對齊的標準以及融合函數(shù)的選擇。

源LLM的數(shù)量

我們展示了融合不同數(shù)量的LLM的結(jié)果。我們注意到,隨著模型數(shù)量從1增加到3,F(xiàn)USELLM的性能顯著提高。然而,整合更多模型的好處在各個基準中的表現(xiàn)有所不同。在BBH中,性能提升是顯而易見的;而在CS或ME中,當融合兩個模型時,提升效果更加顯著。這種現(xiàn)象可能是由于三個模型在BBH中的各項任務上性能差異較大,而在CS或ME任務上的性能差異相對較小。


大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

詞匯對齊的標準

在LLM融合過程中,確保不同模型生成的tokens和詞匯表的一致性至關重要。顯然,基于最小編輯距離(MinED)的方法相比Fu等人(

2023)提出的精確匹配(EM)方法表現(xiàn)更優(yōu)。我們推測這種性能提升源于MinED的寬松限制,能夠有效對齊由不同分詞器生成的輕微差異的tokens,從而保留了大量有用的token信息,同時引入的錯誤較少。

融合函數(shù)的選擇

在3.3節(jié)中,我們介紹了FUSELLM的兩種融合函數(shù):一種是使用最小交叉熵分數(shù)(MinCE)的分布矩陣,另一種是基于交叉熵分數(shù)對分布矩陣進行加權(quán)平均(AvgCE)。結(jié)果表明,F(xiàn)USELLM使用MinCE在所有基準上的表現(xiàn)優(yōu)于AvgCE。這可能是由于AvgCE中的簡單加權(quán)平均引入了扭曲,削弱了各個LLM的獨特優(yōu)勢。


大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

4.5 FUSELLM與知識蒸餾的比較

雖然知識蒸餾技術(shù)也可以用于提升LLM的能力,但FUSELLM在兩個方面脫穎而出,正如前文所述。在本節(jié)中,我們將FUSELLM與傳統(tǒng)的知識蒸餾進行比較。具體而言,我們從Llama-2 13B中提取概率分布,并應用傳統(tǒng)知識蒸餾方法,將其能力轉(zhuǎn)移到Llama-2 7B中。通過知識蒸餾獲得的模型(Llama-2 KD)在所有基準上表現(xiàn)優(yōu)于原始Llama-2 7B,證明了知識蒸餾的有效性。然而,與FUSELLM相比,Llama-2 KD的提升幅度相對較小,尤其是在BBH中(2.97% vs. 5.16%)。這表明通過持續(xù)訓練集成三種具有不同架構(gòu)的7B模型,F(xiàn)USELLM獲得的優(yōu)越結(jié)果超越了從單個13B模型中簡單提取知識的收益。這一觀察突出了“更多有不同,差異也能成就更多”的理念。


大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

4.6 FUSELLM與集成/融合的比較

正如之前提到的,傳統(tǒng)技術(shù)如模型集成和權(quán)重融合通常用于融合多個大型語言模型(LLMs)。為了比較我們提出的FUSELLM與這些現(xiàn)有融合方法的有效性,我們進行了實驗,模擬了多個LLM來源于相同基礎模型但在不同語料庫上訓練的場景。我們首先從The Pile數(shù)據(jù)集中選擇了三個相關領域(PhilPapers、NIH ExPorter和USPTO Backgrounds),并使用每個領域的10億個token對Pythia 1B模型(Biderman等人, 2023)進行持續(xù)訓練,生成了三個結(jié)構(gòu)相同但領域不同的LLM。然后,我們將不同的融合技術(shù)應用于這些LLM:(1) 集成方法計算所有LLM生成的概率的加權(quán)平均值,權(quán)重基于每個模型的表現(xiàn);(2) 權(quán)重融合方法在參數(shù)空間中融合多個LLM,融合權(quán)重由模型表現(xiàn)決定;(3) FUSELLM在從這三個領域中采樣的1億個token上進行持續(xù)訓練。

表7展示了FUSELLM和其他融合方法在測試集上的困惑度(perplexity)結(jié)果,我們使用The Pile中實現(xiàn)的方法,按每個UTF-8編碼字節(jié)(BPB)測量困惑度。我們觀察到,經(jīng)過10億個token的訓練后,原始LLM的能力被轉(zhuǎn)移到每個特定領域的LLM中,導致它們在其他領域的表現(xiàn)下降。盡管所有融合技術(shù)都能夠整合不同模型的優(yōu)勢,但FUSELLM在三個領域中始終實現(xiàn)了最低的平均困惑度,這表明它比集成和權(quán)重融合方法更有效地利用集體知識。


大型語言模型的知識融合(ICLR2024)-AI.x社區(qū)

5、結(jié)論

本文提出了一種稱為FUSELLM的新方法,用于實現(xiàn)大型語言模型(LLMs)的知識融合。我們的主要目標是將多個源LLM的集體知識和獨特優(yōu)勢外化,并將這些知識轉(zhuǎn)移到一個目標LLM中。通過從不同的LLM中提取概率分布,我們利用源模型的多樣化能力,使目標LLM在推理、常識和代碼生成等任務上的表現(xiàn)得到提升。與傳統(tǒng)的模型集成和權(quán)重融合方法不同,F(xiàn)USELLM能夠在架構(gòu)不同的LLM之間實現(xiàn)知識融合。

我們通過實驗驗證了FUSELLM的有效性,實驗結(jié)果表明在不同的評估基準上,F(xiàn)USELLM的目標模型在大多數(shù)任務中的性能超越了任何單個源LLM。盡管我們的方法已經(jīng)展示了其潛力,未來的研究仍可進一步探索以下方向:研究如何在更多LLM之間實現(xiàn)更有效的融合,并開發(fā)更加高效的訓練策略,以進一步減少所需的訓練時間和資源。

1School of Computer Science and Engineering, Sun Yat-sen University, China 2Tencent AI Lab

?

本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/3ncHDUFWpqhy31QxHpAccg??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦