LLMs、MLLMs等領(lǐng)域的模型合并:方法、理論、應(yīng)用與機(jī)遇 精華
?一、結(jié)論寫(xiě)在前面
論文標(biāo)題:Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
論文鏈接:??https://arxiv.org/pdf/2408.07666??
項(xiàng)目鏈接:??https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications??
模型合并是機(jī)器學(xué)習(xí)社區(qū)中一種高效的賦能技術(shù),無(wú)需收集原始訓(xùn)練數(shù)據(jù),也不需要昂貴的計(jì)算。隨著模型合并在各個(gè)領(lǐng)域的日益普及,全面理解現(xiàn)有的模型合并技術(shù)變得至關(guān)重要。然而,文獻(xiàn)中對(duì)于這些技術(shù)的系統(tǒng)性和徹底的綜述存在顯著的空白。
論文全面概述了模型合并的方法和理論、它們?cè)诟鱾€(gè)領(lǐng)域和場(chǎng)景中的應(yīng)用,以及未來(lái)的研究方向。具體而言,論文首先提出了一種新的分類方法,全面討論了現(xiàn)有的模型合并方法。其次,論文探討了模型合并技術(shù)在大規(guī)模語(yǔ)言模型、多模態(tài)大規(guī)模語(yǔ)言模型以及10多個(gè)機(jī)器學(xué)習(xí)子領(lǐng)域(包括持續(xù)學(xué)習(xí)、多任務(wù)學(xué)習(xí)、小樣本學(xué)習(xí)等)中的應(yīng)用。最后,論文強(qiáng)調(diào)了模型合并面臨的挑戰(zhàn),并討論了未來(lái)的研究方向。
總結(jié)起來(lái),論文的主要貢獻(xiàn)包括以下三個(gè)方面:
1.方法論概述:論文提供了模型合并技術(shù)方面的全面總結(jié)。具體而言,論文提出了一種新的分類法,將現(xiàn)有的模型合并方法分為兩個(gè)階段,并根據(jù)關(guān)鍵技術(shù)進(jìn)一步細(xì)分每個(gè)階段的方法。此外,論文還討論了與模型合并相關(guān)的理論分析工作。
2.應(yīng)用概述:論文提供了模型合并應(yīng)用方面的全面總結(jié)。具體而言,論文探討了模型合并在基礎(chǔ)模型和10+個(gè)機(jī)器學(xué)習(xí)子領(lǐng)域的應(yīng)用,展示了模型合并如何解決這些領(lǐng)域的現(xiàn)有挑戰(zhàn)。
3.未來(lái)方向:論文指出了模型合并的幾個(gè)剩余挑戰(zhàn)和未來(lái)方向。論文相信,未來(lái)需要從性能差距、理論分析、可信保證、跨學(xué)科應(yīng)用等方面進(jìn)一步探索模型合并。
二、論文的簡(jiǎn)單介紹
2.1 論文的背景
模型合并,也稱為模型融合,是一種有效技術(shù),它通過(guò)合并多個(gè)具有不同能力的獨(dú)立模型的參數(shù),構(gòu)建一個(gè)通用模型,無(wú)需訪問(wèn)原始訓(xùn)練數(shù)據(jù)或昂貴的計(jì)算。與模型合并最相關(guān)的概念是集成學(xué)習(xí),因?yàn)樗鼈兌即龠M(jìn)了知識(shí)的融合和轉(zhuǎn)移。如圖1所示,它們之間的主要區(qū)別在于,集成學(xué)習(xí)必須保存所有個(gè)體模型,并在推理階段融合多個(gè)模型的預(yù)測(cè)(或輸出),而模型合并直接在參數(shù)級(jí)別進(jìn)行合并,并且在推理階段只有一個(gè)最終模型。這使得模型合并具有更吸引人的特性。
盡管模型合并是一個(gè)相對(duì)較新的主題,但它正在迅速發(fā)展,并已在多個(gè)領(lǐng)域找到了應(yīng)用。例如,在基礎(chǔ)模型中,通過(guò)不同下游任務(wù)微調(diào)的模型被合并,以增強(qiáng)大型語(yǔ)言模型的能力,而具有不同風(fēng)格的圖像生成模型被合并,以創(chuàng)建具有混合風(fēng)格能力的新模型。特別是,近年來(lái)機(jī)器學(xué)習(xí)社區(qū)中預(yù)訓(xùn)練和微調(diào)的檢查點(diǎn)數(shù)量呈指數(shù)級(jí)增長(zhǎng),包括Huggingface、torchvision 和timm等開(kāi)源倉(cāng)庫(kù),使用戶能夠輕松獲取能力各異的訓(xùn)練有素的專家模型。這些豐富的模型倉(cāng)庫(kù)進(jìn)一步推動(dòng)了模型合并方向的快速發(fā)展。
圖1:集成學(xué)習(xí)范式與模型合并范式的示意圖。(a) T個(gè)獨(dú)立模型用于T個(gè)任務(wù),(b) 集成T個(gè)獨(dú)立模型用于T個(gè)任務(wù),(c) 一個(gè)合并模型用于T個(gè)任務(wù)。
隨著模型合并在機(jī)器學(xué)習(xí)社區(qū)的各個(gè)領(lǐng)域中變得越來(lái)越流行,全面了解現(xiàn)有模型合并技術(shù)的優(yōu)勢(shì)和局限性以及它們?cè)诓煌I(lǐng)域的應(yīng)用變得至關(guān)重要。盡管社區(qū)已經(jīng)做出了一些努力,但仍有很大的空白需要填補(bǔ)。更具體地說(shuō),Mergekit 、MergeKit 和 FusionBench 是技術(shù)報(bào)告,其中 MergeKit 僅討論了七種代表性方法,而 FusionBench 討論了八種合并方法。
此外,Zheng 等人 [214] 討論了“從模型中學(xué)習(xí)”的主題,并且僅在整篇論文中以單個(gè)小節(jié)(僅一頁(yè))提及模型合并。與“模型合并”主題最相關(guān)的工作是 [96],但在應(yīng)用方面,它僅在三種場(chǎng)景中討論模型合并:聯(lián)邦學(xué)習(xí)、微調(diào)和蒸餾。由于模型合并方向的快速發(fā)展,它也忽略了許多最近發(fā)表的文章。為了填補(bǔ)這些空白,本調(diào)查旨在闡明模型合并方向的方法、理論、應(yīng)用和未來(lái)趨勢(shì),提供相關(guān)方法的全面分類。特別是,本文通過(guò)涵蓋三個(gè)主要方面來(lái)增強(qiáng)對(duì)模型合并的全面理解:
首先,現(xiàn)有的模型合并方法是如何分類的?論文首先在圖 2提出了一種新的分類法,將現(xiàn)有的模型合并方法分為兩個(gè)階段 :合并前和合并中。(i) 合并前方法旨在為合并創(chuàng)造更好的條件。它進(jìn)一步分為使用線性化微調(diào)來(lái)實(shí)現(xiàn)權(quán)重空間和輸入空間的解耦,進(jìn)行架構(gòu)轉(zhuǎn)換以將異構(gòu)模型轉(zhuǎn)換為同構(gòu)模型,以及對(duì)齊權(quán)重以將它們放置在同一盆地中。(ii) 合并中方法側(cè)重于設(shè)計(jì)復(fù)雜的技術(shù)將多個(gè)模型合并為一個(gè)。這些方法在合并模型時(shí)解決任務(wù)沖突和干擾問(wèn)題。它們可以進(jìn)一步分為基本合并方法,執(zhí)行最簡(jiǎn)單的參數(shù)合并策略;加權(quán)合并方法,根據(jù)特定規(guī)則計(jì)算的重要性合并多個(gè)模型;子空間合并方法,將多個(gè)模型投影到稀疏子空間進(jìn)行合并;基于路由的方法,根據(jù)推理期間的輸入樣本動(dòng)態(tài)合并模型;以及基于后校準(zhǔn)的方法,校正合并模型。除了這些方法外,論文還討論了模型合并的理論或?qū)嵶C分析。
其次,哪些應(yīng)用能從模型合并中受益?論文詳細(xì)討論了模型合并在基礎(chǔ)模型和機(jī)器學(xué)習(xí)十余個(gè)子領(lǐng)域中的各種應(yīng)用場(chǎng)景。如圖 2(下部)所示,模型合并可應(yīng)用于多種基礎(chǔ)模型,包括大型語(yǔ)言模型、多模態(tài)大型語(yǔ)言模型和圖像生成模型。例如,大型語(yǔ)言模型中的模型合并有助于緩解不真實(shí)和有毒輸出、實(shí)現(xiàn)知識(shí)遺忘,并加速訓(xùn)練。此外,模型合并也出現(xiàn)在不同的機(jī)器學(xué)習(xí)子領(lǐng)域中,如持續(xù)學(xué)習(xí)、多任務(wù)/多域?qū)W習(xí)、小樣本學(xué)習(xí)及其他領(lǐng)域,以解決各種挑戰(zhàn)。例如,在持續(xù)學(xué)習(xí)中,模型合并可以減輕對(duì)舊任務(wù)的災(zāi)難性遺忘。在多任務(wù)學(xué)習(xí)、多目標(biāo)學(xué)習(xí)和多域?qū)W習(xí)中,它促進(jìn)了知識(shí)遷移。此外,在對(duì)抗學(xué)習(xí)中,模型合并可用于攻擊和防御策略。
第三,模型合并的剩余挑戰(zhàn)和未來(lái)研究機(jī)遇是什么?盡管合并方法取得了進(jìn)展并廣泛應(yīng)用于多個(gè)領(lǐng)域,但該領(lǐng)域仍存在許多開(kāi)放性挑戰(zhàn)和未來(lái)研究方向。例如,隨著任務(wù)數(shù)量的增加,現(xiàn)有方法與獨(dú)立專家模型之間的性能差距逐漸顯著更大。此外,當(dāng)前的模型合并方法在合并過(guò)程中產(chǎn)生了巨大的內(nèi)存成本,并且缺乏信任保證以及深入的理論分析。解決這些差距需要研究人員的巨大努力,以進(jìn)一步推動(dòng)該領(lǐng)域的繁榮發(fā)展。
圖2:機(jī)器學(xué)習(xí)中模型合并的分類法。這一通用框架涵蓋了先進(jìn)的模型合并方法和理論(上部分),以及模型合并技術(shù)在基礎(chǔ)模型和超過(guò)10個(gè)機(jī)器學(xué)習(xí)子領(lǐng)域的實(shí)際應(yīng)用(下部分)。
2.2 模型融合方法
論文首先在介紹模型融合的符號(hào)表示和問(wèn)題定義。然后詳細(xì)闡述先進(jìn)的模型融合方法(表1總結(jié)了每類方法的主要目的)。現(xiàn)有的模型融合技術(shù)大致可以分為以下兩類:(i) 合并前方法(Before Merging Methods):為模型融合提供更好的先驗(yàn)知識(shí)。(ii) 合并中方法(During Merging Methods ):通過(guò)各種策略解決任務(wù)沖突/干擾,然后執(zhí)行參數(shù)合并操作。最后,論文總結(jié)了模型融合有效性的理論或解釋。
表1:現(xiàn)有模型融合方法的總結(jié)。
2.2.1 符號(hào)表示和模型融合問(wèn)題定義
假設(shè)有 T 個(gè)相同架構(gòu)的模型需要合并,它們訓(xùn)練的參數(shù)Φ。
2.2.2 預(yù)合并方法
為了為模型合并提供更好的前提條件,一類工作專注于獨(dú)立模型的微調(diào)步驟,例如微調(diào)線性化模型而非非線性模型。此外,當(dāng)需要合并的多個(gè)模型架構(gòu)不一致時(shí),必須預(yù)先轉(zhuǎn)換為相同架構(gòu)。最后,另一類工作嘗試在合并前對(duì)齊權(quán)重/參數(shù)。
2.2.2.1 線性化微調(diào)
Ortiz-Jimenez 等人 [123] 揭示,有效模型合并的一個(gè)必要條件是權(quán)重解耦。這意味著權(quán)重空間的不同方向?qū)?yīng)于輸入空間中不相交區(qū)域的功能變化。
為了實(shí)現(xiàn)權(quán)重解耦,Ortiz-Jimenez 等人 [123] 提出在微調(diào)階段沿著預(yù)訓(xùn)練模型的切線空間 [68] 對(duì)線性化模型進(jìn)行微調(diào),而不是在非線性模型的原始空間中進(jìn)行。然而,對(duì)所有參數(shù)進(jìn)行線性化微調(diào)比非線性微調(diào)成本更高。為了加速這一過(guò)程,一些工作建議僅對(duì)部分層進(jìn)行線性化。此外,TAFT [105] 為 Transformer [169] 架構(gòu)開(kāi)發(fā)了一種高效的線性化方法,該方法直接為 Transformer 網(wǎng)絡(luò)推導(dǎo)出封閉形式的線性化解。總之,在切線空間中進(jìn)行微調(diào)使得更容易解耦輸入空間和權(quán)重空間,從而減少后續(xù)模型合并時(shí)的干擾。
2.2.2.2架構(gòu)轉(zhuǎn)換
在某些情況下,需要合并的模型可能具有不同的架構(gòu),無(wú)法直接合并。為了解決這個(gè)問(wèn)題,一些研究 [10, 120, 171, 172] 提出在合并前進(jìn)行架構(gòu)轉(zhuǎn)換,即,將具有不同架構(gòu)的多個(gè)模型轉(zhuǎn)換為相同的架構(gòu),例如,將多個(gè)模型轉(zhuǎn)換為指定的目標(biāo)模型,即,將多個(gè)模型轉(zhuǎn)換為相同的架構(gòu),以便進(jìn)一步合并。因此,轉(zhuǎn)換后的 GAN 模型具有相同的結(jié)構(gòu)和共享知識(shí),便于進(jìn)一步的模型合并。
類似地,F(xiàn)useChat [172] 提出合并具有不同架構(gòu)和規(guī)模的聊天大型語(yǔ)言模型(例如,NH2-Mixtral-8x7B [75],NH2-Solar-10.7B [84],OpenChat-3.5-7B [173])。具體來(lái)說(shuō),F(xiàn)useChat 首先使用知識(shí)蒸餾將所有架構(gòu)轉(zhuǎn)換為與 OpenChat-3.5-7B 匹配,然后執(zhí)行模型合并操作。與上述基于蒸餾的方法不同,CLAFusion [121] 向較小的模型添加層/塊(權(quán)重設(shè)置為單位矩陣),以使其架構(gòu)與較大的模型對(duì)齊??傊?,合并具有不同架構(gòu)的模型需要首先將所有模型轉(zhuǎn)換為通用架構(gòu),以便后續(xù)合并。
2.2.2.3 權(quán)重對(duì)齊
深度神經(jīng)網(wǎng)絡(luò)的線性模式連通性(linear mode connectivity,LMC)特性表明,在多個(gè)局部最小值之間存在一條路徑,沿著這條路徑損失幾乎保持不變。許多研究[38, 43, 117]表明,從相同的預(yù)訓(xùn)練模型開(kāi)始并使用不同超參數(shù)配置進(jìn)行微調(diào)的兩個(gè)獨(dú)立模型通常滿足LMC。
此外,Adilova等人[3]和Zhou等人[216]將LMC的研究擴(kuò)展到了層級(jí)。LMC特性意味著多個(gè)局部最小值在權(quán)重空間中可能是等價(jià)的,同一模型的不同權(quán)重配置可能代表相同的功能。受此啟發(fā),許多工作提出在合并/插值兩個(gè)獨(dú)立模型時(shí),將一個(gè)模型的權(quán)重進(jìn)行置換以與另一個(gè)模型對(duì)齊,如圖 3 (b) 所示
圖3:(a) 一種架構(gòu)轉(zhuǎn)換的示意圖,將多個(gè)異構(gòu)模型轉(zhuǎn)換為同構(gòu)模型,使得后續(xù)可以直接進(jìn)行參數(shù)級(jí)合并操作。(b) 權(quán)重/參數(shù)對(duì)齊的示意圖,即對(duì)神經(jīng)網(wǎng)絡(luò)模型6(1)進(jìn)行置換,使其與模型對(duì)齊。
OTFusion [148] 和 Imfeld 等人 [66] 采用最優(yōu)傳輸來(lái)軟對(duì)齊跨模型的神經(jīng)元。NeuronAlignment [162] 引入了一種低成本的啟發(fā)式算法來(lái)近似最優(yōu)神經(jīng)元對(duì)齊。CCAMerge [58] 通過(guò)最大化神經(jīng)元線性組合之間的相關(guān)性來(lái)進(jìn)行置換。值得注意的是,Git re-basin [5] 提出了三種方法——激活匹配、權(quán)重匹配和直通估計(jì)——來(lái)對(duì)齊(或置換)在不同任務(wù)上訓(xùn)練的模型的權(quán)重。基于 Git re-basin,Peia 等人 [125] 進(jìn)一步結(jié)合基于 Sinkhorn 的投影來(lái)改進(jìn)這些對(duì)齊方法。此外,MuDSC [189] 提出同時(shí)在權(quán)重和激活空間中進(jìn)行模型對(duì)齊。與啟發(fā)式對(duì)齊策略不同,Deep-Align [119] 提出了一種基于學(xué)習(xí)的方法來(lái)進(jìn)行權(quán)重對(duì)齊,采用了一種新穎的可學(xué)習(xí)架構(gòu),該架構(gòu)以兩組權(quán)重作為輸入,輸出一個(gè)用于對(duì)齊的置換矩陣。
盡管這些對(duì)齊算法取得了顯著的改進(jìn),但Jordan等人[80]認(rèn)為這些方法的成功依賴于模型中歸一化層(如BatchNorm、LayerNorm等)的使用;沒(méi)有這些層,匹配算法的性能會(huì)大幅下降。作者稱此為“方差崩潰”問(wèn)題,并提出了REPAIR方法來(lái)解決它。此外,Crisostomi等人[27]指出,先前的成對(duì)排列并不保證循環(huán)一致性,使得對(duì)齊脆弱。他們進(jìn)一步提出在每一步同時(shí)全局優(yōu)化所有層的排列??偟膩?lái)說(shuō),與直接合并未對(duì)齊的模型相比,對(duì)齊的模型在合并過(guò)程中受到的干擾或沖突要小得多。
2.2.3合并方法
這里詳細(xì)討論如何合并一組訓(xùn)練良好的模型?,F(xiàn)有方法大致可分為五類:基本合并方法,基于權(quán)重的合并方法,基于子空間的合并方法,基于路由的合并方法,以及后校準(zhǔn)方法。
2.2.3.1 基本合并方法
最直接的方法之一是對(duì)多個(gè)模型的參數(shù)進(jìn)行直接加權(quán)平均[146, 168]。然而,簡(jiǎn)單權(quán)重平均的性能通常不盡如人意。最近,Task Arithmetic[65]引入了“任務(wù)向量”的概念(如圖4(a)所示),表示在任務(wù)t上微調(diào)的模型參數(shù)減去預(yù)訓(xùn)練的模型參數(shù)。
換句話說(shuō),任務(wù)向量被認(rèn)為是有意義地引導(dǎo)神經(jīng)網(wǎng)絡(luò)行為的。例如,多任務(wù)學(xué)習(xí)(MTL)可以通過(guò)添加任務(wù)向量來(lái)完成,遺忘可以通過(guò)減去任務(wù)向量來(lái)實(shí)現(xiàn),論文可以從預(yù)訓(xùn)練模型中減去相應(yīng)的任務(wù)向量,如圖 4 ( c ),即在圖 4 ( b ) 中,lambda 是一個(gè)超參數(shù)。
相反,當(dāng)論文希望預(yù)訓(xùn)練模型忘記一個(gè)功能時(shí)。如圖 4 ( d ) 所示,論文還可以通過(guò)任務(wù)向量類比實(shí)現(xiàn)任務(wù)類比,從而實(shí)現(xiàn)新任務(wù)的零樣本學(xué)習(xí)。同樣,PEMs [210] 通過(guò)將任務(wù)算術(shù) [65] 擴(kuò)展到參數(shù)高效的微調(diào)設(shè)置中,結(jié)合了具有不同能力的適配器。然而,基本合并方法的性能在大多數(shù)情況下并不令人滿意,尤其是當(dāng)任務(wù)相互干擾時(shí)。
圖 4 :任務(wù)算術(shù)的圖示 [65]。(a)“任務(wù)向量”的定義,即微調(diào)模型與預(yù)訓(xùn)練模型之間的差異。(b)通過(guò)減去任務(wù)向量實(shí)現(xiàn)知識(shí)遺忘。(c)通過(guò)合并多個(gè)任務(wù)向量進(jìn)行多任務(wù)學(xué)習(xí)。(d)使用類比任務(wù)向量實(shí)現(xiàn)任務(wù)類比。
2.2.3.2 基于權(quán)重的合并方法
眾所周知,不同的模型(或任務(wù)向量)代表不同的功能,直觀上,不同的功能具有不同程度的重要性。因此,先進(jìn)的基于權(quán)重的模型合并方法設(shè)計(jì)了各種巧妙的規(guī)則來(lái)確定合并系數(shù),如圖 5(a) 所示。然而,當(dāng)模型數(shù)量龐大時(shí),使用暴力網(wǎng)格搜索來(lái)尋找最優(yōu)合并系數(shù)是不切實(shí)際的,因?yàn)樯婕鞍嘿F的搜索成本。
為了更有效地確定合并系數(shù),Evolutionary-model-merge [6] 和 Checkpoint Merging [100] 分別使用進(jìn)化算法和貝葉斯優(yōu)化來(lái)高效搜索合并系數(shù)。AdaMerging [194] 利用梯度下降優(yōu)化通過(guò)最小化未標(biāo)記測(cè)試數(shù)據(jù)中的熵作為代理?yè)p失來(lái)學(xué)習(xí)合并系數(shù)。MetaGPT [215] 將模型合并問(wèn)題視為多任務(wù)學(xué)習(xí)(MTL)形式,其目標(biāo)是最小化合并模型的平均損失。
上述復(fù)雜的加權(quán)方法在模型(或任務(wù))層面上操作。眾所周知,深度神經(jīng)網(wǎng)絡(luò)模型中的每一層甚至每個(gè)神經(jīng)元都扮演著顯著不同的角色,一些研究已經(jīng)開(kāi)發(fā)了更細(xì)粒度的加權(quán)合并策略。例如,Layer-wise AdaMerging [194] 和 aTLAS [206] 自適應(yīng)地為每一層或模型合并中,分別針對(duì)模型的線性層和非線性層進(jìn)行處理。RegMean [78] 表明,對(duì)于模型合并中的線性層,存在依賴于訓(xùn)練集提供的數(shù)據(jù)統(tǒng)計(jì)的閉式解,而非線性層則可以簡(jiǎn)單地執(zhí)行權(quán)重平均。其他工作利用 Fisher 信息矩陣 [40] 在合并時(shí)評(píng)估參數(shù)的重要性。Fisher-Merging [113] 基于 t 的重要性進(jìn)行模型合并。Fisher-nodes-merging [164] 提出了基于 Fisher 信息矩陣的模型合并方法。MaTS [155] 開(kāi)發(fā)了 Fisher 合并的塊對(duì)角近似方法。Daheim 等人 [29] 將加權(quán)平均的不準(zhǔn)確性與梯度不匹配聯(lián)系起來(lái),并進(jìn)一步提出了一種基于不確定性的算法來(lái)減少匹配誤差,最終基于二階 Hessian 估計(jì)進(jìn)行模型合并。
圖 5:(a) 基于權(quán)重的模型合并方法示意圖。(b) 基于子空間的合并方法示意圖,其中空白表示零值。(c) 基于路由的合并方法示意圖,該方法根據(jù)輸入動(dòng)態(tài)執(zhí)行模型合并。
2.2.3.3 基于子空間的合并方法
另一類先進(jìn)的方法將模型轉(zhuǎn)換為稀疏子空間進(jìn)行合并,從而緩解任務(wù)間的干擾。神經(jīng)網(wǎng)絡(luò)的過(guò)參數(shù)化特性和模型剪枝的成功 [22, 54] 表明,從模型中移除大部分參數(shù)幾乎不影響其準(zhǔn)確性 [190]。這一洞察為模型合并開(kāi)辟了新的機(jī)會(huì),使論文能夠從單個(gè)模型中移除不重要的神經(jīng)元,并在參數(shù)子空間內(nèi)合并多個(gè)稀疏模型,如圖 5 (b) 所示。
TIES-Merging [190] 提出基于參數(shù)大小對(duì)每個(gè)單獨(dú)模型進(jìn)行修剪,僅保留大小前20%的參數(shù)。進(jìn)一步建議消除參數(shù)符號(hào)沖突以減少干擾,并最終使用任務(wù)算術(shù)合并稀疏模型。類似地,Drop And REscale (DARE) [200] 也通過(guò)參數(shù)大小進(jìn)行稀疏化,并強(qiáng)調(diào)了對(duì)稀疏模型進(jìn)一步進(jìn)行重縮放的重要性。除了移除權(quán)重最小的尾部參數(shù)外,Model Breadcrumbs [30] 強(qiáng)調(diào)了移除具有最大權(quán)重的參數(shù)(離群值)以進(jìn)一步減少模型合并中的噪聲并增強(qiáng)對(duì)超參數(shù)的泛化能力的重要性。TALL-masks [176] 根據(jù)與獨(dú)立模型相關(guān)的預(yù)定義閾值為每個(gè)任務(wù)創(chuàng)建特定的掩碼矩陣。與通過(guò)模型合并獲得單一模型的標(biāo)準(zhǔn)做法不同,EMR-Merging [62] 提出在多個(gè)任務(wù)之間維護(hù)一個(gè)共享模型以及一個(gè)稀疏的任務(wù)特定模型。在這種方法中,共享模型在每個(gè)索引處的值是所有模型中參數(shù)值最大的。與上述啟發(fā)式方法的掩碼構(gòu)建規(guī)則相反,Concrete [156] 將掩碼構(gòu)建和模型合并框架化為一個(gè)可學(xué)習(xí)的雙層優(yōu)化問(wèn)題。外層優(yōu)化掩碼矩陣,而內(nèi)層基于掩碼矩陣合并模型并使用未標(biāo)記的測(cè)試樣本對(duì)其進(jìn)行優(yōu)化。
2.2.3.4 基于路由的合并方法
鑒于輸入樣本/任務(wù)之間存在差異,模型在處理不同樣本/任務(wù)時(shí)的能力可能會(huì)有所不同。如圖5(c)所示,一些工作提出在推理階段根據(jù)樣本/任務(wù)動(dòng)態(tài)合并模型(或?qū)拥淖蛹?/p>
對(duì)于給定的輸入,SMEAR [116]首先使用路由器輸入到專家模塊的分布來(lái)計(jì)算每個(gè)專家參數(shù)的加權(quán)平均。這種方法的優(yōu)點(diǎn)是其計(jì)算成本與單個(gè)專家相似。Twin-Merging [108]也在推理階段基于路由自適應(yīng)地結(jié)合任務(wù)共享和任務(wù)私有知識(shí)。類似地,WeightEnsembling MoE [159]提出了一種動(dòng)態(tài)合并的Transformer架構(gòu)。具體來(lái)說(shuō),他們觀察到微調(diào)模型中線性層的參數(shù)變化比非線性層更加劇烈,這也顯著影響了合并性能。因此,他們使用標(biāo)準(zhǔn)加權(quán)平均來(lái)合并除線性層外的所有模塊。線性層在推理過(guò)程中根據(jù)路由網(wǎng)絡(luò)(以樣本特征作為路由輸入,以合并系數(shù)作為輸出)動(dòng)態(tài)加權(quán)和合并。PWE MoE [158]進(jìn)一步將Weight-Ensembling MoE擴(kuò)展到多目標(biāo)優(yōu)化設(shè)置,并使用偏好向量作為路由輸入。
2.2.3.5 基于后校準(zhǔn)的方法
近期,Yang等人[193]提出了一種后合并方法來(lái)校準(zhǔn)合并后的模型。他們觀察到,通過(guò)多種主流模型合并方法得到的合并模型存在表示偏差,即獨(dú)立模型與合并模型提取的表示存在顯著差異,導(dǎo)致合并模型的性能下降。為緩解這一問(wèn)題,他們提出了一種名為“表示手術(shù)”的模塊,用以校準(zhǔn)表示偏差。其核心思想是通過(guò)“表示手術(shù)”使合并模型后的表示與獨(dú)立模型的表示對(duì)齊。
2.2.4 模型合并的理論與分析
除了前面設(shè)計(jì)各種高級(jí)方法外,模型合并的理論和有效性分析同樣至關(guān)重要。目前,關(guān)于模型合并的理論分析工作有限。根據(jù)待合并模型的來(lái)源,現(xiàn)有的理論分析大致可分為三類:(i)同一訓(xùn)練軌跡中不同檢查點(diǎn)的模型合并,(ii)在同一數(shù)據(jù)集上微調(diào)的不同模型的合并,以及(iii)在不同數(shù)據(jù)集或任務(wù)上微調(diào)的不同模型的合并。
首先,一些分析針對(duì)單軌跡訓(xùn)練中的模型合并,通常指的是隨機(jī)加權(quán)平均(SWA)或指數(shù)移動(dòng)平均(EMA)。例如,Jain等人[69]從理論上證明了在最小二乘回歸的背景下,EMA的過(guò)擬合風(fēng)險(xiǎn)是偏差項(xiàng)和方差項(xiàng)的上界。偏差項(xiàng)依賴于參數(shù)的初始化狀態(tài),一旦模型開(kāi)始平均,隨著迭代次數(shù)的增加,偏差項(xiàng)呈指數(shù)級(jí)下降。方差項(xiàng)取決于數(shù)據(jù)中固有的噪聲協(xié)方差,當(dāng)使用模型平均時(shí),方差項(xiàng)的衰減速度更快[8]。類似地,Rame等人[132]將偏差-方差分解應(yīng)用于領(lǐng)域泛化設(shè)置,以解釋為什么模型平均能提高分布外性能。此外,Hardt等人[52]在凸假設(shè)下為SWA提供了穩(wěn)定性邊界,而Wang等人[177]進(jìn)一步在凸和非凸情況下建立了泛化邊界分析。
其次,一些研究從損失景觀的連通性和平坦性角度解釋了針對(duì)同一數(shù)據(jù)集進(jìn)行不同超參數(shù)微調(diào)的多個(gè)模型的合并現(xiàn)象。具體而言,部分工作應(yīng)用了神經(jīng)網(wǎng)絡(luò)的線性模式連通性(LMC)理論 [37, 47, 162] 來(lái)解釋模型合并。LMC揭示了神經(jīng)網(wǎng)絡(luò)損失最小值在權(quán)重空間中并非孤立點(diǎn)。近期研究 [38, 43, 117, 217] 表明,從相同預(yù)訓(xùn)練模型出發(fā)并采用不同配置微調(diào)的兩個(gè)獨(dú)立模型通常滿足LMC條件。換言之,LMC是一種普遍現(xiàn)象,通常出現(xiàn)在基于“預(yù)訓(xùn)練-微調(diào)”范式的微調(diào)模型中,這是當(dāng)前機(jī)器學(xué)習(xí)社區(qū)的標(biāo)準(zhǔn)做法。因此,根據(jù)LMC進(jìn)行權(quán)重對(duì)齊為模型合并提供了強(qiáng)有力的有效性保障 [5, 80]。另一方面,其他研究從更平坦的損失景觀角度解釋模型合并 [88],認(rèn)為在相同數(shù)據(jù)下對(duì)多個(gè)采用不同優(yōu)化配置微調(diào)的權(quán)重進(jìn)行合并通常會(huì)收斂到一個(gè)平坦的局部區(qū)域。
最后,Ortiz-Jimenez等人 [123] 基于在不同數(shù)據(jù)集上微調(diào)的多個(gè)模型進(jìn)行分析,指出權(quán)重解耦是實(shí)現(xiàn)有效模型合并的必要前提。更具體地,Ortiz-Jimenez等人 [123] 對(duì)神經(jīng)正切核(NTK)進(jìn)行了理論和實(shí)證分析,并建立了任務(wù)算術(shù) [65] 與NTK譜特性之間的有力聯(lián)系。
2.3 基礎(chǔ)模型中模型合并的應(yīng)用
基礎(chǔ)模型的出現(xiàn),包括大型語(yǔ)言模型(LLMs)、多模態(tài)大型語(yǔ)言模型(MLLMs)和圖像生成模型,是近年來(lái)人工智能領(lǐng)域技術(shù)進(jìn)步的重要標(biāo)志。然而,盡管這些大型模型取得了進(jìn)展,它們?nèi)悦媾R諸多挑戰(zhàn),例如LLMs產(chǎn)生有害內(nèi)容、MLLMs在融合不同模態(tài)信息方面的困難以及圖像生成模型難以生成混合風(fēng)格圖像的問(wèn)題。近期研究表明,模型合并技術(shù)為解決這些基礎(chǔ)模型固有的挑戰(zhàn)提供了有前景的解決方案。表 2首先簡(jiǎn)要概述了模型合并在基礎(chǔ)模型中的應(yīng)用。
表 2 :基礎(chǔ)模型中模型融合技術(shù)的應(yīng)用總結(jié)。
2.3.1 大型語(yǔ)言模型中的模型融合
近年來(lái),大型語(yǔ)言模型(LLMs),如GPT-4 [2]、Gemini [163]、PaLM [23]和LLaMA [166],取得了顯著進(jìn)展,并廣泛應(yīng)用于各種任務(wù)中。盡管在大多數(shù)基本任務(wù)上表現(xiàn)超群,LLMs仍面臨諸多挑戰(zhàn),包括生成違反法律或倫理的有毒內(nèi)容、訓(xùn)練過(guò)程中使用未經(jīng)授權(quán)的數(shù)據(jù)、高昂的訓(xùn)練成本以及在特定領(lǐng)域表現(xiàn)不足。模型融合技術(shù)為解決這些挑戰(zhàn)提供了有前景的機(jī)會(huì)。
2.3.1.1 LLMs的人類偏好對(duì)齊
人類對(duì)于美學(xué)、政治或公平性往往持有不同觀點(diǎn)。當(dāng)LLMs服務(wù)于人類時(shí),不同的人對(duì)模型有不同的期望,例如,有些人期望LLMs生成無(wú)害的回應(yīng),而另一些人則尋求有趣且愉快的互動(dòng)[134]。因此,實(shí)際LLMs的開(kāi)發(fā)通常分為三個(gè)階段,以生成更有幫助、更準(zhǔn)確且更安全的回應(yīng)[107]:在大規(guī)模無(wú)監(jiān)督數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,在具有高質(zhì)量標(biāo)注的小數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)(SFT),以及與人類互動(dòng)以進(jìn)一步優(yōu)化LLM對(duì)齊(例如,直接偏好優(yōu)化(DPO)[131]或從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF)[218])與人類偏好、獎(jiǎng)勵(lì)或價(jià)值觀。
一些研究提出通過(guò)模型合并來(lái)實(shí)現(xiàn)更好、更安全或更快的用戶偏好對(duì)齊。例如,ExPO [213] 通過(guò)在一個(gè)小規(guī)模的人類偏好數(shù)據(jù)上使用DPO或RLiHF對(duì)齊的中等模型構(gòu)建任務(wù)向量,并將其添加到一個(gè)未對(duì)齊的SFT模型中。通過(guò)設(shè)置合適的合并系數(shù),可以直接獲得一個(gè)更強(qiáng)大的對(duì)齊模型。在AlpacaEval 2.0基準(zhǔn)測(cè)試 [97] 中,將一個(gè)在10%/20%偏好數(shù)據(jù)上對(duì)齊的模型與SFT模型融合,其性能可與在完整偏好數(shù)據(jù)上對(duì)齊的模型相媲美。
DogeRM [98] 提出將獎(jiǎng)勵(lì)模型與在不同下游領(lǐng)域微調(diào)的LLMs合并,以直接創(chuàng)建領(lǐng)域?qū)俚莫?jiǎng)勵(lì)模型。此外,Lu等人 [107] 提出了一種在線合并優(yōu)化器,該優(yōu)化器在RLHF的每一步中插值SFT模型的梯度。這種方法鼓勵(lì)RLHF向獎(jiǎng)勵(lì)最大化方向優(yōu)化,同時(shí)防止LLMs因RLHF而遺忘通用知識(shí)。除了偏好對(duì)齊,還有多項(xiàng)研究探討了模型合并對(duì)LLMs安全對(duì)齊的影響 [11, 51, 199]。例如,Hammoud等人 [51] 發(fā)現(xiàn)合并兩個(gè)安全對(duì)齊的模型可能會(huì)損害安全性。因此,他們建議在構(gòu)建用于模型合并的合成數(shù)據(jù)時(shí),明確將安全對(duì)齊作為優(yōu)化目標(biāo)。
在實(shí)踐中,用戶往往擁有多種偏好的組合,而非單一偏好。由于偏好組合的無(wú)限性和高昂的訓(xùn)練成本,為每一種偏好組合單獨(dú)訓(xùn)練模型是不現(xiàn)實(shí)的。因此,一些研究建議將具有不同獎(jiǎng)勵(lì)對(duì)齊的模型結(jié)合起來(lái),創(chuàng)建一系列綜合對(duì)齊的大型語(yǔ)言模型(LLMs)。例如,Rame等人[134]和Jang等人[72]分別提出了獎(jiǎng)勵(lì)湯(Reward Soups)和個(gè)人化湯(Personalized Soups),作為針對(duì)多樣獎(jiǎng)勵(lì)的高效且靈活的解決方案。具體而言,獎(jiǎng)勵(lì)湯首先為每種獎(jiǎng)勵(lì)訓(xùn)練一個(gè)專家模型,然后通過(guò)線性插值這些專家模型的權(quán)重,以近似多種獎(jiǎng)勵(lì)組合下的帕累托最優(yōu)解集。這種方法成本效益高,因?yàn)樗鼉H需為每種獎(jiǎng)勵(lì)訓(xùn)練單獨(dú)的模型,即可組合任何種類的獎(jiǎng)勵(lì)。
2.3.1.2 LLMs的去毒化
LLMs在各種應(yīng)用中因不真實(shí)性和毒性問(wèn)題而備受關(guān)注[60],例如在回答某些問(wèn)題時(shí)出現(xiàn)侮辱、威脅和褻瀆等。為了解決LLMs應(yīng)用中的潛在安全風(fēng)險(xiǎn),需要靈活的技術(shù)來(lái)減少有毒文本的生成,本質(zhì)上是對(duì)LLMs進(jìn)行去毒化。一個(gè)直接的解決方案是收集額外的非毒性數(shù)據(jù)來(lái)微調(diào)語(yǔ)言模型[83];然而,這種方法需要大量的計(jì)算資源,并可能干擾LLMs的一般能力。另一種方法是在解碼階段直接降低潛在有毒詞匯的概率,這需要額外的指導(dǎo)信息[87]。近期研究表明,通過(guò)模型融合減少LLMs的有毒數(shù)據(jù)生成是一種簡(jiǎn)單有效的方案[60, 65, 210]。
任務(wù)算術(shù)[65]通過(guò)對(duì)在有毒數(shù)據(jù)(Civil Comments [13])上微調(diào)的GPT-2模型[130]的任務(wù)向量取反,表明這一操作有效降低了被分類為“有毒”數(shù)據(jù)的占比,同時(shí)在控制任務(wù)(WikiText-103)上語(yǔ)言流暢性變化不大。此外,一些參數(shù)高效的模型通過(guò)操縱少量參數(shù)來(lái)引導(dǎo)大型語(yǔ)言模型(LLMs)的非預(yù)期行為。PEM [210]通過(guò)取反在毒化數(shù)據(jù)上訓(xùn)練的LoRA [59](以及(IA)3 [102])模塊,以保持語(yǔ)言能力的同時(shí)降低語(yǔ)言模型輸出的毒性。Ethos [46]和Ext-Sub [60]指出,盡管有毒數(shù)據(jù)上的任務(wù)向量在事實(shí)上是錯(cuò)誤的,但它也包含了關(guān)于語(yǔ)言建模和邏輯敘事技能的正確信息。因此,Ext-Sub將有毒任務(wù)向量分解為兩個(gè)正交子空間,分別代表通用能力和破壞能力。然后通過(guò)僅移除代表破壞能力的分量來(lái)消除LLM中的有毒知識(shí)。
2.3.1.3 大型語(yǔ)言模型的知識(shí)遺忘
大型語(yǔ)言模型可能無(wú)意中學(xué)習(xí)到受版權(quán)保護(hù)的材料,引發(fā)重大的法律和倫理問(wèn)題[1],以及關(guān)于負(fù)責(zé)任AI使用的更廣泛?jiǎn)栴}[36]。在此背景下,《加州消費(fèi)者隱私法案》[124]和歐盟的《通用數(shù)據(jù)保護(hù)條例》[57]規(guī)定了數(shù)據(jù)遺忘的權(quán)利?;A(chǔ)模型的知識(shí)必須適應(yīng)這些規(guī)定。然而,從頭開(kāi)始重新訓(xùn)練排除受版權(quán)保護(hù)數(shù)據(jù)的成本是高昂的。例如,從頭開(kāi)始訓(xùn)練Llama-2-70B需要1,720,320 GPU小時(shí)[167]。傳統(tǒng)方法通常使用梯度上升(GA)通過(guò)在特定要遺忘的數(shù)據(jù)上使用GA算法微調(diào)模型來(lái)實(shí)現(xiàn)遺忘[165, 196]。不幸的是,這種方法通常會(huì)災(zāi)難性地破壞模型其他部分的知識(shí)。也就是說(shuō),遺忘特定知識(shí)也會(huì)抹去其他應(yīng)保留的知識(shí)。最近,許多基于模型合并技術(shù)的研究顯示了在不損害其他知識(shí)的情況下遺忘LLM特定知識(shí)的潛力[36, 60, 65]。
與基于遺傳算法的方法不同,模型合并方法無(wú)需額外數(shù)據(jù)來(lái)維護(hù)舊知識(shí)。為了實(shí)現(xiàn)遺忘,模型合并通常將一個(gè)負(fù)向微調(diào)的模型融入目標(biāo)模型中(即,從目標(biāo)模型中減去特定任務(wù)的微調(diào)知識(shí))。例如,任務(wù)算術(shù)[65]表明,否定任務(wù)向量會(huì)降低特定任務(wù)的性能,而對(duì)控制任務(wù)的影響不大。實(shí)驗(yàn)證明,模型合并可以在不影響控制任務(wù)性能的情況下,使微調(diào)模型遺忘目標(biāo)任務(wù)的知識(shí)。類似地,穩(wěn)定序列遺忘(SSU)[36]將這種遺忘擴(kuò)展到大型語(yǔ)言模型(LLMs)的序列遺忘設(shè)置中,其中必須在不同時(shí)間步遺忘不同的版權(quán)內(nèi)容。知識(shí)遺忘還可以遺忘預(yù)訓(xùn)練期間代表不良行為的樣本。例如,F(xiàn)useToForget[205]采用模型合并作為去偏工具,以減少語(yǔ)言模型中的隱私問(wèn)題。FLearning[122]首先減去與要遺忘數(shù)據(jù)相關(guān)的參數(shù),然后使用新數(shù)據(jù)對(duì)參數(shù)進(jìn)行微調(diào),以實(shí)現(xiàn)精確的知識(shí)更新。SKU[106]探索了在LLM中遺忘有害數(shù)據(jù)的方法,這是一個(gè)兩階段方案。首先,使用有害數(shù)據(jù)(如有害問(wèn)答對(duì))對(duì)LLM中與有害知識(shí)位置對(duì)應(yīng)的參數(shù)進(jìn)行微調(diào)(即任務(wù)向量),然后將任務(wù)向量從LLM中否定,以有效緩解LLM中的不良行為??偟膩?lái)說(shuō),將相反(反專家)任務(wù)向量融入預(yù)訓(xùn)練模型中,可以有效完成機(jī)器遺忘的任務(wù)。
2.3.1.4 大語(yǔ)言模型的快速訓(xùn)練
訓(xùn)練大型語(yǔ)言模型需要在大量數(shù)據(jù)上進(jìn)行多次迭代,這使得訓(xùn)練過(guò)程極為昂貴。例如,訓(xùn)練LLAMA2-70B模型使用2T令牌需要1,720,320 GPU小時(shí)[100]。加速LLM訓(xùn)練的方法包括混合精度訓(xùn)練、持續(xù)重訓(xùn)練和管道并行。另一種正交方法是訓(xùn)練軌跡中的檢查點(diǎn)合并,它提供了一種簡(jiǎn)單有效的方法,既可以加速LLM訓(xùn)練,也可以在相同成本下提高訓(xùn)練性能。
第一類工作在LLM訓(xùn)練過(guò)程中,在單一訓(xùn)練軌跡中加入檢查點(diǎn)以加速模型訓(xùn)練。例如,LAWA [81] 展示了在模型訓(xùn)練的中間階段合并檢查點(diǎn)可以加快訓(xùn)練過(guò)程。例如,在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet50模型減少了68 GPU小時(shí)的訓(xùn)練時(shí)間,而在WikiText-103數(shù)據(jù)集上訓(xùn)練RoBERTa-Base模型節(jié)省了30 GPU小時(shí)。Sanyal等人 [143] 進(jìn)一步表明,預(yù)訓(xùn)練軌跡中的檢查點(diǎn)平均和高學(xué)習(xí)率的結(jié)合有助于更快收斂。檢查點(diǎn)合并 [100] 全面評(píng)估了在Baichuan2 [191] LLM模型預(yù)訓(xùn)練過(guò)程的不同階段模型合并的有效性。第二類工作涉及結(jié)合現(xiàn)有模型以創(chuàng)建更強(qiáng)大的初始模型,從而加速學(xué)習(xí)速度并提高下游任務(wù)的準(zhǔn)確性。例如,F(xiàn)using [21] 和ColD Fusion [35] 將多個(gè)現(xiàn)有的微調(diào)模型混合作為基礎(chǔ)模型,并用于下游任務(wù)的微調(diào),結(jié)果顯示這種合并模型優(yōu)于單純的預(yù)訓(xùn)練模型。
2.3.1.5 結(jié)合專家LLM的能力
LLM在一般任務(wù)中表現(xiàn)出強(qiáng)大的泛化能力,但往往缺乏特定垂直領(lǐng)域的知識(shí)。預(yù)訓(xùn)練的LLM通常需要在不同公司內(nèi)部進(jìn)行微調(diào),以成為各個(gè)領(lǐng)域的專家LLM。整合多位專家的專業(yè)知識(shí)對(duì)于解決更復(fù)雜的任務(wù)尤為關(guān)鍵。關(guān)于模型合并技術(shù)的研究表明,可以通過(guò)結(jié)合不同專家LLM的參數(shù)來(lái)創(chuàng)建復(fù)合LLM [6, 31, 171, 172, 201, 202, 215]。例如,Dekoninck等人 [31] 展示了通過(guò)合并具有不同風(fēng)格的多個(gè)LLM并應(yīng)用個(gè)性化加權(quán),可以靈活控制文本生成的能力。Robust Weight Signatures [14] 提出了一種通過(guò)模型合并增強(qiáng)模型對(duì)各種自然損壞的干凈數(shù)據(jù)版本的總體魯棒性的“補(bǔ)丁”框架??傊?,模型合并提供了一種直接且有效的策略來(lái)增強(qiáng)LLM的能力。
2.3.2 多模態(tài)大型語(yǔ)言模型中的模型合并
基礎(chǔ)模型通常涉及處理和交互來(lái)自不同模態(tài)的數(shù)據(jù),如視頻、圖像、語(yǔ)音和文本。為了構(gòu)建一個(gè)通用的大型模型,一個(gè)關(guān)鍵的障礙是任務(wù)和模態(tài)的多樣性和異質(zhì)性。傳統(tǒng)上,大多數(shù)現(xiàn)有方法為每種模態(tài)訓(xùn)練一個(gè)特定模態(tài)的模型。然而,這些方法存在局限性:一方面,它們需要為每種模態(tài)單獨(dú)的模型;另一方面,聯(lián)合訓(xùn)練一個(gè)大型多模態(tài)模型需要昂貴的配對(duì)訓(xùn)練數(shù)據(jù)(圖像、文本、視頻、語(yǔ)音)收集,并且在添加新模態(tài)時(shí)需要重新訓(xùn)練整個(gè)模型。
一個(gè)有趣的問(wèn)題是,論文是否可以合并多個(gè)特定模態(tài)的模型,以獲得一個(gè)單一、有效且參數(shù)高效的無(wú)模態(tài)模型。論文的目標(biāo)是通過(guò)合并的統(tǒng)一模型編碼來(lái)自不同模態(tài)的輸入,學(xué)習(xí)跨模態(tài)交互,并保持與經(jīng)過(guò)良好訓(xùn)練的獨(dú)立特定模態(tài)模型相當(dāng)?shù)男阅?。與傳統(tǒng)的多模態(tài)學(xué)習(xí)相比,模型合并技術(shù)提供了新的機(jī)會(huì)。這種模型合并方法具有以下幾個(gè)優(yōu)點(diǎn):(1)它消除了收集標(biāo)記配對(duì)多模態(tài)訓(xùn)練示例的昂貴且勞動(dòng)密集的過(guò)程,這是聯(lián)合訓(xùn)練多模態(tài)模型所必需的;(2)它增強(qiáng)了多模態(tài)模型的適應(yīng)性,允許無(wú)縫集成新模態(tài);(3)它充分利用了多模態(tài)之間的知識(shí)協(xié)作,從而受益于跨模態(tài)知識(shí)轉(zhuǎn)移。
2.3.2.1 多模態(tài)融合的模型合并
最近,許多研究集中在將不同模態(tài)的模型合并為一個(gè)單一模型,從而增強(qiáng)模態(tài)間知識(shí)的多樣性。例如,JAM [4] 提出將兩個(gè)專門(mén)(一個(gè)用于文本到圖像,一個(gè)僅用于文本)的自回歸、僅解碼器的大型Transformer模型合并,以無(wú)縫生成多模態(tài)輸出。類似地,DAMC [16] 引入了一種方法,用于跨圖像、音頻、視頻和點(diǎn)云模態(tài)融合多模態(tài)LLMIs,通過(guò)參數(shù)解耦和調(diào)整模態(tài)融合系數(shù)進(jìn)一步減少跨模態(tài)干擾。
為了評(píng)估各種因素對(duì)模型合并的影響,VL-Merging [154] 對(duì)多模態(tài)模型合并進(jìn)行了全面的實(shí)證分析。整個(gè)框架包括三個(gè)步驟:獨(dú)立模態(tài)微調(diào)、多模態(tài)合并和下游任務(wù)微調(diào)。通過(guò)涉及不同初始化、合并方法和架構(gòu)的多模態(tài)模型合并實(shí)驗(yàn),作者提出了以下指導(dǎo)原則:(1)跨多個(gè)模態(tài)的模型應(yīng)基于相同的預(yù)訓(xùn)練起點(diǎn),以確保它們處于相同的吸引域 [5] 并共享更多信息。(2)簡(jiǎn)單的模型平均能獲得更好的性能,如果擁有更多的計(jì)算和存儲(chǔ)資源,可以進(jìn)行更細(xì)粒度的合并。(3)合并整個(gè)模型而非僅部分層通常會(huì)得到更令人滿意的結(jié)果,因?yàn)閮H微調(diào)部分層可能會(huì)限制單模態(tài)模型的能力。與上述基于特定架構(gòu)開(kāi)發(fā)的模型合并方法不同,UnIVAL [147] 首次設(shè)計(jì)了一個(gè)統(tǒng)一架構(gòu),涵蓋圖像、視頻、音頻和語(yǔ)言四種模態(tài)。它將所有模態(tài)的任務(wù)轉(zhuǎn)換為“序列到序列”格式,并將所有模態(tài)的訓(xùn)練目標(biāo)轉(zhuǎn)換為“下一個(gè)詞預(yù)測(cè)”格式。這使得可以在所有模態(tài)上應(yīng)用統(tǒng)一的特征提取器和分類器。此外,UnIVAL 為模型合并提供了有利的架構(gòu)條件,并證明在權(quán)重空間中線性插值經(jīng)過(guò)多模態(tài)微調(diào)的模型,可以得到一個(gè)在已見(jiàn)和未見(jiàn)任務(wù)上都表現(xiàn)良好的通用單一模型。
2.3.2.2 跨模態(tài)知識(shí)轉(zhuǎn)移的模型合并
一些工作嘗試通過(guò)模型合并方法將知識(shí)從一個(gè)模態(tài)轉(zhuǎn)移到另一個(gè)模態(tài)。例如,MAM [153] 研究了Transformer [169] 的注意力層是否能跨不同模態(tài)泛化。具體來(lái)說(shuō),它考察了在高資源模態(tài)(如數(shù)據(jù)豐富的圖像和文本)上訓(xùn)練的Transformer模型所獲得的知識(shí)是否可以轉(zhuǎn)移到在低資源模態(tài)(如數(shù)據(jù)稀疏的語(yǔ)音和音頻)上訓(xùn)練的Transformer模型。本文展示了跨各種任務(wù)、模態(tài)和初始化的模型注意力合并。最終結(jié)果顯示,與標(biāo)準(zhǔn)微調(diào)范式相比,MAM在音頻分類任務(wù)(使用ESC-50數(shù)據(jù)集 [126])上實(shí)現(xiàn)了18.42%的分類錯(cuò)誤率降低。
2.3.3 圖像生成模型中的模型融合
圖像生成模型,如生成對(duì)抗網(wǎng)絡(luò)(GANs)、變分自編碼器(VAEs)、正則化流(Flows)和去噪擴(kuò)散概率模型(Diffusions),旨在近似給定數(shù)據(jù)集背后的底層數(shù)據(jù)分布,以便生成更多具有相同分布的新樣本。然而,圖像生成模型仍面臨以下挑戰(zhàn):無(wú)法靈活生成具有多種風(fēng)格組合的樣本、生成模型訓(xùn)練成本高昂,以及無(wú)法生成指令中指定的所有細(xì)節(jié)。這一困境促使人們關(guān)注專家模型,這些模型在不同的數(shù)據(jù)片段或分布上訓(xùn)練具有特定能力的一組專家,允許在推理時(shí)靈活添加或移除某些風(fēng)格的專家??紤]到集成學(xué)習(xí)的部署難度和資源成本,模型融合提供了一種新的視角,無(wú)需額外內(nèi)存和推理成本即可結(jié)合不同風(fēng)格的技能特定專家。
2.3.3.1 生成模型中的風(fēng)格混合
現(xiàn)有的生成模型通常僅根據(jù)訓(xùn)練數(shù)據(jù)生成分布。然而,在實(shí)際部署中,不同用戶或藝術(shù)家往往希望生成具有不同風(fēng)格組合的藝術(shù)品。為這些混合分布收集額外數(shù)據(jù)成本高昂,且微調(diào)模型可能導(dǎo)致遺忘其他能力。模型融合提供了靈活組合多種風(fēng)格的可能性。
Earl GAN Cocktail [10] 嘗試合并多個(gè)預(yù)訓(xùn)練的 GAN 模型。近期,基于擴(kuò)散的圖像生成模型 [56, 139, 140] 因其卓越的生成能力而比基于 GAN 的模型受到更多關(guān)注。因此,大多數(shù)研究集中在融合不同的擴(kuò)散模型上。具體而言,Diffusion Soup [12] 展示了能夠線性合并針對(duì)不同風(fēng)格數(shù)據(jù)片段(例如,不同領(lǐng)域/類別或不同用戶提供的數(shù)據(jù))微調(diào)的擴(kuò)散模型,實(shí)現(xiàn)混合風(fēng)格的零樣本生成。此外,Diffusion Soup 實(shí)證驗(yàn)證了模型融合具有抗記憶效應(yīng),即生成的圖像不太可能復(fù)制訓(xùn)練數(shù)據(jù),這有利于生成多樣化的圖像。與直接合并模型參數(shù)的 Diffusion Soup 不同,MaxFusion [118] 受到 Ziplt [151] 的啟發(fā),提出基于相同輸入噪聲合并多個(gè)擴(kuò)散模型的中間特征,以生成滿足多個(gè)條件的圖像。然而,基于全參數(shù)微調(diào)合并多個(gè)擴(kuò)散模型在任務(wù)數(shù)量龐大時(shí)成本高昂。為解決這一問(wèn)題,ZipLoRA [145] 和 MoLE [186] 旨在無(wú)縫合并參數(shù)高效的 LoRA 模塊。例如,ZipLoRA 提出合并獨(dú)立訓(xùn)練的內(nèi)容/主題(例如,特定對(duì)象或人物)LoRA 與藝術(shù)風(fēng)格(例如,繪畫(huà)或繪圖等)LoRA,使擴(kuò)散模型能夠生成任何用戶提供的主題和風(fēng)格組合 [141]。這種方法使用戶和藝術(shù)家能夠輕松組合他們選擇的公開(kāi)可用主題和風(fēng)格 LoRA。
2.3.3.2 降低生成模型的訓(xùn)練成本
在現(xiàn)實(shí)場(chǎng)景中,大規(guī)模訓(xùn)練數(shù)據(jù)通常來(lái)自不同領(lǐng)域或由不同用戶提供。鑒于需要添加新數(shù)據(jù)或移除過(guò)時(shí)數(shù)據(jù),每次更新數(shù)據(jù)后重新訓(xùn)練單一模型往往不切實(shí)際 [12]。例如,使用 8 塊 A100 GPU [101] 訓(xùn)練一個(gè) CM 模型 [150] 大約需要一周時(shí)間。這是因?yàn)楝F(xiàn)有方法僅在生成模型訓(xùn)練中應(yīng)用最終收斂權(quán)重,而忽略了中間訓(xùn)練軌跡。LCSC [101] 表明,通過(guò)進(jìn)化算法簡(jiǎn)單地組合擴(kuò)散模型中間的訓(xùn)練軌跡,可以顯著降低訓(xùn)練成本。具體而言,僅需少量迭代或小批量大小即可訓(xùn)練擴(kuò)散模型,達(dá)到與完全訓(xùn)練的擴(kuò)散模型相媲美的圖像質(zhì)量。例如,在 CIFAR-10 數(shù)據(jù)集上,LCSC 分別將一致性蒸餾和一致性訓(xùn)練 [150] 的訓(xùn)練過(guò)程提升了 23 倍和 7 倍。其根本原因是,優(yōu)化軌跡的每個(gè)局部檢查點(diǎn)附近存在許多高質(zhì)量盆地(即生成質(zhì)量更好的區(qū)域),這些區(qū)域由于梯度估計(jì)的巨大方差而無(wú)法通過(guò)隨機(jī)梯度下降到達(dá)。然而,檢查點(diǎn)插值提供了一種到達(dá)這些盆地的機(jī)會(huì)。
2.3.3.3 提高生成模型的忠實(shí)度
一些關(guān)于文本到圖像(T2I)的研究表明,盡管現(xiàn)有的 T2I 生成模型能夠根據(jù)文本提示生成高質(zhì)量圖像,但這些圖像往往未能充分捕捉和反映文本中的語(yǔ)義細(xì)節(jié),例如生成多個(gè)主體或正確描繪物體間的空間關(guān)系 [89]。為提高 T2I 生成模型的忠實(shí)度,SELMA [89] 設(shè)計(jì)了一種新穎的四階段范式。在前兩個(gè)階段,通過(guò)現(xiàn)有大型語(yǔ)言模型的多樣化提示收集一系列輸入文本(對(duì)應(yīng)不同技能),并使用 T2I 模型生成相應(yīng)的圖像數(shù)據(jù)。第三階段涉及在不同技能的圖像上分別微調(diào)技能特定的專家(即 LoRA)。在第四階段,將具有不同技能的專家模型合并,以在推理期間獲得最終模型。與多技能聯(lián)合學(xué)習(xí)的范式相比,這種在獨(dú)立學(xué)習(xí)后合并專家技能的方法可能有助于緩解知識(shí)/技能沖突,同時(shí)效率更高。
2.4 模型融合在不同機(jī)器學(xué)習(xí)子領(lǐng)域的應(yīng)用
模型融合是一種簡(jiǎn)單且有效的技術(shù),廣泛應(yīng)用于機(jī)器學(xué)習(xí)的各個(gè)子領(lǐng)域,如持續(xù)學(xué)習(xí)、多任務(wù)學(xué)習(xí)、領(lǐng)域泛化、聯(lián)邦學(xué)習(xí)、小樣本學(xué)習(xí)和對(duì)抗防御等。這里論文將全面討論模型融合在不同機(jī)器學(xué)習(xí)子領(lǐng)域的應(yīng)用。表 3}提供了簡(jiǎn)要總結(jié)。
表 3:模型融合技術(shù)在不同機(jī)器學(xué)習(xí)子領(lǐng)域應(yīng)用的總結(jié)。
2.4.1 模型融合在持續(xù)學(xué)習(xí)中的應(yīng)用
持續(xù)學(xué)習(xí) (CL) 涉及使用流式、非平穩(wěn)數(shù)據(jù)流訓(xùn)練模型。CL 中的主要挑戰(zhàn)是“災(zāi)難性遺忘” 問(wèn)題;即,CL 模型在訓(xùn)練新任務(wù)后對(duì)舊任務(wù)的預(yù)測(cè)準(zhǔn)確性急劇下降。主流 CL 方法主要分為基于記憶回放的方法、基于架構(gòu)擴(kuò)展的方法、基于正則化的方法和基于子空間投影的方法 [178]。近年來(lái),越來(lái)越多的人對(duì)使用模型融合來(lái)解決災(zāi)難性遺忘問(wèn)題感興趣。這種新穎的方法提供了幾個(gè)好處,例如避免與基于網(wǎng)絡(luò)擴(kuò)展的方法相關(guān)的額外參數(shù)和推理成本,并消除基于記憶的方法所需緩存舊數(shù)據(jù)的需要。
2.4.1.1 模型融合緩解災(zāi)難性遺忘
受 Tangent Task Arithmetic [123] 的啟發(fā),Tangent Model Composition [104] 提出在預(yù)訓(xùn)練模型的切線空間中獨(dú)立微調(diào)每個(gè)任務(wù),然后線性微調(diào)這些模型以執(zhí)行 CL。這種方法不依賴于 CL 的具體設(shè)置,可以輕松應(yīng)用于任務(wù)、類別和領(lǐng)域增量學(xué)習(xí)場(chǎng)景。此外,ITA [127 ] 強(qiáng)調(diào)微調(diào)模型必須在預(yù)訓(xùn)練模型的同一盆地中,以確保非線性模型的可組合性。它在傳統(tǒng)的 CL 中引入了一個(gè)類似于 EWC [85] 的正則化項(xiàng),以約束獨(dú)立模型訓(xùn)練時(shí)微調(diào)權(quán)重和預(yù)訓(xùn)練權(quán)重之間的距離。WARP [135] 建議通過(guò)在偏好數(shù)據(jù)集上使用 RLHF 對(duì)齊預(yù)訓(xùn)練 LLM 的權(quán)重與其對(duì)齊權(quán)重進(jìn)行線性插值,從而緩解預(yù)訓(xùn)練 LLM 的知識(shí)遺忘。BAM通過(guò)合并模型不斷適應(yīng) LLM 到新語(yǔ)言,同時(shí)保留通用能力。MagMax [112 ] 合并修剪的任務(wù)向量,進(jìn)一步緩解參數(shù)符號(hào)沖突和舊知識(shí)遺忘。Equifinality、PAINT [64] 和 LM-Cocktail [187] 插值微調(diào)模型和零樣本模型的權(quán)重,以提高下游任務(wù)的準(zhǔn)確性,而不會(huì)降低支持/通用任務(wù)的準(zhǔn)確性。
與合并完整模型不同,一些研究專注于合并參數(shù)高效的模塊。Chi-tale等人[20]提出了一種基于任務(wù)算術(shù)[65]的持續(xù)學(xué)習(xí)(CL)方法。該方法首先為每個(gè)任務(wù)微調(diào)一個(gè)特定任務(wù)的低秩適應(yīng)(LoRA),然后根據(jù)微調(diào)模型與預(yù)訓(xùn)練模型之間的差異構(gòu)建任務(wù)向量。多個(gè)任務(wù)向量隨后被合并,并使用少量數(shù)據(jù)(每類10個(gè)樣本)對(duì)合并后的模型進(jìn)行微調(diào)。與傳統(tǒng)的CL方法,特別是基于回放的方法相比,這種方法消除了每次迭代時(shí)回放舊任務(wù)數(shù)據(jù)的需要,從而加速了模型訓(xùn)練。此外,使用類別平衡子集對(duì)合并后的模型進(jìn)行微調(diào)有助于減輕CL模型的偏差。類似地,DynaMMo[128]在醫(yī)療圖像的CL設(shè)置中應(yīng)用了輕量級(jí)模型合并(即適配器)。與基于架構(gòu)擴(kuò)展的CL方法不同,這種方法不會(huì)隨著任務(wù)數(shù)量的增加而導(dǎo)致參數(shù)數(shù)量線性增加。與DynaMMo的靜態(tài)聚合參數(shù)高效微調(diào)(PEFT)模塊不同,DAM[19]在推理過(guò)程中引入了動(dòng)態(tài)聚合PEFT模塊以執(zhí)行CL。AMM[17]提出合并卷積層以促進(jìn)增量新類發(fā)現(xiàn)并防止遺忘基本知識(shí)。Disperse-Then-Merge[44]建議在大型語(yǔ)言模型(LLMs)的有監(jiān)督微調(diào)過(guò)程中合并針對(duì)不同數(shù)據(jù)分區(qū)訓(xùn)練的子模型,以減少數(shù)據(jù)偏差并緩解對(duì)通用預(yù)訓(xùn)練知識(shí)的遺忘。
2.4.2 多任務(wù)/多目標(biāo)/多領(lǐng)域/輔助學(xué)習(xí)中的模型合并
在機(jī)器學(xué)習(xí)中,為了優(yōu)化資源效率,論文通常使用單一模型來(lái)處理具有不同分布的多個(gè)任務(wù)、目標(biāo)或數(shù)據(jù)領(lǐng)域。傳統(tǒng)的多任務(wù)學(xué)習(xí)(MTL)、多目標(biāo)學(xué)習(xí)(MOO)或多領(lǐng)域?qū)W習(xí)(MD)范式要求收集來(lái)自所有任務(wù)、目標(biāo)或領(lǐng)域的數(shù)據(jù)來(lái)協(xié)同訓(xùn)練模型,這導(dǎo)致了高昂的數(shù)據(jù)管理和模型訓(xùn)練成本。當(dāng)引入新的任務(wù)、目標(biāo)或領(lǐng)域時(shí),這種方法尤其昂貴,因?yàn)閺念^開(kāi)始使用所有可用數(shù)據(jù)重新訓(xùn)練一個(gè)全面的模型是資源密集型的。許多最近的研究提出了通過(guò)直接合并模型來(lái)跨任務(wù)、目標(biāo)或領(lǐng)域整合知識(shí)的高效方法。
2.4.2.1 多任務(wù)學(xué)習(xí)中的知識(shí)遷移
多任務(wù)學(xué)習(xí)(MTL)的目標(biāo)是使單個(gè)模型能夠同時(shí)執(zhí)行多個(gè)任務(wù),從而促進(jìn)這些任務(wù)之間的知識(shí)遷移[18, 110, 144, 152, 192, 203]。如圖 1 ( c ) 所示,為了避免聯(lián)合訓(xùn)練的高成本,一種直接的方法是將多個(gè)在不同任務(wù)上獨(dú)立訓(xùn)練的模型合并,以實(shí)現(xiàn)MTL。
這里論文以一些代表性任務(wù)為例。對(duì)于計(jì)算機(jī)視覺(jué)中的MTL任務(wù),Task Arithmetic [65]、Ties-Merging [190]、AdaMerging [194] 以及其他研究[156, 193, 197]提出結(jié)合在不同視覺(jué)分類任務(wù)上訓(xùn)練的ViT模型,所獲得的模型能夠完成多個(gè)任務(wù)的對(duì)象分類。Task Arithmetic [65]的結(jié)果表明,合并任意兩個(gè)數(shù)據(jù)集上獨(dú)立訓(xùn)練的模型所得到的合并模型,其性能可與單任務(wù)模型相媲美。類似地,合并了在不同任務(wù)上訓(xùn)練的ResNet架構(gòu)的Ziplt [151]也取得了相當(dāng)?shù)某晒?。?duì)于自然語(yǔ)言處理中的MTL任務(wù),DARE [201] 引入了一種同源模型同化的方法,將LLMs增強(qiáng)為“免費(fèi)午餐”。例如,合并WizardLM和WizardMath顯著提升了WizardLM在GSM8K(評(píng)估LLMs數(shù)學(xué)推理能力的基準(zhǔn))上的性能,從2.2提升至66.3。Akiba等人[6]建議直接合并具有數(shù)學(xué)能力的LLM和具有日語(yǔ)能力的LLM,結(jié)果是一個(gè)能夠解決日語(yǔ)數(shù)學(xué)問(wèn)題的模型。此外,許多研究表明,結(jié)合在不同任務(wù)上訓(xùn)練的PEFT模塊(如Adapter或LoRA)也可以實(shí)現(xiàn)MTL [160, 209]。
2.4.2.2 多目標(biāo)優(yōu)化中的知識(shí)轉(zhuǎn)移
多目標(biāo)優(yōu)化(MOO)旨在同時(shí)優(yōu)化多個(gè)目標(biāo)函數(shù)。這些目標(biāo)函數(shù)可能相互沖突,因此MOO問(wèn)題通常不存在單一的最優(yōu)解。相反,它涉及在多個(gè)目標(biāo)之間尋找權(quán)衡,這對(duì)應(yīng)于識(shí)別一組帕累托最優(yōu)解。Tang等人 [158] 提出使用混合專家(MoE)模型合并方法來(lái)近似整個(gè)帕累托集。具體而言,他們的方法為每個(gè)目標(biāo)訓(xùn)練一個(gè)獨(dú)立模型,并學(xué)習(xí)一個(gè)路由網(wǎng)絡(luò)來(lái)平衡多個(gè)目標(biāo)(模型)之間的權(quán)衡。路由網(wǎng)絡(luò)的輸入是任務(wù)偏好向量,其輸出由獨(dú)立模型的合并系數(shù)組成??紤]到直接基于原始評(píng)估指標(biāo)評(píng)估帕累托解是耗時(shí)的,MAP [91] 提出了一種二階泰勒展開(kāi)模型作為真實(shí)評(píng)估指標(biāo)的替代模型,并進(jìn)一步使用進(jìn)化算法基于該替代模型計(jì)算帕累托前沿。
2.4.2.3 多領(lǐng)域?qū)W習(xí)中的知識(shí)轉(zhuǎn)移
與專注于具有不同對(duì)象類別的數(shù)據(jù)集的現(xiàn)有基于模型合并的多任務(wù)學(xué)習(xí)(MTL)方法不同,Ye等人 [197] 探索了跨多個(gè)領(lǐng)域的模型合并,其中數(shù)據(jù)集共享相同的類別但在環(huán)境上下文上有所不同。為了緩解多領(lǐng)域模型之間的沖突,引入了一個(gè)權(quán)重相似度準(zhǔn)則來(lái)評(píng)估不同模型層之間的相關(guān)性。對(duì)于具有高度相關(guān)性的層,采用簡(jiǎn)單的權(quán)重平均或RegMean [78]策略來(lái)合并已在同一任務(wù)的不同領(lǐng)域中微調(diào)的模型。對(duì)于具有低相關(guān)性的層,在推理階段使用門(mén)控機(jī)制靈活地組合權(quán)重。Branch-Train-Merge [92] 展示了在64個(gè)不同領(lǐng)域上訓(xùn)練專家語(yǔ)言模型并隨后合并它們的有效性。
2.4.2.4 輔助任務(wù)學(xué)習(xí)中的知識(shí)轉(zhuǎn)移
輔助任務(wù)學(xué)習(xí)(ATL)的目標(biāo)是通過(guò)利用從相關(guān)輔助任務(wù)中獲得的知識(shí)來(lái)提高目標(biāo)任務(wù)的性能。與旨在優(yōu)化所有任務(wù)平均性能的多任務(wù)學(xué)習(xí)(MTL)不同,ATL 專注于僅提高主要任務(wù)的性能。然而,ATL 經(jīng)常遇到梯度沖突問(wèn)題,導(dǎo)致負(fù)遷移,即輔助任務(wù)的引入干擾了主要任務(wù)的性能。為了緩解負(fù)遷移,Jiang 等人 [76] 提出了 ForkMerge 方法,該方法定期執(zhí)行“分叉”和“合并”操作。模型首先定期復(fù)制成多個(gè)分支:第一個(gè)分支僅針對(duì)主要任務(wù)進(jìn)行訓(xùn)練,而其余分支則聯(lián)合訓(xùn)練主要任務(wù)和輔助任務(wù)。然后使用驗(yàn)證集確定最優(yōu)合并系數(shù),以合并由各個(gè)分支更新的模型。實(shí)證結(jié)果顯示,F(xiàn)orkMerge 在多個(gè)輔助任務(wù)學(xué)習(xí)基準(zhǔn)上實(shí)現(xiàn)了正遷移增益。
2.4.3 分布外/域泛化中的模型合并
分布外泛化(OODG)和域泛化(DG)的共同目標(biāo)是提高模型在未見(jiàn)數(shù)據(jù)上的性能。它們的關(guān)鍵區(qū)別在于,OODG 專注于提高模型對(duì)與訓(xùn)練數(shù)據(jù)分布顯著不同的未知數(shù)據(jù)的泛化能力,而 DG 則強(qiáng)調(diào)提高模型在未見(jiàn)域上的泛化能力。近期眾多研究表明,模型合并在 OODG 和 DG 中都有助于提高訓(xùn)練穩(wěn)定性和整體性能。
2.4.3.1 更好的分布外泛化中的模型合并
在現(xiàn)實(shí)場(chǎng)景中,訓(xùn)練好的模型可能部署在分布不斷變化的環(huán)境中。例如,自動(dòng)駕駛模型在干凈的數(shù)據(jù)集上進(jìn)行訓(xùn)練,但實(shí)際上,它們?nèi)菀资艿阶匀粨p壞(如相機(jī)噪聲、運(yùn)動(dòng)模糊)和更顯著的分布偏移(如夏季到冬季)[14, 55] 等不可預(yù)見(jiàn)分布的影響。OODG 的目標(biāo)是增強(qiáng)模型對(duì)與訓(xùn)練分布顯著不同的未知數(shù)據(jù)的泛化能力。
隨機(jī)權(quán)重平均(Stochastic Weight Averaging, SWA)[67] 是一種簡(jiǎn)單且廣泛使用的技巧,用于提高機(jī)器學(xué)習(xí)模型訓(xùn)練的穩(wěn)定性和分布外(OOD)性能。從統(tǒng)計(jì)學(xué)的角度來(lái)看,權(quán)重平均有助于減少模型訓(xùn)練過(guò)程中的方差。許多研究在訓(xùn)練模型時(shí)合并訓(xùn)練軌跡中的中間權(quán)重狀態(tài)(即檢查點(diǎn))[50, 67, 161, 170, 195, 208]。例如,WiSE微調(diào)[184] 表明,在線性組合預(yù)訓(xùn)練模型和微調(diào)模型的權(quán)重時(shí),可以在分布偏移的情況下顯著提高準(zhǔn)確性,同時(shí)保持原始分布上的高準(zhǔn)確性。SWA [50, 67] 簡(jiǎn)單地平均從特定時(shí)期的開(kāi)始到訓(xùn)練結(jié)束的所有檢查點(diǎn)。這種方法被解釋為有助于模型收斂到平坦而非尖銳的局部最優(yōu),從而改善泛化能力 [67, 82]。自適應(yīng)SWA [32] 強(qiáng)調(diào),過(guò)早執(zhí)行SWA可能導(dǎo)致欠擬合,而過(guò)晚執(zhí)行可能導(dǎo)致過(guò)擬合。它提出僅在驗(yàn)證集上的泛化能力提高時(shí)進(jìn)行平均,有效地將SWA與早期停止機(jī)制結(jié)合。然而,簡(jiǎn)單的平均權(quán)重往往不是最優(yōu)的。特別是,TWA [94] 通過(guò)表明權(quán)重的平均系數(shù)可以在訓(xùn)練方式中確定來(lái)解決這一問(wèn)題。因此,TWA與簡(jiǎn)單的SWA不同,可以從訓(xùn)練的初始時(shí)期開(kāi)始執(zhí)行平均,無(wú)需定義用于確定權(quán)重平均開(kāi)始時(shí)間的額外超參數(shù)。
與以往沿著一條訓(xùn)練軌跡平均權(quán)重的研究不同,諸如Model Soups [183, 219]、AdapterSoup [24]、Model-Ratatouille [133]、WARM [136]、WARP [135]、PAPA [79]、WASH [42]、DART [70]和DiWA [132]等方法提出合并多個(gè)獨(dú)立微調(diào)或訓(xùn)練的模型。這些模型通常更具多樣性,從而提升了OOD(Out-of-Distribution)性能。獨(dú)立訓(xùn)練的模型在超參數(shù)(例如,學(xué)習(xí)率、權(quán)重衰減、Dropout)、批次順序、數(shù)據(jù)增強(qiáng)技術(shù)(如隨機(jī)裁剪、水平翻轉(zhuǎn))以及訓(xùn)練步數(shù)等方面存在差異。具體而言,Model-Ratatouille [133]從相同的初始模型出發(fā),在輔助任務(wù)上微調(diào)多個(gè)模型,然后繼續(xù)在目標(biāo)任務(wù)上微調(diào)這些模型,最終合并這些多樣化的模型以提高OOD性能。WARM [136]通過(guò)從預(yù)訓(xùn)練模型的軌跡中采樣不同的檢查點(diǎn)作為下游偏好微調(diào)任務(wù)的初始權(quán)重,進(jìn)一步增加了微調(diào)模型的多樣性。為了減少訓(xùn)練多個(gè)模型的額外成本,Model Stock [71]提出可以利用權(quán)重空間的幾何特性和預(yù)訓(xùn)練模型的錨定效應(yīng),僅使用少數(shù)微調(diào)模型來(lái)近似合并權(quán)重。MEHL-Soup [95]開(kāi)發(fā)了一種可擴(kuò)展且高效的方法來(lái)學(xué)習(xí)模型合并系數(shù),它僅在每次迭代中加載模型的子集,顯著降低了學(xué)習(xí)合并系數(shù)的樸素模型湯的計(jì)算和內(nèi)存需求。
上述分析揭示了SWA由于依賴單一軌跡而缺乏多樣性。相比之下,Model Soups和DiWA獨(dú)立訓(xùn)練,可能導(dǎo)致多個(gè)差異顯著的模型,從而導(dǎo)致權(quán)重平均失敗。為了平衡這兩種方法,Lookaround [208] 引入了一種基于權(quán)重平均的梯度下降優(yōu)化器。該優(yōu)化器在優(yōu)化過(guò)程中迭代執(zhí)行“around”和“average”步驟。在“around”步驟中,從同一起點(diǎn)訓(xùn)練多個(gè)獨(dú)立模型,每個(gè)模型使用不同的數(shù)據(jù)增強(qiáng)方法。在“average”步驟中,對(duì)多樣化的模型進(jìn)行平均,并將結(jié)果用作下一次迭代的起點(diǎn)。
2.4.3.2 模型合并以提升領(lǐng)域泛化能力
領(lǐng)域泛化方法旨在僅使用源域的訓(xùn)練數(shù)據(jù)來(lái)泛化到未知的目標(biāo)域。例如,在交通標(biāo)志識(shí)別的背景下,用于識(shí)別各種城市環(huán)境中交通標(biāo)志的機(jī)器學(xué)習(xí)(ML)模型的訓(xùn)練數(shù)據(jù)來(lái)自多個(gè)城市(即源域)。然而,在部署時(shí),模型必須識(shí)別它從未遇到過(guò)的新城市環(huán)境(即目標(biāo)域)中的交通標(biāo)志?,F(xiàn)有的領(lǐng)域泛化(DG)方法可以分為域?qū)R、數(shù)據(jù)增強(qiáng)、正則化和元學(xué)習(xí)框架 [8]。與這些方法互補(bǔ)的是,模型合并技術(shù)可以無(wú)縫集成,進(jìn)一步提高域外性能而不需修改。具體而言,領(lǐng)域泛化中的模型合并主要發(fā)生在源域模型的訓(xùn)練過(guò)程中。合并來(lái)自不同訓(xùn)練階段的中間權(quán)重狀態(tài)有助于提高最終模型的穩(wěn)定性和泛化能力。
SWAD [15] 展示了更平坦的最小值能更好地泛化到未見(jiàn)過(guò)的領(lǐng)域。受 SWA [67] 啟發(fā),SWAD 提出了一種密集且過(guò)擬合敏感的隨機(jī)權(quán)重采樣策略來(lái)識(shí)別這些更平坦的最小值。更具體地說(shuō),與 SWA 不同,它從預(yù)定義的 epoch 開(kāi)始直到最終 epoch,每隔 K個(gè) epoch 收集一次隨機(jī)權(quán)重進(jìn)行平均。SWAD 密集地收集權(quán)重,即每一步/迭代收集一次,并且隨機(jī)權(quán)重收集的開(kāi)始和結(jié)束由驗(yàn)證集上的性能變化決定。EoA [ 8 ] 也表明模型平均可以提高域外性能穩(wěn)定性,并且與不帶權(quán)重平均的模型集成相比,集成多個(gè)移動(dòng)平均模型可以進(jìn)一步增強(qiáng)性能。
2.4.4 聯(lián)邦學(xué)習(xí)中的模型合并
聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)是一種分布式學(xué)習(xí)方法,允許多個(gè)客戶端在不共享數(shù)據(jù)的情況下協(xié)作訓(xùn)練模型。FL 主要包括兩種設(shè)置:集中式(帶有中央服務(wù)器)和分散式(不帶中央服務(wù)器)。每個(gè)客戶端基于本地?cái)?shù)據(jù)更新模型或計(jì)算梯度,并將更新信息發(fā)送給中央服務(wù)器(在集中式 FL 中)或其他客戶端(在分散式 FL 中)進(jìn)行聚合以更新全局模型,從而確保數(shù)據(jù)隱私保護(hù)。
2.4.4.1 聯(lián)邦學(xué)習(xí)范式
模型合并是 FL 中常規(guī)且關(guān)鍵的操作。以集中式 FL 為例,它通常涉及N個(gè)客戶端和一個(gè)中央服務(wù)器 S。每個(gè)客戶端擁有一組私有訓(xùn)練數(shù)據(jù)。具體來(lái)說(shuō),集中式 FL 范式中的訓(xùn)練過(guò)程包括五個(gè)步驟:(1)模型初始化:中央服務(wù)器初始化全局模型參數(shù);(2)模型分發(fā):服務(wù)器上的最新模型在第 t 輪通信中發(fā)送給本地客戶端。(3)本地模型更新:第 i 個(gè)客戶端基于本地?cái)?shù)據(jù)計(jì)算梯度來(lái)更新模型。(4)模型上傳:所有本地客戶端的更新模型被發(fā)送到服務(wù)器進(jìn)行聚合。(5)模型聚合:服務(wù)器上的多個(gè)本地模型被聚合。這五個(gè)步驟重復(fù)進(jìn)行,直到模型收斂或達(dá)到最大訓(xùn)練輪數(shù)。由于本文不是對(duì)FL的綜述,論文重點(diǎn)實(shí)現(xiàn)“模型聚合”步驟。在 FL 中,模型合并指的是在每次通信輪次中匯總來(lái)自各個(gè)客戶端的模型參數(shù),從而形成一個(gè)更新的全局模型。
2.4.4.2 本地知識(shí)聚合的模型合并
大多數(shù)聯(lián)邦學(xué)習(xí)(FL)方法采用簡(jiǎn)單的坐標(biāo)級(jí)平均來(lái)聚合本地模型。例如,它們根據(jù)一些啟發(fā)式規(guī)則計(jì)算本地模型合并系數(shù)。FedAvg [114],最經(jīng)典的FL方法,提出根據(jù)每個(gè)客戶端的訓(xùn)練數(shù)據(jù)量在服務(wù)器上對(duì)本地模型進(jìn)行加權(quán)合并。FedNova [175] 基于更新步數(shù)在客戶端對(duì)模型更新進(jìn)行歸一化和縮放,有效地聚合本地模型以獲得高性能的全局模型。FedAtt [74] 根據(jù)客戶端和服務(wù)器參數(shù)的相似性計(jì)算層級(jí)注意力系數(shù),基于這些系數(shù)融合本地模型。FedFisher [73] 計(jì)算每個(gè)客戶端參數(shù)的Fisher信息矩陣以合并本地模型。在更具挑戰(zhàn)性的FL任務(wù)中,上述直接的坐標(biāo)級(jí)合并方法可能導(dǎo)致全局模型性能次優(yōu)。受神經(jīng)網(wǎng)絡(luò)置換不變性特性的啟發(fā),PFNM [204]、OTFusion [148] 和 FedMA [174] 提出在合并前對(duì)本地模型的神經(jīng)元進(jìn)行置換。類似地,GAMF [99] 將模型合并問(wèn)題轉(zhuǎn)化為基于圖匹配的多圖匹配問(wèn)題,然后合并對(duì)齊的本地模型。
2.4.5 零樣本/少樣本學(xué)習(xí)中的模型合并
在機(jī)器學(xué)習(xí)模型的實(shí)際應(yīng)用中,收集大量標(biāo)注數(shù)據(jù)在特定場(chǎng)景(如醫(yī)療診斷、實(shí)時(shí)監(jiān)控)中可能成本高昂或不可行。用戶通常希望深度模型能夠有效執(zhí)行以前未遇到過(guò)的新任務(wù),即通常所說(shuō)的跨任務(wù)泛化能力 [61]。零樣本 [115] 和少樣本學(xué)習(xí) [198] 可以減少對(duì)大量數(shù)據(jù)的依賴,使模型更好地處理未見(jiàn)類別或少量樣本,提高模型的跨任務(wù)泛化能力。在少樣本學(xué)習(xí)中,常見(jiàn)的做法是使用有限的樣本來(lái)微調(diào)模型。然而,由于數(shù)據(jù)量極少,這種微調(diào)過(guò)程往往不穩(wěn)定,僅能帶來(lái)有限的性能提升。最近,一些研究探索了在零樣本和少樣本條件下合并預(yù)訓(xùn)練模型(來(lái)自某些公開(kāi)可訪問(wèn)的資源)以增強(qiáng)跨任務(wù)泛化能力。
2.4.5.1 零樣本學(xué)習(xí)中的跨任務(wù)泛化模型融合
模型融合技術(shù)在零樣本學(xué)習(xí)的多個(gè)應(yīng)用中展示了其有效性。實(shí)際應(yīng)用的例子包括跨語(yǔ)言遷移[25, 63, 86, 211]、混合風(fēng)格圖像生成[12, 118]以及多模態(tài)處理[16]。
一些工作通過(guò)模型合并實(shí)現(xiàn)跨語(yǔ)言遷移,例如聊天[63]、文本摘要[25]或推理[211]。一個(gè)表現(xiàn)良好的特定語(yǔ)言大型語(yǔ)言模型(LLM)需要完全訓(xùn)練,而世界上有700種語(yǔ)言,并非所有語(yǔ)言都有足夠的標(biāo)注數(shù)據(jù)支持模型微調(diào)。因此,跨語(yǔ)言知識(shí)遷移尤為重要。例如,Huang等人[63]基于在英語(yǔ)聊天數(shù)據(jù)上微調(diào)的LLAMA2-chat和預(yù)訓(xùn)練的LLAMA2構(gòu)建了Chat向量,并將其與在其他非英語(yǔ)語(yǔ)言上連續(xù)預(yù)訓(xùn)練的LLAMA2模型組合。這使得新模型能夠在非英語(yǔ)語(yǔ)言中進(jìn)行聊天。Chronopoulou等人[25]開(kāi)發(fā)了一個(gè)零樣本多語(yǔ)言摘要框架。它使用合并模型(一個(gè)監(jiān)督式摘要模型和一個(gè)高資源語(yǔ)言的無(wú)監(jiān)督預(yù)訓(xùn)練模型,以及一個(gè)低資源語(yǔ)言的無(wú)監(jiān)督預(yù)訓(xùn)練模型)來(lái)執(zhí)行低資源語(yǔ)言的文本摘要任務(wù)。同樣,AdaMergeX[211]展示了模型合并在跨語(yǔ)言遷移中的有效性,涉及三個(gè)任務(wù):推理、自然語(yǔ)言理解和自然語(yǔ)言生成。在混合風(fēng)格圖像生成任務(wù)中,Diffusion Soup[12]和MaxFusion[118]表明,通過(guò)合并多個(gè)擴(kuò)散模型可以增強(qiáng)零樣本生成能力。在多模態(tài)任務(wù)中,DAMC[16]實(shí)驗(yàn)證明,只要從相同的LLM初始化,通過(guò)合并多模態(tài)模型可以實(shí)現(xiàn)零樣本多模態(tài)擴(kuò)展。例如,通過(guò)合并視覺(jué)LM和音頻LLM,組合模型不僅能夠獨(dú)立執(zhí)行圖像或音頻任務(wù),還能獲得同時(shí)處理包含視覺(jué)和聽(tīng)覺(jué)信息的輸入的零樣本能力。
2.4.5.2 模型合并在少樣本學(xué)習(xí)中的粗任務(wù)泛化
參數(shù)高效微調(diào)(PEFT),如LoRA或Adapter,促進(jìn)了成千上萬(wàn)個(gè)定制PEFT模塊的創(chuàng)建和共享,每個(gè)模塊針對(duì)不同的下游任務(wù)在不同數(shù)據(jù)上進(jìn)行訓(xùn)練。一個(gè)自然的問(wèn)題是,是否可以通過(guò)合并預(yù)訓(xùn)練在不同上游任務(wù)上的PEFT模塊來(lái)提高對(duì)樣本有限的未見(jiàn)下游任務(wù)的遷移準(zhǔn)確性。
近年來(lái),關(guān)于模型合并的研究給出了肯定的答案,表明合并模型能夠增強(qiáng)少樣本場(chǎng)景下的泛化能力[9, 53, 61]。例如,LoraHub [61] 提出合并HuggingFace上可用的LoRA模塊,以實(shí)現(xiàn)對(duì)未見(jiàn)任務(wù)的自適應(yīng)性能,其中不同LoRA的合并系數(shù)通過(guò)少樣本樣本以無(wú)梯度的黑盒方式搜索。正如預(yù)期,少樣本LoraHub的表現(xiàn)優(yōu)于少樣本情境學(xué)習(xí),并通過(guò)消除將示例作為輸入傳遞給LLMs的需求來(lái)降低推理成本。LoraRetriever [212] 進(jìn)一步提出根據(jù)輸入動(dòng)態(tài)檢索最相關(guān)的LoRA并合并它們。同樣,MerA [53] 提出將預(yù)訓(xùn)練的適配器合并為一個(gè)適配器,用于少樣本NLP場(chǎng)景??傮w而言,經(jīng)過(guò)良好訓(xùn)練的LoRA或適配器可以作為寶貴的資源,用戶可以輕松共享、訪問(wèn)并應(yīng)用于各種下游任務(wù)。在現(xiàn)實(shí)世界中,上游和下游任務(wù)可能完全不同,源自不同的數(shù)據(jù)集、領(lǐng)域,甚至是同一數(shù)據(jù)集的不同部分。Asadi等人[9]全面評(píng)估了少樣本學(xué)習(xí)設(shè)置下的模型合并。具體而言,該研究考察了上游和下游任務(wù)之間標(biāo)簽、領(lǐng)域和任務(wù)漂移的三種情況。結(jié)果表明,模型合并在不同上下文的少樣本學(xué)習(xí)場(chǎng)景中增強(qiáng)了模型的泛化能力。
2.4.6 對(duì)抗學(xué)習(xí)中的模型合并
在機(jī)器學(xué)習(xí)社區(qū)中,預(yù)訓(xùn)練模型的開(kāi)源可用性[129, 130, 163, 166, 167]加速了技術(shù)進(jìn)步。在此背景下,開(kāi)發(fā)者常常下載未經(jīng)驗(yàn)證的檢查點(diǎn)來(lái)微調(diào)他們的模型,甚至將訓(xùn)練過(guò)程外包給第三方平臺(tái)[185]。因此,開(kāi)源模型也容易受到惡意攻擊,如中毒攻擊,其中特定的輸入可以觸發(fā)隱藏的惡意行為。這引發(fā)了一些有趣的問(wèn)題:模型合并是否會(huì)導(dǎo)致攻擊,它能否用于開(kāi)發(fā)防御機(jī)制?此外,在模型合并的情境下,如何增強(qiáng)知識(shí)產(chǎn)權(quán)保護(hù)?
2.4.6.1 模型合并作為攻擊策略
參數(shù)高效微調(diào)(PEFT)方法[34],如LoRA [59],展現(xiàn)出功能可遷移性。這意味著基于預(yù)訓(xùn)練模型針對(duì)特定任務(wù)微調(diào)的LoRA模型可以成功遷移到另一個(gè)預(yù)訓(xùn)練模型[103]。實(shí)踐中,開(kāi)發(fā)者常從開(kāi)源平臺(tái)下載LoRA模型以應(yīng)對(duì)特定的下游任務(wù)[61]。若不慎下載并整合了被植入后門(mén)的LoRA(可視為特洛伊木馬),可能引入安全漏洞。LoRA-as-an-Attack的研究[103]表明,將受污染數(shù)據(jù)訓(xùn)練的被植入后門(mén)的LoRA與干凈數(shù)據(jù)訓(xùn)練的良性LoRA合并,會(huì)導(dǎo)致后門(mén)注入。此現(xiàn)象在多LoRA合并時(shí)同樣存在。
2.4.6.2 模型合并作為防御策略
LoRA的可遷移性也為模型合并作為一種防御策略提供了機(jī)會(huì)。具體來(lái)說(shuō),如果論文知道一個(gè)模型可能容易受到某些攻擊,論文能否訓(xùn)練一些LoRA來(lái)增強(qiáng)模型的防御能力(即降低攻擊者的成功率)?例如,Liu等人[103]演示了使用GPT-3.5生成包含后門(mén)觸發(fā)器的良性數(shù)據(jù)集。然后在這些良性數(shù)據(jù)上訓(xùn)練了一個(gè)專門(mén)的防御LoRA,并將其合并到被污染的預(yù)訓(xùn)練模型中。這種防御性模型合并最終導(dǎo)致了后門(mén)效應(yīng)的減弱。此外,研究表明,在全參數(shù)微調(diào)的背景下,模型合并可以作為模型防御的"免費(fèi)午餐"。涉及四種模型架構(gòu)和四個(gè)數(shù)據(jù)集的實(shí)驗(yàn)表明,在不需額外努力的情況下合并多個(gè)被污染的模型可以緩解這些污染攻擊,同時(shí)對(duì)良性數(shù)據(jù)集的準(zhǔn)確率幾乎不受影響。Rebuffi等人[137]和Croce等人[28]合并了一組lp(對(duì)于不同的p)魯棒微調(diào)模型,以輕松控制每個(gè)威脅模型對(duì)抗lp邊界對(duì)抗攻擊的魯棒性水平。類似地,[45]的實(shí)驗(yàn)分析表明,模型合并為對(duì)抗越獄攻擊[179]提供了一種有效的防御機(jī)制。
在另一個(gè)實(shí)際場(chǎng)景中,合并未經(jīng)授權(quán)的模型可能會(huì)侵犯模型所有者的知識(shí)產(chǎn)權(quán)。惡意用戶可能會(huì)合并幾個(gè)高質(zhì)量的開(kāi)源模型(例如,那些僅授權(quán)用于研究目的的模型)來(lái)創(chuàng)建一個(gè)新模型,然后聲稱這個(gè)新模型完全是由他們自己從頭開(kāi)發(fā)和訓(xùn)練的,隨后提供模型服務(wù)以謀取商業(yè)利益。在這種情況下,對(duì)于模型所有者來(lái)說(shuō),檢測(cè)他人是否合并了他們的模型變得尤為重要。MergeGuard [26]對(duì)兩種現(xiàn)有防御方法——量化水印[90]和指令性指紋[188]——在模型合并背景下的有效性進(jìn)行了初步分析。研究觀察到,雖然水印方法在合并后的模型中無(wú)法被檢測(cè)到,但指紋方法仍然可以被檢測(cè)到。
本文轉(zhuǎn)載自??AI帝國(guó)??,作者: 無(wú)影寺 ????
