融合、集成與協(xié)作!大語言模型時(shí)代的協(xié)作策略綜述 原創(chuàng) 精華
摘要:
大語言模型(LLMs)的顯著成功將自然語言處理(NLP)研究帶入了一個(gè)新時(shí)代。盡管其功能多樣,但基于不同語料庫(kù)訓(xùn)練的LLMs表現(xiàn)出各自的優(yōu)勢(shì)與劣勢(shì),這對(duì)提升其整體效率與多功能性提出了挑戰(zhàn)。為了解決這些挑戰(zhàn),近期的研究探索了LLMs的協(xié)作策略。本文對(duì)這一新興研究領(lǐng)域進(jìn)行了全面綜述,闡述了協(xié)作研究的動(dòng)機(jī)。具體而言,我們將協(xié)作策略分為三種主要方法:融合、集成與合作。融合涉及在參數(shù)空間內(nèi)整合多個(gè)LLMs;集成結(jié)合了不同LLMs的輸出;合作利用不同LLMs的多樣化能力以完成特定任務(wù)。本文從多個(gè)角度深入介紹了這些方法,并討論了它們的潛在應(yīng)用。此外,我們還概述了未來的研究方向,希望本工作能夠催化更多關(guān)于LLMs協(xié)作的研究,并為先進(jìn)的NLP應(yīng)用鋪平道路。
1.引言
“眾人拾柴火焰高?!薄s翰·海伍德
人類自古以來就深刻理解協(xié)作的力量。當(dāng)個(gè)體結(jié)合其多樣化的技能與努力時(shí),能夠?qū)崿F(xiàn)遠(yuǎn)超單獨(dú)行動(dòng)的成果。這種集體協(xié)作的原則,在機(jī)器學(xué)習(xí)領(lǐng)域再次煥發(fā)了新生命(Dietterich, 2000; Panait和Luke, 2005; Sagi和Rokach, 2018),極大地推動(dòng)了人工智能的發(fā)展。
圖1:最近,許多大型語言模型被發(fā)布,每個(gè)模型都具有其獨(dú)特的優(yōu)勢(shì)。這種多樣性推動(dòng)了關(guān)于這些模型協(xié)作的研究。
近年來,大語言模型(LLMs)(Brown等, 2020; Chowdhery等, 2023)成為人工智能中發(fā)展最快、最有前景的方向之一。這些模型顯著改變了自然語言處理(NLP)的范式(Min等, 2023a; Chang等, 2024; Zhao等, 2023),并對(duì)其他領(lǐng)域產(chǎn)生了深遠(yuǎn)影響(Wu等, 2023a; Zhang等, 2024a)。這場(chǎng)革命性的變革激勵(lì)了眾多大學(xué)、研究機(jī)構(gòu)和公司預(yù)訓(xùn)練并發(fā)布了各自的LLM模型。目前,HuggingFace模型平臺(tái)上已提供超過74,000個(gè)預(yù)訓(xùn)練模型。這些模型通過多樣化的數(shù)據(jù)、架構(gòu)和方法訓(xùn)練,展現(xiàn)出獨(dú)特的能力:一些擅長(zhǎng)多語言任務(wù)(Le Scao等, 2023; Lin等, 2022),一些專注于醫(yī)學(xué)(Yang等, 2024b)或金融領(lǐng)域(Wu等, 2023b),另一些則擅長(zhǎng)處理長(zhǎng)上下文窗口(Chen等, 2023e,f),還有一些經(jīng)過微調(diào)以更好地與人類互動(dòng)(Ouyang等, 2022)。然而,沒有單一模型在所有任務(wù)上表現(xiàn)始終優(yōu)于其他模型(Jiang等, 2023a)。這種差異性激發(fā)了關(guān)于不同LLM之間協(xié)作的研究,旨在釋放其聯(lián)合潛力,就像打造一個(gè)“六邊形戰(zhàn)士”一樣。
盡管LLM協(xié)作研究取得了一些進(jìn)展,但現(xiàn)有方法之間的關(guān)系和上下文仍不夠清晰。本綜述旨在填補(bǔ)這一空白,通過將協(xié)作技術(shù)歸類為三種主要方法:融合(Merging)、集成(Ensemble)和合作(Cooperation)。具體而言,LLM的融合與集成方法源于機(jī)器學(xué)習(xí)中常見的傳統(tǒng)融合技術(shù)(Li等, 2023a)。這些方法經(jīng)過調(diào)整后,更適合LLMs,能夠有效利用多樣化LLM的協(xié)作優(yōu)勢(shì)。融合涉及將多個(gè)LLM的參數(shù)整合為單一、統(tǒng)一的模型,這要求參數(shù)在線性空間中具有兼容性。相比之下,集成方法聚焦于組合不同LLM生成的輸出,以產(chǎn)生連貫的結(jié)果,而對(duì)單個(gè)模型參數(shù)的關(guān)注較少。合作方法超越了融合與集成,專注于利用LLM的多樣化優(yōu)勢(shì)以實(shí)現(xiàn)特定目標(biāo)。這些技術(shù)總體上擴(kuò)展了模型協(xié)作的方法,對(duì)于LLM研究具有重要意義。
本研究的結(jié)構(gòu)如下:我們首先在第2節(jié)中提供LLM的背景信息,并定義其協(xié)作技術(shù)。接下來,我們?cè)诘?、4和5節(jié)中分別介紹三大關(guān)鍵類別:融合、集成和合作。每一類方法都經(jīng)過詳細(xì)分類和深入描述,提供對(duì)其框架及應(yīng)用的清晰理解。最后,我們?cè)诘?節(jié)中進(jìn)行綜合討論,強(qiáng)調(diào)研究面臨的挑戰(zhàn)與未來方向。
2.背景
2.1 大語言模型(LLMs)
語言建模一直是自然語言處理(NLP)的基石。最近,許多研究通過擴(kuò)展基于Transformer的語言模型(Vaswani等, 2017;Radford等, 2018),實(shí)現(xiàn)了數(shù)十億以上參數(shù)的顯著增長(zhǎng),例如GPT-3(Brown等, 2020)、PaLM(Chowdhery等, 2023;Anil等, 2023)和LLaMA(Touvron等, 2023a,b)。由于其巨大的參數(shù)量,這些模型通常被視為大語言模型(LLMs)(Zhao等, 2023)。本節(jié)將討論LLMs的架構(gòu)與擴(kuò)展、其訓(xùn)練目標(biāo)以及所展現(xiàn)的涌現(xiàn)能力。
架構(gòu)與擴(kuò)展
與預(yù)訓(xùn)練語言模型(PLMs)(Radford等, 2018;Devlin等, 2019)相似,LLMs主要采用Transformer架構(gòu)(Vaswani等, 2017)作為其骨干架構(gòu),由多頭注意力和前饋層堆疊而成。與PLMs不同,目前發(fā)布的大多數(shù)LLMs基于僅解碼架構(gòu)進(jìn)行訓(xùn)練,以提高訓(xùn)練效率并支持少樣本能力。這種方法在參數(shù)數(shù)量增加時(shí)也展現(xiàn)了潛力(Zhang等, 2022)。最近的研究還探討了模型容量、訓(xùn)練數(shù)據(jù)量和模型規(guī)模之間的量化關(guān)系,即擴(kuò)展定律(Kaplan等, 2020;Hoffmann等, 2022)。
訓(xùn)練目標(biāo)
在PLMs的早期研究中,提出了各種語言建模任務(wù),例如BERT(Devlin等, 2019)的掩碼語言建模、BART(Lewis等, 2020)和T5(Raffel等, 2020)的去噪語言建模。然而,目前的LLMs通常采用標(biāo)準(zhǔn)的因果語言建模作為其訓(xùn)練目標(biāo),旨在基于序列中的前序詞預(yù)測(cè)下一個(gè)詞。這一訓(xùn)練目標(biāo)非常適合僅解碼架構(gòu)。
除了預(yù)訓(xùn)練目標(biāo),近期研究還致力于建模人類偏好,以更好地使LLMs與人類期望保持一致。例如,著名的InstructGPT(Ouyang等, 2022)引入了來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),將偏好獎(jiǎng)勵(lì)作為附加訓(xùn)練目標(biāo)。盡管RLHF在使LLMs對(duì)用戶更有幫助方面非常有效,但不可避免地會(huì)導(dǎo)致“對(duì)齊成本”,即RLHF后性能的下降。最近的研究探索了各種技術(shù)以緩解對(duì)齊成本問題(Lin等, 2023;Lu等, 2024b;Fu等, 2024b)。
涌現(xiàn)能力
語言模型的基本能力是文本生成,利用貪婪搜索或核采樣方法(Holtzman等, 2020a)基于前序詞遞歸生成詞語:yi~p(yi∣y<i)
令人驚訝的是,LLMs不僅能夠生成逼真的文本,還能在不需要對(duì)特定下游任務(wù)進(jìn)行微調(diào)的情況下,通過提供特定任務(wù)提示來執(zhí)行特定任務(wù)(Brown等, 2020)。這一現(xiàn)象是LLMs與以前的PLMs之間最重要的區(qū)別之一。Wei等(2022b)將涌現(xiàn)能力定義為“在較小的模型中不存在但在較大模型中出現(xiàn)的能力”。在這些涌現(xiàn)能力中,情境學(xué)習(xí)(ICL)(Brown等, 2020;Dong等, 2022)和指令遵循是常用的,并顯著增強(qiáng)了LLMs處理各種任務(wù)的能力。
情境學(xué)習(xí)通過使用一些任務(wù)示例作為示范幫助LLMs理解任務(wù)。當(dāng)將這些示范作為提示提供時(shí),LLMs可以自動(dòng)生成給定測(cè)試示例的合理輸出,其公式化如下:p(y∣x)=p(y∣x,demonstration({(xi,yi)}i=1k))
指令遵循能力通常出現(xiàn)在已經(jīng)針對(duì)多任務(wù)指令示例進(jìn)行了微調(diào)的LLMs中。生成過程可以公式化為:p(y∣x)=p(y∣x,I)
其中 I表示給定示例x的指令。指令微調(diào)技術(shù)(Sanh等, 2021;Ouyang等, 2022;Wei等, 2022a)能夠增強(qiáng)LLMs的泛化能力,使其能夠在多種任務(wù)上表現(xiàn)良好,包括未見任務(wù)(Thoppilan等, 2022)。
2.2 對(duì)LLMs的協(xié)作
對(duì)于以前的任務(wù)依賴型NLP模型,協(xié)作策略通常旨在提高特定任務(wù)的性能(Jia等, 2023)。最近,LLMs通過在廣泛任務(wù)中的顯著多功能性徹底改變了NLP。這一轉(zhuǎn)變也將LLMs協(xié)作策略的重點(diǎn)轉(zhuǎn)向增強(qiáng)多功能性和實(shí)現(xiàn)更通用的目標(biāo)。因此,最近提出的一些協(xié)作策略變得更加靈活,并專門為L(zhǎng)LMs量身定制。
LLMs協(xié)作的必要性
盡管幾乎所有LLMs都通過情境學(xué)習(xí)和指令遵循表現(xiàn)出在各種任務(wù)中的強(qiáng)大多功能性,但不同的LLMs仍然具有不同的優(yōu)勢(shì)和劣勢(shì)(Jiang等, 2023a)。
不同LLMs家族(例如LLaMA、GLM(Zeng等, 2023)和QWen(Bai等, 2023))之間的訓(xùn)練語料和模型架構(gòu)差異導(dǎo)致了其能力的顯著差異。即使在同一家族內(nèi),針對(duì)特定語料庫(kù)(例如數(shù)學(xué)(Azerbayev等, 2023)、代碼(Roziere等, 2023)或醫(yī)學(xué)領(lǐng)域(Wu等, 2024))的微調(diào)也會(huì)帶來顯著的性能差異。通過有效的協(xié)作,可以釋放這些LLMs的潛力,顯著增強(qiáng)其整體性能和多功能性。
此外,大語言模型(LLMs)不可避免地存在計(jì)算效率低下(Zhou等, 2024c)、幻覺現(xiàn)象(Rawte等, 2023;Ji等, 2023;Huang等, 2023)以及隱私泄露(Fan等, 2024)等問題。最近的研究探索了LLMs之間的協(xié)作策略,這為緩解這些問題和彌補(bǔ)其缺陷提供了潛在的解決方案。
LLM協(xié)作方法的分類
LLMs之間的協(xié)作是指多個(gè)LLMs協(xié)同工作,利用其各自的優(yōu)勢(shì)和能力以實(shí)現(xiàn)共同目標(biāo)。在本綜述中,我們將LLMs協(xié)作方法分為三個(gè)方面:融合(Merging)、集成(Ensemble)和合作(Cooperation)。如圖2所示:
- 融合:通過在模型參數(shù)空間內(nèi)進(jìn)行算術(shù)操作,將多個(gè)LLMs整合為一個(gè)統(tǒng)一且更強(qiáng)大的模型。
- 集成:結(jié)合不同模型的輸出以獲得連貫的結(jié)果。近期的研究提出了多種專為L(zhǎng)LMs設(shè)計(jì)的集成方法。
- 合作:這是一個(gè)相對(duì)廣泛的概念。本綜述重點(diǎn)介紹合作方法,這些方法利用不同LLMs的多樣化能力來完成特定目標(biāo),例如高效計(jì)算或知識(shí)轉(zhuǎn)移。
需要注意的是,從融合到集成再到合作,對(duì)LLMs的要求逐漸放寬,使得所提出的方法越來越靈活。具體而言:
- 融合方法僅在LLMs具有兼容的參數(shù)空間時(shí)有效,從而實(shí)現(xiàn)無縫整合。
- 集成方法要求LLMs具備多樣化但可比較的能力;如果缺乏這種平衡,集成可能效果較差。
- 合作方法則更加靈活,重點(diǎn)在于利用LLMs的多種能力,這些能力是專門設(shè)計(jì)用于實(shí)現(xiàn)特定目標(biāo)的。
對(duì)于每個(gè)類別,我們根據(jù)其重點(diǎn)或?qū)嵤╇A段進(jìn)一步分類具體方法。全面的分類如圖3所示。
3.融合
單個(gè)模型固有的局限性,如可能遺漏重要信息(Sagi和Rokach,2018)以及容易陷入局部最優(yōu)或缺乏多任務(wù)能力,促使研究人員探索在參數(shù)空間中融合多個(gè)模型以創(chuàng)建統(tǒng)一、更強(qiáng)大的模型的方法。近年來,模型融合取得了顯著進(jìn)展,各種技術(shù)在現(xiàn)有綜述(Li等,2023a)中有所記錄。在LLMs時(shí)代,模型融合已成為模型合作的重要解決方案,通常采用基本的融合方法并證明其有效性。本節(jié)重點(diǎn)介紹對(duì)LLMs有效的融合技術(shù)。當(dāng)前對(duì)模型融合的研究通常關(guān)注兩個(gè)關(guān)鍵問題:融合以接近相對(duì)最優(yōu)解(M-ROS)和融合以增強(qiáng)多任務(wù)能力(M-MTC)。M-ROS的研究基于以下發(fā)現(xiàn):梯度優(yōu)化的解通常在寬平坦區(qū)域的邊界附近收斂,而不是在中心點(diǎn)(Izmailov等,2018)。模型融合提供了一種接近這一相對(duì)最優(yōu)點(diǎn)的方法,從而產(chǎn)生更強(qiáng)大的模型。另一方面,M-MTC旨在利用模型融合技術(shù)使單個(gè)模型具備跨多個(gè)任務(wù)的能力(Ilharco等,2023;Yadav等,2023)。在接下來的小節(jié)中,我們將介紹每個(gè)目標(biāo)的技術(shù)及其在LLMs中的應(yīng)用。重要的是,對(duì)于M-ROS和M-MTC,當(dāng)前的模型融合方法僅適用于具有相同架構(gòu)且參數(shù)在同一空間內(nèi)的模型。因此,大多數(shù)候選模型M={M1,M2, · · · ,Mk}應(yīng)從相同的預(yù)訓(xùn)練模型M0進(jìn)行微調(diào)。這一要求確保了模型參數(shù)的兼容性和一致性,促進(jìn)了成功的融合。不幸的是,對(duì)于參數(shù)不兼容的模型,如LLaMA和QWen,當(dāng)前的融合技術(shù)無效。
3.1融合以接近相對(duì)最優(yōu)解(M-ROS)
機(jī)器學(xué)習(xí)模型,尤其是深度學(xué)習(xí)模型,在訓(xùn)練過程中往往無法達(dá)到精確的最優(yōu)解(Li等,2023a)。研究者們發(fā)現(xiàn),現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)的局部最優(yōu)解通過簡(jiǎn)單的曲線相連,這些曲線上的路徑能夠保持較低的損失。這表明,權(quán)重空間中的不同局部最優(yōu)解并非孤立存在,而是可以通過低損失路徑相互連接(Garipov等,2018)。通過加權(quán)平均方法獲得的模型可以視為低損失路徑上的一個(gè)點(diǎn)。參數(shù)平均通過平均不同的局部最優(yōu)解,整合了各種模型的優(yōu)勢(shì),從而減少了單個(gè)模型的偏差和方差(Rame等,2022)。為了提升模型性能,提出了M-ROS方法,這些方法旨在通過融合多個(gè)模型的參數(shù),將相對(duì)優(yōu)化的點(diǎn)融合成一個(gè)更優(yōu)的模型。我們將這些方法分為兩類:簡(jiǎn)單平均和加權(quán)平均。盡管這些技術(shù)最初是為小型深度模型開發(fā)的,但它們對(duì)LLMs同樣有效。接下來,我們將首先介紹基本的M-ROS方法,然后討論它們?nèi)绾螒?yīng)用于LLMs。
3.1.1 基本的 M-ROS 方法
簡(jiǎn)單平均
簡(jiǎn)單參數(shù)平均是一種將多個(gè)微調(diào)模型的參數(shù)以相等的系數(shù)進(jìn)行組合的方法,從而創(chuàng)建一個(gè)更強(qiáng)大的模型(Guo等,2023)。實(shí)證證據(jù)表明,這些融合后的模型在準(zhǔn)確性、魯棒性和穩(wěn)定性方面通常優(yōu)于單個(gè)模型。對(duì)于k個(gè)候選模型\( M = \{M_1, M_2, \cdots, M_k\} \),簡(jiǎn)單參數(shù)平均可以形式化為:
其中\(zhòng)( \theta_{M_i} \)表示第i個(gè)模型的參數(shù),\( \theta^ \)是融合后的參數(shù)。為了最大化多個(gè)模型的優(yōu)勢(shì),Model Soup(Wortsman等,2022)引入了Uniform Soup和Greedy Soup。Uniform Soup簡(jiǎn)單地平均模型參數(shù),而Greedy Soup一次添加一個(gè)模型到池中,確保每個(gè)新模型要么提高要么保持在驗(yàn)證集上的性能。同樣,DiWA(Rame等,2022)根據(jù)候選模型在驗(yàn)證集上的性能進(jìn)行排名,并僅在它們?cè)鰪?qiáng)性能時(shí)添加新模型。通常,Greedy Soup和DiWA通過選擇的模型參數(shù)平均來進(jìn)行推理。
加權(quán)平均
加權(quán)平均允許根據(jù)模型的重要性或質(zhì)量為不同模型分配不同的系數(shù),以實(shí)現(xiàn)更優(yōu)的融合效果。對(duì)于經(jīng)過顯著不同權(quán)重微調(diào)的訓(xùn)練網(wǎng)絡(luò),簡(jiǎn)單的平均方法通常表現(xiàn)不佳(Singh和Jaggi,2020)。因此,為不同模型選擇合適的融合系數(shù)成為關(guān)鍵因素。加權(quán)平均可以形式化為:
其中,\( \alpha_i \)是候選模型\( M_i \)的歸一化系數(shù)。目前,有幾種方法可用于找到最優(yōu)的融合系數(shù)。例如,Learned Soup(Wortsman等,2022)在驗(yàn)證集上優(yōu)化混合系數(shù),以最小化損失函數(shù),從而結(jié)合多個(gè)模型的優(yōu)勢(shì),提升整體性能。Matena和Raffel(2022)提出利用Fisher信息矩陣來衡量經(jīng)過不同隨機(jī)種子微調(diào)的模型的參數(shù)重要性,并使用這些重要性分?jǐn)?shù)作為系數(shù)進(jìn)行融合。此外,Jang等(2024)提出了一種基于幾何關(guān)系的方法,根據(jù)參數(shù)之間的角度發(fā)散對(duì)微調(diào)模型進(jìn)行插值。
3.1.2 適應(yīng) LLMs
上述模型融合技術(shù)已成功應(yīng)用于LLMs,以實(shí)現(xiàn)獲得更強(qiáng)的LLMs和增強(qiáng)RLHF的目標(biāo)。
獲得更強(qiáng)的LLMs
為了獲得更強(qiáng)的LLMs,一些研究提出了針對(duì)LLMs的新方法。Wan等(2024b)建議根據(jù)微調(diào)前后參數(shù)矩陣的變化率來計(jì)算融合系數(shù)。同樣,Liu等(2024b)提出利用LLMs在預(yù)訓(xùn)練過程中保存的檢查點(diǎn),結(jié)合貝葉斯優(yōu)化來導(dǎo)航廣泛的搜索空間并識(shí)別最優(yōu)的融合系數(shù)。為了解決梯度不匹配問題,Lin等(2023)引入了一種自適應(yīng)方法,為模型的不同層分配不同的組合比例,優(yōu)化這些組合以平衡人類偏好對(duì)齊和預(yù)訓(xùn)練能力。其他研究采用現(xiàn)有的模型融合技術(shù),為特定目標(biāo)創(chuàng)建更強(qiáng)的LLMs。例如,F(xiàn)u等(2024a)提出了一個(gè)分散-融合框架,首先使用不同的指令微調(diào)數(shù)據(jù)部分訓(xùn)練多個(gè)子模型,然后通過加權(quán)融合將它們?nèi)诤铣梢粋€(gè)具有多方面能力的單LLM。
增強(qiáng)RLHF
模型融合技術(shù)還有助于提升LLMs與人類偏好的對(duì)齊。Lin等(2023)提出了一種自適應(yīng)方法,為模型的不同層分配不同的組合比例,優(yōu)化這些組合以平衡人類偏好對(duì)齊和預(yù)訓(xùn)練能力。Ram’e等(2024)提出微調(diào)多個(gè)獎(jiǎng)勵(lì)模型,然后通過平均它們的參數(shù)來創(chuàng)建一個(gè)與人類偏好對(duì)齊更好的高級(jí)獎(jiǎng)勵(lì)模型。同樣,F(xiàn)u等(2024b)使用加權(quán)平均方法在監(jiān)督微調(diào)(SFT)期間改進(jìn)LLMs的對(duì)齊,有效減少數(shù)據(jù)偏差的影響。Lu等(2024b)提出使用模型融合技術(shù)在RLHF訓(xùn)練期間減少對(duì)齊稅。
3.2 通過 M-MTC 增強(qiáng)多任務(wù)能力
最近,一些研究嘗試通過融合具有不同能力的模型來構(gòu)建一個(gè)具有多任務(wù)能力的統(tǒng)一模型。這些模型通常從相同的預(yù)訓(xùn)練模型出發(fā),但使用不同的任務(wù)特定數(shù)據(jù)進(jìn)行微調(diào),導(dǎo)致它們的參數(shù)空間出現(xiàn)分歧。M-MTC方法旨在緩解這種分歧,實(shí)現(xiàn)模型的平衡融合,從而產(chǎn)生一個(gè)能夠處理多個(gè)任務(wù)的單一模型。早期研究通過為不同模型分配不同的融合系數(shù)來解決分歧問題(第3.2.1節(jié),加權(quán)平均),而當(dāng)前研究更傾向于從分歧中提取任務(wù)屬性,以實(shí)現(xiàn)更靈活的融合(第3.2.2節(jié),任務(wù)屬性)。此外,最近的工作開始采用增量學(xué)習(xí)技術(shù)來增強(qiáng)模型融合性能(第3.2.3節(jié),增量學(xué)習(xí))。我們將在以下小節(jié)中分別介紹這些方法。
3.2.1 基于加權(quán)平均的方法
一些研究采用加權(quán)平均策略(見第3.1.1節(jié))來調(diào)整不同模型的重要性。Jin等人(2022)提出了一種名為RegMean的方法,該方法選擇性地整合Transformer模型的線性層,同時(shí)對(duì)其他層使用簡(jiǎn)單的平均方法,從而最小化融合模型與在不同數(shù)據(jù)集上微調(diào)的多個(gè)模型之間的偏差。Daheim等人(2023)建議利用從Hessian矩陣導(dǎo)出的估計(jì)值來優(yōu)化模型融合,實(shí)現(xiàn)對(duì)模型參數(shù)的更精確調(diào)整。Nathan等人(2024)將Fisher加權(quán)平均與模型剪枝相結(jié)合,以高效地進(jìn)行模型融合。
3.2.2 基于任務(wù)屬性的融合方法
基于加權(quán)平均的融合方法強(qiáng)調(diào)參數(shù)的重要性,但忽略了它們的任務(wù)特定屬性,這在某些任務(wù)上可能導(dǎo)致顯著的性能下降。Ilharco等人(2023)發(fā)現(xiàn),“簡(jiǎn)單平均會(huì)導(dǎo)致10%的性能下降”。為了解決這一問題,最近的研究引入了一種稱為任務(wù)向量的新范式。Ilharco等人(2023)定義任務(wù)向量τt 為“一個(gè)向量,指定了預(yù)訓(xùn)練模型參數(shù)空間中的一個(gè)方向,沿此方向移動(dòng)可以提高任務(wù)\( t \)的性能”,形式化為:
其中,\( \theta_{\text{ft}_t} \)是在任務(wù)t的特定數(shù)據(jù)上微調(diào)的參數(shù),而\( \theta_{\text{pre}} \)是預(yù)訓(xùn)練模型的原始參數(shù)。
任務(wù)向量可以更有效地解決模型融合期間的參數(shù)沖突。如圖4所示,以預(yù)訓(xùn)練模型為參考,微調(diào)模型的任務(wù)向量方向的變化表明了參數(shù)空間中的沖突。為了應(yīng)對(duì)參數(shù)沖突問題,最近的研究旨在探索方法以減輕沖突,并在不同模型之間取得平衡。參數(shù)沖突方法在相同位置的參數(shù)上進(jìn)行沖突解決,而較少參數(shù)方法通過識(shí)別和剪枝冗余參數(shù)來減少?zèng)_突。此外,我們介紹了一個(gè)包含一些方法的工具包。
解決參數(shù)沖突
TASK ARITHMETIC(Ilharco等人,2023)最初通過微調(diào)參數(shù)和預(yù)訓(xùn)練參數(shù)之間的算術(shù)運(yùn)算推導(dǎo)任務(wù)向量,如公式(6)所示。這些任務(wù)向量隨后用于通過增強(qiáng)目標(biāo)任務(wù)的性能來融合模型。為了進(jìn)一步解決模型融合中的參數(shù)沖突問題,TIES-MERGING(Yadav等人,2023)確定了干擾的兩個(gè)主要原因:冗余參數(shù)值和模型之間的符號(hào)不一致?;谶@些進(jìn)展,ADAMERGING(Yang等人,2023)通過考慮不同模型參數(shù)的重要性進(jìn)一步減少了沖突。METAGPT(Zhou等人,2024a)提出了基于ADAMERGING和TASK ARITHMETIC的高效方法。Akiba等人(2024)提出了一種適用于LLMs的融合方法,不僅在參數(shù)空間中采用TIES-MERGING進(jìn)行融合,還采用進(jìn)化算法優(yōu)化融合模型內(nèi)的數(shù)據(jù)推理路徑。上述方法已成功應(yīng)用于LLMs。Kim等人(2024)將這些方法應(yīng)用于融合LLMs以獲得更強(qiáng)的LLM評(píng)估器。Hammoud等人(2024)研究了這些方法對(duì)LLM安全對(duì)齊的影響。與上述基于任務(wù)向量的方法不同,Stoica等人(2024)提出了ZIPIT,該方法從另一個(gè)角度保留相似參數(shù)。ZIPIT首先識(shí)別不同模型之間高度相關(guān)的參數(shù),然后在保留顯著不同的層的同時(shí)融合這些參數(shù),從而提高融合的靈活性。
3.2.3 基于增量訓(xùn)練的方法
盡管上述方法在一定程度上緩解了性能下降的問題,但仍存在一些不足。因此,一些研究提出了涉及增量訓(xùn)練的方法,以恢復(fù)其原始性能。具體而言,Concrete TA/AM(Tang等人,2023)旨在模型參數(shù)空間內(nèi)找到一個(gè)共享的低維子空間,以最小化任務(wù)干擾,同時(shí)不影響性能。Surgery(Yang等人,2024a)引入了一種表示手術(shù)技術(shù),以減輕多任務(wù)模型融合中的表示偏差。
4. 集成
集成學(xué)習(xí)是另一種有效的合作策略,與模型融合方法不同,它側(cè)重于模型輸出的組合。傳統(tǒng)的技術(shù)如Adaboost(Freund和Schapire,1997)、Bagging(Breiman,1996)和Stacking(Wolpert,1992)在機(jī)器學(xué)習(xí)研究中取得了顯著進(jìn)展。在LLMs時(shí)代,集成學(xué)習(xí)依然至關(guān)重要,能夠提升各種LLMs的整體性能。
然而,LLMs通常通過文本生成來解決各種任務(wù),產(chǎn)生更靈活和自然表達(dá)的輸出。因此,為分類任務(wù)設(shè)計(jì)的傳統(tǒng)集成方法不能直接應(yīng)用于LLMs。為了解決這個(gè)問題,許多研究探索了針對(duì)各種LLMs的特定集成方法。此外,集成學(xué)習(xí)的好處激發(fā)了對(duì)這些技術(shù)在各種應(yīng)用中的研究。在以下部分中,我們將詳細(xì)介紹LLM集成方法和應(yīng)用。
4.1 LLM 集成方法
對(duì)于不同的輸入,表現(xiàn)最佳的LLM并不總是相同的,這促使人們廣泛研究LLM的集成方法。與基于分類的機(jī)器學(xué)習(xí)模型不同,LLMs通常生成一系列離散的令牌作為輸出,這使得直接集成具有挑戰(zhàn)性。此外,不同LLMs之間的結(jié)構(gòu)差異導(dǎo)致詞匯表和輸出分布難以統(tǒng)一,進(jìn)一步復(fù)雜化了集成策略(Xu等人,2024b)。由于集成通常發(fā)生在推理期間,我們根據(jù)集成發(fā)生的時(shí)間將現(xiàn)有方法分類為推理前(BEFORE)、推理中(DURING)和推理后(AFTER)的集成方法。如圖5所示,推理前的集成方法選擇最合適的LLM來處理不同的輸入示例,推理中的集成方法在每個(gè)解碼步驟結(jié)合輸出,而推理后的集成方法旨在從多個(gè)LLM生成的多個(gè)輸出中選擇最佳響應(yīng)。
4.1.1 推理前集成
這些方法旨在在推理前為特定示例選擇最佳的LLM。與從頭開始學(xué)習(xí)稀疏網(wǎng)絡(luò)的各種專家混合(MOE)方法(Jacobs等人,1991;Collobert等人,2003;Eigen等人,2013;Fedus等人,2022;Jiang等人,2024)不同,推理前的集成重點(diǎn)在于訓(xùn)練多個(gè)預(yù)訓(xùn)練LLMs的外部路由器(Rosenbaum等人,2017),以實(shí)現(xiàn)LLM的最優(yōu)選擇。
Shnitzer等人(2023)率先探索了使用各種基準(zhǔn)數(shù)據(jù)集學(xué)習(xí)路由器的可行性和局限性。Lu等人(2023)引入了ZOOTER,一個(gè)系統(tǒng),首先使用獎(jiǎng)勵(lì)模型根據(jù)訓(xùn)練集計(jì)算查詢-輸出對(duì)的分?jǐn)?shù)。這些分?jǐn)?shù)隨后用于使用知識(shí)蒸餾策略訓(xùn)練路由器,使其能夠僅根據(jù)輸入查詢選擇最優(yōu)的LLM。Ding等人(2024)采用了一個(gè)路由器,根據(jù)預(yù)測(cè)的查詢難度和所需的質(zhì)量水平,將查詢分配給小型模型或LLMs,顯著降低了推理成本。Srivatsa等人(2024)研究了LLMs的分類器基和聚類基路由方法的可行性。受強(qiáng)化學(xué)習(xí)中自我博弈的啟發(fā),Mohammadshahi等人(2024)通過循環(huán)使用自我生成的三元組(查詢,響應(yīng),分?jǐn)?shù))來訓(xùn)練路由器。與之前的研究不同,Lu等人(2024c)通過在對(duì)話中隨機(jī)選擇LLM來集成多個(gè)聊天LLMs,而不是學(xué)習(xí)路由器。為了有效評(píng)估路由器的能力和局限性,Hu等人(2024)提出了一個(gè)新的基準(zhǔn)ROUTERBENCH,主要關(guān)注性能和經(jīng)濟(jì)成本。
4.1.2 推理期間集成
在推理期間,LLMs以自回歸方式生成標(biāo)記。這一過程通常會(huì)導(dǎo)致早期錯(cuò)誤隨著時(shí)間的推移而累積,導(dǎo)致后續(xù)標(biāo)記偏離預(yù)期的含義(Ranzato等人,2016),從而產(chǎn)生幻覺(Zhang等人,2023a)。為了解決這個(gè)問題,一些研究在每個(gè)解碼步驟對(duì)LLMs進(jìn)行集成。Li等人(2024c)通過加權(quán)平均不可信的LLMs和一個(gè)良性的較小LLM的輸出分布,結(jié)合它們以減輕版權(quán)侵權(quán)、數(shù)據(jù)投毒和隱私違反等問題。Hoang等人(2023)通過插值機(jī)器翻譯模型和LLM的輸出分布,提高了翻譯性能。Wang等人(2024b)將專家融合問題表述為圖最短路徑問題,并提出了一種高效的融合方法。
這些方法要求在至少具有相同詞匯表的LLMs之間進(jìn)行集成,以確保輸出分布對(duì)齊并可以有效插值。然而,大多數(shù)開源LLMs是異構(gòu)的,具有不同的詞匯表,這阻礙了直接集成。
為了解決這一問題,F(xiàn)u等人(2023)采用動(dòng)態(tài)規(guī)劃遞歸最小化通過編輯一個(gè)標(biāo)記序列以匹配另一個(gè)序列的總成本,使用精確匹配得分。為了進(jìn)一步提高標(biāo)記對(duì)齊的成功率,Wan等人(2024a)將精確匹配約束替換為最小編輯距離策略。Mavromatis等人(2024)在上述標(biāo)記對(duì)齊的基礎(chǔ)上,提出使用困惑度來計(jì)算不同LLMs輸出的系數(shù)。Xu等人(2024b)、Huang等人(2024c)和Yu等人(2024)考慮使用重疊標(biāo)記作為錨點(diǎn),將異構(gòu)LLMs產(chǎn)生的輸出分布投影到同一空間。具體而言,Xu等人(2024b)提出直接使用錨點(diǎn)作為橋梁學(xué)習(xí)不同詞匯表之間的投影矩陣,而Huang等人(2024c)和Yu等人(2024)則計(jì)算從錨點(diǎn)到不同詞匯表的相對(duì)表示,從而間接實(shí)現(xiàn)詞匯表投影。
4.1.3 推理后集成
最終的LLM集成方法在推理后結(jié)合生成的輸出。一種實(shí)現(xiàn)LLM集成的方法是構(gòu)建LLM級(jí)聯(lián),以減少僅使用大型LLM的推理成本。Chen等人(2023d)采用按參數(shù)數(shù)量排序的LLM序列來生成輸出,一旦前面的小型LLM產(chǎn)生足夠高質(zhì)量的輸出,即停止并返回結(jié)果。Yue等人(2024)提出先驗(yàn)證小型LLM生成的答案的正確性,如果初始答案不正確,則利用LLM來解決問題。另一條研究路線集中在從多個(gè)LLM生成的多個(gè)候選中選擇最佳候選。Lee等人(2023)從LLMs生成的多個(gè)候選中選擇最佳指令,以構(gòu)建指令調(diào)整數(shù)據(jù)。Jiang等人(2023a)探索了各種無監(jiān)督指標(biāo)進(jìn)行選擇,包括BERTScore(Zhang等人,2020)、BLEURT(Sellam等人,2020)、BARTScore(Yuan等人,2021)和ChatGPT分?jǐn)?shù)。然而,他們發(fā)現(xiàn)選擇的有效性受到候選池質(zhì)量的限制。為了解決這一問題,Jiang等人(2023a)采用了一個(gè)額外的融合模型,使用排名靠前的候選作為輸入來生成最終輸出。
4.1.4 關(guān)于 LLM 集成方法的討論
上述方法側(cè)重于在推理的不同階段進(jìn)行集成,各有優(yōu)勢(shì)和劣勢(shì)。我們從推理速度、集成粒度和局限性方面進(jìn)行討論。
推理速度
幾乎所有的集成方法都會(huì)降低推理速度。推理前的集成由于涉及通過額外的路由器選擇最優(yōu)的LLM,會(huì)略微減慢過程。推理中的集成要求每個(gè)LLM對(duì)測(cè)試示例進(jìn)行前向計(jì)算。如果有k個(gè)LLMs,推理速度會(huì)降低k倍,盡管這可以通過使用k倍的GPU來緩解。推理后的集成不僅需要k倍的計(jì)算成本,還需要額外的時(shí)間進(jìn)行輸出選擇或融合(Jiang等人,2023a),導(dǎo)致推理速度最低。
集成粒度
上述集成方法在不同的粒度上操作。推理前和推理后的集成通常在示例級(jí)別工作,提供粗粒度的集成。推理中的集成在標(biāo)記級(jí)別進(jìn)行,提供細(xì)粒度的集成。由于前面的標(biāo)記會(huì)影響后面的標(biāo)記,這種細(xì)粒度的集成可以減少LLMs中的暴露偏差(Ranzato等人,2015;Xu等人,2020),從而更好地提高性能。
局限性
每個(gè)類別的集成方法都有特定的局限性,如表1所示。盡管推理前的集成速度較快,但需要額外訓(xùn)練路由器。用于路由器訓(xùn)練的數(shù)據(jù)會(huì)限制這些集成方法的泛化和性能(Shnitzer等人,2023)。推理中的集 成通常受LLMs架構(gòu)異構(gòu)性的限制。例如,詞匯表的差異會(huì)導(dǎo)致輸出分布不對(duì)應(yīng),從而阻礙直接集成(Huang等人,2024c;Yu等人,2024)。推理后的集成通常需要多個(gè)LLMs生成多個(gè)候選,構(gòu)建候選池,然后選擇或重組最終輸出。因此,候選池的準(zhǔn)確性和選擇策略是主要的局限性。
表1:不同推理階段的LLM集成方法的特性。
4.2 LLM 集成應(yīng)用
除了方法論研究外,許多研究還將LLM集成應(yīng)用于特定場(chǎng)景。這歸因于集成學(xué)習(xí)在特定任務(wù)、領(lǐng)域和強(qiáng)校準(zhǔn)方面的能力。我們根據(jù)目標(biāo)對(duì)相關(guān)研究進(jìn)行分類。
針對(duì)特定任務(wù)或領(lǐng)域的LLM集成
針對(duì)特定任務(wù)的LLM集成通常用于提高特定任務(wù)的性能。Si等人(2023)通過訓(xùn)練分類器選擇不同推理專家生成的最佳答案,提升了LLM的推理性能。Gundabathula和Kolar(2024)將LLM集成用于SQL生成。一些研究將LLM集成應(yīng)用于醫(yī)學(xué)任務(wù)。Gundabathula和Kolar(2024)采用LLM集成來增強(qiáng)臨床文本錯(cuò)誤檢測(cè)和糾正。Oniani等人(2023)和Barabucci等人(2024)分別使用多數(shù)投票和平均加權(quán)方法,選擇最常見的候選疾病。
緩解RLHF過估計(jì)的LLM集成
集成學(xué)習(xí)可以緩解LLMs的校準(zhǔn)不良和不可靠預(yù)測(cè)問題。因此,Eisenstein等人(2023)、Coste等人(2024)和Ramé等人(2024)通過集成多個(gè)獎(jiǎng)勵(lì)LLMs來緩解RLHF中的過樂觀問題??紤]到基于LLM的獎(jiǎng)勵(lì)模型的微調(diào)計(jì)算成本較高,Zhang等人(2024c)和Zhai等人(2023)分別使用輕量級(jí)的LoRA(Hu等人,2022)來適應(yīng)LLM到多個(gè)獎(jiǎng)勵(lì)模型。Ahmed等人(2024)提出使用共享的LLM但獨(dú)立的線性層來集成獎(jiǎng)勵(lì)。這些方法成功減少了RLHF中的過估計(jì)并提高了對(duì)齊性能。
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
