自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述原創(chuàng) 精華

發(fā)布于 2024-12-27 10:03

瀏覽

0收藏

摘要：

大語言模型（LLMs）的顯著成功將自然語言處理（NLP）研究帶入了一個(gè)新時(shí)代。盡管其功能多樣，但基于不同語料庫(kù)訓(xùn)練的LLMs表現(xiàn)出各自的優(yōu)勢(shì)與劣勢(shì)，這對(duì)提升其整體效率與多功能性提出了挑戰(zhàn)。為了解決這些挑戰(zhàn)，近期的研究探索了LLMs的協(xié)作策略。本文對(duì)這一新興研究領(lǐng)域進(jìn)行了全面綜述，闡述了協(xié)作研究的動(dòng)機(jī)。具體而言，我們將協(xié)作策略分為三種主要方法：融合、集成與合作。融合涉及在參數(shù)空間內(nèi)整合多個(gè)LLMs；集成結(jié)合了不同LLMs的輸出；合作利用不同LLMs的多樣化能力以完成特定任務(wù)。本文從多個(gè)角度深入介紹了這些方法，并討論了它們的潛在應(yīng)用。此外，我們還概述了未來的研究方向，希望本工作能夠催化更多關(guān)于LLMs協(xié)作的研究，并為先進(jìn)的NLP應(yīng)用鋪平道路。

1.引言

“眾人拾柴火焰高?！薄s翰·海伍德

人類自古以來就深刻理解協(xié)作的力量。當(dāng)個(gè)體結(jié)合其多樣化的技能與努力時(shí)，能夠?qū)崿F(xiàn)遠(yuǎn)超單獨(dú)行動(dòng)的成果。這種集體協(xié)作的原則，在機(jī)器學(xué)習(xí)領(lǐng)域再次煥發(fā)了新生命（Dietterich, 2000; Panait和Luke, 2005; Sagi和Rokach, 2018），極大地推動(dòng)了人工智能的發(fā)展。

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

圖1：最近，許多大型語言模型被發(fā)布，每個(gè)模型都具有其獨(dú)特的優(yōu)勢(shì)。這種多樣性推動(dòng)了關(guān)于這些模型協(xié)作的研究。

近年來，大語言模型（LLMs）（Brown等, 2020; Chowdhery等, 2023）成為人工智能中發(fā)展最快、最有前景的方向之一。這些模型顯著改變了自然語言處理（NLP）的范式（Min等, 2023a; Chang等, 2024; Zhao等, 2023），并對(duì)其他領(lǐng)域產(chǎn)生了深遠(yuǎn)影響（Wu等, 2023a; Zhang等, 2024a）。這場(chǎng)革命性的變革激勵(lì)了眾多大學(xué)、研究機(jī)構(gòu)和公司預(yù)訓(xùn)練并發(fā)布了各自的LLM模型。目前，HuggingFace模型平臺(tái)上已提供超過74,000個(gè)預(yù)訓(xùn)練模型。這些模型通過多樣化的數(shù)據(jù)、架構(gòu)和方法訓(xùn)練，展現(xiàn)出獨(dú)特的能力：一些擅長(zhǎng)多語言任務(wù)（Le Scao等, 2023; Lin等, 2022），一些專注于醫(yī)學(xué)（Yang等, 2024b）或金融領(lǐng)域（Wu等, 2023b），另一些則擅長(zhǎng)處理長(zhǎng)上下文窗口（Chen等, 2023e,f），還有一些經(jīng)過微調(diào)以更好地與人類互動(dòng)（Ouyang等, 2022）。然而，沒有單一模型在所有任務(wù)上表現(xiàn)始終優(yōu)于其他模型（Jiang等, 2023a）。這種差異性激發(fā)了關(guān)于不同LLM之間協(xié)作的研究，旨在釋放其聯(lián)合潛力，就像打造一個(gè)“六邊形戰(zhàn)士”一樣。

盡管LLM協(xié)作研究取得了一些進(jìn)展，但現(xiàn)有方法之間的關(guān)系和上下文仍不夠清晰。本綜述旨在填補(bǔ)這一空白，通過將協(xié)作技術(shù)歸類為三種主要方法：融合（Merging）、集成（Ensemble）和合作（Cooperation）。具體而言，LLM的融合與集成方法源于機(jī)器學(xué)習(xí)中常見的傳統(tǒng)融合技術(shù)（Li等, 2023a）。這些方法經(jīng)過調(diào)整后，更適合LLMs，能夠有效利用多樣化LLM的協(xié)作優(yōu)勢(shì)。融合涉及將多個(gè)LLM的參數(shù)整合為單一、統(tǒng)一的模型，這要求參數(shù)在線性空間中具有兼容性。相比之下，集成方法聚焦于組合不同LLM生成的輸出，以產(chǎn)生連貫的結(jié)果，而對(duì)單個(gè)模型參數(shù)的關(guān)注較少。合作方法超越了融合與集成，專注于利用LLM的多樣化優(yōu)勢(shì)以實(shí)現(xiàn)特定目標(biāo)。這些技術(shù)總體上擴(kuò)展了模型協(xié)作的方法，對(duì)于LLM研究具有重要意義。

本研究的結(jié)構(gòu)如下：我們首先在第2節(jié)中提供LLM的背景信息，并定義其協(xié)作技術(shù)。接下來，我們?cè)诘?、4和5節(jié)中分別介紹三大關(guān)鍵類別：融合、集成和合作。每一類方法都經(jīng)過詳細(xì)分類和深入描述，提供對(duì)其框架及應(yīng)用的清晰理解。最后，我們?cè)诘?節(jié)中進(jìn)行綜合討論，強(qiáng)調(diào)研究面臨的挑戰(zhàn)與未來方向。

2.背景

2.1 大語言模型（LLMs）

語言建模一直是自然語言處理（NLP）的基石。最近，許多研究通過擴(kuò)展基于Transformer的語言模型（Vaswani等, 2017；Radford等, 2018），實(shí)現(xiàn)了數(shù)十億以上參數(shù)的顯著增長(zhǎng)，例如GPT-3（Brown等, 2020）、PaLM（Chowdhery等, 2023；Anil等, 2023）和LLaMA（Touvron等, 2023a,b）。由于其巨大的參數(shù)量，這些模型通常被視為大語言模型（LLMs）（Zhao等, 2023）。本節(jié)將討論LLMs的架構(gòu)與擴(kuò)展、其訓(xùn)練目標(biāo)以及所展現(xiàn)的涌現(xiàn)能力。

架構(gòu)與擴(kuò)展

與預(yù)訓(xùn)練語言模型（PLMs）（Radford等, 2018；Devlin等, 2019）相似，LLMs主要采用Transformer架構(gòu)（Vaswani等, 2017）作為其骨干架構(gòu)，由多頭注意力和前饋層堆疊而成。與PLMs不同，目前發(fā)布的大多數(shù)LLMs基于僅解碼架構(gòu)進(jìn)行訓(xùn)練，以提高訓(xùn)練效率并支持少樣本能力。這種方法在參數(shù)數(shù)量增加時(shí)也展現(xiàn)了潛力（Zhang等, 2022）。最近的研究還探討了模型容量、訓(xùn)練數(shù)據(jù)量和模型規(guī)模之間的量化關(guān)系，即擴(kuò)展定律（Kaplan等, 2020；Hoffmann等, 2022）。

訓(xùn)練目標(biāo)

在PLMs的早期研究中，提出了各種語言建模任務(wù)，例如BERT（Devlin等, 2019）的掩碼語言建模、BART（Lewis等, 2020）和T5（Raffel等, 2020）的去噪語言建模。然而，目前的LLMs通常采用標(biāo)準(zhǔn)的因果語言建模作為其訓(xùn)練目標(biāo)，旨在基于序列中的前序詞預(yù)測(cè)下一個(gè)詞。這一訓(xùn)練目標(biāo)非常適合僅解碼架構(gòu)。

除了預(yù)訓(xùn)練目標(biāo)，近期研究還致力于建模人類偏好，以更好地使LLMs與人類期望保持一致。例如，著名的InstructGPT（Ouyang等, 2022）引入了來自人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），將偏好獎(jiǎng)勵(lì)作為附加訓(xùn)練目標(biāo)。盡管RLHF在使LLMs對(duì)用戶更有幫助方面非常有效，但不可避免地會(huì)導(dǎo)致“對(duì)齊成本”，即RLHF后性能的下降。最近的研究探索了各種技術(shù)以緩解對(duì)齊成本問題（Lin等, 2023；Lu等, 2024b；Fu等, 2024b）。

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

涌現(xiàn)能力

語言模型的基本能力是文本生成，利用貪婪搜索或核采樣方法（Holtzman等, 2020a）基于前序詞遞歸生成詞語：y_i～p(y_i∣y_<i)

令人驚訝的是，LLMs不僅能夠生成逼真的文本，還能在不需要對(duì)特定下游任務(wù)進(jìn)行微調(diào)的情況下，通過提供特定任務(wù)提示來執(zhí)行特定任務(wù)（Brown等, 2020）。這一現(xiàn)象是LLMs與以前的PLMs之間最重要的區(qū)別之一。Wei等（2022b）將涌現(xiàn)能力定義為“在較小的模型中不存在但在較大模型中出現(xiàn)的能力”。在這些涌現(xiàn)能力中，情境學(xué)習(xí)（ICL）（Brown等, 2020；Dong等, 2022）和指令遵循是常用的，并顯著增強(qiáng)了LLMs處理各種任務(wù)的能力。

情境學(xué)習(xí)通過使用一些任務(wù)示例作為示范幫助LLMs理解任務(wù)。當(dāng)將這些示范作為提示提供時(shí)，LLMs可以自動(dòng)生成給定測(cè)試示例的合理輸出，其公式化如下：p(y∣x)=p(y∣x,demonstration({(x_i,y_i)}_i=1^k))

指令遵循能力通常出現(xiàn)在已經(jīng)針對(duì)多任務(wù)指令示例進(jìn)行了微調(diào)的LLMs中。生成過程可以公式化為：p(y∣x)=p(y∣x,I)

其中 I表示給定示例x的指令。指令微調(diào)技術(shù)（Sanh等, 2021；Ouyang等, 2022；Wei等, 2022a）能夠增強(qiáng)LLMs的泛化能力，使其能夠在多種任務(wù)上表現(xiàn)良好，包括未見任務(wù)（Thoppilan等, 2022）。

2.2 對(duì)LLMs的協(xié)作

對(duì)于以前的任務(wù)依賴型NLP模型，協(xié)作策略通常旨在提高特定任務(wù)的性能（Jia等, 2023）。最近，LLMs通過在廣泛任務(wù)中的顯著多功能性徹底改變了NLP。這一轉(zhuǎn)變也將LLMs協(xié)作策略的重點(diǎn)轉(zhuǎn)向增強(qiáng)多功能性和實(shí)現(xiàn)更通用的目標(biāo)。因此，最近提出的一些協(xié)作策略變得更加靈活，并專門為L(zhǎng)LMs量身定制。

LLMs協(xié)作的必要性

盡管幾乎所有LLMs都通過情境學(xué)習(xí)和指令遵循表現(xiàn)出在各種任務(wù)中的強(qiáng)大多功能性，但不同的LLMs仍然具有不同的優(yōu)勢(shì)和劣勢(shì)（Jiang等, 2023a）。

不同LLMs家族（例如LLaMA、GLM（Zeng等, 2023）和QWen（Bai等, 2023））之間的訓(xùn)練語料和模型架構(gòu)差異導(dǎo)致了其能力的顯著差異。即使在同一家族內(nèi)，針對(duì)特定語料庫(kù)（例如數(shù)學(xué)（Azerbayev等, 2023）、代碼（Roziere等, 2023）或醫(yī)學(xué)領(lǐng)域（Wu等, 2024））的微調(diào)也會(huì)帶來顯著的性能差異。通過有效的協(xié)作，可以釋放這些LLMs的潛力，顯著增強(qiáng)其整體性能和多功能性。

此外，大語言模型（LLMs）不可避免地存在計(jì)算效率低下（Zhou等, 2024c）、幻覺現(xiàn)象（Rawte等, 2023；Ji等, 2023；Huang等, 2023）以及隱私泄露（Fan等, 2024）等問題。最近的研究探索了LLMs之間的協(xié)作策略，這為緩解這些問題和彌補(bǔ)其缺陷提供了潛在的解決方案。

LLM協(xié)作方法的分類

LLMs之間的協(xié)作是指多個(gè)LLMs協(xié)同工作，利用其各自的優(yōu)勢(shì)和能力以實(shí)現(xiàn)共同目標(biāo)。在本綜述中，我們將LLMs協(xié)作方法分為三個(gè)方面：融合（Merging）、集成（Ensemble）和合作（Cooperation）。如圖2所示：

融合：通過在模型參數(shù)空間內(nèi)進(jìn)行算術(shù)操作，將多個(gè)LLMs整合為一個(gè)統(tǒng)一且更強(qiáng)大的模型。
集成：結(jié)合不同模型的輸出以獲得連貫的結(jié)果。近期的研究提出了多種專為L(zhǎng)LMs設(shè)計(jì)的集成方法。
合作：這是一個(gè)相對(duì)廣泛的概念。本綜述重點(diǎn)介紹合作方法，這些方法利用不同LLMs的多樣化能力來完成特定目標(biāo)，例如高效計(jì)算或知識(shí)轉(zhuǎn)移。

需要注意的是，從融合到集成再到合作，對(duì)LLMs的要求逐漸放寬，使得所提出的方法越來越靈活。具體而言：

融合方法僅在LLMs具有兼容的參數(shù)空間時(shí)有效，從而實(shí)現(xiàn)無縫整合。
集成方法要求LLMs具備多樣化但可比較的能力；如果缺乏這種平衡，集成可能效果較差。
合作方法則更加靈活，重點(diǎn)在于利用LLMs的多種能力，這些能力是專門設(shè)計(jì)用于實(shí)現(xiàn)特定目標(biāo)的。

對(duì)于每個(gè)類別，我們根據(jù)其重點(diǎn)或?qū)嵤╇A段進(jìn)一步分類具體方法。全面的分類如圖3所示。

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

3.融合

單個(gè)模型固有的局限性，如可能遺漏重要信息（Sagi和Rokach，2018）以及容易陷入局部最優(yōu)或缺乏多任務(wù)能力，促使研究人員探索在參數(shù)空間中融合多個(gè)模型以創(chuàng)建統(tǒng)一、更強(qiáng)大的模型的方法。近年來，模型融合取得了顯著進(jìn)展，各種技術(shù)在現(xiàn)有綜述（Li等，2023a）中有所記錄。在LLMs時(shí)代，模型融合已成為模型合作的重要解決方案，通常采用基本的融合方法并證明其有效性。本節(jié)重點(diǎn)介紹對(duì)LLMs有效的融合技術(shù)。當(dāng)前對(duì)模型融合的研究通常關(guān)注兩個(gè)關(guān)鍵問題：融合以接近相對(duì)最優(yōu)解（M-ROS）和融合以增強(qiáng)多任務(wù)能力（M-MTC）。M-ROS的研究基于以下發(fā)現(xiàn)：梯度優(yōu)化的解通常在寬平坦區(qū)域的邊界附近收斂，而不是在中心點(diǎn)（Izmailov等，2018）。模型融合提供了一種接近這一相對(duì)最優(yōu)點(diǎn)的方法，從而產(chǎn)生更強(qiáng)大的模型。另一方面，M-MTC旨在利用模型融合技術(shù)使單個(gè)模型具備跨多個(gè)任務(wù)的能力（Ilharco等，2023；Yadav等，2023）。在接下來的小節(jié)中，我們將介紹每個(gè)目標(biāo)的技術(shù)及其在LLMs中的應(yīng)用。重要的是，對(duì)于M-ROS和M-MTC，當(dāng)前的模型融合方法僅適用于具有相同架構(gòu)且參數(shù)在同一空間內(nèi)的模型。因此，大多數(shù)候選模型M={M1,M2, · · · ,Mk}應(yīng)從相同的預(yù)訓(xùn)練模型M0進(jìn)行微調(diào)。這一要求確保了模型參數(shù)的兼容性和一致性，促進(jìn)了成功的融合。不幸的是，對(duì)于參數(shù)不兼容的模型，如LLaMA和QWen，當(dāng)前的融合技術(shù)無效。

3.1融合以接近相對(duì)最優(yōu)解（M-ROS）

機(jī)器學(xué)習(xí)模型，尤其是深度學(xué)習(xí)模型，在訓(xùn)練過程中往往無法達(dá)到精確的最優(yōu)解（Li等，2023a）。研究者們發(fā)現(xiàn)，現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)的局部最優(yōu)解通過簡(jiǎn)單的曲線相連，這些曲線上的路徑能夠保持較低的損失。這表明，權(quán)重空間中的不同局部最優(yōu)解并非孤立存在，而是可以通過低損失路徑相互連接（Garipov等，2018）。通過加權(quán)平均方法獲得的模型可以視為低損失路徑上的一個(gè)點(diǎn)。參數(shù)平均通過平均不同的局部最優(yōu)解，整合了各種模型的優(yōu)勢(shì)，從而減少了單個(gè)模型的偏差和方差（Rame等，2022）。為了提升模型性能，提出了M-ROS方法，這些方法旨在通過融合多個(gè)模型的參數(shù)，將相對(duì)優(yōu)化的點(diǎn)融合成一個(gè)更優(yōu)的模型。我們將這些方法分為兩類：簡(jiǎn)單平均和加權(quán)平均。盡管這些技術(shù)最初是為小型深度模型開發(fā)的，但它們對(duì)LLMs同樣有效。接下來，我們將首先介紹基本的M-ROS方法，然后討論它們?nèi)绾螒?yīng)用于LLMs。

3.1.1 基本的 M-ROS 方法

簡(jiǎn)單平均

簡(jiǎn)單參數(shù)平均是一種將多個(gè)微調(diào)模型的參數(shù)以相等的系數(shù)進(jìn)行組合的方法，從而創(chuàng)建一個(gè)更強(qiáng)大的模型（Guo等，2023）。實(shí)證證據(jù)表明，這些融合后的模型在準(zhǔn)確性、魯棒性和穩(wěn)定性方面通常優(yōu)于單個(gè)模型。對(duì)于k個(gè)候選模型\( M = \{M_1, M_2, \cdots, M_k\} \)，簡(jiǎn)單參數(shù)平均可以形式化為：

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

其中\(zhòng)( \theta_{M_i} \)表示第i個(gè)模型的參數(shù)，\( \theta^ \)是融合后的參數(shù)。為了最大化多個(gè)模型的優(yōu)勢(shì)，Model Soup（Wortsman等，2022）引入了Uniform Soup和Greedy Soup。Uniform Soup簡(jiǎn)單地平均模型參數(shù)，而Greedy Soup一次添加一個(gè)模型到池中，確保每個(gè)新模型要么提高要么保持在驗(yàn)證集上的性能。同樣，DiWA（Rame等，2022）根據(jù)候選模型在驗(yàn)證集上的性能進(jìn)行排名，并僅在它們?cè)鰪?qiáng)性能時(shí)添加新模型。通常，Greedy Soup和DiWA通過選擇的模型參數(shù)平均來進(jìn)行推理。

加權(quán)平均

加權(quán)平均允許根據(jù)模型的重要性或質(zhì)量為不同模型分配不同的系數(shù)，以實(shí)現(xiàn)更優(yōu)的融合效果。對(duì)于經(jīng)過顯著不同權(quán)重微調(diào)的訓(xùn)練網(wǎng)絡(luò)，簡(jiǎn)單的平均方法通常表現(xiàn)不佳（Singh和Jaggi，2020）。因此，為不同模型選擇合適的融合系數(shù)成為關(guān)鍵因素。加權(quán)平均可以形式化為：

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

其中，\( \alpha_i \)是候選模型\( M_i \)的歸一化系數(shù)。目前，有幾種方法可用于找到最優(yōu)的融合系數(shù)。例如，Learned Soup（Wortsman等，2022）在驗(yàn)證集上優(yōu)化混合系數(shù)，以最小化損失函數(shù)，從而結(jié)合多個(gè)模型的優(yōu)勢(shì)，提升整體性能。Matena和Raffel（2022）提出利用Fisher信息矩陣來衡量經(jīng)過不同隨機(jī)種子微調(diào)的模型的參數(shù)重要性，并使用這些重要性分?jǐn)?shù)作為系數(shù)進(jìn)行融合。此外，Jang等（2024）提出了一種基于幾何關(guān)系的方法，根據(jù)參數(shù)之間的角度發(fā)散對(duì)微調(diào)模型進(jìn)行插值。

3.1.2 適應(yīng) LLMs

上述模型融合技術(shù)已成功應(yīng)用于LLMs，以實(shí)現(xiàn)獲得更強(qiáng)的LLMs和增強(qiáng)RLHF的目標(biāo)。

獲得更強(qiáng)的LLMs

為了獲得更強(qiáng)的LLMs，一些研究提出了針對(duì)LLMs的新方法。Wan等（2024b）建議根據(jù)微調(diào)前后參數(shù)矩陣的變化率來計(jì)算融合系數(shù)。同樣，Liu等（2024b）提出利用LLMs在預(yù)訓(xùn)練過程中保存的檢查點(diǎn)，結(jié)合貝葉斯優(yōu)化來導(dǎo)航廣泛的搜索空間并識(shí)別最優(yōu)的融合系數(shù)。為了解決梯度不匹配問題，Lin等（2023）引入了一種自適應(yīng)方法，為模型的不同層分配不同的組合比例，優(yōu)化這些組合以平衡人類偏好對(duì)齊和預(yù)訓(xùn)練能力。其他研究采用現(xiàn)有的模型融合技術(shù)，為特定目標(biāo)創(chuàng)建更強(qiáng)的LLMs。例如，F(xiàn)u等（2024a）提出了一個(gè)分散-融合框架，首先使用不同的指令微調(diào)數(shù)據(jù)部分訓(xùn)練多個(gè)子模型，然后通過加權(quán)融合將它們?nèi)诤铣梢粋€(gè)具有多方面能力的單LLM。

增強(qiáng)RLHF

模型融合技術(shù)還有助于提升LLMs與人類偏好的對(duì)齊。Lin等（2023）提出了一種自適應(yīng)方法，為模型的不同層分配不同的組合比例，優(yōu)化這些組合以平衡人類偏好對(duì)齊和預(yù)訓(xùn)練能力。Ram’e等（2024）提出微調(diào)多個(gè)獎(jiǎng)勵(lì)模型，然后通過平均它們的參數(shù)來創(chuàng)建一個(gè)與人類偏好對(duì)齊更好的高級(jí)獎(jiǎng)勵(lì)模型。同樣，F(xiàn)u等（2024b）使用加權(quán)平均方法在監(jiān)督微調(diào)（SFT）期間改進(jìn)LLMs的對(duì)齊，有效減少數(shù)據(jù)偏差的影響。Lu等（2024b）提出使用模型融合技術(shù)在RLHF訓(xùn)練期間減少對(duì)齊稅。

3.2 通過 M-MTC 增強(qiáng)多任務(wù)能力

最近，一些研究嘗試通過融合具有不同能力的模型來構(gòu)建一個(gè)具有多任務(wù)能力的統(tǒng)一模型。這些模型通常從相同的預(yù)訓(xùn)練模型出發(fā)，但使用不同的任務(wù)特定數(shù)據(jù)進(jìn)行微調(diào)，導(dǎo)致它們的參數(shù)空間出現(xiàn)分歧。M-MTC方法旨在緩解這種分歧，實(shí)現(xiàn)模型的平衡融合，從而產(chǎn)生一個(gè)能夠處理多個(gè)任務(wù)的單一模型。早期研究通過為不同模型分配不同的融合系數(shù)來解決分歧問題（第3.2.1節(jié)，加權(quán)平均），而當(dāng)前研究更傾向于從分歧中提取任務(wù)屬性，以實(shí)現(xiàn)更靈活的融合（第3.2.2節(jié)，任務(wù)屬性）。此外，最近的工作開始采用增量學(xué)習(xí)技術(shù)來增強(qiáng)模型融合性能（第3.2.3節(jié)，增量學(xué)習(xí)）。我們將在以下小節(jié)中分別介紹這些方法。

3.2.1 基于加權(quán)平均的方法

一些研究采用加權(quán)平均策略（見第3.1.1節(jié)）來調(diào)整不同模型的重要性。Jin等人（2022）提出了一種名為RegMean的方法，該方法選擇性地整合Transformer模型的線性層，同時(shí)對(duì)其他層使用簡(jiǎn)單的平均方法，從而最小化融合模型與在不同數(shù)據(jù)集上微調(diào)的多個(gè)模型之間的偏差。Daheim等人（2023）建議利用從Hessian矩陣導(dǎo)出的估計(jì)值來優(yōu)化模型融合，實(shí)現(xiàn)對(duì)模型參數(shù)的更精確調(diào)整。Nathan等人（2024）將Fisher加權(quán)平均與模型剪枝相結(jié)合，以高效地進(jìn)行模型融合。

3.2.2 基于任務(wù)屬性的融合方法

基于加權(quán)平均的融合方法強(qiáng)調(diào)參數(shù)的重要性，但忽略了它們的任務(wù)特定屬性，這在某些任務(wù)上可能導(dǎo)致顯著的性能下降。Ilharco等人（2023）發(fā)現(xiàn)，“簡(jiǎn)單平均會(huì)導(dǎo)致10%的性能下降”。為了解決這一問題，最近的研究引入了一種稱為任務(wù)向量的新范式。Ilharco等人（2023）定義任務(wù)向量τ_t 為“一個(gè)向量，指定了預(yù)訓(xùn)練模型參數(shù)空間中的一個(gè)方向，沿此方向移動(dòng)可以提高任務(wù)\( t \)的性能”，形式化為：

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

其中，\( \theta_{\text{ft}_t} \)是在任務(wù)t的特定數(shù)據(jù)上微調(diào)的參數(shù)，而\( \theta_{\text{pre}} \)是預(yù)訓(xùn)練模型的原始參數(shù)。

任務(wù)向量可以更有效地解決模型融合期間的參數(shù)沖突。如圖4所示，以預(yù)訓(xùn)練模型為參考，微調(diào)模型的任務(wù)向量方向的變化表明了參數(shù)空間中的沖突。為了應(yīng)對(duì)參數(shù)沖突問題，最近的研究旨在探索方法以減輕沖突，并在不同模型之間取得平衡。參數(shù)沖突方法在相同位置的參數(shù)上進(jìn)行沖突解決，而較少參數(shù)方法通過識(shí)別和剪枝冗余參數(shù)來減少?zèng)_突。此外，我們介紹了一個(gè)包含一些方法的工具包。

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

解決參數(shù)沖突

TASK ARITHMETIC（Ilharco等人，2023）最初通過微調(diào)參數(shù)和預(yù)訓(xùn)練參數(shù)之間的算術(shù)運(yùn)算推導(dǎo)任務(wù)向量，如公式（6）所示。這些任務(wù)向量隨后用于通過增強(qiáng)目標(biāo)任務(wù)的性能來融合模型。為了進(jìn)一步解決模型融合中的參數(shù)沖突問題，TIES-MERGING（Yadav等人，2023）確定了干擾的兩個(gè)主要原因：冗余參數(shù)值和模型之間的符號(hào)不一致?；谶@些進(jìn)展，ADAMERGING（Yang等人，2023）通過考慮不同模型參數(shù)的重要性進(jìn)一步減少了沖突。METAGPT（Zhou等人，2024a）提出了基于ADAMERGING和TASK ARITHMETIC的高效方法。Akiba等人（2024）提出了一種適用于LLMs的融合方法，不僅在參數(shù)空間中采用TIES-MERGING進(jìn)行融合，還采用進(jìn)化算法優(yōu)化融合模型內(nèi)的數(shù)據(jù)推理路徑。上述方法已成功應(yīng)用于LLMs。Kim等人（2024）將這些方法應(yīng)用于融合LLMs以獲得更強(qiáng)的LLM評(píng)估器。Hammoud等人（2024）研究了這些方法對(duì)LLM安全對(duì)齊的影響。與上述基于任務(wù)向量的方法不同，Stoica等人（2024）提出了ZIPIT，該方法從另一個(gè)角度保留相似參數(shù)。ZIPIT首先識(shí)別不同模型之間高度相關(guān)的參數(shù)，然后在保留顯著不同的層的同時(shí)融合這些參數(shù)，從而提高融合的靈活性。

3.2.3 基于增量訓(xùn)練的方法

盡管上述方法在一定程度上緩解了性能下降的問題，但仍存在一些不足。因此，一些研究提出了涉及增量訓(xùn)練的方法，以恢復(fù)其原始性能。具體而言，Concrete TA/AM（Tang等人，2023）旨在模型參數(shù)空間內(nèi)找到一個(gè)共享的低維子空間，以最小化任務(wù)干擾，同時(shí)不影響性能。Surgery（Yang等人，2024a）引入了一種表示手術(shù)技術(shù)，以減輕多任務(wù)模型融合中的表示偏差。

4. 集成

集成學(xué)習(xí)是另一種有效的合作策略，與模型融合方法不同，它側(cè)重于模型輸出的組合。傳統(tǒng)的技術(shù)如Adaboost（Freund和Schapire，1997）、Bagging（Breiman，1996）和Stacking（Wolpert，1992）在機(jī)器學(xué)習(xí)研究中取得了顯著進(jìn)展。在LLMs時(shí)代，集成學(xué)習(xí)依然至關(guān)重要，能夠提升各種LLMs的整體性能。

然而，LLMs通常通過文本生成來解決各種任務(wù)，產(chǎn)生更靈活和自然表達(dá)的輸出。因此，為分類任務(wù)設(shè)計(jì)的傳統(tǒng)集成方法不能直接應(yīng)用于LLMs。為了解決這個(gè)問題，許多研究探索了針對(duì)各種LLMs的特定集成方法。此外，集成學(xué)習(xí)的好處激發(fā)了對(duì)這些技術(shù)在各種應(yīng)用中的研究。在以下部分中，我們將詳細(xì)介紹LLM集成方法和應(yīng)用。

4.1 LLM 集成方法

對(duì)于不同的輸入，表現(xiàn)最佳的LLM并不總是相同的，這促使人們廣泛研究LLM的集成方法。與基于分類的機(jī)器學(xué)習(xí)模型不同，LLMs通常生成一系列離散的令牌作為輸出，這使得直接集成具有挑戰(zhàn)性。此外，不同LLMs之間的結(jié)構(gòu)差異導(dǎo)致詞匯表和輸出分布難以統(tǒng)一，進(jìn)一步復(fù)雜化了集成策略（Xu等人，2024b）。由于集成通常發(fā)生在推理期間，我們根據(jù)集成發(fā)生的時(shí)間將現(xiàn)有方法分類為推理前（BEFORE）、推理中（DURING）和推理后（AFTER）的集成方法。如圖5所示，推理前的集成方法選擇最合適的LLM來處理不同的輸入示例，推理中的集成方法在每個(gè)解碼步驟結(jié)合輸出，而推理后的集成方法旨在從多個(gè)LLM生成的多個(gè)輸出中選擇最佳響應(yīng)。

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

4.1.1 推理前集成

這些方法旨在在推理前為特定示例選擇最佳的LLM。與從頭開始學(xué)習(xí)稀疏網(wǎng)絡(luò)的各種專家混合（MOE）方法（Jacobs等人，1991；Collobert等人，2003；Eigen等人，2013；Fedus等人，2022；Jiang等人，2024）不同，推理前的集成重點(diǎn)在于訓(xùn)練多個(gè)預(yù)訓(xùn)練LLMs的外部路由器（Rosenbaum等人，2017），以實(shí)現(xiàn)LLM的最優(yōu)選擇。

Shnitzer等人（2023）率先探索了使用各種基準(zhǔn)數(shù)據(jù)集學(xué)習(xí)路由器的可行性和局限性。Lu等人（2023）引入了ZOOTER，一個(gè)系統(tǒng)，首先使用獎(jiǎng)勵(lì)模型根據(jù)訓(xùn)練集計(jì)算查詢-輸出對(duì)的分?jǐn)?shù)。這些分?jǐn)?shù)隨后用于使用知識(shí)蒸餾策略訓(xùn)練路由器，使其能夠僅根據(jù)輸入查詢選擇最優(yōu)的LLM。Ding等人（2024）采用了一個(gè)路由器，根據(jù)預(yù)測(cè)的查詢難度和所需的質(zhì)量水平，將查詢分配給小型模型或LLMs，顯著降低了推理成本。Srivatsa等人（2024）研究了LLMs的分類器基和聚類基路由方法的可行性。受強(qiáng)化學(xué)習(xí)中自我博弈的啟發(fā)，Mohammadshahi等人（2024）通過循環(huán)使用自我生成的三元組（查詢，響應(yīng)，分?jǐn)?shù)）來訓(xùn)練路由器。與之前的研究不同，Lu等人（2024c）通過在對(duì)話中隨機(jī)選擇LLM來集成多個(gè)聊天LLMs，而不是學(xué)習(xí)路由器。為了有效評(píng)估路由器的能力和局限性，Hu等人（2024）提出了一個(gè)新的基準(zhǔn)ROUTERBENCH，主要關(guān)注性能和經(jīng)濟(jì)成本。

4.1.2 推理期間集成

在推理期間，LLMs以自回歸方式生成標(biāo)記。這一過程通常會(huì)導(dǎo)致早期錯(cuò)誤隨著時(shí)間的推移而累積，導(dǎo)致后續(xù)標(biāo)記偏離預(yù)期的含義（Ranzato等人，2016），從而產(chǎn)生幻覺（Zhang等人，2023a）。為了解決這個(gè)問題，一些研究在每個(gè)解碼步驟對(duì)LLMs進(jìn)行集成。Li等人（2024c）通過加權(quán)平均不可信的LLMs和一個(gè)良性的較小LLM的輸出分布，結(jié)合它們以減輕版權(quán)侵權(quán)、數(shù)據(jù)投毒和隱私違反等問題。Hoang等人（2023）通過插值機(jī)器翻譯模型和LLM的輸出分布，提高了翻譯性能。Wang等人（2024b）將專家融合問題表述為圖最短路徑問題，并提出了一種高效的融合方法。

這些方法要求在至少具有相同詞匯表的LLMs之間進(jìn)行集成，以確保輸出分布對(duì)齊并可以有效插值。然而，大多數(shù)開源LLMs是異構(gòu)的，具有不同的詞匯表，這阻礙了直接集成。

為了解決這一問題，F(xiàn)u等人（2023）采用動(dòng)態(tài)規(guī)劃遞歸最小化通過編輯一個(gè)標(biāo)記序列以匹配另一個(gè)序列的總成本，使用精確匹配得分。為了進(jìn)一步提高標(biāo)記對(duì)齊的成功率，Wan等人（2024a）將精確匹配約束替換為最小編輯距離策略。Mavromatis等人（2024）在上述標(biāo)記對(duì)齊的基礎(chǔ)上，提出使用困惑度來計(jì)算不同LLMs輸出的系數(shù)。Xu等人（2024b）、Huang等人（2024c）和Yu等人（2024）考慮使用重疊標(biāo)記作為錨點(diǎn)，將異構(gòu)LLMs產(chǎn)生的輸出分布投影到同一空間。具體而言，Xu等人（2024b）提出直接使用錨點(diǎn)作為橋梁學(xué)習(xí)不同詞匯表之間的投影矩陣，而Huang等人（2024c）和Yu等人（2024）則計(jì)算從錨點(diǎn)到不同詞匯表的相對(duì)表示，從而間接實(shí)現(xiàn)詞匯表投影。

4.1.3 推理后集成

最終的LLM集成方法在推理后結(jié)合生成的輸出。一種實(shí)現(xiàn)LLM集成的方法是構(gòu)建LLM級(jí)聯(lián)，以減少僅使用大型LLM的推理成本。Chen等人（2023d）采用按參數(shù)數(shù)量排序的LLM序列來生成輸出，一旦前面的小型LLM產(chǎn)生足夠高質(zhì)量的輸出，即停止并返回結(jié)果。Yue等人（2024）提出先驗(yàn)證小型LLM生成的答案的正確性，如果初始答案不正確，則利用LLM來解決問題。另一條研究路線集中在從多個(gè)LLM生成的多個(gè)候選中選擇最佳候選。Lee等人（2023）從LLMs生成的多個(gè)候選中選擇最佳指令，以構(gòu)建指令調(diào)整數(shù)據(jù)。Jiang等人（2023a）探索了各種無監(jiān)督指標(biāo)進(jìn)行選擇，包括BERTScore（Zhang等人，2020）、BLEURT（Sellam等人，2020）、BARTScore（Yuan等人，2021）和ChatGPT分?jǐn)?shù)。然而，他們發(fā)現(xiàn)選擇的有效性受到候選池質(zhì)量的限制。為了解決這一問題，Jiang等人（2023a）采用了一個(gè)額外的融合模型，使用排名靠前的候選作為輸入來生成最終輸出。

4.1.4 關(guān)于 LLM 集成方法的討論

上述方法側(cè)重于在推理的不同階段進(jìn)行集成，各有優(yōu)勢(shì)和劣勢(shì)。我們從推理速度、集成粒度和局限性方面進(jìn)行討論。

推理速度

幾乎所有的集成方法都會(huì)降低推理速度。推理前的集成由于涉及通過額外的路由器選擇最優(yōu)的LLM，會(huì)略微減慢過程。推理中的集成要求每個(gè)LLM對(duì)測(cè)試示例進(jìn)行前向計(jì)算。如果有k個(gè)LLMs，推理速度會(huì)降低k倍，盡管這可以通過使用k倍的GPU來緩解。推理后的集成不僅需要k倍的計(jì)算成本，還需要額外的時(shí)間進(jìn)行輸出選擇或融合（Jiang等人，2023a），導(dǎo)致推理速度最低。

集成粒度

上述集成方法在不同的粒度上操作。推理前和推理后的集成通常在示例級(jí)別工作，提供粗粒度的集成。推理中的集成在標(biāo)記級(jí)別進(jìn)行，提供細(xì)粒度的集成。由于前面的標(biāo)記會(huì)影響后面的標(biāo)記，這種細(xì)粒度的集成可以減少LLMs中的暴露偏差（Ranzato等人，2015；Xu等人，2020），從而更好地提高性能。

局限性

每個(gè)類別的集成方法都有特定的局限性，如表1所示。盡管推理前的集成速度較快，但需要額外訓(xùn)練路由器。用于路由器訓(xùn)練的數(shù)據(jù)會(huì)限制這些集成方法的泛化和性能（Shnitzer等人，2023）。推理中的集成通常受LLMs架構(gòu)異構(gòu)性的限制。例如，詞匯表的差異會(huì)導(dǎo)致輸出分布不對(duì)應(yīng)，從而阻礙直接集成（Huang等人，2024c；Yu等人，2024）。推理后的集成通常需要多個(gè)LLMs生成多個(gè)候選，構(gòu)建候選池，然后選擇或重組最終輸出。因此，候選池的準(zhǔn)確性和選擇策略是主要的局限性。

融合、集成與協(xié)作！大語言模型時(shí)代的協(xié)作策略綜述-AI.x社區(qū)

表1:不同推理階段的LLM集成方法的特性。

4.2 LLM 集成應(yīng)用

除了方法論研究外，許多研究還將LLM集成應(yīng)用于特定場(chǎng)景。這歸因于集成學(xué)習(xí)在特定任務(wù)、領(lǐng)域和強(qiáng)校準(zhǔn)方面的能力。我們根據(jù)目標(biāo)對(duì)相關(guān)研究進(jìn)行分類。

針對(duì)特定任務(wù)或領(lǐng)域的LLM集成

針對(duì)特定任務(wù)的LLM集成通常用于提高特定任務(wù)的性能。Si等人（2023）通過訓(xùn)練分類器選擇不同推理專家生成的最佳答案，提升了LLM的推理性能。Gundabathula和Kolar（2024）將LLM集成用于SQL生成。一些研究將LLM集成應(yīng)用于醫(yī)學(xué)任務(wù)。Gundabathula和Kolar（2024）采用LLM集成來增強(qiáng)臨床文本錯(cuò)誤檢測(cè)和糾正。Oniani等人（2023）和Barabucci等人（2024）分別使用多數(shù)投票和平均加權(quán)方法，選擇最常見的候選疾病。

緩解RLHF過估計(jì)的LLM集成

集成學(xué)習(xí)可以緩解LLMs的校準(zhǔn)不良和不可靠預(yù)測(cè)問題。因此，Eisenstein等人（2023）、Coste等人（2024）和Ramé等人（2024）通過集成多個(gè)獎(jiǎng)勵(lì)LLMs來緩解RLHF中的過樂觀問題?？紤]到基于LLM的獎(jiǎng)勵(lì)模型的微調(diào)計(jì)算成本較高，Zhang等人（2024c）和Zhai等人（2023）分別使用輕量級(jí)的LoRA（Hu等人，2022）來適應(yīng)LLM到多個(gè)獎(jiǎng)勵(lì)模型。Ahmed等人（2024）提出使用共享的LLM但獨(dú)立的線性層來集成獎(jiǎng)勵(lì)。這些方法成功減少了RLHF中的過估計(jì)并提高了對(duì)齊性能。

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ，作者：AIRoobt

原文鏈接：??https://mp.weixin.qq.com/s/_yVgeDKb8OutSMtlaf6HBw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

大語言模型

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

如何構(gòu)建終極的AI自動(dòng)化系統(tǒng)：多代理協(xié)作指南

ermulong ? 2958瀏覽 ? 0回復(fù)
探索LangGraph：構(gòu)建多專家協(xié)作模型

ermulong ? 3247瀏覽 ? 0回復(fù)
綜述：大語言模型在信息抽取上的應(yīng)用

xuxiangda ? 4733瀏覽 ? 0回復(fù)
大型語言模型與智能機(jī)器人集成的調(diào)查研究

AIRoobt ? 2891瀏覽 ? 0回復(fù)
大語言模型知識(shí)沖突的綜述

sbf_2000 ? 4231瀏覽 ? 0回復(fù)
一文讀懂大模型協(xié)作策略：Merge、Ensemble、Cooperate！

PaperAgent ? 4290瀏覽 ? 0回復(fù)
面向大語言模型的檢索增強(qiáng)生成(RAG)技術(shù)：綜述

angel ? 4701瀏覽 ? 0回復(fù)
多模型協(xié)作增強(qiáng)模型推理能力

AIRoobt ? 2924瀏覽 ? 0回復(fù)
AI界的"小而美"：Mistral AI的最新力作如何重新定義邊緣計(jì)算 | 多智能體協(xié)作讓大語言模型訓(xùn)練效率暴增

sbf_2000 ? 2167瀏覽 ? 0回復(fù)
智能體協(xié)作進(jìn)化論，從心智理論到逆向注意力

xuxiangda ? 2115瀏覽 ? 0回復(fù)
探秘 OpenAI Swarm：重塑 AI 代理協(xié)作新模式

51CTO內(nèi)容精選 ? 2782瀏覽 ? 0回復(fù)
將大語言模型集成到現(xiàn)有軟件系統(tǒng)的完整指南

51CTO內(nèi)容精選 ? 2687瀏覽 ? 0回復(fù)
LLM解決時(shí)間序列問題之語言模型+時(shí)序模型的對(duì)齊與融合建模

海因斯DK ? 3086瀏覽 ? 0回復(fù)
破解LoRA融合密碼！無需訓(xùn)練奪得SOTA！K-LoRA巧用Top-K策略，讓風(fēng)格與主體完美融合

angel ? 1792瀏覽 ? 0回復(fù)
Finarena：基于大模型智能體的金融市場(chǎng)分析和預(yù)測(cè)人機(jī)協(xié)作框架

靈度智能 ? 1798瀏覽 ? 0回復(fù)
多智能體系統(tǒng)（MAS）：如何讓AI團(tuán)隊(duì)協(xié)作解決復(fù)雜問題？

Halo咯咯 ? 2077瀏覽 ? 0回復(fù)
融合語言模型的多模態(tài)大模型研究

zhcs333 ? 1542瀏覽 ? 0回復(fù)
大語言模型增強(qiáng)的文本到 SQL 生成：綜述

AIGC前沿技術(shù)追蹤 ? 1192瀏覽 ? 0回復(fù)
Agent2Agent對(duì)比MCP，高效實(shí)現(xiàn)協(xié)作式AI

小虎哦哦 ? 624瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ChatDiT：一個(gè)用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴(kuò)散變換器 1天前發(fā)布
大型語言模型容易被無關(guān)上下文分散注意力(ICLM) 1天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：視覺自回歸建模（VAR）：通過下一尺度預(yù)測(cè)實(shí)現(xiàn)可擴(kuò)展的圖像生成（NIPS2024best)

下一篇： EarthMarker：首個(gè)視覺提示遙感多模態(tài)大模型

社區(qū)精華內(nèi)容

目錄

<sub id="fqbbt"><p id="fqbbt"></p></sub>

<strong id="fqbbt"></strong>

<var id="fqbbt"><button id="fqbbt"><form id="fqbbt"></form></button></var>

<style id="fqbbt"></style><thead id="fqbbt"></thead>