自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="wlm6c"></legend>

<style id="wlm6c"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLama+Mistral+…+Yi=? 免訓(xùn)練異構(gòu)大模型集成學(xué)習(xí)框架DeePEn來了

作者：機器之心 2024-07-19 12:48:29

人工智能新聞

近期，哈工大和鵬城實驗室的研究人員提出了「Training-free 的異構(gòu)大模型集成學(xué)習(xí)框架」DeePEn。

本文的主要作者為黃毅翀。黃毅翀是哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心博士生，鵬城實驗室實習(xí)生，師從秦兵教授和馮驍騁教授。研究方向包括大語言模型集成學(xué)習(xí)、多語言大模型，相關(guān)論文發(fā)表于自然語言處理頂級會議 ACL、EMNLP、COLING。

隨著大語言模型展現(xiàn)出驚人的語言智能，各大 AI 公司紛紛推出自己的大模型。這些大模型通常在不同領(lǐng)域和任務(wù)上各有所長，如何將它們集成起來以挖掘其互補潛力，成為了 AI 研究的前沿課題。

近期，哈工大和鵬城實驗室的研究人員提出了「Training-free 的異構(gòu)大模型集成學(xué)習(xí)框架」DeePEn。

不同于以往方法訓(xùn)練外部模塊來篩選、融合多個模型生成的回復(fù)，DeePEn 在解碼過程中融合多個模型輸出的概率分布，聯(lián)合決定每一步的輸出 token。相較而言，該方法不僅能快速應(yīng)用于任何模型組合，還允許被集成模型訪問彼此的內(nèi)部表示（概率分布），實現(xiàn)更深層次的模型協(xié)作。

結(jié)果表明， DeePEn 在多個公開數(shù)據(jù)集上均能取得顯著提升，有效擴展大模型性能邊界：

目前論文及代碼均已公開：

論文標(biāo)題：Ensemble Learning for Heterogeneous LargeLanguage Models with Deep Parallel Collaboration
論文地址：https://arxiv.org/abs/2404.12715
代碼地址：https://github.com/OrangeInSouth/DeePEn

方法介紹

異構(gòu)大模型集成的核心難點在于如何解決模型間的詞表差異問題。為此，DeePEn 基于相對表示理論，構(gòu)建由多個模型詞表之間的共享 token 構(gòu)成的統(tǒng)一相對表示空間。在解碼階段，DeePEn 將不同大模型輸出的概率分布映射到該空間進(jìn)行融合。全程無需參數(shù)訓(xùn)練。

下圖中展示了 DeePEn 的方法。給定 N 個模型進(jìn)行集成，DeePEn 首先構(gòu)建它們的轉(zhuǎn)換矩陣（即相對表示矩陣），將來自多個異構(gòu)絕對空間的概率分布映射到統(tǒng)一的相對空間中。在每個解碼步驟中，所有模型進(jìn)行前向計算并輸出 N 個概率分布。這些分布被映射到相對空間并進(jìn)行聚合。最后，聚合結(jié)果被轉(zhuǎn)換回某個模型（主模型）的絕對空間，以確定下一個 token。

圖 1：方法示意圖。其中，相對表示轉(zhuǎn)換矩陣是通過計算詞表中每個 token 與模型間共享的錨點 token 之間的詞嵌入相似度得到的。

構(gòu)建相對表示轉(zhuǎn)換

給定 N 個要集成的模型，DeePEn 首先找出所有模型詞表的交集，即共享詞集，并從中抽取一個子集 A?C 或使用全部共享詞作為錨點詞集合 A=C。

對于每個模型，DeePEn 計算詞表中每個 token 與錨點 token 的嵌入相似度，得到相對表示矩陣。最后，為了克服離群詞的相對表示退化問題，論文作者對相對表示矩陣進(jìn)行行歸一化，通過對矩陣的每一行進(jìn)行 softmax 操作，得到歸一化相對表示矩陣。

相對表示融合

在每個解碼步驟中，一旦模型輸出概率分布，DeePEn 使用歸一化相對表示矩陣將轉(zhuǎn)換為相對表示：

并將所有相對表示進(jìn)行加權(quán)平均以獲得聚合的相對表示：

其中是模型的協(xié)作權(quán)重。作者嘗試了兩種確定協(xié)作權(quán)重值的方法：(1) DeePEn-Avg，對所有模型使用相同的權(quán)重；(2) DeePEn-Adapt，根據(jù)各個模型的驗證集性能成比例地為每個模型設(shè)置權(quán)重。

相對表示逆映射

為了根據(jù)聚合的相對表示決定下一個 token，DeePEn 將其從相對空間轉(zhuǎn)換回主模型（開發(fā)集上性能最好的模型）的絕對空間。為了實現(xiàn)這種逆轉(zhuǎn)換，DeePEn 采用了基于搜索的策略，找出相對表示與聚合后的相對表示相同的絕對表示：

其中表示模型的絕對空間，是衡量相對表示之間距離的損失函數(shù)（KL 散度）。

DeePEn 利用損失函數(shù)相對于絕對表示的梯度來指導(dǎo)搜索過程，并迭代地進(jìn)行搜索。具體來說，DeePEn 將搜索的起始點初始化為主模型的原始絕對表示，并進(jìn)行更新：

其中 η 是稱為相對集成學(xué)習(xí)率的超參數(shù)，T 是搜索迭代步數(shù)。

最后，使用更新后的絕對表示來確定下一步輸出的 token。

實驗

表 1：主實驗結(jié)果。第一部分為單模型的性能，第二部分為分別對每個數(shù)據(jù)集上的 top-2 模型進(jìn)行集成學(xué)習(xí)，第三部分為 top-4 模型集成。

通過實驗，論文作者得出了以下結(jié)論：

(1) 大模型在不同任務(wù)上各有所長。如表 1 所示，不同大模型在不同數(shù)據(jù)集上的表現(xiàn)存在顯著差異。例如 LLaMA2-13B 在知識問答 TriviaQA 和 NQ 數(shù)據(jù)集上取得了最高的結(jié)果，但是其他四個任務(wù)上的排名并未進(jìn)入前四。

(2) 分布融合在各個數(shù)據(jù)集上取得了一致性的提升。如表 1 所示，DeePEn-Avg 和 DeePEn-Adapt 在所有數(shù)據(jù)集上均取得了性能提升。在 GSM8K 上，通過與投票法組合使用，最終取得了 + 11.35 的性能提升。

表 2：不同模型數(shù)量下的集成學(xué)習(xí)性能。

(3) 隨著集成模型數(shù)量的增加，集成性能先增后減。作者在根據(jù)模型性能由高到低，依次將模型加入集成，然后觀察性能變化。如表 2 所示，不斷引入性能較差的模型，集成性能先增后減。

表 3：在多語言機器翻譯數(shù)據(jù)集 Flores 上，大模型與翻譯專家模型之間的集成學(xué)習(xí)。

(4) 集成大模型與專家模型有效提升特定任務(wù)性能。作者還在機器翻譯任務(wù)上對大模型 LLaMA2-13B 和多語言翻譯模型 NLLB 進(jìn)行集成。如表 3 所示，通用大模型與任務(wù)特定的專家模型之間的集成，可以顯著提升性能。

結(jié)論

當(dāng)前的大模型層出不窮，但很難有一個模型能在所有任務(wù)上全面碾壓其他模型。因此，如何利用不同模型之間的互補優(yōu)勢，成為一個重要的研究方向。本文介紹的 DeePEn 框架，解決了不同大模型在分布融合時的詞表差異問題，且無需任何參數(shù)訓(xùn)練。大量實驗表明，DeePEn 在不同任務(wù)、不同模型數(shù)量及不同模型架構(gòu)的集成學(xué)習(xí)設(shè)置中，均取得了穩(wěn)定的性能提升。

責(zé)任編輯：張燕妮來源：機器之心

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="qv7gk"></abbr>

<table id="qv7gk"><strong id="qv7gk"></strong></table>