11個(gè)LLM一起上，性能爆炸提升！AI2聯(lián)合USC開源LLM-Blender集成學(xué)習(xí)框架：先排序再融合

作者：新智元 2023-06-25 13:37:09

11個(gè)LLM臭皮匠，能不能比得上GPT-4？

隨著Alpaca, Vicuna, Baize, Koala等諸多大型語言模型的問世，研究人員發(fā)現(xiàn)雖然一些模型比如Vicuna的整體的平均表現(xiàn)最優(yōu)，但是針對每個(gè)單獨(dú)的輸入，其最優(yōu)模型的分布實(shí)際上是非常分散的，比如最好的Vicuna也只在20%的任務(wù)里比其他模型有優(yōu)勢。

有沒有可能通過集成學(xué)習(xí)來綜合諸多開源的「弱」LLM的能力，來使得他們整體成為一個(gè)「強(qiáng)」LLM呢？

AI2，USC，和浙大的研究員由此提出了一個(gè)集成學(xué)習(xí)框架，LLM-Blender，它通過排序和融合來對各個(gè)LLM的輸出進(jìn)行集成，從而達(dá)到了較為穩(wěn)定的提升。

論文鏈接：https://arxiv.org/abs/2306.02561

代碼鏈接：https://github.com/yuchenlin/LLM-Blender

對于同一條指令來自不同LLMs的回答，LLM-Blender框架可以有效選擇出其中質(zhì)量更高的回答，再基于這些回答融合生成一個(gè)新的質(zhì)量更高的回答。

為了促進(jìn)集成學(xué)習(xí)在LLM社區(qū)的發(fā)展和測試LLM-Blender的能力，論文作者們構(gòu)建了一個(gè)新的指令數(shù)據(jù)集MixInstrcut。

數(shù)據(jù)采樣于Aplapa-GPT-4, Laion, ShareGPT等流行的指令數(shù)據(jù)集。對于每個(gè)指令，MixInstruct還包括了11個(gè)包括Vicuna, Baize, Open Asssistant等當(dāng)前流行的開源大型語言模型的回答。

論文的進(jìn)行了一系列實(shí)驗(yàn)評估了不同LLMs在MixInstruct數(shù)據(jù)集上的差異性，并測試了LLM-Blender在集成多個(gè)LLMs回答的能力。

實(shí)驗(yàn)證明了LLM-Blender集成得到的回答在所有LLM回答中平均排名為3.01，其中68.59%都排名在前三，這遠(yuǎn)超平均排名最好為3.90的單個(gè)模型Open Assistant，以及Vicuna（只有有52.88%的回答被排到前三）。

主要貢獻(xiàn)

1. 提出了一個(gè)新的針對大型語言模型的集成學(xué)習(xí)框架LLM-Blender，用于對多個(gè)LLMs的回答進(jìn)行排序與融合。LLM-Blender由兩個(gè)簡單有效的模塊PairRanker與GenFuser組成。

2. 一個(gè)新的指令數(shù)據(jù)集MixInstruct。其中的每一條指令都包含了來自Vicuna等數(shù)十個(gè)當(dāng)前流行的開源LLMs的回答，用來訓(xùn)練與評估集成學(xué)習(xí)框架LLM-Blender。

3. 首次證明了集成學(xué)習(xí)在LLM社區(qū)的顯著效果與其應(yīng)用價(jià)值。

4. 開源LLM-Blender工具包，方便LLM社區(qū)研究人員使用與進(jìn)一步研究。

大型語言模型的集成學(xué)習(xí)

LLM-Blender: 排序+融合

LLM-Blender主要包含兩個(gè)模塊，PairRanker和GenFuser，分別對應(yīng)框架運(yùn)行的兩個(gè)階段：排序（Rank）與融合（Fuse）。

在排序階段，論文首先通過PairRanker對不同的LLMs回答進(jìn)行成對比較，得到這些回答的排名。

在融合階段，論文選擇其中的排名中的前k（如k=3）個(gè)回答，將其于原指令一起打包送到GenFuser模塊作為輸入，再重新生成一個(gè)融合回答。

對于第一個(gè)模塊PairRanker，論文認(rèn)為基于雙向注意力的成對比較在候選回答較為相似的情況下十分重要。

以往的排序模型均采用將源文本和單個(gè)候選序列連接編碼，并在推導(dǎo)時(shí)直接輸出一個(gè)絕對分?jǐn)?shù)作為對候選序列排序的依據(jù)。

而LLM-Blender的第一個(gè)模塊PairRanker將源文本與一組（兩個(gè)）候選序列同時(shí)連接進(jìn)行編碼，利用雙向注意力來提高排序模型的表現(xiàn)，作者認(rèn)為這種方法可以更好的捕捉不同候選回答之間的微小差異，從而提高比較的正確率。

此外，與傳統(tǒng)的成對排序方法僅僅在訓(xùn)練過程中采用成對比較的損失函數(shù)不同的是，PairRanker在推導(dǎo)過程中同樣采用成對比較。

論文提出了三種簡單的聚合方法，MaxLogits, MaxWins, 與Bubble Sort來完成從比較矩陣到單個(gè)候選序列分?jǐn)?shù)的計(jì)算，這三種方法在后續(xù)實(shí)驗(yàn)中均被證明有效。其中MaxLogits效果最好。

與現(xiàn)有的部分文本融合方法不同，GenFuser并未直接將所有候選序列（即數(shù)十個(gè)LLMs的回答）作為一起送入這一模塊，而是在PairRanker的排序結(jié)果上選擇最好的前k個(gè)，與源文本一起送入GenFuser進(jìn)行融合。

這是因?yàn)檎撐恼J(rèn)為部分未經(jīng)篩選的低質(zhì)量的候選序列可能會影響GenFuser模塊的融合質(zhì)量。

MixInstruct: 新的LLMs集成學(xué)習(xí)基準(zhǔn)

為了更好地評估LLM-Blender地能力，論文構(gòu)建了MixInstruct數(shù)據(jù)集。指令來源包括Alpaca-GPT4 等四種流行的大型指令數(shù)據(jù)集，標(biāo)準(zhǔn)回答來源于GPT-4, ChatGPT和人類標(biāo)注。

其中每一條指令都包含Vicuna等數(shù)十個(gè)當(dāng)前流行的大型語言模型的回答。

論文還使用ChatGPT對在測試集（5K）這些回答進(jìn)行成對比較，并統(tǒng)計(jì)每個(gè)回答在比較中獲勝的次數(shù)，將不同LLMs獲勝次數(shù)排名第一的比例在圖中進(jìn)行了總結(jié)。可以明顯看到不同LLM回答的質(zhì)量各有千秋，并非一家獨(dú)大。

此結(jié)果證明了不同LLMs之間能力的多樣性，而這也正是集成學(xué)習(xí)框架LLM-Blender能夠成功的原因之一。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

論文實(shí)驗(yàn)中，LLM-Blender的兩個(gè)模塊PairRanker與GenFuser分別采用Deberta-v3-Large（400m）和Flan-T5-XL（3b）作為各自的骨架模型（backbone）。兩個(gè)模型均在MixInstruct大小為100k的訓(xùn)練集上進(jìn)行訓(xùn)練（更多細(xì)節(jié)見論文）。

為了更好地評估不同各種生成模型在MixInstruct上的能力，論文不僅采用了一些傳統(tǒng)自動度量指標(biāo)BERTScore, BLEURT和BARTScore, 并將ChatGPT的比較結(jié)果按照比較中獲勝的次數(shù)歸并為整體排名值（GPT-Rank）。

由于Vicuna與Open Assistant在LLM社區(qū)的顯著表現(xiàn)，論文還特別將所有模型的結(jié)果與這兩個(gè)模型進(jìn)行了比較，給出了對應(yīng)的獲勝比例。此外，實(shí)驗(yàn)還統(tǒng)計(jì)了不同模型在與其他所有模型比較的過程中被排名為前3的比例（Top-3）。

LLMs：各有千秋

在這些模型中，Open Assistant、Vicuna和Alpaca是表現(xiàn)最好的三個(gè)模型，繼它們之后，Baize、Moss和ChatGLM也在MixInstruction上表現(xiàn)出色。

而Mosaic MPT、StableLM和Flan-T5在評估中排名較為靠后。盡管如此，他們的GPT-Rank也并非一個(gè)接近最低排名（11）的數(shù)字，再次說明每個(gè)LLM的回答都有他們自己的優(yōu)勢。

此外，同樣可以注意的是，盡管Open Assistant和Vicuna綜合表現(xiàn)最為出色，在其他模型與這兩個(gè)模型的比較中，仍舊有部分比例的回答被認(rèn)為要優(yōu)于他們。

Rankers：PairRanker優(yōu)勢明顯

而在諸多排序模型的比較中，PairRanker作為成對比較的排序模型，表現(xiàn)明顯要優(yōu)于SummaReranker和SimCLS等非成對比較的模型。

尤其在GPT-Rank，BARTScore，BLEURT和Top-3的比例上，PairRanker取得了所有排序模型中最好的效果，并且要優(yōu)于任意一個(gè)LLM。

除了對排序模型得到的Top-1選擇進(jìn)行分析外，論文還對排序模型的整體排序質(zhì)量通過Pearson相關(guān)系數(shù)，Spearman相關(guān)系數(shù)和Searman’s Footrule距離進(jìn)行了評估。

正如表中所示，在所有的自動度量指標(biāo)的排序中，BartScore的排序結(jié)果與GPT-Rank相關(guān)性最高。而PairRanker的排序結(jié)果在所有排序模型中取得的相關(guān)性最高，甚至超過BARTScore。

GenFuser進(jìn)一步提高PairRanker效果

論文最后比較了整個(gè)LLM-Blender框架生成的回答的質(zhì)量。LLM-Blender將PairRanker排序得到的前3個(gè)回答送入到GenFuser中進(jìn)行融合生成。

最終發(fā)現(xiàn)，融合生成的回答不僅在三個(gè)自動度量指標(biāo)BARTScore等上取得了巨大的提升，還在GPT-Rank和Top-3比例上取得了最佳的結(jié)果，LLM-Blender在實(shí)驗(yàn)的評估中展現(xiàn)了預(yù)期中的卓越性能。

結(jié)語

LLM-Blender是一個(gè)簡單的集成學(xué)習(xí)框架，適用于任何LLMs和任務(wù)。它通過學(xué)習(xí)通過成對比較的方式來排序每個(gè)回答的質(zhì)量，再通過融合生成的方式來決定最后的輸出。在MixInstruct的測試集上取得了最優(yōu)的效果。

作者簡介

Dongfu Jiang 姜東甫, 本科畢業(yè)于浙江大學(xué)[1] 計(jì)算機(jī)學(xué)院，南加州大學(xué)INK Research Lab科研實(shí)習(xí)生，將前往加拿大滑鐵盧大學(xué)攻讀計(jì)算機(jī)科學(xué)博士學(xué)位。他在本科期間曾獲國家獎學(xué)金等榮譽(yù)。

Xiang Ren 任翔（USC）南加州大學(xué)副教授，領(lǐng)導(dǎo)INK Research Lab。曾獲得Forbes' Asia 30 Under 30，NAACL Outstanding Paper Award 2022，Google Research Scholar, 2022，F(xiàn)acebook Sponsored Research Award, 2021，NSF CAREER Award, 2021等榮譽(yù)。

Yuchen Lin 林禹臣（AI2）現(xiàn)任Allen Institute for AI（AI2）研究員。他本科畢業(yè)于上海交通大學(xué)IEEE試點(diǎn)班（2018），博士畢業(yè)于USC南加州大學(xué) （2022）。曾獲得WWW 2020 Best Paper Runner-Up，TrustNLP Best Paper Award。他多次擔(dān)任NLP和ML領(lǐng)域頂級會議審稿人，Area Chair （ACL2023; EMNLP 2023），多次參與組織workshop和tutorials。他目前的研究興趣在將大語言模型的分析和增強(qiáng)，以及如何利用常識知識構(gòu)建通用的智能體。

責(zé)任編輯：張燕妮來源：新智元