LLM-Blender:大語(yǔ)言模型也可以進(jìn)行集成學(xué)習(xí)
最近在看arxiv的時(shí)候發(fā)現(xiàn)了一個(gè)有意思的框架:LLM-Blender,它可以使用Ensemble 的方法來(lái)對(duì)大語(yǔ)言模型進(jìn)行集成。
官方介紹如下:LLM-Blender是一個(gè)集成框架,可以通過(guò)利用多個(gè)開(kāi)源大型語(yǔ)言模型(llm)的不同優(yōu)勢(shì)來(lái)獲得始終如一的卓越性能。
LLM集成
我們都知道集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,旨在提高預(yù)測(cè)模型的性能和魯棒性。它通過(guò)將多個(gè)不同的學(xué)習(xí)器(如決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等)結(jié)合成一個(gè)整體,來(lái)取得比單個(gè)學(xué)習(xí)器更好的預(yù)測(cè)效果。比如最常見(jiàn)的Kaggle比賽中就廣泛的使用了這種方法。
那么大語(yǔ)言模型有必要進(jìn)行集成嗎
論文給出了以下觀點(diǎn):
由于數(shù)據(jù)、架構(gòu)和超參數(shù)的變化,LLM表現(xiàn)出不同的優(yōu)勢(shì)和劣勢(shì),使它們互補(bǔ)。并且目前不存在一個(gè)開(kāi)源LLM在所有例子中都占主導(dǎo)地位。可以集成LLM的輸出(基于輸入、任務(wù)和領(lǐng)域),以便在不同的示例中提供一致的卓越性能。結(jié)合他們獨(dú)特的貢獻(xiàn);可以減輕個(gè)別LLM的偏差、誤差和不確定性,從而使產(chǎn)出與人類(lèi)偏好保持一致。
LLM-Blender
所以論文就給出了一個(gè)框架LLM-Blender
LLM-Blender有兩個(gè)模塊:PairRanker和GenFuser。PairRanker比較多個(gè)模型的輸出,給出排名最高的輸出。然后GenFuser將前幾個(gè)排名靠前的輸出融合在一起,生成最終輸出。
1、PairRanker是如何工作的
PairRanker模塊用于有效地識(shí)別候選模型輸出之間的細(xì)微差異,并根據(jù)它們的質(zhì)量對(duì)它們進(jìn)行排名。收集N個(gè)模型的輸出,并以總共N(N-1)/2種方式進(jìn)行配對(duì)(從總共N個(gè)項(xiàng)目中選擇2個(gè)項(xiàng)目的組合次數(shù))。然后根據(jù)以下條件對(duì)結(jié)果進(jìn)行評(píng)估:給定輸入提示,哪個(gè)候選人的輸出更好。
在推理過(guò)程中,計(jì)算一個(gè)包含表示兩兩比較結(jié)果的對(duì)數(shù)的矩陣。給定該矩陣確定并選擇排名前k的輸出用于GenFuser模塊。
2、GenFuser是如何工作的
GenFuser模塊使用PairRanker模塊排名靠前的輸出,為最終用戶(hù)生成潛在的改進(jìn)輸出。該模塊融合了排名前n位的結(jié)果中的前K位,并產(chǎn)生了改進(jìn)的輸出,利用他們的優(yōu)勢(shì)和減輕他們的弱點(diǎn)。
基準(zhǔn)測(cè)試
論文介紹了一個(gè)名為mixdirective的新數(shù)據(jù)集,用于對(duì)llm在指令跟隨任務(wù)中的集成模型進(jìn)行基準(zhǔn)測(cè)試。該數(shù)據(jù)集擁有來(lái)自Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION和ShareGPT的大規(guī)模指令示例集。有10萬(wàn)例用于訓(xùn)練,5萬(wàn)例用于驗(yàn)證,5萬(wàn)例用于測(cè)試。
使用N = 11個(gè)流行的開(kāi)源LLM進(jìn)行測(cè)試。候選的輸出使用ChatGPT對(duì)所有候選對(duì)進(jìn)行評(píng)估。對(duì)于每一對(duì),ChatGPT被要求判斷那個(gè)是更好的。
可以看到各個(gè)LLM有不同的優(yōu)勢(shì)和劣勢(shì)。頂尖的LLM在測(cè)試中并不總是最優(yōu)的。PairRanker優(yōu)于其他LLM。LLM-Blender組合比其他任何單個(gè)模型更好。
限制
最主要的還是效率,因?yàn)閷?duì)PairRanker中top-K輸出進(jìn)行排序的過(guò)程需要調(diào)用模型O(n2)次才能獲得最佳性能。解決這個(gè)問(wèn)題的一種方法是使用多輪氣泡排序方法來(lái)減少所需的推斷數(shù)量。另一種提高時(shí)間效率的方法是并行執(zhí)行PairRanker的推理,因?yàn)樗鼈兪仟?dú)立的,也就是多個(gè)模型同時(shí)推理。
目前論文使用的是在ChatGPT幫助下的自動(dòng)評(píng)估。雖然自動(dòng)評(píng)估是一個(gè)很好的選擇,但人工評(píng)價(jià)可以提供更可靠、更全面的評(píng)價(jià)結(jié)果。