利用公開知識定向提升大模型,騰訊優(yōu)圖&上交大提出新方法,性能達(dá)SOTA
告別傳統(tǒng)指令微調(diào),大模型特定任務(wù)性能提升有新方法了。
一種新型開源增強(qiáng)知識框架,可以從公開數(shù)據(jù)中自動提取相關(guān)知識,針對性提升任務(wù)性能。
與基線和SOTA方法對比,本文方法在各項(xiàng)任務(wù)上均取得了更好的性能。
該方法由上海交通大學(xué)和騰訊優(yōu)圖實(shí)驗(yàn)室共同提出。
研究背景
近年來,LLMs 在眾多任務(wù)和領(lǐng)域取得了顯著發(fā)展,但為了在實(shí)際業(yè)務(wù)場景發(fā)揮模型的專業(yè)能力,通常需要在領(lǐng)域特定或任務(wù)特定的數(shù)據(jù)上進(jìn)行指令微調(diào)。傳統(tǒng)的指令微調(diào)往往需要大量的有標(biāo)注數(shù)據(jù)和計(jì)算資源,對于實(shí)際業(yè)務(wù)場景這是很難獲得的。
另一方面,開源社區(qū)提供了大量的微調(diào)模型和指令數(shù)據(jù)集。這些開源知識的存在使得在特定任務(wù)上LLM在特定領(lǐng)域上的適配和應(yīng)用成為了可能。但是,使用開源的各類SFT模型以及任務(wù)相關(guān)的數(shù)據(jù)集時,仍有以下關(guān)鍵問題需要解決:
- 少量有標(biāo)注樣本場景下,直接對模型微調(diào)或進(jìn)行in-context-learning的效果往往不能滿足需求,如何利用這些少量的樣本和海量的外部知識(開源世界的模型,數(shù)據(jù))對目前已有的知識進(jìn)行補(bǔ)充,提升模型的任務(wù)能力和泛化性能?
- 開源社區(qū)中有大量微調(diào)且對齊的模型和指令數(shù)據(jù)集,可作為提升 LLMs 特定任務(wù)專業(yè)能力的良好起點(diǎn),如何在可能存在知識沖突的情況下,合理融合這些外部知識?現(xiàn)有工作往往聚焦于對已有模型組合方法的設(shè)計(jì),無法最大化利用多個模型的知識儲備。
- 在開源模型的評價上,現(xiàn)有工作僅僅從單一角度(如測試集上嚴(yán)格答案匹配的準(zhǔn)確率)進(jìn)行性能評估,而忽視了這可能帶來的偏差。同時在開源數(shù)據(jù)的評價上,現(xiàn)有方案通常從通用數(shù)據(jù)的質(zhì)量、復(fù)雜度等評估角度出發(fā),沒有結(jié)合任務(wù)導(dǎo)向性來實(shí)現(xiàn)數(shù)據(jù)精選。
針對以上關(guān)鍵問題,研究團(tuán)隊(duì)提出了一種切合業(yè)務(wù)實(shí)際的全新實(shí)驗(yàn)設(shè)置:K-shot有標(biāo)簽真實(shí)業(yè)務(wù)數(shù)據(jù)下的開源知識增強(qiáng)框架。在這樣的框架下,充分利用K-shot樣本來實(shí)現(xiàn)LLM的定向任務(wù)增強(qiáng)。
具體地,團(tuán)隊(duì)設(shè)計(jì)了一套可輕松尺度拓展的LLM知識增強(qiáng)管線,并且充分發(fā)揮少量的K-shot樣本在開源模型、開源數(shù)據(jù)篩選上的指導(dǎo)作用。在方案設(shè)計(jì)上,主要面臨了以下挑戰(zhàn):
挑戰(zhàn)1: 對于給定的感興趣任務(wù),如何充分利用有限的 K-shot 數(shù)據(jù),以高效地確定具有最大潛力的模型。
挑戰(zhàn)2: 如何從開源數(shù)據(jù)集中識別與 K-shot 任務(wù)相關(guān)性最強(qiáng)的一批指令數(shù)據(jù),以便為 LLMs 注入、補(bǔ)充缺失的領(lǐng)域知識,同時避免過擬合現(xiàn)象。
挑戰(zhàn)3: 當(dāng)多個 LLMs 均在任務(wù)上表現(xiàn)出有效性時,如何構(gòu)建一個自適應(yīng)的模型融合系統(tǒng),以更好地利用這些模型之間互補(bǔ)的知識,從而提高它們在 K-shot 任務(wù)中的協(xié)同性能并展現(xiàn)出比單模型更優(yōu)的效果。
本文貢獻(xiàn)
本研究提出了一種結(jié)合公開可用模型和數(shù)據(jù)集,針對特定任務(wù)提升大型語言模型性能的方法全流程。主要貢獻(xiàn)包括:
- 提出了一種高效篩選具有最大潛力的模型的方法,綜合推理困惑度,模型表現(xiàn)和模型間知識豐富度進(jìn)行模型篩選,在有限的 K-shot 數(shù)據(jù)條件下,能夠充分發(fā)揮已有模型的性能。
- 設(shè)計(jì)了一種從開源數(shù)據(jù)集中提取與感興趣任務(wù)或領(lǐng)域相關(guān)知識的方法,通過相似性-多樣性的數(shù)據(jù)篩選策略,為 LLMs 提供補(bǔ)充信息,降低過擬合的風(fēng)險。
- 通過混合專家模型結(jié)構(gòu)構(gòu)建了一種自適應(yīng)的模型融合系統(tǒng),能夠在多個潛在有效的 LLMs 之間實(shí)現(xiàn)知識互補(bǔ)和協(xié)同優(yōu)化,從而在感興趣任務(wù)上取得更好的性能。
前提儲備:
LoRA Bank Construction:從 Huggingface 選擇 38 個具有代表性且廣泛使用的指令數(shù)據(jù)集,對每個數(shù)據(jù)集進(jìn)行預(yù)處理和 LoRA 微調(diào)來構(gòu)建 LoRA Bank。LoRA Bank的引入為特定任務(wù)提供了可選擇的預(yù)訓(xùn)練模型集合,并保證了實(shí)驗(yàn)的可重復(fù)性以及對比的公平性。
核心方法:
1、K-shot Guided Expert Model Selection:提出一種專家模型選擇方法,綜合考慮模型的推理困惑度、在K-shot數(shù)據(jù)上的性能表現(xiàn)以及模型多樣性來篩選最有潛力的模型組。
團(tuán)隊(duì)發(fā)現(xiàn),僅僅從推理結(jié)果的性能評估(通常用后處理+Exact Match等手段來計(jì)算)不能很好地預(yù)測得到模型在特定任務(wù)上的表現(xiàn)。這是因?yàn)槟P洼敵龅拇鸢缚赡軣o法被完全后處理解析,導(dǎo)致模型被低估。
團(tuán)隊(duì)發(fā)現(xiàn)通過答案的推理困惑度可以判斷模型對某一個領(lǐng)域的理解能力,因此綜合考慮了這兩種手段。
如下圖,部分直接推理指標(biāo)高的模型在微調(diào)后表現(xiàn)可能低于原先推理指標(biāo)低的模型,但推理困惑度低的模型的微調(diào)后的性能會比原先困惑度高的模型更強(qiáng)。
此外,還對模型組的組多樣性進(jìn)行了評估,即不同模型的知識的差異性要盡量大,這對于混合專家系統(tǒng)的訓(xùn)練效果有較大提升。
2、Mixture-of-Experts Initialization:使用混合專家模型結(jié)構(gòu)來利用合理利用 LoRA Bank,用模型篩選步驟中得到的模型做MoE模型的初始化,并訓(xùn)練Router使模型能夠自動將不同的 token 分配給合適的專家,從而促進(jìn)不同專家之間的協(xié)同合作。
3、K-shot Guided Sim-Div Data Selection:提出一種相似性優(yōu)先和多樣性感知的數(shù)據(jù)選擇策略,通過對原始指令文本進(jìn)行embedding計(jì)算,計(jì)算開源數(shù)據(jù)和K-shot數(shù)據(jù)相似度,選擇與K-shot數(shù)據(jù)最相似的數(shù)據(jù)子集,并通過語義層面上的相似度去重來去除重復(fù)度過高的數(shù)據(jù),保證數(shù)據(jù)的多樣性。
數(shù)據(jù)相似度-多樣性的平衡是篩選過程中著重考慮的點(diǎn),相似的數(shù)據(jù)能保證和當(dāng)前任務(wù)的強(qiáng)相關(guān)性,多樣性的引入能保持?jǐn)?shù)據(jù)整體的豐富度和信息充分性,防止模型過擬合的情況的出現(xiàn)。
4、Mixture-of-Experts Fine-Tuning:結(jié)合增強(qiáng)數(shù)據(jù)集和K-shot數(shù)據(jù)集來優(yōu)化 MoE 系統(tǒng)的Router權(quán)重和專家權(quán)重,使用交叉熵?fù)p失來監(jiān)督語言建模的輸出。
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集:使用六個開源數(shù)據(jù)集(ARC-Challenge、ARC-Easy、PiQA、BoolQ、MBPP 和 GSM8K)作為評估集,從每個數(shù)據(jù)集的官方訓(xùn)練集中隨機(jī)采樣K條有標(biāo)注的指令-響應(yīng)對作為 K–shot數(shù)據(jù)。
基線:與五種基線方法(基礎(chǔ)模型、隨機(jī)選擇模型、基于整個訓(xùn)練集微調(diào)的模型、在測試集上表現(xiàn)最佳的專家模型、對最佳專家進(jìn)行微調(diào)的模型)以及其他 SOTA 方法進(jìn)行比較。
實(shí)驗(yàn)結(jié)果與分析
1、與基線和 SOTA 方法對比,本文方法在各項(xiàng)任務(wù)上均取得了更好的性能。
2、通過可視化專家的激活模式,發(fā)現(xiàn) MoE 系統(tǒng)沒有等效地坍縮為單個模型,每個專家都對整體有貢獻(xiàn)。
3、在模型選擇的消融研究中,綜合考慮評測性能、推理困惑度和模型多樣性來選擇有潛力的模型優(yōu)于單一依賴 K - shot 性能或推理困惑度的方法,且推理困惑度比普通困惑度在模型選擇中更有效。
4、在數(shù)據(jù)選擇的消融研究中,基于相似性優(yōu)先和多樣性感知的數(shù)據(jù)選擇策略進(jìn)一步提高了 MoE 系統(tǒng)的性能,同時發(fā)現(xiàn)增加數(shù)據(jù)量時性能先上升后下降,多樣性在平衡分布和緩解過擬合方面起著重要作用,不同的相似性采樣技術(shù)對性能也有影響。
5、在對 K、N 和 k 的消融研究中,發(fā)現(xiàn)增加僅僅需要K=5,即5條有標(biāo)注樣本在感興趣任務(wù)上的就可以取得不錯的效果。
專家候選者之間的差異對于維持任務(wù)導(dǎo)向的 MoE 系統(tǒng)至關(guān)重要。此外MoE 系統(tǒng)訓(xùn)練所需的數(shù)據(jù)量應(yīng)根據(jù)任務(wù)進(jìn)行優(yōu)化,更困難的任務(wù)需要更多高質(zhì)量訓(xùn)練數(shù)據(jù)。總的訓(xùn)練數(shù)據(jù)的數(shù)量不能太多,隨著k的增加,模型性能會出現(xiàn)先上升后下降的趨勢,證明和任務(wù)數(shù)據(jù)相似度較高的外部數(shù)據(jù)的引入才能對模型性能有所提升。
從LoRA Bank中選出的專家數(shù)量N不需要很多,證明和模型高相關(guān)性的適配器的引入才能增強(qiáng)模型的任務(wù)能力。
6、對MoE組合的有效性分析:將數(shù)據(jù)劃分為All-correct,All-incorrect,Mixed三類數(shù)據(jù),其中Mixed代表至少有一個專家做對且至少有一個專家做錯(不同專家出現(xiàn)分歧)的樣本,通過MoE的方式,不同專家的融合能超過最優(yōu)的專家的效果,證明MoE組合方案的有效性。
討論
本方法不依賴數(shù)據(jù)集和模型的元信息,這是本方法的一大優(yōu)勢。實(shí)際場景下,數(shù)據(jù)和模型的源信息可能會存在描述不詳細(xì)、難以確定相關(guān)數(shù)據(jù)點(diǎn)等問題。開源模型的訓(xùn)練數(shù)據(jù)/訓(xùn)練細(xì)節(jié)很難具體獲得。
該方法具有多任務(wù)適用性和易用性,大多數(shù)開源 LLMs 是 LLaMA 和 Mistral 家族的變體,可通過 Huggingface 獲取大量模型,但不同 PEFT 方法之間計(jì)算模型間相似性可能不兼容。
結(jié)論
本文提出的方法通過 K - shot 數(shù)據(jù)在模型選擇和數(shù)據(jù)擴(kuò)增中發(fā)揮重要作用,優(yōu)于現(xiàn)有方法,并通過消融研究驗(yàn)證了選擇方法的有效性,展示了一種挖掘開放知識進(jìn)行定制技能整合的高效流程。