譯者 | 李睿
審校 | 重樓
數(shù)據(jù)質(zhì)量、模型架構(gòu)以及偏見(jiàn)緩解方面的專家建議開(kāi)發(fā)人員可以掌握LLM微調(diào)來(lái)提高人工智能開(kāi)發(fā)的性能和效率。
為什么微調(diào)至關(guān)重要
大型語(yǔ)言模型(LLM)配備了處理廣泛任務(wù)的通用能力,包括文本生成、翻譯、提取摘要和回答問(wèn)題。盡管LLM的性能表現(xiàn)非常強(qiáng)大,但它們?cè)谔囟ǖ娜蝿?wù)導(dǎo)向型問(wèn)題或特定領(lǐng)域(例如醫(yī)學(xué)和法律等)上仍然效果不佳。
LLM微調(diào)是指對(duì)預(yù)訓(xùn)練好的LLM進(jìn)行進(jìn)一步訓(xùn)練,使用更小、更具體的數(shù)據(jù)集,以增強(qiáng)其在特定領(lǐng)域任務(wù)(如理解醫(yī)療行業(yè)的術(shù)語(yǔ))上的表現(xiàn)。無(wú)論是從頭開(kāi)始構(gòu)建LLM還是使用額外的微調(diào)數(shù)據(jù)來(lái)擴(kuò)展LLM,遵循以下這些技巧都將獲得更健壯的模型。
1.優(yōu)先考慮數(shù)據(jù)質(zhì)量
在微調(diào)LLM時(shí),可以將模型視為一道菜肴,數(shù)據(jù)則是其原料。正如一道美味佳肴依賴于高質(zhì)量的食材一樣,性能良好的模型也依賴于高質(zhì)量的數(shù)據(jù)。
“垃圾進(jìn),垃圾出”原則表明,如果提供給模型的數(shù)據(jù)有缺陷,那么無(wú)論什么樣的超參數(shù)調(diào)優(yōu)或優(yōu)化也無(wú)法挽救其性能。
以下是管理數(shù)據(jù)集的實(shí)用技巧,可以幫助你獲得高質(zhì)量的數(shù)據(jù):
- 明確目標(biāo):在收集數(shù)據(jù)之前,明確應(yīng)用程序的目標(biāo)和期望的輸出類型,然后確保只收集相關(guān)的數(shù)據(jù)。
- 質(zhì)量?jī)?yōu)于數(shù)量:一個(gè)規(guī)模較小且高質(zhì)量的數(shù)據(jù)集通常比一個(gè)較大卻嘈雜的數(shù)據(jù)集更有效。
- 消除噪聲:通過(guò)刪除不相關(guān)或錯(cuò)誤的條目來(lái)清理數(shù)據(jù)集,采用插補(bǔ)技術(shù)處理缺失值或刪除不完整記錄以保持?jǐn)?shù)據(jù)完整性。數(shù)據(jù)增強(qiáng)技術(shù)可以增強(qiáng)數(shù)據(jù)集的大小和多樣性,同時(shí)保持其質(zhì)量。
2.選擇合適的模型架構(gòu)
選擇合適的模型架構(gòu)對(duì)于優(yōu)化LLM的性能至關(guān)重要,因?yàn)椴煌募軜?gòu)是為了處理各種類型的任務(wù)而設(shè)計(jì)的。其中,BERT和GPT是兩種流行的LLM。
像GPT這樣的僅解碼器模型在涉及文本生成的任務(wù)中表現(xiàn)出色,使其成為會(huì)話代理和創(chuàng)意寫作的理想選擇,而像BERT這樣的純編碼器模型更適合涉及場(chǎng)景理解的任務(wù),例如文本分類或命名實(shí)體識(shí)別。
微調(diào)注意事項(xiàng)
考慮正確設(shè)置這些參數(shù)以進(jìn)行有效的微調(diào):
- 學(xué)習(xí)率:這是決定模型更新其權(quán)重的速度的最重要參數(shù)。雖然它是通過(guò)試錯(cuò)法指定的,但可以首先從他們?cè)诨A(chǔ)模型的研究論文中稱為最優(yōu)的速率開(kāi)始。如果數(shù)據(jù)集小于用于基準(zhǔn)測(cè)試的數(shù)據(jù)集,則這個(gè)最佳速率可能效果不佳。對(duì)于微調(diào)LLM,通常建議的學(xué)習(xí)率為1e-5到5e-5。
- 批量大小:批量大小指定模型在一次迭代中處理的數(shù)據(jù)樣本數(shù)量。更大的批處理大小可以促進(jìn)訓(xùn)練,但需要更多的內(nèi)存。同樣,較小的批量大小允許模型徹底處理每一條記錄。為了獲得最佳結(jié)果,批量大小的選擇應(yīng)與硬件能力以及數(shù)據(jù)集相匹配。
- 預(yù)熱步驟:這些步驟用于將學(xué)習(xí)率從較小的初始值逐漸提高到峰值。這種方法可以穩(wěn)定初始訓(xùn)練,并幫助模型找到更好的收斂路徑。
- 周期:LLM通常只需要1~3個(gè)周期進(jìn)行微調(diào),因?yàn)樗鼈兛梢詮淖钚∑毓獾臄?shù)據(jù)集中學(xué)習(xí)。更多訓(xùn)練周期可能會(huì)導(dǎo)致過(guò)擬合,提前停機(jī)可以防止過(guò)擬合。
像網(wǎng)格搜索或隨機(jī)搜索等技術(shù)可用于實(shí)驗(yàn)不同的超參數(shù)以對(duì)其進(jìn)行調(diào)優(yōu)。
3.平衡計(jì)算資源
LLM的功能非常強(qiáng)大,但由于其龐大的規(guī)模和復(fù)雜的架構(gòu)以資源密集著稱。微調(diào)這些模型需要大量的計(jì)算能力,因此需要高端GPU、專用硬件加速器和廣泛的分布式訓(xùn)練框架。
利用AWS和Google Cloud等可擴(kuò)展的計(jì)算資源可以提供處理這些需求所需的能力,但會(huì)產(chǎn)生成本,特別是在運(yùn)行多個(gè)微調(diào)迭代時(shí)。如果開(kāi)發(fā)人員花費(fèi)時(shí)間對(duì)自己的LLM進(jìn)行微調(diào),那么投資專用硬件可以節(jié)省訓(xùn)練和微調(diào)成本,并減少維持其運(yùn)行的持續(xù)成本。
了解微調(diào)目標(biāo)
模型參數(shù)是在訓(xùn)練步驟中優(yōu)化的權(quán)重。對(duì)模型進(jìn)行微調(diào)包括調(diào)整模型參數(shù)以優(yōu)化其針對(duì)特定任務(wù)或領(lǐng)域的性能。
根據(jù)在微調(diào)過(guò)程中調(diào)整的參數(shù)數(shù)量,有不同類型的微調(diào):
- 完全微調(diào):在這種方法中,調(diào)整預(yù)訓(xùn)練模型的所有權(quán)重,重新校準(zhǔn)這個(gè)新任務(wù)/域的所有參數(shù)。這種方法允許模型對(duì)新領(lǐng)域有更深入的理解,從而可能帶來(lái)更好的性能。然而,這種方法是資源密集型的,需要適當(dāng)?shù)挠?jì)算能力和內(nèi)存。
- 參數(shù)高效微調(diào):與完全微調(diào)相比,參數(shù)高效微調(diào)(PEFT)更新模型參數(shù)的一小部分,同時(shí)保持其余部分不變。這樣可訓(xùn)練參數(shù)的數(shù)量將比原始模型少得多(在某些情況下,只有原始權(quán)重的15%~20%)。像LoRA這樣的技術(shù)可以將可訓(xùn)練參數(shù)的數(shù)量減少1萬(wàn)倍,使內(nèi)存需求更易于管理,非常適合節(jié)省時(shí)間,并且能夠在更受限的硬件資源上運(yùn)行。
模型壓縮方法
剪枝、量化和知識(shí)蒸餾等技術(shù)也可以使微調(diào)過(guò)程更易于管理和高效。
- 剪枝去除了不太重要或冗余的模型參數(shù),可以在不犧牲太多精度的情況下降低復(fù)雜性。
- 量化將模型參數(shù)轉(zhuǎn)換為較低精度的格式,這可以顯著減少模型的大小和計(jì)算需求。根據(jù)模型的不同,降低的浮點(diǎn)精度對(duì)精度幾乎沒(méi)有影響。
- 知識(shí)蒸餾將知識(shí)從大型復(fù)雜模型轉(zhuǎn)移到較小的更高效的模型,使其更容易部署。
優(yōu)化策略
采用隨機(jī)梯度下降(SGD)、Adam和RMSprop等優(yōu)化算法,可以實(shí)現(xiàn)精確的參數(shù)調(diào)整,使微調(diào)過(guò)程更加高效。
4.執(zhí)行持續(xù)的評(píng)估和迭代
一旦對(duì)LLM進(jìn)行了微調(diào),就需要對(duì)其進(jìn)行持續(xù)監(jiān)控和定期更新,以維護(hù)其性能。需要考慮的關(guān)鍵因素包括數(shù)據(jù)漂移和模型漂移,數(shù)據(jù)漂移涉及輸入數(shù)據(jù)統(tǒng)計(jì)屬性的變化,而模型漂移指的是輸入和輸出之間關(guān)系隨時(shí)間的變化。
因此,必須應(yīng)用迭代微調(diào),調(diào)整模型參數(shù)以響應(yīng)這些漂移,確保模型隨著時(shí)間的推移繼續(xù)提供準(zhǔn)確的結(jié)果。
為了評(píng)估模型的性能,定量和定性方法都是必不可少的。定性評(píng)估技術(shù)(例如準(zhǔn)確性、F1分?jǐn)?shù)、BLEU分?jǐn)?shù)、困惑度等)可以用來(lái)衡量模型的表現(xiàn)。
另一方面,定性評(píng)估技術(shù)可用于評(píng)估模型在真實(shí)場(chǎng)景中的性能。需要由領(lǐng)域?qū)<疫M(jìn)行人工測(cè)試來(lái)評(píng)估模型的輸出,并且必須根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)技術(shù)(RLHF)迭代地將反饋應(yīng)用于模型。
增量學(xué)習(xí)允許模型不斷地從新數(shù)據(jù)中學(xué)習(xí),而不需要完全重新訓(xùn)練,使其適應(yīng)數(shù)據(jù)漂移和模型漂移。
5.解決偏見(jiàn)和公平問(wèn)題
在微調(diào)過(guò)程中,必須確保模型不會(huì)產(chǎn)生任何基于性別或種族的歧視性輸出,并確保模型優(yōu)先考慮公平性。
造成偏見(jiàn)的主要原因有以下兩個(gè):
- 有偏差的數(shù)據(jù):如果在訓(xùn)練過(guò)程中使用的數(shù)據(jù)不代表真實(shí)情況,那么數(shù)據(jù)可能存在偏差。這可能是由于抽樣技術(shù),其中更多的數(shù)據(jù)被饋送到某一組,而另一個(gè)組在數(shù)據(jù)中的代表性不足。這也可能是由于歷史偏見(jiàn)造成的(歷史數(shù)據(jù)中的代表性不足),例如歷史偏見(jiàn)往往為女性通常扮演家庭主婦或設(shè)計(jì)師等角色,而相比之下,男性則更多地占據(jù)高級(jí)職位。
- 算法偏差:這是由于算法本身的固有假設(shè)和設(shè)計(jì)選擇造成的。例如,如果在訓(xùn)練過(guò)程中賦予某個(gè)特征更大的權(quán)重,可能會(huì)導(dǎo)致預(yù)測(cè)有偏差。例如,貸款審批系統(tǒng)優(yōu)先考慮來(lái)自某些地點(diǎn)或種族的申請(qǐng)者。
偏差緩解技術(shù)
- 公平感知算法:開(kāi)發(fā)算法以確保微調(diào)模型在不同的人口群體中做出公平的決策。這些算法結(jié)合了公平約束,例如機(jī)會(huì)均等,即模型在所有人口統(tǒng)計(jì)群體中具有相同的真陽(yáng)性,或概率均等,即該模型在所有群體中具有相同的假陽(yáng)性率和假陰性率。這通過(guò)平衡預(yù)測(cè)來(lái)避免任何特定群體處于不利地位,從而確保結(jié)果的公平性。
- 偏見(jiàn)檢測(cè):定期分析訓(xùn)練數(shù)據(jù)和模型預(yù)測(cè),以識(shí)別基于種族、性別或年齡等人口統(tǒng)計(jì)屬性的偏見(jiàn),并盡早解決潛在的偏見(jiàn)來(lái)源。
- 數(shù)據(jù)增強(qiáng):增強(qiáng)訓(xùn)練數(shù)據(jù)以提高多樣性和代表性,特別是對(duì)于代表性不足的群體,確保模型在更廣泛的場(chǎng)景中得到很好的推廣。
- 去偏技術(shù):它包括重新加權(quán)、內(nèi)處理和后處理等方法。重新加權(quán)平衡了模型的重點(diǎn)指標(biāo),并通過(guò)給予代表性不足的例子更多的權(quán)重來(lái)減少偏見(jiàn)。內(nèi)處理在訓(xùn)練過(guò)程中應(yīng)用去偏策略來(lái)減少偏差。后處理在訓(xùn)練后修改模型預(yù)測(cè)以符合公平標(biāo)準(zhǔn)。
結(jié)論
針對(duì)特定領(lǐng)域和其他目的對(duì)LLM進(jìn)行微調(diào),如今已經(jīng)成為企業(yè)尋求利用LLM為業(yè)務(wù)和特定領(lǐng)域的數(shù)據(jù)集帶來(lái)好處的一種趨勢(shì)。微調(diào)不僅提高了自定義任務(wù)的性能,也是一種具有成本效益的解決方案。
通過(guò)選擇正確的模型架構(gòu),確保高質(zhì)量的數(shù)據(jù);采用適當(dāng)?shù)姆椒ǎ⒅铝τ诔掷m(xù)的評(píng)估和迭代,可以極大地提高微調(diào)模型的性能和可靠性。這些策略確保模型的高效執(zhí)行,并符合道德標(biāo)準(zhǔn)和現(xiàn)實(shí)世界的要求。
在運(yùn)行任何人工智能模型時(shí),采用合適的硬件能夠帶來(lái)深遠(yuǎn)的影響,尤其是在醫(yī)療和法律等關(guān)鍵應(yīng)用中。這些任務(wù)依賴于精確的工作和高速的交付,因此需要專用的高性能計(jì)算硬件。這些行業(yè)機(jī)構(gòu)無(wú)法使用基于云計(jì)算的LLM,因?yàn)檫@會(huì)對(duì)其客戶和患者的數(shù)據(jù)構(gòu)成安全風(fēng)險(xiǎn)。
原文標(biāo)題:5 Tips for Fine-Tuning LLMs,作者:Kevin Vu