RoSA:一種新的大模型參數(shù)高效微調(diào)方法
隨著語(yǔ)言模型不斷擴(kuò)展到前所未有的規(guī)模,對(duì)下游任務(wù)的所有參數(shù)進(jìn)行微調(diào)變得非常昂貴,PEFT方法已成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。PEFT方法將微調(diào)限制在一小部分參數(shù)中,以很小的計(jì)算成本實(shí)現(xiàn)自然語(yǔ)言理解任務(wù)的最先進(jìn)性能。
RoSA是一種新的PEFT技術(shù)。在一組基準(zhǔn)測(cè)試的實(shí)驗(yàn)中,RoSA在使用相同參數(shù)預(yù)算的情況下優(yōu)于先前的低秩自適應(yīng)(Low-Rank Adaptation, LoRA)和純稀疏微調(diào)方法。
本文我們將深入探討RoSA原理、方法和結(jié)果。并解釋為什么它的性能標(biāo)志著有意義的進(jìn)步。對(duì)于那些希望有效地微調(diào)大型語(yǔ)言模型的人來(lái)說(shuō),RoSA提供了一種新的解決方案,該解決方案優(yōu)于以前的方案。
對(duì)參數(shù)高效微調(diào)的需求
NLP已經(jīng)被一系列越來(lái)越大的基于transformer的語(yǔ)言模型(如GPT-4)所徹底改變,通過(guò)對(duì)大量文本語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,這些模型學(xué)習(xí)強(qiáng)大的語(yǔ)言表征,并通過(guò)一個(gè)簡(jiǎn)單的過(guò)程轉(zhuǎn)移到下游的語(yǔ)言任務(wù)。
隨著模型規(guī)模從數(shù)十億個(gè)參數(shù)增長(zhǎng)到萬(wàn)億個(gè)參數(shù),微調(diào)帶來(lái)了不可持續(xù)的計(jì)算負(fù)擔(dān)。微調(diào)GPT-4 1.76萬(wàn)億參數(shù)可能會(huì)花費(fèi)數(shù)百萬(wàn)美元的費(fèi)用。這使實(shí)際應(yīng)用中的部署在很大程度上不切實(shí)際。
參數(shù)高效微調(diào)(PEFT)方法通過(guò)將微調(diào)限制為每個(gè)任務(wù)的一小部分參數(shù)來(lái)解決這個(gè)問(wèn)題。在最近的文獻(xiàn)中提出了一系列PEFT技術(shù),在效率和準(zhǔn)確性之間做出了不同的權(quán)衡。
LoRA
一個(gè)突出的PEFT方法是低秩適應(yīng)(LoRA)。LoRA是由Meta和麻省理工學(xué)院的研究人員于2021年推出的,其動(dòng)機(jī)是觀察到transformer在其頭部矩陣中表現(xiàn)出低秩結(jié)構(gòu)。
LoRA只對(duì)每個(gè)變壓器頭的前k個(gè)奇異向量對(duì)進(jìn)行微調(diào),保持所有其他參數(shù)不變。這只需要調(diào)優(yōu)O(k)個(gè)額外參數(shù),而對(duì)所有n個(gè)參數(shù)進(jìn)行全面微調(diào)則需要O(n)個(gè)。
通過(guò)利用這種低秩結(jié)構(gòu),LoRA可以捕獲下游任務(wù)泛化所需的有意義的信號(hào),并將微調(diào)限制在這些頂級(jí)奇異向量上,使優(yōu)化和推理更加有效。
實(shí)驗(yàn)表明,LoRA在GLUE基準(zhǔn)測(cè)試中可以匹配完全微調(diào)的性能,同時(shí)使用的參數(shù)減少了100倍以上。但是隨著模型規(guī)模的不斷擴(kuò)大,通過(guò)LoRA獲得強(qiáng)大的性能需要增加rank k,與完全微調(diào)相比減少了計(jì)算節(jié)省。
在RoSA之前,LoRA代表了PEFT方法中最先進(jìn)的技術(shù),只是使用不同的矩陣分解或添加少量額外的微調(diào)參數(shù)等技術(shù)進(jìn)行了適度的改進(jìn)。
Robust Adaptation (RoSA)
Robust Adaptation(RoSA)引入了一種新的參數(shù)高效微調(diào)方法。RoSA的靈感來(lái)自于穩(wěn)健的主成分分析(robust PCA),而不是僅僅依賴于低秩結(jié)構(gòu)。
在傳統(tǒng)的主成分分析中,數(shù)據(jù)矩陣X被分解為X≈L + S,其中L是一個(gè)近似主成分的低秩矩陣,S是一個(gè)捕獲殘差的稀疏矩陣。robust PCA更進(jìn)一步,將X分解為干凈的低秩L和“污染/損壞”的稀疏S。
RoSA從中汲取靈感,將語(yǔ)言模型的微調(diào)分解為:
- 一個(gè)類似于LoRA的低秩自適應(yīng)(L)矩陣,經(jīng)過(guò)微調(diào)以近似于主導(dǎo)任務(wù)相關(guān)信號(hào)
- 一個(gè)高度稀疏的微調(diào)(S)矩陣,包含非常少量的大的、選擇性微調(diào)的參數(shù),這些參數(shù)編碼L錯(cuò)過(guò)的殘差信號(hào)。
顯式地建模殘差稀疏分量可以使RoSA比單獨(dú)的LoRA達(dá)到更高的精度。
RoSA通過(guò)對(duì)模型的頭部矩陣進(jìn)行低秩分解來(lái)構(gòu)建L。這將編碼對(duì)下游任務(wù)有用的底層語(yǔ)義表示。然后RoSA選擇性地將每層最重要的前m個(gè)參數(shù)微調(diào)為S,而所有其他參數(shù)保持不變。這個(gè)步驟會(huì)捕獲不適合低秩擬合的殘差信號(hào)。
微調(diào)參數(shù)的數(shù)量m比LoRA單獨(dú)所需的rank k要小一個(gè)數(shù)量級(jí)。因此結(jié)合L中的低秩頭矩陣,RoSA保持了極高的參數(shù)效率。
RoSA還采用了一些其他簡(jiǎn)單但有效果的優(yōu)化:
- 殘差稀疏連接:在每個(gè)transformer塊的輸出經(jīng)過(guò)層歸一化和前饋?zhàn)訉又?,直接向其添加S個(gè)殘差。這可以模擬L錯(cuò)過(guò)的信號(hào)。
- 獨(dú)立稀疏掩碼:S中選擇的用于微調(diào)的指標(biāo)是為每個(gè)transformer層獨(dú)立生成的。
- 共享低秩結(jié)構(gòu):在L的所有層之間共享相同的低秩基U,V矩陣,就像在LoRA中一樣。這將捕獲一致子空間中的語(yǔ)義概念。
這些架構(gòu)選擇為RoSA建模提供了類似于完全微調(diào)的靈活性,同時(shí)保持了優(yōu)化和推理的參數(shù)效率。利用這種結(jié)合魯棒低秩自適應(yīng)和高度稀疏殘差的PEFT方法,RoSA實(shí)現(xiàn)了精度效率折衷的新技術(shù)。
實(shí)驗(yàn)與結(jié)果
研究人員在12個(gè)NLU數(shù)據(jù)集的綜合基準(zhǔn)上對(duì)RoSA進(jìn)行了評(píng)估,這些數(shù)據(jù)集涵蓋了文本檢測(cè)、情感分析、自然語(yǔ)言推理和魯棒性測(cè)試等任務(wù)。他們使用基于人工智能助理LLM的RoSA進(jìn)行了實(shí)驗(yàn),使用了120億個(gè)參數(shù)模型。
在每個(gè)任務(wù)上,在使用相同的參數(shù)時(shí),RoSA的性能都明顯優(yōu)于LoRA。兩種方法的總參數(shù)都差不多為整個(gè)模型的0.3%左右。這意味著LoRA的k = 16, RoSA的m =5120這兩種情況下都有大約450萬(wàn)個(gè)微調(diào)參數(shù)。
RoSA還匹配或超過(guò)了純稀疏微調(diào)基線的性能。
在評(píng)估對(duì)對(duì)抗示例的魯棒性的ANLI基準(zhǔn)上,RoSA的得分為55.6,而LoRA的得分為52.7。這表明了泛化和校準(zhǔn)的改進(jìn)。
對(duì)于情感分析任務(wù)SST-2和IMDB, RoSA的準(zhǔn)確率達(dá)到91.2%和96.9%,而LoRA的準(zhǔn)確率為90.1%和95.3%。
在WIC(一項(xiàng)具有挑戰(zhàn)性的詞義消歧測(cè)試)上,RoSA的F1得分為93.5,而LoRA的F1得分為91.7。
在所有12個(gè)數(shù)據(jù)集中,RoSA在匹配的參數(shù)預(yù)算下普遍表現(xiàn)出比LoRA更好的性能。
值得注意的是,RoSA能夠在不需要任何特定于任務(wù)的調(diào)優(yōu)或?qū)iT(mén)化的情況下實(shí)現(xiàn)這些增益。這使得RoSA適合作為通用的PEFT解決方案使用。
總結(jié)
隨著語(yǔ)言模型規(guī)模的持續(xù)快速增長(zhǎng),減少對(duì)其微調(diào)的計(jì)算需求是一個(gè)迫切需要解決的問(wèn)題。像LoRA這樣的參數(shù)高效自適應(yīng)訓(xùn)練技術(shù)已經(jīng)顯示出初步的成功,但面臨低秩近似的內(nèi)在局限性。
RoSA將魯棒低秩分解和殘差高度稀疏微調(diào)有機(jī)地結(jié)合在一起,提供了一個(gè)令人信服的新解決方案。通過(guò)考慮通過(guò)選擇性稀疏殘差逃避低秩擬合的信號(hào),它大大提高了PEFT的性能。經(jīng)驗(yàn)評(píng)估表明,在不同的NLU任務(wù)集上,LoRA和不受控制的稀疏性基線有了明顯的改進(jìn)。
RoSA在概念上簡(jiǎn)單但高性能,能進(jìn)一步推進(jìn)參數(shù)效率、適應(yīng)性表征和持續(xù)學(xué)習(xí)的交叉研究,以擴(kuò)大語(yǔ)言智能。