遺忘"大腦?香港中文大學(xué)提出新算法MoFO助力AI記住預(yù)訓(xùn)練知識(shí)!
引言:大型語(yǔ)言模型在微調(diào)過(guò)程中的遺忘問(wèn)題
在人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)因其在多種任務(wù)中展示出的卓越能力而備受關(guān)注。這些模型通常先在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,以掌握廣泛的語(yǔ)言能力,然后在特定任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào),以適應(yīng)具體的應(yīng)用場(chǎng)景。然而,微調(diào)過(guò)程中一個(gè)常見(jiàn)且棘手的問(wèn)題是模型可能會(huì)忘記在預(yù)訓(xùn)練階段獲得的知識(shí),這種現(xiàn)象被稱為“遺忘”。
遺忘問(wèn)題不僅降低了模型的通用性能,還可能影響到模型在新任務(wù)上的表現(xiàn)。因此,如何在微調(diào)過(guò)程中盡可能保留預(yù)訓(xùn)練階段的知識(shí),成為了研究的一個(gè)重要方向。本文中,我們將介紹一種新的微調(diào)算法——?jiǎng)恿窟^(guò)濾優(yōu)化器(MoFO),該算法通過(guò)在每次迭代中僅更新動(dòng)量最大的參數(shù)子集,有效緩解了遺忘問(wèn)題,同時(shí)保持了微調(diào)任務(wù)的性能。
- 論文標(biāo)題:MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning
- 機(jī)構(gòu):The Chinese University of Hong Kong, Shenzhen, China; Shenzhen Research Institute of Big Data; Hong Kong University of Science and Technology
- 論文鏈接:https://arxiv.org/pdf/2407.20999.pdf
MoFO優(yōu)化器的概念和動(dòng)機(jī)
1. 概念介紹
Momentum-Filtered Optimizer (MoFO) 是一種新型的微調(diào)算法,旨在解決大型語(yǔ)言模型(LLM)在微調(diào)過(guò)程中可能出現(xiàn)的知識(shí)遺忘問(wèn)題。MoFO的核心思想是在每次迭代中選擇并更新具有最大動(dòng)量幅度的模型參數(shù)。這種方法與全參數(shù)訓(xùn)練相比,能夠在達(dá)到類似的微調(diào)性能的同時(shí),保持參數(shù)更接近預(yù)訓(xùn)練模型,從而減輕知識(shí)遺忘。
2. 動(dòng)機(jī)
在微調(diào)大型語(yǔ)言模型時(shí),常見(jiàn)的問(wèn)題是模型可能會(huì)忘記在預(yù)訓(xùn)練階段獲得的知識(shí),這會(huì)導(dǎo)致模型在通用能力上的下降。為了解決這一問(wèn)題,研究者們提出了多種方法,包括基于回放的方法和正則化方法。然而,這些方法要么需要訪問(wèn)預(yù)訓(xùn)練數(shù)據(jù),增加了計(jì)算和存儲(chǔ)成本,要么需要修改損失函數(shù),可能會(huì)損害模型在微調(diào)任務(wù)上的表現(xiàn)。
MoFO方法的提出,是基于對(duì)微調(diào)損失景觀的觀察,即通過(guò)選擇更新動(dòng)量最大的參數(shù)子集,可以使模型收斂到更接近原始損失函數(shù)的最小值,從而在不犧牲微調(diào)性能的情況下減少遺忘。此外,MoFO不需要訪問(wèn)預(yù)訓(xùn)練數(shù)據(jù),也不會(huì)改變?cè)紦p失函數(shù),使其特別適用于只有微調(diào)檢查點(diǎn)的開(kāi)源LLM場(chǎng)景。
MoFO的算法細(xì)節(jié)
1. 算法構(gòu)成
MoFO算法將所有參數(shù)分為B個(gè)固定部分,每個(gè)部分包含不同的網(wǎng)絡(luò)參數(shù)(例如權(quán)重矩陣和偏置項(xiàng))。在每次迭代中,MoFO選擇每個(gè)部分中動(dòng)量最大的α%的參數(shù)進(jìn)行更新。這種動(dòng)量過(guò)濾機(jī)制可以通過(guò)PyTorch的反向傳播機(jī)制自動(dòng)實(shí)現(xiàn),其中自動(dòng)返回的梯度會(huì)根據(jù)每個(gè)參數(shù)部分進(jìn)行計(jì)算。
2. 實(shí)現(xiàn)細(xì)節(jié)
具體來(lái)說(shuō),MoFO在每次迭代中執(zhí)行以下步驟:
- 將所有參數(shù)按照網(wǎng)絡(luò)結(jié)構(gòu)劃分為不同的部分。
- 對(duì)每個(gè)部分,計(jì)算每個(gè)參數(shù)的動(dòng)量,并選擇動(dòng)量最大的α%的參數(shù)。
- 只更新這些選中的參數(shù),而保持其他參數(shù)不變。
這種基于動(dòng)量的選擇規(guī)則不僅簡(jiǎn)化了計(jì)算過(guò)程,還通過(guò)選擇對(duì)減少微調(diào)損失最有影響的參數(shù),提高了微調(diào)過(guò)程的效率和效果。通過(guò)這種方法,MoFO有效地選擇并更新最具影響力的參數(shù),從而在增強(qiáng)微調(diào)過(guò)程的同時(shí),減輕了預(yù)訓(xùn)練知識(shí)的災(zāi)難性遺忘。
實(shí)驗(yàn)設(shè)置和數(shù)據(jù)集介紹
1. 數(shù)據(jù)集介紹
在本研究中,我們使用了兩組數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):用于指令式微調(diào)的數(shù)據(jù)集和用于持續(xù)微調(diào)的數(shù)據(jù)集。
- 指令式微調(diào)數(shù)據(jù)集:這組數(shù)據(jù)集涵蓋了不同領(lǐng)域的問(wèn)題-答案對(duì),特別是包括了395K數(shù)學(xué)問(wèn)題-答案對(duì)的MetaMathQA數(shù)據(jù)集。我們隨機(jī)選擇了該數(shù)據(jù)集的10%(即33,000個(gè)問(wèn)題-答案對(duì))進(jìn)行訓(xùn)練。
- 持續(xù)微調(diào)數(shù)據(jù)集:我們?cè)赥RACE基準(zhǔn)數(shù)據(jù)集上實(shí)施了MoFO方法,該數(shù)據(jù)集設(shè)計(jì)了8種不同領(lǐng)域的任務(wù),包括領(lǐng)域特定知識(shí)、多語(yǔ)言能力、代碼生成和數(shù)學(xué)推理等。
2. 評(píng)估指標(biāo)
- 指令式微調(diào)的評(píng)估指標(biāo):我們引入了一系列廣泛使用的基準(zhǔn)來(lái)評(píng)估LLM在指令式微調(diào)后的性能和災(zāi)難性遺忘效應(yīng)。這些基準(zhǔn)包括MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)、Commonsense(常識(shí)推理能力評(píng)估)和GSM8K(數(shù)學(xué)能力評(píng)估)。
- 持續(xù)微調(diào)的評(píng)估指標(biāo):我們考慮了兩個(gè)關(guān)鍵指標(biāo):總體性能(OP)和向后轉(zhuǎn)移(BWT)。這些指標(biāo)提供了一個(gè)全面的評(píng)估,可以衡量模型在增量學(xué)習(xí)的同時(shí)保留過(guò)去經(jīng)驗(yàn)的能力。
實(shí)驗(yàn)結(jié)果與分析
1. 實(shí)驗(yàn)結(jié)果
- 指令式微調(diào)結(jié)果:在MetaMathQA數(shù)據(jù)集上,MoFO與其他基線方法相比,在數(shù)學(xué)任務(wù)(GSM8K)上的表現(xiàn)相當(dāng),但在保持一般能力方面表現(xiàn)更好。例如,MoFO在MMLU的準(zhǔn)確性上不僅保持不變,甚至略有提高。
- 持續(xù)微調(diào)結(jié)果:在TRACE基準(zhǔn)數(shù)據(jù)集上,MoFO在OP和BWT得分上均優(yōu)于全參數(shù)微調(diào)(Full FT)和半?yún)?shù)微調(diào)(HFT)。此外,MoFO與重放方法結(jié)合使用時(shí),OP指標(biāo)比單獨(dú)使用重放方法提高了1.5%。
2. 分析
- 參數(shù)更新分?jǐn)?shù)的影響:我們發(fā)現(xiàn),參數(shù)更新分?jǐn)?shù)在保持模型性能和避免災(zāi)難性遺忘方面起著關(guān)鍵作用。較低的更新分?jǐn)?shù)有助于減少遺忘,但可能限制了優(yōu)化的有效性。
- 更新策略的影響:MoFO通過(guò)選擇具有最大動(dòng)量幅度的參數(shù)進(jìn)行更新,與基于梯度的選擇相比,顯示出更強(qiáng)的優(yōu)化能力和更少的遺忘。
通過(guò)這些實(shí)驗(yàn),我們驗(yàn)證了MoFO在減輕災(zāi)難性遺忘和提高微調(diào)性能方面的有效性。
MoFO的理論分析和收斂性
1. 理論基礎(chǔ)
MoFO(Momentum-Filtered Optimizer)是一種優(yōu)化算法,旨在減輕在微調(diào)大型語(yǔ)言模型(LLM)時(shí)發(fā)生的知識(shí)遺忘問(wèn)題。MoFO通過(guò)在每次迭代中只更新具有最大動(dòng)量幅度的參數(shù)子集,從而保持模型參數(shù)更接近于預(yù)訓(xùn)練模型。這種方法基于動(dòng)量而非梯度來(lái)選擇更新的參數(shù),這與傳統(tǒng)的Adam優(yōu)化器有所不同。
2. 收斂性分析
在對(duì)MoFO的收斂性進(jìn)行理論分析時(shí),我們考慮了其簡(jiǎn)化版本,即作為梯度下降(GD)的變體。根據(jù)提出的定理,如果損失函數(shù)的梯度是Lipschitz連續(xù)的,并且學(xué)習(xí)率滿足特定條件,則MoFO的GD版本將保證收斂到最小損失值。這一理論支持表明,MoFO能夠在不犧牲微調(diào)性能的情況下,有效減輕知識(shí)遺忘。
MoFO在持續(xù)微調(diào)中的應(yīng)用
1. 持續(xù)微調(diào)的實(shí)驗(yàn)設(shè)置
在持續(xù)微調(diào)的場(chǎng)景中,我們使用了TRACE基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含多個(gè)不同領(lǐng)域的任務(wù)。我們?cè)谶@些任務(wù)上順序訓(xùn)練TinyLlama-1.1B模型,并采用MoFO進(jìn)行優(yōu)化。實(shí)驗(yàn)中,MoFO的參數(shù)更新比例設(shè)置為5%,并使用余弦衰減的學(xué)習(xí)率調(diào)度。
2. 持續(xù)微調(diào)的性能評(píng)估
我們通過(guò)兩個(gè)關(guān)鍵指標(biāo)來(lái)評(píng)估LLM在持續(xù)學(xué)習(xí)場(chǎng)景中的性能:整體性能(OP)和向后轉(zhuǎn)移(BWT)。MoFO在這些指標(biāo)上的表現(xiàn)優(yōu)于全參數(shù)微調(diào)和其他基線方法。特別是,與單獨(dú)使用重放方法相比,結(jié)合MoFO的重放方法在OP指標(biāo)上有1.5%的性能提升。此外,當(dāng)與GEM方法結(jié)合使用時(shí),MoFO在OP指標(biāo)上也顯示出0.9%的改進(jìn)。
3. 結(jié)論
MoFO不僅在持續(xù)微調(diào)任務(wù)中表現(xiàn)出色,而且通過(guò)選擇性參數(shù)更新,有效地減輕了災(zāi)難性遺忘,保持了模型對(duì)預(yù)訓(xùn)練知識(shí)的保留。這些結(jié)果強(qiáng)調(diào)了MoFO在持續(xù)微調(diào)中的優(yōu)越性能,并為未來(lái)在多模態(tài)大型語(yǔ)言模型中應(yīng)用MoFO提供了理論和實(shí)證基礎(chǔ)。
討論與未來(lái)工作
1. 討論
本研究提出的Momentum-Filtered Optimizer(MoFO)方法在減輕大型語(yǔ)言模型(LLM)在微調(diào)過(guò)程中的遺忘問(wèn)題上顯示出顯著的優(yōu)勢(shì)。通過(guò)選擇具有最大動(dòng)量幅度的參數(shù)進(jìn)行更新,MoFO能夠在不犧牲微調(diào)任務(wù)性能的前提下,使模型參數(shù)更接近預(yù)訓(xùn)練模型,從而有效減輕了遺忘現(xiàn)象。
實(shí)驗(yàn)結(jié)果表明,與全參數(shù)微調(diào)(Full FT)和其他基線方法相比,MoFO在保持或甚至提升一般能力方面表現(xiàn)更為出色。例如,在MetaMathQA數(shù)據(jù)集上的數(shù)學(xué)推理任務(wù)(GSM8K)和一般能力保持方面,MoFO展示了優(yōu)于L1和L2正則化方法的性能。
此外,MoFO在連續(xù)微調(diào)場(chǎng)景中也表現(xiàn)出色,如在TRACE基準(zhǔn)測(cè)試中,MoFO的表現(xiàn)優(yōu)于傳統(tǒng)的全參數(shù)微調(diào)方法,顯示出更好的整體性能(OP)和更低的后向遷移(BWT)得分。
2. 未來(lái)工作
盡管MoFO已經(jīng)取得了一定的成果,但仍有一些潛在的改進(jìn)和應(yīng)用方向。首先,MoFO的收斂性尚未完全解決,未來(lái)的研究可以探索如何優(yōu)化MoFO的動(dòng)量篩選機(jī)制以確保更穩(wěn)定和快速的收斂。其次,考慮到MoFO在處理遺忘問(wèn)題方面的有效性,將其應(yīng)用于多模態(tài)LLM可能是一個(gè)有前景的研究方向,這可能進(jìn)一步提升模型在更廣泛應(yīng)用場(chǎng)景中的表現(xiàn)。最后,結(jié)合其他連續(xù)學(xué)習(xí)策略,如經(jīng)驗(yàn)重放或梯度修剪,可能會(huì)進(jìn)一步增強(qiáng)MoFO的性能和靈活性。
總結(jié)
本文介紹了一種新的微調(diào)優(yōu)化算法——Momentum-Filtered Optimizer(MoFO),旨在解決LLM在微調(diào)過(guò)程中的知識(shí)遺忘問(wèn)題。通過(guò)在每次迭代中僅更新動(dòng)量最大的參數(shù)子集,MoFO能夠有效地減少參數(shù)移動(dòng),從而減輕災(zāi)難性遺忘,并保持甚至提升模型在特定任務(wù)上的性能。實(shí)驗(yàn)結(jié)果驗(yàn)證了MoFO在多種微調(diào)場(chǎng)景中的有效性,包括指令微調(diào)和連續(xù)微調(diào)。未來(lái)的工作將探索MoFO的進(jìn)一步優(yōu)化以及在多模態(tài)LLM中的應(yīng)用潛力。
本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企
