自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

今日arXiv最熱大模型論文:超越LoRA,北京大學(xué)提出預(yù)訓(xùn)練模型非梯度優(yōu)化法

發(fā)布于 2024-3-28 12:51
瀏覽
0收藏

引言:探索大型語(yǔ)言模型中低秩適應(yīng)的新方法

在自然語(yǔ)言處理領(lǐng)域,大語(yǔ)言模型(LLMs)的迅猛發(fā)展帶來(lái)了前所未有的性能提升。然而,隨之而來(lái)的是模型參數(shù)數(shù)量的激增,這不僅導(dǎo)致了調(diào)優(yōu)成本的線性增長(zhǎng),也給在常規(guī)硬件上進(jìn)行微調(diào)帶來(lái)了挑戰(zhàn)。為了解決這一問題,研究者們提出了一系列參數(shù)高效的調(diào)優(yōu)方法,如LoRA,它們通過只調(diào)整模型中一小部分參數(shù)來(lái)實(shí)現(xiàn)與全參數(shù)微調(diào)相當(dāng)?shù)男阅堋1M管這些方法能夠降低約30%的GPU內(nèi)存需求,但仍需要計(jì)算梯度和進(jìn)行反向傳播,這對(duì)于大語(yǔ)言模型的使用和部署提出了挑戰(zhàn)。

近期,研究者們開始探索無(wú)導(dǎo)數(shù)優(yōu)化(derivative-free optimization, DFO)方法,以避免梯度計(jì)算,并在少量樣本(few-shot)設(shè)置中展示出更強(qiáng)的魯棒性。本文提出了一種新的無(wú)導(dǎo)數(shù)優(yōu)化方法,通過在每個(gè)自注意力層前置低秩模塊,并交替使用兩種無(wú)導(dǎo)數(shù)優(yōu)化方法來(lái)優(yōu)化這些低秩模塊。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的基于梯度的參數(shù)高效調(diào)優(yōu)方法和無(wú)導(dǎo)數(shù)優(yōu)化方法相比,該新方法在各種任務(wù)和語(yǔ)言模型上都取得了顯著的改進(jìn),并在內(nèi)存使用和收斂速度方面展現(xiàn)了明顯的優(yōu)勢(shì)。

論文標(biāo)題:
Derivative-Free Optimization for Low-Rank Adaptation in Large Language Models

論文鏈接:
???https://arxiv.org/pdf/2403.01754.pdf??

低秩適應(yīng)(LoRA)的挑戰(zhàn)與衍生無(wú)導(dǎo)數(shù)優(yōu)化方法的誕生

低秩適應(yīng)(LoRA)是一種參數(shù)高效的調(diào)優(yōu)方法,它通過調(diào)整模型參數(shù)的一小部分來(lái)實(shí)現(xiàn)與模型調(diào)優(yōu)相當(dāng)?shù)男阅?。然而,這一過程仍然需要大量的計(jì)算資源,因?yàn)樗婕暗接?jì)算梯度并在整個(gè)模型中進(jìn)行反向傳播。

近年來(lái),研究人員開始嘗試使用無(wú)導(dǎo)數(shù)優(yōu)化方法來(lái)避免計(jì)算梯度,并在少量樣本設(shè)置中展示出更高的魯棒性。本文的研究者們將低秩模塊插入到模型的每個(gè)自注意力層,并交替使用兩種無(wú)導(dǎo)數(shù)優(yōu)化方法來(lái)優(yōu)化這些低秩模塊。在各種任務(wù)和語(yǔ)言模型上的廣泛結(jié)果表明,此方法在內(nèi)存使用和收斂速度方面與現(xiàn)有基于梯度的參數(shù)高效調(diào)優(yōu)方法和無(wú)導(dǎo)數(shù)優(yōu)化方法相比,都有顯著的改進(jìn)。

目前,利用大語(yǔ)言模型的主流方法是通過上下文學(xué)習(xí),將模型視為一項(xiàng)服務(wù)。這種方法只涉及前向計(jì)算,并且需要設(shè)計(jì)適當(dāng)?shù)奶崾净蜓菔?,而不更新模型參?shù)。然而,上下文學(xué)習(xí)需要精心選擇提示和演示,模型的性能完全依賴于所選的提示和演示。

本文研究者考慮到直接使用無(wú)導(dǎo)數(shù)方法在高維空間中優(yōu)化每層的所有低秩模塊可能會(huì)減慢收斂速度,于是采用了分而治之的策略。分別優(yōu)化每層的低秩模塊,并且引入了一個(gè)線性映射矩陣。該矩陣將無(wú)導(dǎo)數(shù)優(yōu)化后獲得的參數(shù)映射到每層所需的低秩模塊。研究者們根據(jù)正態(tài)分布初始化線性映射矩陣,其標(biāo)準(zhǔn)差與每層的隱藏狀態(tài)相關(guān)。

研究者在RoBERTa-large、GPT2-large和GPT2-XL上進(jìn)行了全面的實(shí)驗(yàn),以評(píng)估方法的有效性。結(jié)果表明,提出的方法在少量樣本設(shè)置中平均在七個(gè)自然語(yǔ)言理解任務(wù)上取得了顯著的改進(jìn)。此外,該方法在GPU內(nèi)存使用和模型收斂速度方面表現(xiàn)出明顯的優(yōu)勢(shì),與現(xiàn)有的無(wú)導(dǎo)數(shù)優(yōu)化方法相比性能更優(yōu)。

方法概述:無(wú)導(dǎo)數(shù)優(yōu)化方法與低秩模塊的結(jié)合

1. 無(wú)導(dǎo)數(shù)優(yōu)化方法的基本原理

無(wú)導(dǎo)數(shù)優(yōu)化(DFO)算法能夠在不依賴反向傳播的情況下處理復(fù)雜問題。通常,這些DFO算法采用采樣和更新框架來(lái)迭代地增強(qiáng)解決方案。這些算法在各種領(lǐng)域都有廣泛的應(yīng)用,從自動(dòng)機(jī)器學(xué)習(xí)到強(qiáng)化學(xué)習(xí)和目標(biāo)檢測(cè)等。

代表性的DFO算法包括CMA-ES(協(xié)方差矩陣適應(yīng)進(jìn)化策略)、Fireworks算法(煙花算法)、遺傳算法等。

  • CMA-ES是一種廣泛采用的進(jìn)化算法,用于非線性和非凸連續(xù)優(yōu)化。它通過在每次迭代中從多元正態(tài)分布模型中采樣來(lái)生成新的潛在解決方案。
  • 此外還有基于模擬煙花爆炸過程的Fireworks算法,通過隨機(jī)爆炸過程引入隨機(jī)性和多樣性,幫助逃離局部最小值并進(jìn)行更全面的問題空間搜索。
  • FWA提出了一種新的搜索方式,通過局部空間內(nèi)的隨機(jī)爆炸過程搜索潛在空間。

基于CMA-ES和FWA,研究者提出了兩種無(wú)導(dǎo)數(shù)優(yōu)化方法用于低秩適應(yīng):C-LoRA和F-LoRA。

今日arXiv最熱大模型論文:超越LoRA,北京大學(xué)提出預(yù)訓(xùn)練模型非梯度優(yōu)化法-AI.x社區(qū)

2. 低秩模塊的引入與優(yōu)化策略

研究者首先將模型設(shè)計(jì)得接近預(yù)訓(xùn)練階段(例如,保持一致的目標(biāo)函數(shù)),通過將每個(gè)輸入X轉(zhuǎn)換為包含標(biāo)記的掩碼語(yǔ)言模型(MLM)輸入。然后,模型確定用于替換標(biāo)記的類Y的相應(yīng)詞匯化器。

在低秩適應(yīng)(LoRA)和黑盒提示調(diào)優(yōu)(BBT)的成功基礎(chǔ)上,將低秩矩陣整合到預(yù)訓(xùn)練語(yǔ)言模型的每層自注意力模塊中。研究者使用無(wú)導(dǎo)數(shù)優(yōu)化方法來(lái)優(yōu)化引入的低秩矩陣參數(shù)。LoRA模塊由兩個(gè)低秩矩陣組成。在訓(xùn)練過程中,W的參數(shù)被凍結(jié),不接收梯度更新,而A和B的參數(shù)使用無(wú)梯度方法進(jìn)行更新。

考慮到大語(yǔ)言模型具有低內(nèi)在維度,研究者進(jìn)一步使用兩種無(wú)梯度優(yōu)化方法在低秩空間中優(yōu)化參數(shù)。在語(yǔ)言模型的每層自注意力模塊中使用無(wú)梯度優(yōu)化器(例如FWA和CMA-ES)優(yōu)化向量。然后,這些優(yōu)化后的向量通過特定的隨機(jī)投影模塊,將其投影到低秩空間。

今日arXiv最熱大模型論文:超越LoRA,北京大學(xué)提出預(yù)訓(xùn)練模型非梯度優(yōu)化法-AI.x社區(qū)

這一過程針對(duì)每個(gè)模型層分別進(jìn)行,將優(yōu)化自注意力層連接的低秩矩陣視為子問題優(yōu)化過程。受到分而治之方法的啟發(fā),研究者采用無(wú)梯度優(yōu)化策略來(lái)優(yōu)化整個(gè)模型中引入的參數(shù)。

上述模塊在模型性能中起著至關(guān)重要的作用。研究者分析了兩種不同的初始化方法:隨機(jī)初始化與正態(tài)分布和使用與BBTv2類似的語(yǔ)言模型每層隱藏狀態(tài)的分布進(jìn)行初始化。發(fā)現(xiàn)表明,隨機(jī)初始化與正態(tài)分布會(huì)導(dǎo)致語(yǔ)言模型性能略有下降,并減慢收斂速度。

因此,研究者使用語(yǔ)言模型每層的隱藏狀態(tài)分布來(lái)對(duì)模塊進(jìn)行初始化。這種初始化策略有助于保持模型的性能和收斂速度,從而獲得更好的結(jié)果。

實(shí)驗(yàn)結(jié)果:與現(xiàn)有方法的比較

在RoBERTa-large上的實(shí)驗(yàn)結(jié)果表明,研究者提出的方法在七個(gè)自然語(yǔ)言理解任務(wù)中的平均表現(xiàn)上取得了顯著的改進(jìn)。與現(xiàn)有的基于梯度的參數(shù)高效方法(例如Adapter tuning、LoRA、P-Tuning v2和BitFit)以及無(wú)導(dǎo)數(shù)優(yōu)化方法(例如BBT、GAP3和BBTv2)相比,本的方法展現(xiàn)了明顯的優(yōu)勢(shì)。此外,在內(nèi)存使用和模型收斂速度方面也展現(xiàn)了明顯的優(yōu)勢(shì)。

討論:無(wú)導(dǎo)數(shù)優(yōu)化方法的優(yōu)勢(shì)與局限

1. 內(nèi)存使用與訓(xùn)練時(shí)間的改進(jìn)

該方法在單個(gè)NVIDIA 3090 GPU上進(jìn)行了實(shí)驗(yàn),該GPU具有24GB的內(nèi)存。實(shí)驗(yàn)結(jié)果表明,與BBTv2相比,該方法在SST2、AG's News和MRPC上分別提高了8.7分鐘、15.4分鐘和7.7分鐘的收斂速度,這表明該方法具有在大語(yǔ)言模型上應(yīng)用的潛力,提供了參數(shù)高效、內(nèi)存高效和更快收斂的優(yōu)勢(shì)。

2. 子空間維度與低秩大小對(duì)模型性能的影響

在探索子空間維度對(duì)方法的影響時(shí),使用GPT2-XL模型在SST2和SNLI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。該方法在增加子空間維度時(shí)始終優(yōu)于BBTv2。

今日arXiv最熱大模型論文:超越LoRA,北京大學(xué)提出預(yù)訓(xùn)練模型非梯度優(yōu)化法-AI.x社區(qū)

在考慮低秩r對(duì)提出方法性能的影響時(shí),研究者在GPT2-XL模型上對(duì)SST2和Yelpp數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。在使用無(wú)導(dǎo)數(shù)方法優(yōu)化時(shí),模型不需要在高維度上進(jìn)行優(yōu)化,只需要在低秩r上進(jìn)行優(yōu)化即可取得良好的結(jié)果。實(shí)驗(yàn)中,研究者選擇r=2或r=4,允許模型通過引入非常少的參數(shù)來(lái)實(shí)現(xiàn)良好的結(jié)果。

今日arXiv最熱大模型論文:超越LoRA,北京大學(xué)提出預(yù)訓(xùn)練模型非梯度優(yōu)化法-AI.x社區(qū)

結(jié)論與未來(lái)工作方向

1. 本研究的貢獻(xiàn)與意義

本研究的意義在于,它為如何在不計(jì)算梯度的情況下有效利用大型語(yǔ)言模型提供了一個(gè)有前景的方向。不僅提高了模型的穩(wěn)定性和收斂速度,而且在GPU內(nèi)存使用上也更為高效,這使得它在資源受限的環(huán)境中尤為有價(jià)值。

2. 對(duì)未來(lái)大型語(yǔ)言模型優(yōu)化方法的展望

未來(lái)的研究可以在多個(gè)方向上進(jìn)一步擴(kuò)展本研究的工作。

  • 首先,雖然該方法在語(yǔ)言理解任務(wù)上取得了成功,但其在生成任務(wù)上的效果尚未得到驗(yàn)證。未來(lái)的工作可以探索如何將導(dǎo)數(shù)自由優(yōu)化方法應(yīng)用于更廣泛的NLP任務(wù),包括文本生成。
  • 其次,目前僅在需要修改特定模型結(jié)構(gòu)的大模型上進(jìn)行了驗(yàn)證。未來(lái)的工作可以探索如何將這種方法應(yīng)用于不同類型的模型,以及如何進(jìn)一步提高其在不同模型架構(gòu)上的通用性和靈活性。
  • 最后,本研究的方法在實(shí)驗(yàn)中展現(xiàn)了優(yōu)勢(shì),但其背后的理論基礎(chǔ)尚未完全清晰。因此,未來(lái)的研究可以致力于更深入地理解導(dǎo)數(shù)自由優(yōu)化方法在低秩模塊優(yōu)化中的作用機(jī)制,以及它們?nèi)绾闻c模型的內(nèi)在維度和參數(shù)效率相互作用。


本文轉(zhuǎn)載自夕小瑤科技說(shuō),作者:松果

原文鏈接:??https://mp.weixin.qq.com/s/uVxl_QKDZe89ekMmSDMH_g??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦