GoRA: 基于梯度驅(qū)動的自適應低秩微調(diào)方法
研究背景與動機
現(xiàn)有問題
- 秩的選擇問題:LoRA的性能很大程度上取決于秩的選擇,但增加秩會導致內(nèi)存使用量上升。
- 初始化策略局限:現(xiàn)有的非零初始化方法要么需要重置全部權重,要么需要保存額外的初始化結果。
- 可用性與效率的權衡:已有的LoRA變體在提升性能的同時往往會犧牲可用性或效率。
研究意義
提出一種新的方法來解決上述問題,在不影響LoRA原有優(yōu)勢的前提下提升其性能,對于大語言模型的高效微調(diào)具有重要意義。
技術創(chuàng)新
1. 梯度視角的LoRA重新解釋
將LoRA視為梯度壓縮器,通過分析其更新形式發(fā)現(xiàn):
- LoRA-FA凍結隨機初始化的矩陣A,僅訓練矩陣B時,可以看作是一個梯度累積和壓縮的過程
- 壓縮矩陣為隨機初始化的A
- 這種理解為后續(xù)的改進提供了理論基礎
2. GoRA的核心創(chuàng)新
- 動態(tài)秩分配策略:
a.基于權重對損失的敏感度計算重要性
b.在訓練開始前完成秩分配
c.保持與LoRA相近的可訓練參數(shù)數(shù)量
d.維持與LoRA一致的形式以確保兼容性
- 初始化策略優(yōu)化:
- 保持矩陣A的正態(tài)分布初始化
- 使用偽逆壓縮梯度初始化矩陣B
- 引入縮放因子ξ來確保訓練穩(wěn)定性
3. 算法流程
- 計算并保存權重W在訓練樣本子集上的完整梯度G
- 基于梯度信息評估W的重要性
- 根據(jù)歸一化的重要性分配新的可訓練參數(shù)和對應的低秩適配器秩
- 使用Moore-Penrose逆矩陣對B進行最優(yōu)初始化
實驗評估
1. 自然語言理解任務
- 數(shù)據(jù)集:GLUE基準測試中的5個子任務(MNLI、SST-2、CoLA、QNLI、MRPC)
- 模型:T5-Base
- 結果:
在4個數(shù)據(jù)集上取得最佳性能
平均分87.96,超過所有基線方法
甚至略微超過全量微調(diào)(87.91)
2. 自然語言生成任務
- 評估任務:
數(shù)學能力:GSM8K
編碼能力:HumanEval
對話能力:MTBench
- 模型:Llama-3.1-8B-Base
- 結果:
- GSM8K:得分72.91,超過LoRA-GA 1.52分
- HumanEval:得分48.98,超過RSLoRA 3.20分
- 高秩設置(Rank128)下性能優(yōu)于全量微調(diào)
技術細節(jié)分析
1. 秩分配策略的影響
- 更寬的秩分配范圍能帶來更好的性能
- wv層獲得最多的秩分配,wq層獲得最少
- 高秩權重在合并后獲得更大的更新
2. 初始化策略的效果
- 縮放因子γ對模型效果影響顯著
- 在HumanEval數(shù)據(jù)集上,γ=5e-2時性能最佳
- 在GSM8k數(shù)據(jù)集上,γ=8e-2時性能最佳
3. 計算開銷
- 可訓練參數(shù)僅增加2.6%
- 內(nèi)存使用與LoRA基本相同
- 初始化時間(4分鐘)相對訓練時間(5小時48分鐘)可忽略
局限性與未來工作
局限性
- 尚未在更大規(guī)模模型和更大數(shù)據(jù)集上進行驗證
- 主要聚焦于語言模型,其他模態(tài)的適用性有待驗證
- 矩陣A的初始化方法仍有優(yōu)化空間
未來工作方向
- 擴展到更大規(guī)模模型如Llama-3.1-70B
- 探索在視覺語言模型等其他類型模型上的應用
- 研究更優(yōu)的矩陣A初始化策略
- 與其他LoRA變體(如DoRA)的結合
總結
GoRA通過梯度信息驅(qū)動的動態(tài)秩分配和初始化策略,在保持LoRA高效率和可用性的同時顯著提升了性能。其創(chuàng)新點主要體現(xiàn)在:
- 從梯度壓縮的角度重新詮釋LoRA,提供了新的理論視角
- 提出基于梯度信息的動態(tài)秩分配策略
- 設計了新的初始化方法,確保訓練穩(wěn)定性
該方法在多個任務上展現(xiàn)出優(yōu)秀的性能,某些場景下甚至超過全量微調(diào),為大語言模型的高效微調(diào)提供了新的解決方案。
paper:https://arxiv.org/abs/2502.12171
本文轉載自 ??頓數(shù)AI??,作者: 小頌
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦