自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="svqmn"></cite><style id="svqmn"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！

發(fā)布于 2024-8-5 09:49

瀏覽

0收藏

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2407.05000

亮點直擊

提出了LoRA-GA，一種新穎的 LoRA 初始化方法，通過近似低秩矩陣的梯度與全權(quán)重矩陣的梯度來加速收斂。
確定了在非零初始化下的縮放因子，該因子確保適配器輸出的方差不受適配器的秩和輸入維度的影響。
通過廣泛的實驗驗證了 LoRA-GA，證明了與原版 LoRA 相比，其性能顯著提升且收斂速度更快。具體而言，LoRA-GA 在 T5-Base 的 GLUE 子集上比 LoRA 提高了 5.69%，在 Llama 2-7B 上在 MT-bench、GSM8K 和 HumanEval 上分別提高了 0.34%、11.52% 和 5.05%，同時實現(xiàn)了高達 2-4 倍的收斂速度提升。

微調(diào)大規(guī)模預訓練模型在計算和內(nèi)存成本方面是非常昂貴的。LoRA 作為最流行的參數(shù)高效微調(diào) (PEFT) 方法之一，通過微調(diào)一個參數(shù)顯著更少的輔助低秩模型，提供了一種成本有效的替代方案。盡管 LoRA 顯著減少了每次迭代的計算和內(nèi)存需求，但大量實證證據(jù)表明，與完全微調(diào)相比，它的收斂速度明顯較慢，最終導致總體計算增加且測試性能往往較差。本文對 LoRA 的初始化方法進行了深入研究，并表明細致的初始化（不改變架構(gòu)和訓練算法）可以顯著提高效率和性能。本文引入了一種新穎的初始化方法，LoRA-GA（帶梯度近似的低秩適應），該方法在第一步將低秩矩陣乘積的梯度與完全微調(diào)的梯度對齊。廣泛實驗表明，LoRA-GA 達到了與完全微調(diào)相當?shù)氖諗克俣龋ㄒ虼孙@著快于原版 LoRA 及其他各種最新改進方法），同時達到相當或更好的性能。例如，在 T5-Base 的 GLUE 數(shù)據(jù)集子集上，LoRA-GA 平均比 LoRA 提高了 5.69%。在更大的模型如 Llama 2-7B 上，LoRA-GA 在 MT-bench、GSM8K 和 Human-eval 上分別表現(xiàn)出 0.34%、11.52% 和 5.05% 的性能提升。此外，與原版 LoRA 相比，收斂速度提高了 2-4 倍，驗證了其在加速收斂和提升模型性能方面的有效性。

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

方法

本節(jié)分析了 LoRA 的初始化并介紹了LoRA-GA。它包括兩個關(guān)鍵組件，分別檢查每個組件，并介紹它們在 LoRA-GA 中的整合。

近似全微調(diào)的梯度方向
確保初始化過程中的秩和Scale穩(wěn)定性。

原版 LoRA 回顧

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

梯度近似

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

Scale穩(wěn)定性

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

LoRA-GA 初始化

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

實驗

本節(jié)中，評估了 LoRA-GA 在各種基準數(shù)據(jù)集上的性能。首先，使用 T5-Base 模型在 GLUE 數(shù)據(jù)集的一個子集上評估自然語言理解 (NLU) 能力。隨后，使用 Llama 2-7B 模型評估對話、數(shù)學推理和編碼能力。最后，進行消融研究以證明本文方法的有效性。

Baselines 將 LoRA-GA 與幾個基線進行比較，以展示其有效性：

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

自然語言理解實驗

模型與數(shù)據(jù)集 在 GLUE 基準的多個數(shù)據(jù)集上微調(diào) T5-Base 模型，包括 MNLI、SST-2、CoLA、QNLI 和 MRPC。使用準確率作為主要指標，在開發(fā)集上評估性能。

實現(xiàn)細節(jié) 使用提示微調(diào) (prompt tuning) 方法對 T5-Base 模型進行 GLUE 基準的微調(diào)。這涉及將標簽轉(zhuǎn)換為令牌（例如，“positive” 或 “negative”），并使用這些令牌的歸一化概率作為分類的預測標簽概率。每個實驗使用 3 個不同的隨機種子進行，并報告平均性能。

結(jié)果如下表 1 所示，LoRA-GA 一直優(yōu)于原版 LoRA 和其他基線方法，取得了與完全微調(diào)相當?shù)男阅?。特別是，LoRA-GA 在較小的數(shù)據(jù)集如 CoLA 和 MRPC 上表現(xiàn)突出，展示了其在有限訓練數(shù)據(jù)下更快收斂和有效利用的能力。

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

大語言模型實驗

模型與數(shù)據(jù)集 為了評估 LoRA-GA 的可擴展性，在三個任務上訓練了 Llama 2-7B 模型：對話、數(shù)學和代碼。

對話 (Chat)：在 WizardLM的 52k 子集上訓練模型，過濾掉以“作為 AI”或“對不起”開頭的回應。在 MT-Bench 數(shù)據(jù)集上測試模型，該數(shù)據(jù)集由 80 個多輪問題組成，旨在評估大語言模型的多個方面。回答的質(zhì)量由 GPT-4 進行評判，報告第一次回答的得分。
數(shù)學 (Math)：在 MetaMathQA 的 100k 子集上訓練模型，這個數(shù)據(jù)集從其他數(shù)學指令調(diào)整數(shù)據(jù)集（如 GSM8K和 MATH）中引導而來，具有更高的復雜性和多樣性。選擇從 GSM8K 訓練集中引導的數(shù)據(jù)并應用過濾。準確率在 GSM8K 評估集上報告。
代碼 (Code)：在 Code-Feedback的 100k 子集上訓練模型，這是一個高質(zhì)量的代碼指令數(shù)據(jù)集，去除代碼塊后的解釋。模型在 HumanEval上進行測試，該數(shù)據(jù)集包含 180 個 Python 任務，報告 PASS@1 指標。

實現(xiàn)細節(jié) 本文的模型使用標準的監(jiān)督學習進行語言建模訓練。輸入提示的損失設置為零。每個實驗使用 3 個不同的隨機種子進行，并報告這些運行的平均性能。

結(jié)果 結(jié)果如下表 2 所示，表明 LoRA-GA 優(yōu)于或與其他方法相當，包括完全微調(diào)。具體而言，LoRA-GA 在 GSM8K 和 Human-eval 數(shù)據(jù)集上表現(xiàn)出色，突顯了其在處理具有更高復雜性和多樣性的任務方面的有效性。在 MT-Bench 上，LoRA-GA 也展現(xiàn)了競爭力的性能，盡管略微落后于 DoRA。然而，LoRA-GA 在參數(shù)較少且大約僅需 DoRA 70% 的訓練時間的情況下實現(xiàn)了這些性能。此外，如下圖 2（左）所示，本文的方法在收斂速率上顯著快于原版 LoRA，其收斂速率與完全微調(diào)相當。

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

影響秩

將 GSM8K 和 Human-eval 數(shù)據(jù)集上的性能差異（與完全微調(diào)相比）主要歸因于低秩近似所帶來的表示限制。為了解決這個問題，嘗試了更高的秩設置，具體為秩=32 和秩=128。發(fā)現(xiàn)表明，LoRA-GA 在不同秩設置下保持穩(wěn)定，并且在某些情況下，甚至超越了完全微調(diào)的性能。如圖 2（左）所示，初始化方法下更高的秩也導致了與完全微調(diào)相似的損失曲線。

消融研究

研究者們進行了消融研究，以評估 LoRA-GA 中非零初始化、穩(wěn)定輸出和梯度近似的貢獻，使用了五種不同的實驗設置。每個設置的詳細信息見下表 3。

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

消融結(jié)果

結(jié)果如下表 4 和表 6 所示。對于小型和大型模型，觀察到，僅將 LoRA 的初始化更改為高斯初始化并未帶來性能提升，甚至可能導致輕微的性能下降。然而，當與“+SO”（穩(wěn)定輸出）或“+GA”（梯度近似）結(jié)合使用時，性能優(yōu)于 LoRA。LoRA-GA，結(jié)合了這兩種技術(shù)，表現(xiàn)優(yōu)于其他方法。如上圖 2（左）和下圖 4 所示，+SO 和 +GA 也提高了收斂速度，并且當兩者結(jié)合時，訓練損失曲線甚至更接近完全微調(diào)的曲線。這表明，輸出穩(wěn)定性和梯度近似都對 LoRA 的改進有所貢獻，各自解決了模型性能的不同方面。

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

內(nèi)存成本和運行時間

研究者們在單個 RTX 3090 24GB GPU、128 核 CPU 和 256GB RAM 上對 LoRA-GA 進行了基準測試。如下表 5 所示，本文的新方法的內(nèi)存消耗不超過 LoRA 訓練時的內(nèi)存消耗，表明沒有額外的內(nèi)存需求。此外，與后續(xù)的微調(diào)過程相比，這項操作的時間成本相對微不足道。例如，在 Code-Feedback 任務中，訓練過程大約花費了 10 小時，而初始化僅需約 1 分鐘，這一時間差異可以忽略不計。

如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！-AI.x社區(qū)

結(jié)論

本文提出了一種用于LoRA的新初始化方案，旨在加速其收斂。通過研究 LoRA 的初始化方法和更新過程，開發(fā)了一種新初始化方法——LoRA-GA，該方法從第一步起就將低秩矩陣乘積的梯度近似為完全微調(diào)的梯度。

通過大量實驗，展示了 LoRA-GA 能夠?qū)崿F(xiàn)與完全微調(diào)相當?shù)氖諗克俣龋瑫r提供類似或更優(yōu)的性能。由于 LoRA-GA 僅修改了 LoRA 的初始化，而未改變架構(gòu)或訓練算法，它提供了一種高效且易于實施的方法。此外，它還可以與其他 LoRA 變體結(jié)合使用。例如，ReLoRA 定期將適配器合并到凍結(jié)權(quán)重 W 中，這可能使 LoRA-GA 在更多步驟中展現(xiàn)其優(yōu)勢。將此作為一個有趣的未來研究方向。

本文轉(zhuǎn)自 AI生成未來，作者：Shaowen Wang

原文鏈接:??https://mp.weixin.qq.com/s/JfgiVue2-oSZPQb3Qu72WQ??

標簽

已于2024-8-5 09:50:34修改

贊

收藏

回復

舉報

回復

相關(guān)推薦

大模型推理框架RTP-LLM對LoRA的支持

wx5bbef785639a1 ? 3911瀏覽 ? 0回復
配置不同的學習率，LoRA還能再漲一點？

laokugonggao ? 3928瀏覽 ? 0回復
大模型微調(diào)新范式：當LoRA遇見MoE

zhangyannni ? 3350瀏覽 ? 0回復
改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果

輕薄滴假象 ? 2250瀏覽 ? 0回復
單GPU實現(xiàn)LLM多LoRA微調(diào)

angel ? 3963瀏覽 ? 0回復
LLM高效微調(diào)詳解-從Adpter、PrefixTuning到LoRA

angel ? 3566瀏覽 ? 0回復
LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究

Crystalcxt ? 2482瀏覽 ? 0回復
LLM微調(diào)技術(shù)LoRA圖解

51CTO內(nèi)容精選 ? 2769瀏覽 ? 0回復
利用多Lora節(jié)省大模型部署成本

卓勝微wjp ? 2435瀏覽 ? 0回復
LoRA技術(shù)引領大型語言模型新革命

AI論文解讀 ? 2862瀏覽 ? 0回復
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 2439瀏覽 ? 0回復
你的LoRA需要更新了！科大訊飛等提出MiLoRA：新穎且高效的LoRA變體

angel ? 2438瀏覽 ? 0回復
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 3233瀏覽 ? 0回復
參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA

大模型自然語言處理 ? 3188瀏覽 ? 0回復
微軟 Phi-4 震撼發(fā)布：14B 參數(shù)模型性能超越一眾大模型，數(shù)學推理性能提升顯著

Syrupup ? 2551瀏覽 ? 0回復
賈佳亞團隊提出DreamOmni：訓練收斂速度快且性能強大

angel ? 1880瀏覽 ? 0回復
阿里巴巴語音實驗室發(fā)布新成果，多模態(tài)方法顯著提升視頻主題分割性能

xuxiangda ? 2021瀏覽 ? 0回復
LLM合集：微軟發(fā)布基于過程的自獎勵方法顯著提升數(shù)學推理性能

AIPaperDaily ? 1331瀏覽 ? 0回復
破解LoRA融合密碼！無需訓練奪得SOTA！K-LoRA巧用Top-K策略，讓風格與主體完美融合

angel ? 1797瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：寥寥數(shù)筆，動畫自成！阿里Tora: 首個軌跡引導的DiT創(chuàng)新實現(xiàn)精確運動控制視頻生成

下一篇：超越DiffEdit、SDEdit等6大編輯模型！字節(jié)等提出人像服飾、卡通表情編輯新SOTA！

社區(qū)精華內(nèi)容

目錄

<cite id="ysb1r"></cite>

<sub id="ysb1r"><rt id="ysb1r"></rt></sub>