自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="s8so0"><s id="s8so0"><li id="s8so0"></li></s></sub>

<ruby id="s8so0"><samp id="s8so0"></samp></ruby>

<legend id="s8so0"></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

配置不同的學習率，LoRA還能再漲一點？

發(fā)布于 2024-3-27 20:37

瀏覽

0收藏

LoRA(Low-Rank Adaptation)是當前 LLM 的參數(shù)高效微調(diào)手段之一，此前我們在《梯度視角下的LoRA：簡介、分析、猜測及推廣》也有過簡單討論。這篇文章我們來學習 LoRA 的一個新結(jié)論：

給 LoRA 的兩個矩陣分配不同的學習率，LoRA 的效果還能進一步提升。

該結(jié)論出自最近的論文《LoRA+: Efficient Low Rank Adaptation of Large Models》[1](下稱“LoRA+”)。咋看之下，該結(jié)論似乎沒有什么特別的，因為配置不同的學習率相當于引入了新的超參數(shù)，通常來說只要引入并精調(diào)超參數(shù)都會有提升。

“LoRA+”的特別之處在于，它從理論角度肯定了這個必要性，并且斷定最優(yōu)解必然是右矩陣的學習率大于左矩陣的學習率。簡而言之，“LoRA+”稱得上是理論指導訓練并且在實踐中確實有效的經(jīng)典例子，值得仔細學習一番。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

結(jié)論簡析

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

“LoRA+”的結(jié)論是：為了使 LoRA 的效果盡可能接近最優(yōu)，權(quán)重 B 的學習率應該要大于權(quán)重A的學習率。

注意，為了使初始模型等價于原始預訓練模型，LoRA 通常會將 A,B 之一全零初始化。筆者一開始以為，該結(jié)論是由于全零初始化導致的，所以應該依賴于全零初始化的位置，但仔細閱讀后發(fā)現(xiàn)，“LoRA+”所聲稱的結(jié)論跟全零初始化無關(guān)，也就是說，表面上 A,B 是對稱的，但實際上它們有著固有的不對稱性，以至于不管選擇 A 還是 B 來全零初始化，結(jié)論都是 B 的學習率要大于 A。這就有意思起來了。

不得不說。“LoRA+”原文的推導寫得相當讓人費解，下面筆者盡量用自己的思路來完成推導。大體上，它基于兩點假設(shè)：1. 數(shù)值穩(wěn)定：模型每一層的輸出值都應該是數(shù)值穩(wěn)定的，跟網(wǎng)絡(luò)寬度無關(guān);2. 貢獻相當：為了使 LoRA 最優(yōu)，A,B 兩個矩陣對效果應該有同等程度的貢獻。接下來我們逐一分析并量化這兩點假設(shè)。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

數(shù)值穩(wěn)定

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

單看前向傳播來說，XA 的數(shù)值穩(wěn)定性確實不是必要的。但如果 XA 數(shù)值不穩(wěn)定同時 XAB 數(shù)值穩(wěn)定的話，那么有兩種情況：XA 數(shù)值偏大、B 數(shù)值偏小，根據(jù)求導公式，這將導致 A 的梯度偏小、B 的梯度偏大;反過來，XA 數(shù)值偏小、B 數(shù)值偏大，這將導致 A 的梯度偏大、B 的梯度偏小。

總而言之，XA 的數(shù)值不穩(wěn)定會導致 A,B 的梯度不穩(wěn)定，從而增加優(yōu)化難度，所以還是加上 XA 的數(shù)值穩(wěn)定性為條件比較好。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

貢獻相當

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

這里使用了一階線性近似，其中是 A,B 的梯度，是(Frobenius)內(nèi)積運算，右端兩項就可以理解為 A,B 對效果的分別貢獻。但注意線性近似的有效性取決于增量是小量，但對于訓練好的權(quán)重，它對于原始權(quán)重的增量還真未必是小量。

所以退而求其次，我們將“貢獻相當”假設(shè)改為“A,B 在每一步更新中應該對效果有同等程度上的貢獻”，由于單步更新的量通常很小，因此線性近似能比較好地滿足。

既然要考慮每一步的更新量，那么就引導我們到了優(yōu)化器的方向上。當前預訓練和微調(diào)的主流優(yōu)化器都是 Adam，那么我們就以 Adam 為主要分析對象。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

其中是各自的學習率，“LoRA+”的結(jié)論就是。

將 SignSGD 的增量(2)代回式(1)，那么就得到

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

快速推導

進一步的分析需要求出梯度的具體形式。再次設(shè) Y=XAB，那么可以求出：

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

但是還沒完，我們要檢查一下結(jié)果是否自洽，因為我們用到的條件之一是“前向的數(shù)值穩(wěn)定性”，至今為止還只是一個理想的假設(shè)。如何讓假設(shè)盡可能成立呢?戰(zhàn)勝一個假設(shè)的方法是引入另一個假設(shè)：

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

根據(jù) Adam 的近似式(2)，每步增量的數(shù)量級確實正比于學習率，但總的更新結(jié)果又不完全是每一步簡單疊加，所以這個假設(shè)給人的感覺就是“看上去有點道理，但又不完全有道理”。但不要緊，假設(shè)通常都是這樣子的，有點道理就行，剩下的就只能靠信仰了。

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

配置不同的學習率，LoRA還能再漲一點？-AI.x社區(qū)

文章小結(jié)

這篇文章中，我們介紹并推導了一個名為“LoRA+”的結(jié)果，它支持 LoRA 的兩個低秩矩陣 A,B 存在固有的不對稱性，不管將哪個矩陣全零初始化，都應該將 B 的學習率設(shè)置得大于 A，以達到更優(yōu)的效果。

本文轉(zhuǎn)載自 ??PaperWeekly??，作者：蘇劍林

原文鏈接：??https://mp.weixin.qq.com/s/OsyG71leU9OdJu7y0lppVA??

標簽

已于2024-3-27 20:51:53修改

贊

收藏

回復

舉報

回復

相關(guān)推薦

【春“碼”盎然學習季】春日生發(fā)，宜學習，宜進階，宜贏取春日好禮！

AI.x社區(qū)官方賬號 ? 52.2w瀏覽 ? 52回復
【乘風進階學習季】夏日初長，乘風而上，碼出未來！

AI.x社區(qū)官方賬號 ? 52.9w瀏覽 ? 36回復
不同數(shù)據(jù)集有不同的Scaling law？而你可用一個壓縮算法來預測它

輕薄滴假象 ? 2129瀏覽 ? 0回復
【創(chuàng)新一夏學習季】熱浪升溫，創(chuàng)新一夏，釋放開發(fā)潛能

AI.x社區(qū)官方賬號 ? 52.8w瀏覽 ? 39回復
相同的 LLM 在「不同 GPU 上」會產(chǎn)生不同輸出？為什么？

Baihai_IDP ? 3440瀏覽 ? 2回復
三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈

魯班模錘1 ? 1820瀏覽 ? 0回復
一文匯總：長周期時序預測有哪些優(yōu)化點？

海因斯DK ? 3867瀏覽 ? 0回復
【學習挑戰(zhàn)賽】任務進階，完成就有獎品拿

AI.x社區(qū)官方賬號 ? 3.2w瀏覽 ? 2回復
你的LoRA需要更新了！科大訊飛等提出MiLoRA：新穎且高效的LoRA變體

angel ? 2446瀏覽 ? 0回復
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 3256瀏覽 ? 0回復
ChunkRAG：比CRAG提升10個點準確率

大語言模型論文跟蹤 ? 2056瀏覽 ? 0回復
LazyGrapgRAG：與GraphRAG完全不同的方法

PyTorch研習社 ? 2451瀏覽 ? 0回復
我們一起聊聊快速傅里葉變換暴力漲點！基于時頻特征融合的高創(chuàng)新時間序列分類模型

Tang_Lan ? 2122瀏覽 ? 0回復
基于深度強化學習的投資組合配置動態(tài)優(yōu)化

靈度智能 ? 2856瀏覽 ? 0回復
不同神經(jīng)網(wǎng)絡(luò)之間的區(qū)別，僅僅只是網(wǎng)絡(luò)結(jié)構(gòu)的不同，明白了這個你才能知道應該怎么學習神經(jīng)網(wǎng)絡(luò)

AI探索時代 ? 1592瀏覽 ? 0回復
高效學習神經(jīng)網(wǎng)絡(luò)技術(shù)——以具體的任務類型為切入點

AI探索時代 ? 1189瀏覽 ? 0回復
【AIGC】AI、大數(shù)據(jù)、機器學習、深度學習、神經(jīng)網(wǎng)絡(luò)之間的關(guān)系詳解：你必須知道的五個關(guān)鍵點！

唐克 ? 835瀏覽 ? 0回復
大模型除了聊天還能做什么？關(guān)于大模型的分類和應用

AI探索時代 ? 1484瀏覽 ? 0回復
一文讀遍 LoRA 家族：大語言模型高效訓練的"秘密武器"

鴻煊的學習筆記 ? 660瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ICLR 2024 | 脈沖神經(jīng)網(wǎng)絡(luò)的meta架構(gòu)設(shè)計：啟發(fā)下一代神經(jīng)形態(tài)芯片設(shè)計 2024-03-27 21:07:42發(fā)布
調(diào)研120+模型！騰訊AI Lab聯(lián)合京都大學發(fā)布多模態(tài)大語言模型最新綜述 2024-03-27 20:58:09發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好

下一篇： ?ICLR 2024 | UTS提出全新聯(lián)邦推薦算法：從全面?zhèn)€性化過渡到加性個性化

社區(qū)精華內(nèi)容

目錄

<legend id="t153t"><track id="t153t"></track></legend>

^{<blockquote id="t153t"></blockquote>}

<legend id="t153t"><track id="t153t"></track></legend>