自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="bgqhm"><samp id="bgqhm"></samp></ruby>

<cite id="bgqhm"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

GoRA: 基于梯度驅(qū)動的自適應低秩微調(diào)方法

發(fā)布于 2025-2-20 10:41

瀏覽

0收藏

研究背景與動機

本文提出了一種新的低秩適應(LoRA)變體 - GoRA(Gradient-driven Adaptive Low Rank Adaptation)，通過梯度信息來自適應地分配秩和初始化低秩適配器的權重。該方法在保持LoRA高可用性和效率的同時顯著提升了模型性能。

現(xiàn)有問題

秩的選擇問題：LoRA的性能很大程度上取決于秩的選擇，但增加秩會導致內(nèi)存使用量上升。
初始化策略局限：現(xiàn)有的非零初始化方法要么需要重置全部權重，要么需要保存額外的初始化結果。
可用性與效率的權衡：已有的LoRA變體在提升性能的同時往往會犧牲可用性或效率。

研究意義

提出一種新的方法來解決上述問題，在不影響LoRA原有優(yōu)勢的前提下提升其性能，對于大語言模型的高效微調(diào)具有重要意義。

技術創(chuàng)新

1. 梯度視角的LoRA重新解釋

將LoRA視為梯度壓縮器，通過分析其更新形式發(fā)現(xiàn)：

LoRA-FA凍結隨機初始化的矩陣A，僅訓練矩陣B時，可以看作是一個梯度累積和壓縮的過程
壓縮矩陣為隨機初始化的A
這種理解為后續(xù)的改進提供了理論基礎

2. GoRA的核心創(chuàng)新

GoRA: 基于梯度驅(qū)動的自適應低秩微調(diào)方法-AI.x社區(qū)

動態(tài)秩分配策略：

a.基于權重對損失的敏感度計算重要性

b.在訓練開始前完成秩分配

c.保持與LoRA相近的可訓練參數(shù)數(shù)量

d.維持與LoRA一致的形式以確保兼容性

初始化策略優(yōu)化：
保持矩陣A的正態(tài)分布初始化
使用偽逆壓縮梯度初始化矩陣B
引入縮放因子ξ來確保訓練穩(wěn)定性

3. 算法流程

計算并保存權重W在訓練樣本子集上的完整梯度G
基于梯度信息評估W的重要性
根據(jù)歸一化的重要性分配新的可訓練參數(shù)和對應的低秩適配器秩
使用Moore-Penrose逆矩陣對B進行最優(yōu)初始化

實驗評估

1. 自然語言理解任務

數(shù)據(jù)集：GLUE基準測試中的5個子任務(MNLI、SST-2、CoLA、QNLI、MRPC)
模型：T5-Base
結果：

在4個數(shù)據(jù)集上取得最佳性能

平均分87.96，超過所有基線方法

甚至略微超過全量微調(diào)(87.91)

2. 自然語言生成任務

評估任務：

數(shù)學能力：GSM8K

編碼能力：HumanEval

對話能力：MTBench

模型：Llama-3.1-8B-Base
結果：
GSM8K：得分72.91，超過LoRA-GA 1.52分
HumanEval：得分48.98，超過RSLoRA 3.20分
高秩設置(Rank128)下性能優(yōu)于全量微調(diào)

GoRA: 基于梯度驅(qū)動的自適應低秩微調(diào)方法-AI.x社區(qū)

技術細節(jié)分析

1. 秩分配策略的影響

更寬的秩分配范圍能帶來更好的性能
wv層獲得最多的秩分配，wq層獲得最少
高秩權重在合并后獲得更大的更新

2. 初始化策略的效果

縮放因子γ對模型效果影響顯著
在HumanEval數(shù)據(jù)集上，γ=5e-2時性能最佳
在GSM8k數(shù)據(jù)集上，γ=8e-2時性能最佳

3. 計算開銷

可訓練參數(shù)僅增加2.6%
內(nèi)存使用與LoRA基本相同
初始化時間(4分鐘)相對訓練時間(5小時48分鐘)可忽略

局限性與未來工作

局限性

尚未在更大規(guī)模模型和更大數(shù)據(jù)集上進行驗證
主要聚焦于語言模型，其他模態(tài)的適用性有待驗證
矩陣A的初始化方法仍有優(yōu)化空間

未來工作方向

擴展到更大規(guī)模模型如Llama-3.1-70B
探索在視覺語言模型等其他類型模型上的應用
研究更優(yōu)的矩陣A初始化策略
與其他LoRA變體(如DoRA)的結合

總結

GoRA通過梯度信息驅(qū)動的動態(tài)秩分配和初始化策略，在保持LoRA高效率和可用性的同時顯著提升了性能。其創(chuàng)新點主要體現(xiàn)在：

從梯度壓縮的角度重新詮釋LoRA，提供了新的理論視角
提出基于梯度信息的動態(tài)秩分配策略
設計了新的初始化方法，確保訓練穩(wěn)定性

該方法在多個任務上展現(xiàn)出優(yōu)秀的性能，某些場景下甚至超過全量微調(diào)，為大語言模型的高效微調(diào)提供了新的解決方案。

paper:https://arxiv.org/abs/2502.12171

本文轉載自 ??頓數(shù)AI??，作者：小頌

標簽

贊

收藏

回復

舉報

回復

相關推薦

大模型提示學習樣本量有玄機，自適應調(diào)節(jié)方法好

pangguiyu ? 3209瀏覽 ? 0回復
檢索感知微調(diào)（RAFT），提升領域RAG效果的新方法

Syrupup ? 2736瀏覽 ? 0回復
一文詳解視覺Transformer模型壓縮和加速策略(量化/低秩近似/蒸餾/剪枝)

angel ? 4973瀏覽 ? 0回復
簡化大模型微調(diào)門檻：運用Ludwig低代碼框架的平臺技術實戰(zhàn)

AIGC觀察者 ? 2970瀏覽 ? 0回復
ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略

輕薄滴假象 ? 1889瀏覽 ? 0回復
大模型微調(diào)方法之QLoRA

shizhi02 ? 2229瀏覽 ? 0回復
蘋果發(fā)布高效雙EMA梯度優(yōu)化方法，適配Transformer、Mamba模型

Aceryt ? 1743瀏覽 ? 0回復
AI驅(qū)動的基于意圖的網(wǎng)絡（IBN）：人工智能助力網(wǎng)絡管理的未來

51CTO內(nèi)容精選 ? 2347瀏覽 ? 0回復
關于自適應模態(tài)分解方法

步驚云_32 ? 2295瀏覽 ? 0回復
NeurIPS'24 基于自適應多尺度超圖Transfromer的時間序列預測方法

海因斯DK ? 3119瀏覽 ? 0回復
低資源場景下Text2SQL方法

大模型自然語言處理 ? 1858瀏覽 ? 0回復
西湖大學等提出TPDM：自適應噪聲調(diào)度

angel ? 2162瀏覽 ? 0回復
基于 LlamaFactory 微調(diào)大模型的實體識別的評估實現(xiàn)

AI悠閑區(qū) ? 1940瀏覽 ? 0回復
深度學習訓練崩潰的真兇：梯度消失與梯度爆炸背后的秘密

人工智能訓練營 ? 2070瀏覽 ? 0回復
分布式訓練通信優(yōu)化，重疊通信，參數(shù)子集同步，低精度外梯度量化

AI研究前瞻 ? 1869瀏覽 ? 0回復
DeepSeek核心架構-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術細節(jié)

南夏的算法驛站 ? 3801瀏覽 ? 0回復
COSMOS：結合特征子空間分解的混合自適應優(yōu)化器用于大型語言模型的內(nèi)存高效訓練

頓數(shù)AI ? 1882瀏覽 ? 0回復
探索基于大型語言模型的智能體：定義、方法與前景

AIRoobt ? 4070瀏覽 ? 0回復
從零開始微調(diào)Embedding模型：基于BERT的實戰(zhàn)教程

AI悠閑區(qū) ? 795瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

動態(tài)超級塊剪枝：加速稀疏檢索的革命性技術 3天前發(fā)布
突破性創(chuàng)新：Genius框架實現(xiàn)大語言模型無監(jiān)督自我進化 2025-04-16 06:29:38發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：基于文本的可解釋AI局部代理模型穩(wěn)定性估計分析

下一篇： X-IL：系統(tǒng)化探索模仿學習策略的設計空間

社區(qū)精華內(nèi)容

目錄

<style id="eiy1f"></style>

<cite id="eiy1f"></cite>

<cite id="eiy1f"><li id="eiy1f"></li></cite>