自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="ph6ey"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究

發(fā)布于 2024-5-21 09:27

瀏覽

0收藏

大數(shù)據(jù)巨頭Databricks與哥倫比亞大學最新研究發(fā)現(xiàn)，在數(shù)學和編程任務上，LoRA干不過全量微調(diào)。

具體來說，在這兩種任務中，LoRA模型的精確度只有后者的八到九成左右。

不過，作者也發(fā)現(xiàn)，LoRA雖然學得少，但是“記憶力”卻更好，遺忘現(xiàn)象要比全量微調(diào)少得多。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

究其原因，作者認為是數(shù)學和代碼任務的特性與LoRA的低秩“八字不合”，遺忘更少也與秩相關。

但LoRA的一個公認的優(yōu)勢是訓練成本更低；而且相比全量微調(diào)，能夠更好地保持原有模型性能。

于是，網(wǎng)友們的看法也自然地分成了兩派：

一波人認為，單純考慮降低成本用LoRA，表現(xiàn)卻顯著降低，這是不可接受的。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

更具針對性的，有人指出，對于數(shù)學和代碼這樣對精度要求高的任務，一定要最大程度地保證性能，哪怕犧牲一些訓練成本。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

另一波機器學習工程師則認為，作者的一些實驗參數(shù)設置不當，造成這種現(xiàn)象的原因不一定是LoRA本身。

質(zhì)疑的具體理由我們放到后面詳細講解，先來看看作者的研究都有哪些發(fā)現(xiàn)。

學的更少，但忘的也少

實驗中，作者使用7B參數(shù)的Llama2作為基礎模型，在持續(xù)預訓練和監(jiān)督微調(diào)兩種模式下分別應用LoRA和全量微調(diào)，并比較了它們的表現(xiàn)，使用的數(shù)據(jù)集如下表：

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

持續(xù)預訓練實驗中，作者在2.5-200億token之間共選擇了8個點進行了測試；監(jiān)督微調(diào)實驗則是在訓練1、2、4、8、16個epochs時取樣；LoRA的rank取值為16和256，適配對象包括Attention、MLP和All。

結果不難看出，無論是持續(xù)預訓練還是監(jiān)督微調(diào)，LoRA在編程上的表現(xiàn)從未追上過全量微調(diào)，而且在持續(xù)預訓練中，隨著token數(shù)量的增加，差距越來越懸殊。

而在數(shù)學任務上的持續(xù)預訓練實驗中，LoRA起初表現(xiàn)略勝于全量微調(diào)，但也是隨著token數(shù)量的增加，這種優(yōu)勢逐漸被反超。

這一系列結果表明，LoRA在讓模型學習新知識的工作中，表現(xiàn)不及全量微調(diào)。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

不過盡管在性能上比不過全量微調(diào)，但LoRA的遺忘現(xiàn)象更少，更有利于保持原有模型的能力。

換言之，如果把原始模型比作剛畢業(yè)的小學生，那么用LoRA能學到的初中知識更少，但之前的小學知識忘得也更少。

對應到應用當中，則主要在語言理解、嘗試推理等基礎能力中體現(xiàn)。

作者使用了相同的實驗配置，把測試數(shù)據(jù)集更換成了HellaSwag、ARC-Challenge和Winogrande，分別測試經(jīng)過代碼和數(shù)學微調(diào)后的Llama2在基礎任務上的表現(xiàn)。

結果，用代碼來微調(diào)造成的“遺忘”現(xiàn)象更加嚴重，LoRA從整體上看更接近基礎模型，即遺忘現(xiàn)象更輕。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

秩是模型表現(xiàn)關鍵

作者分析了這些現(xiàn)象背后的原因，結果發(fā)現(xiàn)，秩在其中扮演了重要的角色。

在線性代數(shù)中，一個矩陣的秩是指其線性無關的行或列的最大數(shù)量，秩越高，所能表示的變換或關系就越復雜。

同理，在深度學習中，模型的權重矩陣可以看作是將輸入信息轉(zhuǎn)換為輸出信息的一種映射關系，這些矩陣的秩反映了模型在學習時所需的自由度或復雜度。

對于LoRA來說，其學習的矩陣秩較小，對原始權重矩陣的影響也就越小，因此在適應新任務時更易保留原有知識。

而在作者的實驗中，低秩矩陣的特性還體現(xiàn)為了更強的正則化能力和生成多樣性。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

至于為什么LoRA在學習新知識上表現(xiàn)不如全量微調(diào)，原因同樣和秩相關。

作者對在Llama2上用StarCoder-Python數(shù)據(jù)集進行持續(xù)預訓練過程中各個階段的權重矩陣進行了奇異值分解。

結果發(fā)現(xiàn)，即使在訓練的早期階段，全面微調(diào)學到的權重擾動矩陣的秩就是LoRA常用秩的10-100倍，這表明在編程任務上，全面微調(diào)需要學習高秩的權重擾動以適應目標領域；而且隨著訓練的進行，權重擾動矩陣的秩還會持續(xù)增長。

也就是說，此類任務的高秩需求，注定無法與LoRA的低秩特性相匹配，表現(xiàn)不佳也就不是什么意外之事了。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

實驗中的另一個現(xiàn)象是，雖然同樣比不過全量微調(diào)，但數(shù)學任務中兩者的差距相比代碼任務更小，作者推測可能有兩方面原因：

首先還是和秩相關，作者認為數(shù)學任務相比于代碼更接近于預訓練數(shù)據(jù)，因此秩也相對更低。
另一個原因，則是目前的GSM8K數(shù)據(jù)集可能挑戰(zhàn)性不夠，對模型考察不充分，這可能也是導致出現(xiàn)一開始LoRA超過全量微調(diào)的原因。

ML工程師提出質(zhì)疑

不過對作者的實驗，有人指出了實驗的參數(shù)設置存在不合理之處。

首先提出質(zhì)疑的，是模型微調(diào)和訓練平臺UnslothAI創(chuàng)始人、前英偉達ML工程師Daniel Han。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

Daniel首先指出，論文中的LoRA實驗只適配了QKVO、up和down矩陣，沒有適配gate_proj矩陣。

如果LoRA沒有對gate_proj進行適配，那么FFN模塊的大部分權重實際上沒有被優(yōu)化，這可能限制了LoRA在編程任務上的表現(xiàn)。

至于數(shù)學能力好一些而在編程任務上表現(xiàn)不佳的原因，可能是lm_head和embed_tokens層沒有進行適配訓練，因此領域轉(zhuǎn)移沒有被很好地建模。

lm_head和embed_tokens層分別對應了語言模型的輸出和輸入嵌入，它們與具體領域的詞匯和表達密切相關。如果這兩個層沒有被LoRA適配，那么模型在新領域的詞匯和表達習慣上的適應能力就會受限。

另一方面，Daniel認為編程任務的超參數(shù)設置也有問題，比如秩為256時α值設得太小了，導致適配矩陣的值可能難以得到有效更新。

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

總結一下就是，LoRA在這些任務上的表現(xiàn)不如全量微調(diào)的原因，可能不是出在LoRA本身。

同時Daniel還表示，有論文指出LoftQ和PiSSA使用奇異值分解（SVD）來初始化LoRA矩陣，據(jù)稱可以使LoRA達到與全面微調(diào)相當?shù)男阅堋?/p>

另一名ML工程師附和了Daniel的觀點，同時還針對LoRA的應用給出了一些具體建議：

LoRA更適用于監(jiān)督微調(diào)而不是持續(xù)預訓練
對于LoRA來說，0.0005（代碼）或0.0002（數(shù)學）的學習率是最佳的
應用LoRA時，優(yōu)先選擇同時適配MLP和Attention，其次單獨MLP，最后單獨Attention

LoRA數(shù)學編程任務不敵全量微調(diào) | 哥大&Databricks新研究-AI.x社區(qū)

總之，雖然出現(xiàn)了論文中的結果，但LoRA仍然是一項重要的技術，而且能夠顯著降低訓練成本，所以做好性能和資源的權衡，該用還是得用。

論文地址：???https://arxiv.org/abs/2405.09673??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/hoYYMFH9nSB2tkNmGggquw??

標簽

贊

收藏

回復

舉報

回復

相關推薦

大模型微調(diào)新范式：當LoRA遇見MoE

zhangyannni ? 3350瀏覽 ? 0回復
盤點六大Devin替代方案：自動化你的編程任務

51CTO技術棧 ? 5755瀏覽 ? 0回復
單GPU實現(xiàn)LLM多LoRA微調(diào)

angel ? 3966瀏覽 ? 0回復
一次預測多個token，Meta新模型推理加速3倍，編程任務提高17%

Crystalcxt ? 2335瀏覽 ? 0回復
LLM高效微調(diào)詳解-從Adpter、PrefixTuning到LoRA

angel ? 3571瀏覽 ? 0回復
AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 2746瀏覽 ? 0回復
ICML 2024 | 脫離LoRA架構，訓練參數(shù)大幅減少，新型傅立葉微調(diào)來了

輕薄滴假象 ? 3253瀏覽 ? 0回復
LLM微調(diào)技術LoRA圖解

51CTO內(nèi)容精選 ? 2775瀏覽 ? 0回復
量化大模型退化嚴重？ETH北航字節(jié)推出LoRA新范式 | ICML 2024

Crystalcxt ? 2264瀏覽 ? 0回復
【LLM】對大語言模型微調(diào)優(yōu)化的研究

sbf_2000 ? 3478瀏覽 ? 0回復
從零實現(xiàn)大模型-GPT2任務微調(diào)

魚蟲子 ? 3157瀏覽 ? 0回復
LoRA技術引領大型語言模型新革命

AI論文解讀 ? 2862瀏覽 ? 0回復
OpenAI 發(fā)布新模型 o1，能夠推理復雜任務，在科學、編程和數(shù)學等領域更牛

AI洞察Insight ? 2225瀏覽 ? 0回復
大模型微調(diào)：Hugging Face Transformers全流程實戰(zhàn)

51CTO內(nèi)容精選 ? 5911瀏覽 ? 0回復
【學習挑戰(zhàn)賽】任務進階，完成就有獎品拿

AI.x社區(qū)官方賬號 ? 3.2w瀏覽 ? 2回復
大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!

NLP前沿1 ? 1838瀏覽 ? 0回復
參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA

大模型自然語言處理 ? 3188瀏覽 ? 0回復
ChatGPT實時視頻通話功能全量開放，AI終于睜開了"眼睛"

老蛀蟲 ? 5671瀏覽 ? 0回復
阿里巴巴Qwen研究員推出ProcessBench：衡量數(shù)學推理過程錯誤識別能力的新AI基準

Halo咯咯 ? 1905瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：從零復現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+

下一篇：如何靠AI變身“六邊形戰(zhàn)士”｜得到快刀青衣&中國AIGC產(chǎn)業(yè)峰會

社區(qū)精華內(nèi)容

目錄