自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024

發(fā)布于 2024-6-11 10:39
瀏覽
0收藏

大模型應(yīng)用開(kāi)卷,連一向保守的蘋(píng)果,都已釋放出發(fā)展端側(cè)大模型的信號(hào)。


問(wèn)題是,大語(yǔ)言模型(LLM)卓越的表現(xiàn)取決于“力大磚飛”,如何在資源有限的環(huán)境中部署大模型并保障性能,仍然頗具挑戰(zhàn)。


以對(duì)大模型進(jìn)行量化+LoRA的路線為例,有研究表明,現(xiàn)有方法會(huì)導(dǎo)致量化的LLM嚴(yán)重退化,甚至無(wú)法從LoRA微調(diào)中受益。


為了解決這一問(wèn)題,來(lái)自蘇黎世聯(lián)邦理工學(xué)院、北京航空航天大學(xué)和字節(jié)跳動(dòng)的研究人員,最新提出了一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA。論文已入選ICML 2024 Oral論文。

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

論文介紹,IR-QLoRA能有效改善量化導(dǎo)致的大模型性能退化。在LLaMA和LLaMA 2系列中,用該方法微調(diào)的2位模型,相比于16位模型僅有0.9%的精度差異。

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

△IR-QLoRA框架圖

該方法的核心思想,是通過(guò)信息保留來(lái)使LoRA微調(diào)量化的大語(yǔ)言模型實(shí)現(xiàn)精度提升。

包含從統(tǒng)一信息角度衍生的兩種技術(shù):信息校準(zhǔn)量化和信息彈性連接。

信息校準(zhǔn)量化

LLM的量化權(quán)重被期望反映原始對(duì)應(yīng)方所攜帶的信息,但比特寬度的減小嚴(yán)重限制了表示能力。從信息的角度來(lái)看,量化LLM和原始LLM的權(quán)重之間的相關(guān)性表示為互信息。

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

在LLM量化后,由于比特寬度的顯著減小導(dǎo)致表示能力的降低,量化權(quán)重的熵遠(yuǎn)小于原始權(quán)重的熵。因此,優(yōu)先考慮低比特權(quán)重內(nèi)的信息恢復(fù)對(duì)于增強(qiáng)量化LLM至關(guān)重要。


首先從數(shù)學(xué)上定義信息校準(zhǔn)的優(yōu)化目標(biāo)。校準(zhǔn)過(guò)程可以看為向量化器引入一個(gè)校準(zhǔn)常數(shù) 

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

 以最大化信息,量化過(guò)程可以表述如下:

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

由于原始權(quán)重 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)是固定的,公式(1)中的優(yōu)化目標(biāo)可以表示為:

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

由于直接求解公式(3)中的目標(biāo)非常耗時(shí),作者提出了一種分塊校準(zhǔn)量化器信息的兩步策略:

第一步是初始化校準(zhǔn)常數(shù) 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

?;谏窠?jīng)網(wǎng)絡(luò)權(quán)重正態(tài)分布的常見(jiàn)假設(shè),將每個(gè)權(quán)重量化塊的常數(shù)初始化為中值 

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

。由于正態(tài)分布中靠近對(duì)稱軸的區(qū)域的概率密度較高,因此該初始化旨在更大程度地利用量化器的間隔。應(yīng)用位置相關(guān)中值來(lái)初始化 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

,以減輕異常值的影響。

第二步是優(yōu)化校準(zhǔn)常數(shù) 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)、量化尺度 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)、雙量化尺度 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)。使用信息熵作為度量,并進(jìn)行基于搜索的優(yōu)化以獲得 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)。通過(guò)將 

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

 線性劃分為n個(gè)候選來(lái)創(chuàng)建 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū) 的搜索空間,其中 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū) 是標(biāo)準(zhǔn)差,量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū) 是系數(shù)。使用每個(gè)候選 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū) 校準(zhǔn)權(quán)重后,量化校準(zhǔn)的權(quán)重并計(jì)算信息熵。獲得的量化尺度與基線一致。通過(guò) 

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

 得到量化尺度 

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

,然后二次量化為 

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

 和 

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

。

對(duì)于優(yōu)化后的校準(zhǔn)常數(shù) 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū),執(zhí)行類似于尺度的雙量化以節(jié)省內(nèi)存,信息校準(zhǔn)量化的量化過(guò)程可以總結(jié)為:

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

信息彈性連接

除了基線中的量化LLM之外,由低秩矩陣組成的LoRA也阻礙了信息的恢復(fù),為了增強(qiáng)LoRA的表示能力,幫助恢復(fù)量化LLM的信息,同時(shí)保持其輕量級(jí)性質(zhì),作者引入了有效的信息彈性連接。該方法構(gòu)建了一個(gè)強(qiáng)大的低秩適配器,有助于利用從量化的LLM單元導(dǎo)出的信息。


具體來(lái)說(shuō),首先根據(jù)輸入和中間維度的最大公約數(shù)對(duì)原始特征進(jìn)行分組和平均,并將其添加到由 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)矩陣計(jì)算的輸出中。增加彈性連接的LoRA的第一個(gè)子單元 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

 可以表示為:

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

LoRA的后一個(gè)矩陣將低秩中間表示變換為輸入維度,因此其伴隨的無(wú)參數(shù)變換使用重復(fù)串聯(lián)來(lái)增加維度。后一個(gè)子單元 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū) 的計(jì)算過(guò)程可以表示為:

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

與LLM和LoRA單元中的矩陣乘法相比,無(wú)參數(shù)變換是一種多樣化的變換形式,進(jìn)一步增強(qiáng)了量化LLM的信息表示。

實(shí)驗(yàn)驗(yàn)證

作者廣泛評(píng)估了IR-QLoRA的準(zhǔn)確性和效率。選擇LLaMA和LLaMA 2系列模型,在Alpaca和Flanv2數(shù)據(jù)集上構(gòu)建參數(shù)高效的微調(diào),使用MMLU和CommonsenseQA基準(zhǔn)進(jìn)行評(píng)估微調(diào)后量化模型的效果。

準(zhǔn)確率

以下兩張表格分別展示了在Alpaca和Flanv2數(shù)據(jù)集上微調(diào)的MMLU基準(zhǔn)的5-shot精度結(jié)果。綜合結(jié)果表明,在各種規(guī)模的LLaMA模型中,IR-QLoRA優(yōu)于所有比較量化方法。


與基線方法QLoRA相比,IR-QLoRA在相同的微調(diào)管道下在MMLU基準(zhǔn)上實(shí)現(xiàn)了精度的顯著提高。

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

此外,在LLaMA 2上的準(zhǔn)確性比較,證明了IR-QLoRA跨LLM系列的泛化性能。


下表中的結(jié)果表明,IR-QLoRA不僅平均實(shí)現(xiàn)了至少2.7%的性能改進(jìn),而且在幾乎每個(gè)單獨(dú)的指標(biāo)上都表現(xiàn)出了優(yōu)勢(shì)。這些結(jié)果表明IR-QLoRA在不同的LLM系列中表現(xiàn)出很強(qiáng)的泛化性。

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

與MMLU基準(zhǔn)上的現(xiàn)象類似,在CommonsenseQA基準(zhǔn)上,與SOTA方法相比,IR-QLoRA始終保持了LLaMA-7B的最佳平均準(zhǔn)確率,而且還顯著提高了大多數(shù)子項(xiàng)的有效性。

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

超低位寬

除了4比特以外,作者還評(píng)估了超低位寬下的IR-QLoRA建議。


具體來(lái)說(shuō),作者采用了QLoRA和LoftQ的量化方法,按照百分位量化方法構(gòu)建了NF2和NF3量化。


下表顯示,隨著量化位寬的減小,基線QLoRA的性能急劇下降,以至于其在2位情況下的性能與隨機(jī)相差無(wú)幾。


相比之下,IR-QLoRA表現(xiàn)出更優(yōu)越的性能,在Flan v2數(shù)據(jù)集上微調(diào)2位模型時(shí),與16位模型相比僅有0.9%的精度差異。

量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式 | ICML 2024-AI.x社區(qū)

效率

IR-QLoRA的信息校準(zhǔn)量化和信息彈性連接并沒(méi)有帶來(lái)額外的存儲(chǔ)和訓(xùn)練開(kāi)銷。


如上所示,信息校準(zhǔn)量化增加的參數(shù)僅相當(dāng)于量化的縮放因子,而且采用了雙重量化以進(jìn)一步減少存儲(chǔ)。因此其帶來(lái)的額外存儲(chǔ)空間很小,在4位LLaMA-7B上僅增加了 2.04%。

校準(zhǔn)常數(shù)的優(yōu)化過(guò)程也只增加了微不足道的訓(xùn)練時(shí)間(例如,LLaMA-7B為 0.46%,LLaMA-13B為 0.31%)。此外,增加的時(shí)間僅用于訓(xùn)練過(guò)程中的初始優(yōu)化,并不會(huì)導(dǎo)致推理時(shí)間的增加。信息彈性連接也只在每層引入了2個(gè)額外參數(shù),在整個(gè)模型中可以忽略不計(jì)。

結(jié)論

總的來(lái)說(shuō),基于統(tǒng)計(jì)的信息校準(zhǔn)量化可確保LLM的量化參數(shù)準(zhǔn)確保留原始信息;以及基于微調(diào)的信息彈性連接可以使LoRA利用不同信息進(jìn)行彈性表示轉(zhuǎn)換。


廣泛的實(shí)驗(yàn)證明,IRQLoRA在LLaMA和LLaMA 2系列中實(shí)現(xiàn)了令人信服的精度提升,即使是2-4位寬,耗時(shí)也僅增加了0.45%。


IR-QLoRA具有顯著的多功能性,可與各種量化框架無(wú)縫集成,并且大大提高了LLM的LoRA-finetuning量化精度,有助于在資源受限的情況下進(jìn)行實(shí)際部署。


論文地址:https://arxiv.org/pdf/2402.05445
代碼地址:https://github.com/htqin/IR-QLoRA


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/tX6P0U5g9vNDIq2qP7IgCA??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦