自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

低比特量化的LLAMA3模型有多好? | 香港大學&北航最新研究發(fā)布

發(fā)布于 2024-4-24 10:10
瀏覽
0收藏

低比特量化的LLAMA3模型有多好? | 香港大學&北航最新研究發(fā)布-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2404.14047.pdf
項目鏈接:https://github.com/Macaronlin/LLaMA3-Quantization  
模型鏈接:https://huggingface.co/LLMQ


Meta的LLAMA系列已成為最強大的開源大語言模型(LLM)系列之一。值得注意的是,LLAMA3模型最近發(fā)布,并在超大規(guī)模的預訓練數(shù)據(jù)(超過15T tokens)上取得了令人印象深刻的性能。鑒于在資源有限的情況下低比特量化在LLMs中的廣泛應用,本文探索了LLAMA3在量化到低比特寬度時的能力。這一探索有可能揭示LLAMA3和其他即將推出的LLMs的低比特量化的新見解和挑戰(zhàn),特別是在解決LLM壓縮中遇到的性能下降問題方面。

具體而言,本文評估了LLAMA3的10種現(xiàn)有的訓練后量化和LoRA微調(diào)方法,分別在1-8比特和各種數(shù)據(jù)集上,以全面揭示LLAMA3的低比特量化性能。本文的實驗結果表明,在這些場景中,LLAMA3仍然遭受了相當大的性能下降,尤其是在超低比特寬度下。這凸顯了未來發(fā)展中需要填補的低比特寬度下的顯著性能差距。


本文期望這項實證研究將有助于推動未來模型的發(fā)展,推動LLMs在更低的比特寬度上以更高的精度實用化。

介紹

由Meta于2023年2月推出的LLaMA系列代表了使用Transformer架構的自回歸大語言模型(LLMs)的突破。從其第一個版本開始,擁有130億參數(shù)的LLaMA系列就成功地超越了擁有1750億參數(shù)的更大的、閉源的GPT-3模型。2024年4月18日,Meta推出了LLAMA3模型,提供了80億和700億參數(shù)的配置。由于在超過15萬億數(shù)據(jù)tokens上進行了廣泛的預訓練,LLAMA3模型在各種任務中實現(xiàn)了最先進的性能,將LLaMA系列確立為可用于廣泛應用和部署場景的最優(yōu)秀的開源LLMs之一。


盡管它們的性能令人印象深刻,但在許多場景中部署LLAMA3模型仍然面臨著重大挑戰(zhàn),這主要是由于資源限制。幸運的是,低比特量化已經(jīng)成為壓縮LLMs最流行的技術之一。這種技術在推斷期間降低了LLMs的內(nèi)存和計算需求,使它們能夠在資源有限的設備上運行。

解決壓縮后性能下降的問題是當前LLM量化方法的主要關注點。雖然已經(jīng)提出了許多低比特量化方法,但它們的評估主要集中在較早和能力較弱的LLaMA模型(LLAMA1和LLAMA2)上。因此,LLAMA3為LLM社區(qū)提供了一個新的機會,評估對最新LLM進行量化的性能,并了解現(xiàn)有方法的優(yōu)勢和局限性。在這項實證研究中,目標是分析LLAMA3處理由于量化而導致的性能下降所面臨的挑戰(zhàn)的能力。

?

本文的研究確定了兩個主要的技術路線來量化LLMs:訓練后量化(PTQ)和LoRA-FineTuning(LoRA-FT)量化, 旨在全面評估LLAMA3模型的量化效果。本文在技術路線上探索了一系列前沿的量化方法(RTN、GPTQ、AWQ、SmoothQuant、PB-LLM、QuIP、DB-LLM和BiLLM用于PTQ;QLoRA和IR-QLoRA用于LoRA-FT),覆蓋了從1比特到8比特的廣泛范圍,并利用了多種評估數(shù)據(jù)集,包括WikiText2、C4、PTB、CommonSenseQA數(shù)據(jù)集(PIQA、ARC-e、ARC-c、HellaSwag、Winogrande)和MMLU基準。


本文的研究概述如下圖1所示。這些評價評估了LLAMA3模型在當前LLM量化技術下的能力和限制,并為未來LLM量化方法的設計提供了靈感。專注于LLAMA3模型的選擇是由于其在各種數(shù)據(jù)集上的卓越性能,包括5-shot MMLU、0-shot GPQA、0-shot HumanEval、8-shot CoT GSM-8K和4-shot CoT MATH等,這使其成為當前所有開源指令調(diào)整型LLMs中表現(xiàn)最優(yōu)秀的模型。此外,已經(jīng)在https://github.com/Macaronlin/LLaMA3-Quantization和https://huggingface.co/LLMQ上向公眾提供了本文的項目和量化模型。這不僅有助于推動LLM量化社區(qū)內(nèi)的研究,而且有助于更廣泛地理解和應用有效的量化技術。

低比特量化的LLAMA3模型有多好? | 香港大學&北航最新研究發(fā)布-AI.x社區(qū)

實驗評估

實驗設置

評估LLMs。 本文對預訓練的LLAMA3-8B和-70B進行了評估,通過官方倉庫獲取。

量化方法。 為了評估低比特量化的LLAMA3的性能,本文選擇了具有廣泛影響和功能的代表性LLM量化方法,包括8種PTQ方法和2種LoRA-FT方法。本文評估的量化方法的實現(xiàn)遵循它們的開源倉庫。本文還使用了八個具有80GB GPU內(nèi)存的NVIDIA A800進行定量評估。


評估數(shù)據(jù)集。 對于PTQ方法,本文在WikiText2、PTB和C4數(shù)據(jù)集的一部分上評估量化的LLAMA3,使用困惑度(Perplexity,PPL)作為評估指標。隨后,本文進一步在五個 zero-shot 評估任務(PIQA、Winogrande、ARC-e、ARC-c和Hellaswag)上進行實驗,以充分驗證LLAMA3的量化性能。對于LoRA-FT方法,本文在5-shot MMLU基準上進行評估,同時還驗證了在前述五個 zero-shot 數(shù)據(jù)集的LoRA-FT方法。


為了評估的公平性,本文統(tǒng)一使用WikiText2作為所有量化方法的校準數(shù)據(jù)集,樣本大小為128,token 序列長度保持一致為2048。此外,對于需要通道分組的量化方法,本文采用塊大小為128,以平衡性能和推斷效率,這是現(xiàn)有工作中的常見做法。

技術路線1:訓練后量化

如下表1和下表2所示,本文分別提供了LLAMA3-8B和LLAMA3-70B在8種不同的PTQ方法下的性能,涵蓋了從1到8比特的廣泛比特寬度范圍。

低比特量化的LLAMA3模型有多好? | 香港大學&北航最新研究發(fā)布-AI.x社區(qū)

低比特量化的LLAMA3模型有多好? | 香港大學&北航最新研究發(fā)布-AI.x社區(qū)

其中,Round-To-Nearest(RTN)是一種基本的四舍五入量化方法。GPTQ是目前最有效率和有效的僅權重量化方法之一,它利用量化中的誤差補償。但在2-3比特下,GPTQ在量化LLAMA3時會導致嚴重的準確度下降。AWQ采用異常通道抑制方法來減少權重量化的難度,而QuIP通過優(yōu)化矩陣計算來確保權重和Hessian之間的不一致性。它們兩者都能保持LLAMA3在3比特的性能,并且甚至可以將2比特量化推向前景。


最近出現(xiàn)的二值化LLM量化方法實現(xiàn)了超低比特寬度LLM權重壓縮。PB-LLM采用混合精度量化策略,在將大部分權重量化為1比特的同時保留了一小部分重要權重的完整精度。DB-LLM通過雙二值化權重分割實現(xiàn)了高效的LLM壓縮,并提出了一種基于偏差感知的蒸餾策略,進一步增強了2比特LLM的性能。


BiLLM通過突出權重的殘差逼近和非突出權重的分組量化,將LLM量化邊界進一步推至低至1.1比特。這些專為超低比特寬度設計的LLM量化方法可以在?2比特時獲得更高的LLAMA3-8B量化精度,在2比特以下遠遠超過了像GPTQ、AWQ和QuIP等方法(甚至在某些情況下超過3比特)。


本文還通過SmoothQuant對量化激活的LLAMA3進行評估,SmoothQuant將量化難度從激活轉移到權重上,以平滑激活的異常值。本文的評估顯示,SmoothQuant在8比特和6比特的權重和激活下可以保持LLAMA3的準確性,但在4比特時面臨性能下降。

此外,本文發(fā)現(xiàn)LLAMA3-70B模型在各種量化方法中表現(xiàn)出顯著的穩(wěn)健性,即使在超低比特寬度下也是如此。

技術路線2:LoRA-FineTuning量化

除了PTQ方法之外,如下表3所示,本文還提供了4比特LLAMA3-8B使用2種不同LoRA-FT量化方法的性能,包括QLoRA和IR-QLoRA。

低比特量化的LLAMA3模型有多好? | 香港大學&北航最新研究發(fā)布-AI.x社區(qū)

在MMLU數(shù)據(jù)集上,LLAMA3-8B在LoRA-FT量化下最顯著的觀察是,Alpaca數(shù)據(jù)集上的低秩微調(diào)不僅不能彌補量化引入的錯誤,甚至使惡化更加嚴重。具體來說,與沒有LoRA-FT的4比特對應版本相比,各種LoRA-FT量化方法在4比特下獲得的性能更差的量化LLAMA3。這與LLAMA1和LLAMA2上類似的現(xiàn)象形成鮮明對比,對于前者,在MMLU上,4比特的低秩微調(diào)量化版本甚至可以輕松超過原始的FP16對應版本。



直覺分析,這種現(xiàn)象的主要原因是由于LLAMA3通過其大規(guī)模預訓練帶來的強大性能,這意味著原始模型的量化帶來的性能損失無法通過在低秩參數(shù)的小數(shù)據(jù)集上進行微調(diào)來彌補(可以看作是原始模型的一個子集)。盡管無法通過微調(diào)來彌補量化帶來的顯著下降,但4比特LoRA-FT量化的LLAMA3-8B在各種量化方法下明顯優(yōu)于LLAMA1-7B和LLAMA2-7B。例如,使用QLoRA方法,4比特LLAMA3-8B的平均準確度為57.0(FP16:64.8),超過了4比特LLAMA1-7B的38.4(FP16:34.6)18.6,以及超過了4比特LLAMA2-7B的43.9(FP16:45.5)13.1。這意味著在LLAMA3時代需要一種新的LoRA-FT量化范式。

類似的現(xiàn)象也在CommonSenseQA基準測試中發(fā)生。與沒有LoRA-FT的4比特對應版本相比,使用QLoRA和IR-QLoRA微調(diào)的模型的性能也下降了(例如,QLoRA平均下降了2.8%,而IR-QLoRA平均下降了2.4%)。這進一步證明了在LLAMA3中使用高質(zhì)量數(shù)據(jù)集的優(yōu)勢,因為一般數(shù)據(jù)集Alpaca并不對模型在其他任務中的性能做出貢獻。

結論

Meta最近發(fā)布的LLAMA3模型迅速成為最強大的LLM系列,引起了研究人員的極大興趣。借助這一勢頭,本文的研究旨在全面評估LLAMA3在各種低比特量化技術下的性能,包括訓練后量化和LoRA微調(diào)量化。本文的目標是通過利用現(xiàn)有的LLM量化技術,評估LLAMA3在資源有限的情況下的能力邊界。本文的研究發(fā)現(xiàn)表明,盡管LLAMA3在量化后仍然表現(xiàn)出優(yōu)越的性能,但與量化相關的性能下降是顯著的,甚至在許多情況下可能導致更大的下降。這一發(fā)現(xiàn)突顯了在資源受限環(huán)境中部署LLAMA3的潛在挑戰(zhàn),并強調(diào)了在低比特量化背景下增長和改進的充足空間。本文研究的實證洞見預計將對未來LLM量化技術的發(fā)展具有價值,特別是在縮小與原始模型之間的性能差距方面。通過解決低比特量化引起的性能下降,預計隨后的量化范式將使LLMs能夠以更低的計算成本實現(xiàn)更強大的能力,最終推動生成式人工智能的進步,如LLMs所代表的,達到新的高度。


本文轉自 AI生成未來 ,作者:Wei Huang等


原文鏈接:??https://mp.weixin.qq.com/s/KQdaPvpbWyXza-8__4iAeg??

標簽
收藏
回復
舉報
回復
相關推薦