自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

單卡搞定Llama 3.1 405B,讓大模型輕松瘦身!超強(qiáng)壓縮工具包來(lái)了

人工智能 新聞
北航、商湯、南洋理工等團(tuán)隊(duì)聯(lián)合推出的大模型壓縮工具與基準(zhǔn)LLMC,能很好解決這一問(wèn)題。

單卡搞定Llama 3.1(405B),最新大模型壓縮工具來(lái)了!

最近Llama-3.1登上開(kāi)源頂峰,但其最強(qiáng)的405B版本模型900多GB的內(nèi)存需求,對(duì)資源構(gòu)成了更加苛刻的挑戰(zhàn)。

北航、商湯、南洋理工等團(tuán)隊(duì)聯(lián)合推出的大模型壓縮工具與基準(zhǔn)LLMC,能很好解決這一問(wèn)題。

它使得一張80G A100即可完成Llama 3.1 405B的校準(zhǔn)和評(píng)估,從而實(shí)現(xiàn)以超低成本進(jìn)行量化。

它支持多種壓縮算法、模型和推理后端,具有強(qiáng)大的擴(kuò)展性和全方位的評(píng)估能力。

圖片

目前,研究團(tuán)隊(duì)已將使用方法放在GitHub主頁(yè)上,戳文末鏈接即可獲取。

Llama3.1 更大也更難壓縮

低比特量化是解決資源受限問(wèn)題的通用技術(shù)之一。為此,相關(guān)研究人員運(yùn)用了LLMC對(duì)Llama 3.1進(jìn)行了量化壓縮。

結(jié)果如表1所示,采用LLMC中的某些算法,例如QuaRot和AWQ等算法在70B和405B參數(shù)量的模型上,均能有效保持量化精度。而最為簡(jiǎn)單的“四舍五入”(Naive)算法在這些大規(guī)模模型上則表現(xiàn)出顯著的精度下降,特別是在激活被量化的情況下。

圖片

該研究團(tuán)隊(duì)發(fā)現(xiàn),Llama 3.1系列模型的量化精度下降現(xiàn)象,源于其激活張量中存在一些相比其他模型更顯著的離群值或異常值(outliers)。隨著Llama 3.1模型體積的增大,這些離群值的現(xiàn)象更加嚴(yán)重。離群值是指在數(shù)據(jù)中某些數(shù)值與其他數(shù)值相比差異較大的點(diǎn),是影響量化精度的關(guān)鍵因素之一。

借助LLMC工具,研究團(tuán)隊(duì)對(duì)Llama 3.1系列模型(8B、70B、405B)的第一個(gè)block的4層(q_proj、o_proj、gate_proj、down_proj)輸入激活張量進(jìn)行了可視化(如圖1-3所示)。每個(gè)子圖底部展示了該層激活值的所有token的Kurtosis值的平均值和標(biāo)準(zhǔn)差。

圖片
圖片
圖片

由圖1-3可以發(fā)現(xiàn),在Llama 3.1系列的模型中,激活張量的一些channel中存在outlier,而且在越大的模型中,這個(gè)現(xiàn)象更明顯。

因此,可以合理推斷:Llama 3.1 405B模型雖然變強(qiáng)了,但也變得更加“異常”,更難被量化。

LLMC工具中支持一系列關(guān)于抑制大模型異常值的量化算法,包括AWQ、SmoothQuant、OS+、QuaRot等。由表1可以看到,這些方法通過(guò)有效抑制outlier,大大提升了Llama 3.1的量化精度。例如,在405B模型W8A8量化上,SmoothQuant、OS+、QuaRot幾乎可以取得與浮點(diǎn)模型相當(dāng)?shù)木缺憩F(xiàn)。

LLMC:一站式大模型瘦身工具包

圖片

△LLMC框架圖

支持多種算法。LLMC 支持多種壓縮算法,包括 16 種不同的量化方法,涵蓋僅權(quán)重、權(quán)重激活和混合精度量化。這種多樣性允許對(duì)不同方法進(jìn)行公平比較和深入分析。當(dāng)然除了量化,目前還支持各種類型的稀疏以及相關(guān)算法。

圖片

△LLMC目前支持的部分硬件友好壓縮算法分類

精度高度對(duì)齊。LLMC團(tuán)隊(duì)進(jìn)行了若干對(duì)齊實(shí)驗(yàn),比較了幾種已建立的量化算法(LLMC與原始論文/代碼)。

實(shí)驗(yàn)設(shè)置與原始論文中的設(shè)置或其開(kāi)源代碼的默認(rèn)設(shè)置相同(如表3所示)。

這些實(shí)驗(yàn)結(jié)果總結(jié)在表4-6中。表中的結(jié)果表明,LLMC工具在性能上幾乎與文獻(xiàn)中報(bào)道的原始量化算法一致。通過(guò)這些實(shí)驗(yàn),證明了LLMC不僅有效,而且在重現(xiàn)現(xiàn)有量化方法的結(jié)果方面也是可靠的。這確保了該工具對(duì)LLM量化研究的貢獻(xiàn)是可信且有價(jià)值的。

圖片
圖片

以超低成本進(jìn)行量化。LLMC工具包旨在實(shí)現(xiàn)資源高效利用,并且能夠以最低的硬件要求運(yùn)行大型模型。得益于單block級(jí)別的運(yùn)行機(jī)制,僅需要一臺(tái)80G A100即可完成Llama 3.1 405B的校準(zhǔn)和評(píng)估,從而實(shí)現(xiàn)以超低成本進(jìn)行量化。

多后端兼容性。LLMC支持多種量化設(shè)置和模型格式,兼容多個(gè)后端和硬件平臺(tái),例如LightLLM、TRT-LLM、PPL-LLM、vLLM、MLC-TVM和llama.cpp,具有高度的通用性。

圖片

高擴(kuò)展性。該工具包高度模塊化和可擴(kuò)展,能夠輕松適配從整數(shù)量化到浮點(diǎn)量化,從密集模型到專家混合(MoE)模型,從LLM到視覺(jué)語(yǔ)言模型(VLM),從量化到稀疏化。這種模塊化設(shè)計(jì)確保用戶可以擴(kuò)展和自定義工具包,以滿足他們的需求。

圖片
圖片

多樣化評(píng)估。LLMC能夠?qū)嚎s模型進(jìn)行綜合評(píng)估,提供詳細(xì)的性能指標(biāo)和分析,例如困惑度(PPL)、數(shù)據(jù)可視化分析、峰度值(Kurtosis)、誤差和異常值分布。這種全面的評(píng)估功能可確保用戶能夠就其模型的最佳壓縮策略做出明智的決策。

圖片

LLMC團(tuán)隊(duì)發(fā)布了多功能的大模型壓縮工具包LLMC,支持多種壓縮算法、模型和推理后端,具有強(qiáng)大的擴(kuò)展性和全方位的評(píng)估能力。

該工具包允許用戶僅使用單個(gè)GPU即可對(duì)千億參數(shù)LLM進(jìn)行壓縮,這極大地方便了LLM量化的應(yīng)用。配備這款強(qiáng)大的工具包,未來(lái)的大模型研究人員以及普通用戶可以為他們的應(yīng)用程序有效地集成合適的算法和對(duì)應(yīng)后端平臺(tái)所需要的格式,從而普及大模型的壓縮應(yīng)用。

工具地址:https://github.com/ModelTC/llmc
論文地址:https://arxiv.org/abs/2405.06001

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-10-08 15:00:00

2024-07-24 13:18:17

2024-07-23 09:20:35

2024-08-26 10:00:00

模型數(shù)據(jù)

2024-09-06 13:00:29

2024-07-24 09:20:45

2024-08-16 14:00:00

2024-07-24 13:58:25

2024-11-21 08:39:08

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-11-25 08:10:00

2024-09-19 14:00:00

模型開(kāi)源代碼

2016-04-20 15:36:38

圖片壓縮工具輕量化

2024-12-03 09:24:05

2024-07-29 08:19:00

服務(wù)引擎

2023-02-15 08:26:29

iOS工具

2024-08-13 13:30:00

2024-01-12 17:25:45

MoE模型開(kāi)源人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)