自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

如何使用GPTQ量化使LLM更輕

作者：李睿 2023-11-27 09:00:00

為了緩解成本高昂和運行困難等問題，研究人員開發(fā)了幾種LLM壓縮技術(shù)，其中包括“量化”。量化通過改變參數(shù)的存儲方式來減少模型的誤差。

譯者 | 李睿

審校 | 重樓

大型語言模型(LLM)應(yīng)用的一大挑戰(zhàn)是其耗費巨大的內(nèi)存和計算需求，通常需要數(shù)十GB的GPU內(nèi)存。這使得它們不僅昂貴而且難以運行。

為了緩解這些問題，研究人員開發(fā)了幾種LLM壓縮技術(shù)，其中包括“量化”。量化通過改變參數(shù)的存儲方式來減少模型的誤差。GPTQ就是這樣一種高效快速的算法。GPTQ通過AutoGPTQ庫得到了Hugging Face等流行框架的支持，并提供了一種經(jīng)濟有效的解決方案。以下是人們需要知道的關(guān)于用GPTQ量化LLM的事項。

什么是量化?

Transformer模型(例如LLM)通常使用16位浮點數(shù)字(fp16)存儲參數(shù)。因此，運行一個有10億個參數(shù)的模型至少需要2GB的內(nèi)存，外加額外的開銷資源。量化通過將這些參數(shù)轉(zhuǎn)換為更小的整數(shù)格式（例如int8或int4），有效地減小了模型的大小，從而為這個問題提供了解決方案。量化算法面臨的挑戰(zhàn)是在最小化模型精度損失的同時減少模型的大小。

量化技術(shù)主要分為三大類：

量化感知訓練(QAT)：這種技術(shù)將量化集成到訓練過程中。通過允許模型從一開始就學習低精度表示，QAT減少了通常與量化相關(guān)的精度損失。
量化感知微調(diào)(QAFT)：這種方法采用預訓練的高精度模型，以較低的精度權(quán)重來保持其質(zhì)量。令人關(guān)注的QAFT技術(shù)包括QLoRA和參數(shù)有效和量化感知自適應(yīng)(PEQA)，它們都是為了在減小模型大小的同時保持模型的訓練質(zhì)量。
訓練后量化(PTQ)：這種方法在模型訓練完成之后，將LLM的參數(shù)轉(zhuǎn)換為精度較低的數(shù)據(jù)類型。PTQ的目標是在不改變其架構(gòu)或不需要重新訓練的情況下降低模型的復雜性。

GPTQ

GPTQ是一種訓練后量化技術(shù)，使其成為非常大的模型的理想選擇，在這種模型中，完全訓練甚至微調(diào)的成本可能高得令人望而卻步。它具有將模型量化為2位、3位或4位格式的能力，根據(jù)開發(fā)人員的特定需求提供靈活性。

GPTQ采用了一套優(yōu)化技術(shù)，在保持模型準確性的同時簡化了量化過程。根據(jù)研究機構(gòu)發(fā)表的一些論文，與之前提出的一次性量化方法相比，GPTQ的壓縮增益增加了一倍多，證明了其優(yōu)越的效率。

實驗結(jié)果表明，當使用像NVIDIA A100這樣的高端GPU時，GPTQ可以將推理速度提高約3.25倍，當使用更經(jīng)濟的選項(例如NVIDIA A6000)時，GPTQ可以將推理速度提高4.5倍。

在實際比較中，具有1760億個參數(shù)的BLOOM模型可以使用GPTQ在不到4個GPU小時內(nèi)進行量化。相比之下替代量化算法OBQ需要2個GPU小時來量化小得多的BERT模型，該模型只有3.36億個參數(shù)。

AutoGPTQ

GPTQ的創(chuàng)建者來自IST奧地利分布式算法和系統(tǒng)實驗室，他們已經(jīng)在GitHub上公開了代碼。這種實現(xiàn)支持LLM的OPT和BLOOM系列。

還有其他一些將GPTQ應(yīng)用于LLaMA模型的實現(xiàn)，包括著名的Llama.cpp模型。然而，對于范圍更廣的Transformer模型，AutoGPTQ庫是一個可靠的選擇。它與廣泛使用的Hugging Face Transformers庫兼容，允許開發(fā)人員將AutoGPTQ模型上傳到Hugging Face，使其可供應(yīng)用程序和其他開發(fā)人員訪問。

Hugging Face已經(jīng)擁有了幾個使用AutoGPTQ量化的模型，簡化了它們的部署。Hugging Face AutoGPTQ集成還支持AMD GPU和參數(shù)高效微調(diào)，包括低秩自適應(yīng)(LoRA)。

開發(fā)人員可以使用Hugging Face的文本生成推理(TGI)工具包來運行AutoGPTQ模型。根據(jù)Hugging Face的說法，開發(fā)人員可以使用AutoGPTQ在一個A100-80GB的GPU上托管700億個參數(shù)的模型，這在fp16格式的模型上是不可能的。

有關(guān)代碼示例和運行AutoGPTQ的更多信息，可以參閱Hugging Face的Google Colab notebook。

原文標題：How to make your LLMs lighter with GPTQ quantization，作者：Ben Dickson

責任編輯：華軒來源： 51CTO

GPTQ 大型語言模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營