自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="l6w43"><rt id="l6w43"></rt></thead><style id="l6w43"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

提高深度學(xué)習(xí)模型效率的三種模型壓縮方法原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-11-18 08:05

瀏覽

0收藏

模型壓縮是深度學(xué)習(xí)模型實(shí)時(shí)部署的關(guān)鍵組成部分，本文探討了提高深度學(xué)習(xí)模型效率的不同方法。

近年來(lái)，深度學(xué)習(xí)模型在自然語(yǔ)言處理（NLP）和計(jì)算機(jī)視覺(jué)基準(zhǔn)測(cè)試中的性能穩(wěn)步提高。雖然這些收益的一部分來(lái)自架構(gòu)和學(xué)習(xí)算法的改進(jìn)，但數(shù)據(jù)集大小和模型參數(shù)的增長(zhǎng)是重要的驅(qū)動(dòng)因素。

下圖顯示了top-1 ImageNet分類精度作為GFLOPS的函數(shù)，GFLOPS可以用作模型復(fù)雜性的指標(biāo)。

提高深度學(xué)習(xí)模型效率的三種模型壓縮方法-AI.x社區(qū)

擴(kuò)大數(shù)據(jù)規(guī)模和模型復(fù)雜性增加似乎是主要趨勢(shì)，擁有數(shù)十億個(gè)甚至萬(wàn)億個(gè)參數(shù)的模型并不罕見(jiàn)。雖然這些大型模型具有令人印象深刻的性能，但這些模型的龐大規(guī)模使得它不可能用于邊緣設(shè)備或延遲關(guān)鍵的應(yīng)用程序。

這正是模型壓縮發(fā)揮作用的地方。模型壓縮的目標(biāo)是減少模型的參數(shù)數(shù)量和/或延遲，同時(shí)力求將對(duì)模型性能的負(fù)面影響降至最低。雖然有一些方法，但它們可以分為三大類：

剪枝(Pruning)
量化(Quantization)
知識(shí)蒸餾（KD）

雖然還有其他方法（例如低秩張量分解），但本文不涵蓋這些方法。以下詳細(xì)討論這三種主要技術(shù)。

剪枝

通過(guò)剪枝，可以從神經(jīng)網(wǎng)絡(luò)中移除不太重要的權(quán)重（神經(jīng)元連接）或?qū)?，從而使模型變得更小。一個(gè)簡(jiǎn)單的策略是，如果某個(gè)神經(jīng)元連接的權(quán)重低于某個(gè)閾值，則將其移除。這被稱為權(quán)重剪枝，它確保移除的是冗余的連接或者是對(duì)最終結(jié)果影響不大的連接。

同樣，可以根據(jù)神經(jīng)元重要性的一些指標(biāo)來(lái)移除神經(jīng)元本身，例如輸出權(quán)重的L2范數(shù)。這被稱為神經(jīng)元剪枝，通常比權(quán)重剪枝更有效。

提高深度學(xué)習(xí)模型效率的三種模型壓縮方法-AI.x社區(qū)

與節(jié)點(diǎn)剪枝相比，權(quán)值剪枝會(huì)導(dǎo)致稀疏網(wǎng)絡(luò)，這在GPU等硬件上很難優(yōu)化。雖然它會(huì)減少內(nèi)存占用和FLOPS，但可能不會(huì)降低延遲。剪枝的思想也可以擴(kuò)展到卷積神經(jīng)網(wǎng)絡(luò)（CNN），其中過(guò)濾器/內(nèi)核的相對(duì)重要性可以根據(jù)其L1/L2范數(shù)來(lái)確定，并且只能保留重要的過(guò)濾器。在實(shí)踐中，剪枝是一個(gè)迭代過(guò)程，將在剪枝和微調(diào)模型之間交替進(jìn)行。

使用這種方法，可以在性能下降最小的情況下，將網(wǎng)絡(luò)參數(shù)減少50%以上，如下圖所示：

提高深度學(xué)習(xí)模型效率的三種模型壓縮方法-AI.x社區(qū)

量化

基于量化的模型壓縮背后的主要思想是降低模型權(quán)重的精度，以減少內(nèi)存和延遲。通常情況下，深度學(xué)習(xí)模型在訓(xùn)練期間或訓(xùn)練后將其權(quán)重存儲(chǔ)為32位浮點(diǎn)數(shù)（FP32）。通過(guò)量化，這些權(quán)重通常被轉(zhuǎn)換為16位（FP16）或8位（INT8）精度，以便在運(yùn)行時(shí)部署。

量化可以分為兩類：

訓(xùn)練后量化（PTQ）

這涉及到訓(xùn)練后權(quán)重和激活的量化，并通過(guò)一個(gè)稱為校準(zhǔn)的過(guò)程來(lái)實(shí)現(xiàn)。該過(guò)程的目標(biāo)是在最小化信息損失的同時(shí)，找出從原始到目標(biāo)精度的映射。為了實(shí)現(xiàn)這一點(diǎn)，使用數(shù)據(jù)集中的一組樣本，并在模型上運(yùn)行推理，跟蹤模型中不同激活的動(dòng)態(tài)范圍，以確定映射函數(shù)。

量化感知訓(xùn)練(QAT)

使用較低精度權(quán)重和激活進(jìn)行訓(xùn)練的主要問(wèn)題是沒(méi)有正確定義梯度，因此無(wú)法進(jìn)行反向傳播。為了使用QAT解決這個(gè)問(wèn)題，該模型模擬了前向傳播過(guò)程中的目標(biāo)精度，但使用后向傳播的原始精度來(lái)計(jì)算梯度。

雖然PTQ易于實(shí)施并且無(wú)需重新訓(xùn)練模型，但它可能會(huì)導(dǎo)致性能下降。另一方面，QAT與PTQ相比通常具有更高的準(zhǔn)確性，但其實(shí)施起來(lái)不那么容易，并且會(huì)增加訓(xùn)練代碼的復(fù)雜性。

從數(shù)學(xué)的角度來(lái)看，給定權(quán)重/激活的量化和校準(zhǔn)涉及確定兩個(gè)值：比例因子和零點(diǎn)。假設(shè)想要將FP32轉(zhuǎn)換為INT8：

Python 
1 # max_int for INT8 would be 255 and min_int 0
2 # max_float, min_float are deteremined in the calibration process
3 scale = (max_float - min_float) / (max_int - min_int)
4
5 # to allow for both positive and negative values to be quantized
6 zero_point = round((0 - min_float) / scale)
7
?8 int8_value = round(fp32_value / scale) + zero_point

知識(shí)蒸餾（KD）

顧名思義，知識(shí)蒸餾（KD）試圖將原始模型（在這種情況下稱為教師模型）中的知識(shí)提煉或轉(zhuǎn)移到一個(gè)較小的模型（可以稱之為學(xué)生模型）中。實(shí)現(xiàn)這一目標(biāo)的方法有多種，但最常見(jiàn)的方法是嘗試使教師模型的輸出或中間特征表示與學(xué)生模型相匹配。有趣的是，使用真實(shí)標(biāo)簽和教師模型輸出的軟標(biāo)簽組合訓(xùn)練的學(xué)生模型，其性能優(yōu)于僅使用真實(shí)標(biāo)簽訓(xùn)練的學(xué)生模型，有時(shí)甚至能達(dá)到教師模型的性能。對(duì)于這種行為的一種假設(shè)是，由于軟標(biāo)簽包含比真實(shí)標(biāo)簽（硬標(biāo)簽，例如zero-shot）更多的信息，它有助于學(xué)生模型更好地泛化。

提高深度學(xué)習(xí)模型效率的三種模型壓縮方法-AI.x社區(qū)

知識(shí)蒸餾是一種更靈活的模型壓縮技術(shù)，因?yàn)樯傻哪Ｐ涂梢跃哂信c原始模型不同的架構(gòu)，并且與剪枝或量化相比，具有更大的內(nèi)存和延遲減少潛力。然而，它也是訓(xùn)練最復(fù)雜的技術(shù)，因?yàn)樗婕坝?xùn)練教師模型，然后設(shè)計(jì)和訓(xùn)練學(xué)生模型。

結(jié)論

在實(shí)踐中，通常將多種壓縮技術(shù)結(jié)合在一起（例如，知識(shí)蒸餾之后PTQ或剪枝）來(lái)實(shí)現(xiàn)所需的壓縮和準(zhǔn)確性結(jié)果。
原文標(biāo)題：??Model Compression： Improving Efficiency of Deep Learning Models?，作者：Inderjot Singh Saggu

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

深度學(xué)習(xí)

自然語(yǔ)言處理

計(jì)算機(jī)視覺(jué)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Llama3實(shí)操增強(qiáng)的三種方式：RAG/Agent/Function Calling！?。?/a>

玄姐聊AGI ? 5119瀏覽 ? 0回復(fù)
你想在本地部署大模型嗎？本地部署大模型的三種工具

AI探索時(shí)代 ? 4808瀏覽 ? 0回復(fù)
生成式AI智能革命至今：人機(jī)協(xié)同的三種模式與未來(lái)軟件架構(gòu)范式演進(jìn)

AIGC觀察者 ? 1.0w瀏覽 ? 0回復(fù)
對(duì)企業(yè)來(lái)說(shuō)大模型商業(yè)化的三種方式

AI探索時(shí)代 ? 2911瀏覽 ? 0回復(fù)
學(xué)習(xí)大模型技術(shù)的方法論——從應(yīng)用中學(xué)習(xí)大模型

AI探索時(shí)代 ? 2637瀏覽 ? 0回復(fù)
醫(yī)療圖像分割中的深度學(xué)習(xí)方法

51CTO內(nèi)容精選 ? 1760瀏覽 ? 0回復(fù)
COLM 2024：一種新的深度學(xué)習(xí)架構(gòu)——Monotone Deep Boltzmann Machines

AIGC最前線 ? 2509瀏覽 ? 0回復(fù)
生產(chǎn)環(huán)境測(cè)試模型的四種方法

魚(yú)蟲(chóng)子 ? 1912瀏覽 ? 0回復(fù)
提升人工智能性能的三種關(guān)鍵的LLM壓縮策略

51CTO內(nèi)容精選 ? 1839瀏覽 ? 0回復(fù)
最大限度提高人工智能訓(xùn)練效率：選擇合適的模型

51CTO內(nèi)容精選 ? 2320瀏覽 ? 0回復(fù)
大模型三階段訓(xùn)練方法(LLaMa Factory)

一起AI技術(shù) ? 1.1w瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動(dòng)語(yǔ)言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
三種文本相似計(jì)算方法：規(guī)則、向量與大模型裁判

AI悠閑區(qū) ? 2205瀏覽 ? 0回復(fù)
三種文本相似計(jì)算方法：規(guī)則、向量與大模型裁判

AI悠閑區(qū) ? 2023瀏覽 ? 0回復(fù)
DeepSeek的三種接入使用方法

一起AI技術(shù) ? 2662瀏覽 ? 0回復(fù)
RAG架構(gòu)大揭秘：三種方式讓AI回答更精準(zhǔn)，更懂你！

Halo咯咯 ? 1143瀏覽 ? 0回復(fù)
DeepSeek 部署全解析：三種方案對(duì)比與云端部署的顯著優(yōu)勢(shì)

AI算力補(bǔ)給站 ? 1157瀏覽 ? 0回復(fù)
智能體（Agent）的三種表現(xiàn)類型：聊天助手、工作流與對(duì)話流

九歌AI大模型 ? 1035瀏覽 ? 0回復(fù)
三種主流智能體協(xié)議對(duì)比，一文看懂MCP、ANP、A2A的概念、區(qū)別與聯(lián)系

王吉偉自頻道 ? 2160瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 16h前發(fā)布
MCP安全噩夢(mèng)終結(jié)者：Agent框架如何重構(gòu)AI防護(hù)新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開(kāi)發(fā)實(shí)戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：如何使用BART模型和Hugging Face Transformers總結(jié)文本？

下一篇：提升人工智能性能的三種關(guān)鍵的LLM壓縮策略

社區(qū)精華內(nèi)容

目錄