自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率精華

發(fā)布于 2024-7-22 09:35

瀏覽

0收藏

自2017年Transformer模型問世以來，它在自然語言處理（NLP）和計(jì)算機(jī)視覺等領(lǐng)域取得了顯著進(jìn)展。Transformer模型通過其獨(dú)特的自注意力機(jī)制，能夠捕捉輸入序列中的長程依賴關(guān)系，從而在機(jī)器翻譯、文本分類、問答系統(tǒng)等任務(wù)中表現(xiàn)出色。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和長短期記憶網(wǎng)絡(luò)（LSTM）相比，Transformer模型在處理長序列數(shù)據(jù)時(shí)具有更高的效率和準(zhǔn)確性。

Transformer模型的成功也帶來了新的挑戰(zhàn)，由于其復(fù)雜的計(jì)算結(jié)構(gòu)和高內(nèi)存需求，Transformer模型在實(shí)際應(yīng)用中，尤其是在資源受限的邊緣設(shè)備上部署時(shí)，面臨著巨大的困難。為了克服這些挑戰(zhàn)，研究人員不斷探索新的方法來提高Transformer模型的推理效率，同時(shí)保持其高性能。

Transformer模型的主要挑戰(zhàn)在于其計(jì)算復(fù)雜度和內(nèi)存需求。具體來說Transformer模型的自注意力機(jī)制需要計(jì)算輸入序列中每個元素與其他所有元素之間的關(guān)系，這導(dǎo)致計(jì)算復(fù)雜度為隨著輸入序列長度的增加，計(jì)算成本和內(nèi)存需求呈指數(shù)增長。此外Transformer模型的前饋神經(jīng)網(wǎng)絡(luò)（FFN）部分也需要大量的計(jì)算資源。FFN由兩個全連接層組成，使用GELU作為激活函數(shù)，提供非線性變換。這些計(jì)算操作在實(shí)際應(yīng)用中會占用大量的計(jì)算時(shí)間和內(nèi)存，尤其是在處理長序列數(shù)據(jù)時(shí)。

為了在資源受限的環(huán)境中高效部署Transformer模型，研究人員提出了多種優(yōu)化方法，包括模型剪枝、量化、稀疏化等。然而，這些方法在實(shí)際應(yīng)用中仍然面臨許多挑戰(zhàn)，例如如何在不顯著降低模型性能的情況下實(shí)現(xiàn)高效的剪枝和稀疏化。

7 月 20 日發(fā)表于著名國際學(xué)術(shù)交流平臺arXiv的論文《Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference》提出了一種名為混合動態(tài)剪枝（Hybrid Dynamic Pruning, HDP）的算法-架構(gòu)協(xié)同設(shè)計(jì)方法，旨在通過剪枝不重要的計(jì)算單元和近似計(jì)算來提高Transformer模型的推理效率。HDP方法結(jié)合了塊剪枝、頭剪枝和近似計(jì)算，通過動態(tài)調(diào)整剪枝策略，實(shí)現(xiàn)了高效的計(jì)算和內(nèi)存利用。

HDP方法包括以下幾個方面的創(chuàng)新：

基于整數(shù)的行平衡塊剪枝：通過剪除注意力矩陣中不重要的塊，減少計(jì)算復(fù)雜度和內(nèi)存訪問。
基于整數(shù)的頭剪枝：在計(jì)算初期評估頭的重要性，剪除不重要的注意力頭。
近似計(jì)算：通過生成分?jǐn)?shù)部分并將其與剪枝后的整數(shù)結(jié)果相加，得到最終輸出，減少計(jì)算量。
ASIC 架構(gòu)：以高效執(zhí)行 HDP，利用僅編碼器模型將關(guān)鍵路徑減少一半，并提高吞吐量和硬件利用率?？捎米鲄f(xié)處理器，與現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器兼容。通過精心設(shè)計(jì)的管道和架構(gòu)優(yōu)化，顯著提高性能并降低能耗。

此外論文還設(shè)計(jì)并實(shí)現(xiàn)了兩種協(xié)處理器架構(gòu)（HDP-Edge和HDP-Server），用于在移動和服務(wù)器平臺上加速HDP算法。這些創(chuàng)新方法和硬件設(shè)計(jì)顯著提高了Transformer模型的推理效率，為在資源受限環(huán)境中部署高性能Transformer模型提供了新的途徑。

這篇論文的研究團(tuán)隊(duì)由多位在電子工程和計(jì)算機(jī)科學(xué)領(lǐng)域具有豐富經(jīng)驗(yàn)的學(xué)者組成,Ghadeer A. Jaradat的研究方向包括深度學(xué)習(xí)和硬件加速器設(shè)計(jì)；Mohammed F. Tolba專注于算法優(yōu)化和高效計(jì)算；Ghada Alsahli在機(jī)器學(xué)習(xí)和數(shù)據(jù)處理方面有深入研究；Hani Saleh是IEEE會員，研究領(lǐng)域涵蓋嵌入式系統(tǒng)和硬件設(shè)計(jì)；Mahmoud Al-Qutayri也是IEEE會員，專注于電子系統(tǒng)和計(jì)算架構(gòu)；Thanos Stouraitis是IEEE終身會士，擁有豐富的數(shù)字信號處理和計(jì)算機(jī)架構(gòu)經(jīng)驗(yàn)；Baker Mohammad是IEEE會員，研究方向包括硬件加速器和高效計(jì)算。這個團(tuán)隊(duì)結(jié)合了算法優(yōu)化和硬件設(shè)計(jì)的專業(yè)知識，致力于提高Transformer模型的推理效率。通過他們的共同努力，論文提出的HDP方法為高效Transformer推理提供了新的解決方案。

Transformer模型概述

Transformer模型迅速成為自然語言處理（NLP）和計(jì)算機(jī)視覺等領(lǐng)域的主流模型，主因是其獨(dú)特的架構(gòu)設(shè)計(jì)使其在處理長序列數(shù)據(jù)時(shí)表現(xiàn)出色。Transformer模型由編碼器（Encoder）和解碼器（Decoder）兩部分組成，每部分又由多個Transformer塊（Transformer Block）堆疊而成。

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

圖 1：Transformer區(qū)塊

每個Transformer塊包含以下幾個主要組件：

多頭自注意力機(jī)制（Multi-Head Self-Attention）：這是Transformer的核心組件，用于捕捉輸入序列中各個元素之間的關(guān)系。
前饋神經(jīng)網(wǎng)絡(luò)（Feed Forward Neural Network, FFN）：用于對每個位置的表示進(jìn)行進(jìn)一步的非線性變換。
歸一化層（Normalization Layer）：用于穩(wěn)定和加速訓(xùn)練過程。

編碼器和解碼器的結(jié)構(gòu)相似，但在功能上有所不同。編碼器的主要任務(wù)是將輸入序列轉(zhuǎn)換為一組連續(xù)的表示，而解碼器則根據(jù)這些表示生成輸出序列。在實(shí)際應(yīng)用中，編碼器和解碼器可以堆疊多個層，以提高模型的表達(dá)能力。

自注意力機(jī)制是Transformer模型的核心創(chuàng)新之一。它通過計(jì)算輸入序列中每個元素與其他所有元素之間的關(guān)系，來捕捉長程依賴關(guān)系。具體來說自注意力機(jī)制包括以下幾個步驟：

輸入嵌入（Input Embedding）：將輸入序列中的每個元素轉(zhuǎn)換為一個向量表示。
查詢、鍵和值（Query, Key, Value）：將輸入嵌入分別映射到查詢（Q）、鍵（K）和值（V）三個向量空間。映射過程通過三個不同的權(quán)重矩陣實(shí)現(xiàn)。
計(jì)算注意力分?jǐn)?shù)（Attention Scores）：通過計(jì)算查詢向量與鍵向量的點(diǎn)積，得到注意力分?jǐn)?shù)矩陣。點(diǎn)積結(jié)果再除以向量維度的平方根進(jìn)行縮放，以避免點(diǎn)積值過大。
應(yīng)用Softmax函數(shù)：對注意力分?jǐn)?shù)矩陣的每一行應(yīng)用Softmax函數(shù)，得到注意力權(quán)重矩陣。Softmax函數(shù)將分?jǐn)?shù)轉(zhuǎn)換為概率分布，使得每一行的權(quán)重和為1。
加權(quán)求和：將注意力權(quán)重矩陣與值向量相乘，得到加權(quán)求和結(jié)果。這個結(jié)果代表了輸入序列中每個元素對其他所有元素的加權(quán)平均。

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

圖2：BERT-Base 模型中針對 (a) 輸入 1、(b) 輸入 2 的注意力概率分析。紅色框表示同一輸入在不同層（第 9、10 和 11 層）的單個頭部（Head11）的注意力概率變化。綠色框突出顯示了同一頭部和具有兩個不同輸入的層之間的注意力概率對比。第 11 層的頭部 0 和頭部 1 對于輸入 1 顯示較低的值，而同一層的頭部 1 和頭部 2 對于輸入 2 顯示明顯較高的值。

多頭自注意力機(jī)制通過并行計(jì)算多個不同的注意力頭（Attention Heads），使模型能夠捕捉到輸入序列中不同層次的關(guān)系。每個注意力頭獨(dú)立計(jì)算注意力分?jǐn)?shù)，并將結(jié)果拼接在一起，經(jīng)過線性變換后得到最終的輸出。

前饋神經(jīng)網(wǎng)絡(luò)（FFN）是Transformer塊中的另一個重要組件。它由兩個全連接層（Fully Connected Layers）組成，負(fù)責(zé)對每個位置的表示進(jìn)行進(jìn)一步的非線性變換。FFN的具體計(jì)算過程如下：

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

其中，X表示輸入向量，W1和W2是權(quán)重矩陣，b1和b2是偏置向量，GELU是高斯誤差線性單元（Gaussian Error Linear Unit）激活函數(shù)。

FFN的作用主要有以下幾點(diǎn)：

非線性變換：通過GELU激活函數(shù)，F(xiàn)FN引入了非線性變換，使模型能夠捕捉到更復(fù)雜的特征。
特征提?。和ㄟ^兩個全連接層的線性變換，F(xiàn)FN能夠提取輸入向量中的高維特征。
位置獨(dú)立處理：FFN對每個位置的表示進(jìn)行獨(dú)立處理，不依賴于其他位置的上下文信息。這使得FFN能夠并行處理輸入序列中的所有位置，提高計(jì)算效率。

Transformer模型通過自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的結(jié)合，能夠高效地處理長序列數(shù)據(jù)，并在多種任務(wù)中取得了優(yōu)異的性能。然而Transformer模型的高計(jì)算復(fù)雜度和內(nèi)存需求也帶來了實(shí)際應(yīng)用中的挑戰(zhàn)。論文提出的混合動態(tài)剪枝方法，旨在通過剪枝不重要的計(jì)算單元和近似計(jì)算，顯著提高Transformer模型的推理效率，為在資源受限環(huán)境中部署高性能Transformer模型提供了新的解決方案。

混合動態(tài)剪枝（HDP）方法

混合動態(tài)剪枝（Hybrid Dynamic Pruning, HDP）是一種算法-架構(gòu)協(xié)同設(shè)計(jì)方法，旨在通過剪枝不重要的計(jì)算單元和近似計(jì)算來提高Transformer模型的推理效率。HDP方法結(jié)合了塊剪枝、頭剪枝和近似計(jì)算，通過動態(tài)調(diào)整剪枝策略，實(shí)現(xiàn)了高效的計(jì)算和內(nèi)存利用。具體來說，HDP方法包括以下幾個方面的創(chuàng)新。

基于整數(shù)的行平衡塊剪枝：通過剪除注意力矩陣中不重要的塊，減少計(jì)算復(fù)雜度和內(nèi)存訪問。
基于整數(shù)的頭剪枝：在計(jì)算初期評估頭的重要性，剪除不重要的注意力頭。
近似計(jì)算：通過生成分?jǐn)?shù)部分并將其與剪枝后的整數(shù)結(jié)果相加，得到最終輸出，減少計(jì)算量。

這些方法在不顯著降低模型性能的情況下，實(shí)現(xiàn)了高效的剪枝和稀疏化，從而顯著提高了Transformer模型的推理效率。

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

圖3：基于整數(shù)的行平衡塊稀疏度中的塊修剪、頭部修剪和近似：根據(jù)行中每個塊的重要性θ與行閾值Θ之間的比較，對IntegerQ×IntegerK的結(jié)果進(jìn)行修剪。對于θHead低于預(yù)定義閾值τH的頭部，進(jìn)行頭部修剪，圖像中用紅色框突出顯示。近似過程由圖像中的黑框突出顯示，涉及生成分?jǐn)?shù)分量并將其添加到修剪后的整數(shù)結(jié)果中以獲得最終輸出。此圖像表示一個Q大小為8×4、K大小為4×8、塊大小為2×2的示例。

塊剪枝的核心思想是通過剪除注意力矩陣中不重要的塊，減少計(jì)算復(fù)雜度和內(nèi)存訪問。傳統(tǒng)的Top-K剪枝方法通過剪除整個行來實(shí)現(xiàn)剪枝，但這種方法需要重新訓(xùn)練模型以恢復(fù)準(zhǔn)確性，并且需要專門的硬件來獲取最重要的注意力權(quán)重。Energon方法避免了Top-K選擇，使用均值過濾作為實(shí)際近似，但仍然需要一個單獨(dú)的單元來執(zhí)行此操作，并面臨數(shù)據(jù)重復(fù)的開銷。

為了解決這些挑戰(zhàn)，HDP提出了基于整數(shù)的行平衡塊剪枝方法。該方法通過整數(shù)部分的乘法來確定剪枝決策，使用小塊大小進(jìn)行剪枝，避免重新訓(xùn)練并確保稀疏模式的有序性和硬件兼容性。

塊剪枝的具體實(shí)現(xiàn)過程如下：

整數(shù)部分乘法：首先，僅對查詢（Q）和鍵（K）的整數(shù)部分進(jìn)行乘法運(yùn)算，得到整數(shù)注意力矩陣（Integer atten）。
塊重要性計(jì)算：對于每個2×2的塊，計(jì)算其重要性θ，即塊內(nèi)所有值的絕對值之和。
塊剪枝比率計(jì)算：對于每一行的塊，計(jì)算塊剪枝比率Θ，方法類似于Energon，涉及計(jì)算最小值、最大值和均值重要性值，以及預(yù)定義的剪枝比率ρB。
剪枝決策：如果塊的重要性θ低于行特定的閾值Θ，則該塊被剪除，掩碼值設(shè)為0。否則，掩碼值設(shè)為1，保留塊并進(jìn)行后續(xù)計(jì)算。

通過這種方法，HDP能夠在不顯著降低模型性能的情況下，實(shí)現(xiàn)高效的塊剪枝。

頭剪枝的核心思想是通過評估注意力頭的重要性，剪除不重要的頭，減少計(jì)算量。傳統(tǒng)的方法在完成所有計(jì)算后評估頭的重要性，而HDP方法在計(jì)算初期就進(jìn)行評估，從而減少了不必要的計(jì)算。

頭剪枝的具體實(shí)現(xiàn)過程如下：

頭重要性計(jì)算：計(jì)算整數(shù)注意力矩陣（Integer atten）中所有值的絕對值之和，得到頭的重要性θHead。

剪枝決策：如果頭的重要性θHead低于預(yù)定義的閾值τH，則該頭被剪除，跳過后續(xù)計(jì)算。否則，保留頭并進(jìn)行后續(xù)計(jì)算。

通過這種方法，HDP能夠在不顯著降低模型性能的情況下，實(shí)現(xiàn)高效的頭剪枝。

近似計(jì)算的核心思想是通過生成分?jǐn)?shù)部分并將其與剪枝后的整數(shù)結(jié)果相加，得到最終輸出，減少計(jì)算量。具體來說近似計(jì)算包括以下幾個步驟：

整數(shù)部分乘法：首先，僅對查詢（Q）和鍵（K）的整數(shù)部分進(jìn)行乘法運(yùn)算，得到整數(shù)注意力矩陣（Integer atten）。
分?jǐn)?shù)部分乘法：計(jì)算查詢的分?jǐn)?shù)部分與鍵的整數(shù)部分的乘積（F rac1 atten），以及查詢的整數(shù)部分與鍵的分?jǐn)?shù)部分的乘積（F rac2 atten）。
結(jié)果合并：將整數(shù)注意力矩陣（Integer atten）與兩個分?jǐn)?shù)部分的乘積相加，得到最終的注意力分?jǐn)?shù)。

HDP能夠在不顯著降低模型性能的情況下，實(shí)現(xiàn)高效的近似計(jì)算。

近似計(jì)算的具體實(shí)現(xiàn)過程如下：

整數(shù)部分乘法：首先，僅對查詢（Q）和鍵（K）的整數(shù)部分進(jìn)行乘法運(yùn)算，得到整數(shù)注意力矩陣（Integer atten）。
分?jǐn)?shù)部分乘法：對于保留的塊，計(jì)算查詢的分?jǐn)?shù)部分與鍵的整數(shù)部分的乘積（F rac1 atten），以及查詢的整數(shù)部分與鍵的分?jǐn)?shù)部分的乘積（F rac2 atten）。
結(jié)果合并：將整數(shù)注意力矩陣（Integer atten）與兩個分?jǐn)?shù)部分的乘積相加，得到最終的注意力分?jǐn)?shù)。

HDP能夠在不顯著降低模型性能的情況下，實(shí)現(xiàn)高效的近似計(jì)算。

硬件架構(gòu)設(shè)計(jì)

為了高效執(zhí)行混合動態(tài)剪枝（HDP）方法，研究團(tuán)隊(duì)設(shè)計(jì)了一種新的HDP加速器。該加速器作為協(xié)處理器，與現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器兼容，能夠在移動和服務(wù)器平臺上加速HDP算法。HDP加速器的設(shè)計(jì)目標(biāo)是通過硬件優(yōu)化，實(shí)現(xiàn)高效的塊剪枝、頭剪枝和近似計(jì)算，從而顯著提高Transformer模型的推理效率。

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

圖4:HDP架構(gòu)概述。

HDP加速器的架構(gòu)包括多個核心，每個核心由處理單元陣列（PE Array）、稀疏引擎（SE）、加法器和Softmax單元組成。處理單元陣列負(fù)責(zé)矩陣乘法操作，稀疏引擎負(fù)責(zé)確定剪枝模式，加法器用于結(jié)果合并，Softmax單元用于計(jì)算注意力權(quán)重。通過精心設(shè)計(jì)的流水線和架構(gòu)優(yōu)化，HDP加速器能夠顯著提升性能并降低能耗。

處理單元（Processing Element, PE）是HDP加速器中的基本計(jì)算單元，負(fù)責(zé)執(zhí)行所有的矩陣乘法操作。PE的設(shè)計(jì)采用輸出駐留模式，類似于脈動陣列（Systolic Array）PE。具體來說，PE接收來自第一個矩陣的行和第二個矩陣的列作為輸入，一次接收一個輸入值。PE將這些值相乘，并將中間結(jié)果存儲在累加器中，直到第一個矩陣的整行與第二個矩陣的對應(yīng)列相乘完畢。此時(shí)，累加器中保存了結(jié)果矩陣的一個塊的最終結(jié)果。

在整數(shù)Q × 整數(shù)K的乘法過程中，這些結(jié)果還用于確定塊的重要性，因?yàn)樘幚韱卧妮敵鰧?yīng)于結(jié)果矩陣中的一個塊。塊的重要性等于累加器中所有值的絕對值之和。

稀疏引擎（Sparsity Engine, SE）負(fù)責(zé)確定塊和頭的稀疏模式。稀疏引擎的內(nèi)部架構(gòu)接收來自處理單元的重要性分?jǐn)?shù)，并將其存儲在內(nèi)部存儲器中。此外，稀疏引擎還跟蹤每一行塊的重要性值的最小值、最大值和總和。

在接收到END R信號（表示結(jié)果矩陣的一整行計(jì)算完成）后，稀疏引擎計(jì)算該行的塊剪枝閾值Θ。該計(jì)算基于預(yù)定義的剪枝比率ρB，并使用最小值、最大值和均值重要性值。稀疏引擎生成該行的剪枝掩碼，如果塊的重要性低于閾值Θ，則該塊被剪除。

此外，當(dāng)接收到END H信號（表示整數(shù)Q × 整數(shù)K乘法完成）后，稀疏引擎使用計(jì)算得到的頭重要性值θHead，并將其與預(yù)定義的頭剪枝閾值τH進(jìn)行比較。如果θHead低于τH，則該頭被認(rèn)為是不重要的，后續(xù)計(jì)算將被跳過。

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

圖5：使用數(shù)據(jù)流進(jìn)行矩陣乘法平鋪。

在獲得注意力分?jǐn)?shù)后，Softmax模塊對每一行的注意力分?jǐn)?shù)應(yīng)用Softmax函數(shù)。對于每個輸入，Softmax模塊使用二次多項(xiàng)式近似指數(shù)計(jì)算，并將結(jié)果存儲在內(nèi)部存儲器中。每行結(jié)束時(shí)，計(jì)算這些指數(shù)結(jié)果的總和的倒數(shù)，并通過線性近似計(jì)算倒數(shù)。然后，將指數(shù)值乘以倒數(shù)，生成Softmax結(jié)果。

在Transformer模型中，矩陣乘法占據(jù)了大量的計(jì)算工作負(fù)載。為了優(yōu)化這些操作，HDP加速器采用了平鋪矩陣乘法（Tiled Matrix Multiplication）技術(shù)。平鋪矩陣乘法通過將大矩陣分割成小塊（Tile），并行計(jì)算這些小塊，提高了資源利用率和計(jì)算效率。

平鋪矩陣乘法的過程如下：

將矩陣A的第一個4×4塊與矩陣B的第一個4×8塊相乘，部分結(jié)果存儲在矩陣C的4×8塊中。
繼續(xù)處理矩陣A和矩陣B的下一個塊，累加部分結(jié)果到矩陣C中。
重復(fù)上述過程，直到所有塊的計(jì)算完成。

在這個過程中，HDP加速器采用輸出駐留數(shù)據(jù)流方法，重用累加器中的部分和輸出。此外，HDP加速器還采用局部A駐留策略，即在外循環(huán)中重用輸出，在內(nèi)循環(huán)中保留和重用矩陣A的輸入。

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

圖6：稀疏引擎（SE）的內(nèi)部架構(gòu)。

為了進(jìn)一步優(yōu)化數(shù)據(jù)流，HDP加速器采用了以下策略：

Fetch Upon Mask（FUM）策略：在塊剪枝過程中，如果掩碼值為0，表示該塊被剪除，則不獲取對應(yīng)的K值，跳過該塊的計(jì)算。如果掩碼值為1，表示該塊保留，則獲取對應(yīng)的Q和K值，并進(jìn)行計(jì)算。
流水線設(shè)計(jì)：通過精心設(shè)計(jì)的流水線，HDP加速器能夠并行處理多個計(jì)算任務(wù)，提高計(jì)算效率。
局部存儲優(yōu)化：通過優(yōu)化局部存儲的使用，減少數(shù)據(jù)傳輸?shù)拈_銷，提高數(shù)據(jù)訪問效率。

通過這些數(shù)據(jù)流優(yōu)化策略，HDP加速器能夠顯著提高Transformer模型的推理效率，降低能耗。

實(shí)驗(yàn)評估

為了驗(yàn)證混合動態(tài)剪枝（HDP）方法的有效性，研究團(tuán)隊(duì)選擇了兩個預(yù)訓(xùn)練的編碼器模型：BERT-Tiny和BERT-Base。BERT-Tiny由兩個編碼器層組成，每層有128個隱藏單元和兩個注意力頭；BERT-Base則包含12個編碼器層，每層有768個隱藏單元和12個注意力頭。這些模型在機(jī)器翻譯和語言生成等應(yīng)用中表現(xiàn)出色，具有較高的效率和可擴(kuò)展性。

實(shí)驗(yàn)評估使用了兩個基準(zhǔn)任務(wù)：SST-2（Stanford Sentiment Treebank）和COLA（Corpus of Linguistic Acceptability），均來自GLUE基準(zhǔn)測試。這些數(shù)據(jù)集廣泛用于評估自然語言處理模型的性能，能夠全面反映模型在不同任務(wù)上的表現(xiàn)。

在塊剪枝實(shí)驗(yàn)中，研究團(tuán)隊(duì)將HDP方法與傳統(tǒng)的Top-K塊剪枝方法進(jìn)行了比較。Top-K方法通過剪除整個行來實(shí)現(xiàn)剪枝，但需要重新訓(xùn)練模型以恢復(fù)準(zhǔn)確性。HDP方法通過基于整數(shù)的行平衡塊剪枝，避免了重新訓(xùn)練，并確保稀疏模式的有序性和硬件兼容性。

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

圖7：Top-k VS HDP 塊修剪。

實(shí)驗(yàn)結(jié)果表明，HDP方法在塊剪枝方面表現(xiàn)優(yōu)異。在剪枝比率為70%時(shí)，HDP方法能夠保持較高的準(zhǔn)確性，而Top-K方法在剪枝比率超過75%時(shí)準(zhǔn)確性顯著下降。這表明HDP方法在高剪枝比率下仍能有效保持模型性能。

在頭剪枝實(shí)驗(yàn)中，研究團(tuán)隊(duì)評估了HDP方法在BERT-Tiny和BERT-Base模型上的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示，BERT-Tiny對頭剪枝非常敏感，因?yàn)槠渥⒁饬︻^數(shù)量較少，剪除一個頭相當(dāng)于剪除四分之一的頭。相比之下，BERT-Base模型由于注意力頭數(shù)量較多，能夠在剪除13-17%的頭時(shí)僅損失1%的準(zhǔn)確性。

最新研究提出混合動態(tài)剪枝方法，升級Transformer推理效率-AI.x社區(qū)

圖8:SST2和CoLA上BERT Base和BERT Tiny的頭部修剪閾值。

這表明HDP方法在頭剪枝方面具有較高的靈活性和適應(yīng)性，能夠在不顯著降低模型性能的情況下實(shí)現(xiàn)高效的頭剪枝。

在近似計(jì)算實(shí)驗(yàn)中，研究團(tuán)隊(duì)評估了HDP方法的近似計(jì)算對模型準(zhǔn)確性的影響。實(shí)驗(yàn)結(jié)果顯示，對于BERT-Base模型，近似計(jì)算對模型性能影響較小，能夠顯著提高計(jì)算效率。而對于BERT-Tiny模型，近似計(jì)算對性能的影響較大，但仍能在一定程度上保持模型的準(zhǔn)確性。

這表明HDP方法的近似計(jì)算能夠在不顯著降低模型性能的情況下，實(shí)現(xiàn)高效的計(jì)算優(yōu)化。

在綜合剪枝實(shí)驗(yàn)中，研究團(tuán)隊(duì)結(jié)合塊剪枝、頭剪枝和近似計(jì)算，評估了HDP方法的整體效果。實(shí)驗(yàn)結(jié)果顯示，BERT-Base模型在SST-2數(shù)據(jù)集上實(shí)現(xiàn)了75%的稀疏性，在COLA數(shù)據(jù)集上實(shí)現(xiàn)了65%的稀疏性。相比之下，Top-K方法在相同剪枝比率下的準(zhǔn)確性顯著下降。

這表明HDP方法能夠通過綜合剪枝策略，在不顯著降低模型性能的情況下，實(shí)現(xiàn)高效的稀疏化和計(jì)算優(yōu)化。

為了評估HDP方法的頭剪枝效果，研究團(tuán)隊(duì)將其與SpAtten方法進(jìn)行了比較。SpAtten是目前唯一在硬件平臺上動態(tài)應(yīng)用頭剪枝的方法。實(shí)驗(yàn)結(jié)果顯示，HDP方法在BERT-Base模型上的頭剪枝效果與SpAtten相當(dāng)，能夠剪除約17%的頭而不損失準(zhǔn)確性。

然而在更高的剪枝比率下，HDP方法的準(zhǔn)確性下降較少。例如，在35%的剪枝比率下，HDP方法的準(zhǔn)確性下降為7.5%，而SpAtten方法的準(zhǔn)確性下降為10%。這表明HDP方法在高剪枝比率下表現(xiàn)更為優(yōu)異。

除了與SpAtten的比較，研究團(tuán)隊(duì)還將HDP方法與其他Transformer加速器進(jìn)行了比較。實(shí)驗(yàn)結(jié)果顯示，HDP方法在塊剪枝、頭剪枝和近似計(jì)算方面均表現(xiàn)出色，能夠顯著提高Transformer模型的推理效率。

通過與其他加速器的比較，HDP方法展示了其在高效剪枝和稀疏化方面的優(yōu)勢，能夠在不顯著降低模型性能的情況下，實(shí)現(xiàn)高效的計(jì)算優(yōu)化。

結(jié)論

論文提出了一種名為混合動態(tài)剪枝（Hybrid Dynamic Pruning, HDP）的算法-架構(gòu)協(xié)同設(shè)計(jì)方法，旨在通過剪枝不重要的計(jì)算單元和近似計(jì)算來提高Transformer模型的推理效率。HDP方法結(jié)合了塊剪枝、頭剪枝和近似計(jì)算，通過動態(tài)調(diào)整剪枝策略，實(shí)現(xiàn)了高效的計(jì)算和內(nèi)存利用。

實(shí)驗(yàn)評估結(jié)果表明，HDP方法在塊剪枝、頭剪枝和近似計(jì)算方面均表現(xiàn)出色，能夠顯著提高Transformer模型的推理效率。在BERT-Tiny和BERT-Base模型上進(jìn)行的實(shí)驗(yàn)顯示，HDP方法在不顯著降低模型性能的情況下，實(shí)現(xiàn)了高效的稀疏化和計(jì)算優(yōu)化。與傳統(tǒng)的Top-K塊剪枝方法和SpAtten頭剪枝方法相比，HDP方法在高剪枝比率下表現(xiàn)更為優(yōu)異。

此外，論文還設(shè)計(jì)并實(shí)現(xiàn)了兩種協(xié)處理器架構(gòu)（HDP-Edge和HDP-Server），用于在移動和服務(wù)器平臺上加速HDP算法。通過精心設(shè)計(jì)的流水線和數(shù)據(jù)流優(yōu)化策略，HDP加速器能夠顯著提升性能并降低能耗。

盡管HDP方法在提高Transformer模型推理效率方面取得了顯著進(jìn)展，但仍有一些方向值得進(jìn)一步探索和優(yōu)化：

模型泛化能力：未來研究可以進(jìn)一步探索HDP方法在不同類型的Transformer模型（如GPT、T5等）上的適用性和效果。通過在更多模型上驗(yàn)證HDP方法的有效性，可以提高其泛化能力和應(yīng)用范圍。

剪枝策略優(yōu)化：盡管HDP方法在塊剪枝和頭剪枝方面表現(xiàn)出色，但仍有優(yōu)化空間。未來研究可以探索更精細(xì)的剪枝策略，例如基于動態(tài)稀疏性的自適應(yīng)剪枝方法，以進(jìn)一步提高剪枝效果和模型性能。

硬件架構(gòu)優(yōu)化：HDP加速器的設(shè)計(jì)已經(jīng)顯著提高了計(jì)算效率，但仍有進(jìn)一步優(yōu)化的可能。未來研究可以探索更高效的硬件架構(gòu)設(shè)計(jì)，例如基于新型存儲器技術(shù)和計(jì)算單元的優(yōu)化設(shè)計(jì)，以進(jìn)一步降低能耗和提高性能。

應(yīng)用場景擴(kuò)展：HDP方法在自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域表現(xiàn)出色，但其應(yīng)用場景可以進(jìn)一步擴(kuò)展。未來研究可以探索HDP方法在其他領(lǐng)域（如語音識別、推薦系統(tǒng)等）中的應(yīng)用潛力，以實(shí)現(xiàn)更廣泛的應(yīng)用價(jià)值。

自動化工具開發(fā)：為了方便研究人員和工程師應(yīng)用HDP方法，未來可以開發(fā)一套自動化工具，用于模型剪枝和硬件加速器設(shè)計(jì)。這些工具可以簡化HDP方法的應(yīng)用流程，提高研究和開發(fā)效率。

總的來說，HDP方法為高效Transformer推理提供了一條新的途徑，通過結(jié)合算法優(yōu)化和硬件設(shè)計(jì)，實(shí)現(xiàn)了計(jì)算效率和模型性能的雙重提升。未來的研究和應(yīng)用將進(jìn)一步推動HDP方法的發(fā)展，為更多領(lǐng)域的高效計(jì)算提供支持。（END）

參考資料：https://arxiv.org/pdf/2407.12893

本文轉(zhuǎn)載自 ??大噬元獸??，作者： FlerkenS

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

WWW 2024 | 簡單卻強(qiáng)大：揭秘Transformer在動態(tài)圖建模中的魔法

zhangyannni ? 3227瀏覽 ? 0回復(fù)
DeepMind升級Transformer，前向通過FLOPs最多可降一半

輕薄滴假象 ? 2651瀏覽 ? 0回復(fù)
一文詳解視覺Transformer模型壓縮和加速策略(量化/低秩近似/蒸餾/剪枝)

angel ? 4963瀏覽 ? 0回復(fù)
動態(tài)可擴(kuò)展的時(shí)間序列Patch劃分方法

海因斯DK ? 5445瀏覽 ? 0回復(fù)
Meta等最新研究：多token預(yù)測，提升大模型推理效率

Aceryt ? 3547瀏覽 ? 0回復(fù)
思維鏈緩存-Buffer of Thoughts，北大、UC伯克利、斯坦福最新研究大幅提升LLM推理

angel ? 4446瀏覽 ? 0回復(fù)
【LLM】提升大規(guī)模并行訓(xùn)練效率的方法

sbf_2000 ? 3673瀏覽 ? 0回復(fù)
微軟研究院MRP：大模型動態(tài)選擇最佳解題策略的元推理提示，比CoT、ToT更有效

PaperAgent ? 3689瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 2915瀏覽 ? 0回復(fù)
Jamba-1.5：大規(guī)模混合Transformer-Mamba模型

sbf_2000 ? 2857瀏覽 ? 0回復(fù)
人物造型動畫生成最新SOTA！階躍星辰等提出MikuDance：混合運(yùn)動建模和混合控制擴(kuò)散

angel ? 2662瀏覽 ? 0回復(fù)
混合RAG系統(tǒng)，提升復(fù)雜推理任務(wù)表現(xiàn)

大模型自然語言處理 ? 2015瀏覽 ? 0回復(fù)
Anthropic最新研究，Claude學(xué)會“演戲”了！

NLP前沿1 ? 1935瀏覽 ? 0回復(fù)
MHA -> GQA：提升 LLM 推理效率

amei2000go ? 1984瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
革命性升級！Claude 3.7 Sonnet 發(fā)布：首個混合推理模型，開發(fā)者效率翻倍！

丟翅膀的魚 ? 1726瀏覽 ? 0回復(fù)
PathRAG：通過圖剪枝的方法優(yōu)化Graph-based RAG的性能方法淺析

大模型自然語言處理 ? 1670瀏覽 ? 0回復(fù)
Hybrid-RRF：動態(tài)權(quán)重混合檢索RAG方案

大語言模型論文跟蹤 ? 1835瀏覽 ? 0回復(fù)
動態(tài)超級塊剪枝：加速稀疏檢索的革命性技術(shù)

頓數(shù)AI ? 285瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：用維特根斯坦的哲學(xué)視角看生成式語言模型與意識的挑戰(zhàn)

下一篇：人類和大模型的語言發(fā)展和使用過程是否不同？Psychomatics框架對人工智能與人類認(rèn)知展開對比研究

社區(qū)精華內(nèi)容

目錄