自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vjf1m"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

線性化注意力綜述：突破Softmax二次復雜度瓶頸的高效計算方案

作者：Shitanshu Bhushan 2024-12-31 15:34:00

大型語言模型在各個領域都展現(xiàn)出了卓越的性能，但其核心組件之一——softmax注意力機制在計算資源消耗方面存在顯著局限性。本文將深入探討如何通過替代方案實現(xiàn)線性時間復雜度，從而突破這一計算瓶頸。

大型語言模型在各個領域都展現(xiàn)出了卓越的性能，但其核心組件之一——softmax注意力機制在計算資源消耗方面存在顯著局限性。本文將深入探討如何通過替代方案實現(xiàn)線性時間復雜度，從而突破這一計算瓶頸。

注意力機制基礎理論

本文假設讀者已經(jīng)熟悉ChatGPT、Claude等模型及其底層的transformer架構原理。注意力機制是這類模型的核心組件。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(RNN)將歷史信息壓縮存儲在固定維度的隱藏狀態(tài)中不同，注意力機制能夠直接訪問和選擇性利用歷史信息。這種機制本質上是在每次預測時，根據(jù)當前查詢動態(tài)檢索最相關的歷史信息。

transformer架構中的注意力機制通過鍵（key）、查詢（query）和值（value）三個嵌入向量實現(xiàn)信息的動態(tài)檢索。具體而言transformer的注意力機制通過計算查詢向量與所有鍵向量的相似度，獲得注意力權重，再用這些權重對相應的值向量進行加權組合。這一計算過程可以形式化表示為：

這種機制使模型能夠在生成預測時有選擇地利用整個上下文中的相關信息。在此過程中使用softmax函數(shù)的目的是將原始相似度分數(shù)轉換為概率分布，這在本質上類似于k近鄰機制，即相關性更高的鍵值對獲得更大的權重。

下面我們分析單個注意力層的計算復雜度：

Softmax機制的計算瓶頸

通過上述分析可以看出，標準注意力機制需要對NxN維度的矩陣執(zhí)行softmax運算，這導致計算復雜度隨序列長度呈二次方增長。雖然這種計算復雜度對于較短序列是可接受的，但在處理長度達到100k以上的序列時，計算效率會顯著降低。

這一計算瓶頸促使研究者們思考：是否存在能夠降低計算復雜度的替代方案？這就引出了線性注意力機制的研究。

線性注意力機制

Katharopoulos等人提出了一種創(chuàng)新性的解決方案，他們通過將softmax指數(shù)函數(shù)重寫為特征映射φ(x)的點積形式的核函數(shù)，并利用矩陣乘法的結合律，成功將注意力計算重構為線性形式。這一轉換過程如下圖所示：

在該方法中Katharopoulos等人采用elu(x) + 1作為特征映射函數(shù)φ(x)。任何能夠有效近似指數(shù)相似度的核特征映射都可以作為候選函數(shù)。這種方法的計算復雜度可以表示為：

這種重構方法消除了計算完整N×N注意力矩陣的需求，將復雜度降低至O(Nd2)，其中d表示嵌入維度。在大型語言模型中，通常序列長度N遠大于嵌入維度d，因此這種方法實際上實現(xiàn)了線性時間復雜度。

從循環(huán)的角度來看線性注意力機制：

為什么這種轉換在線性注意力中可行而在softmax中不可行呢？這是因為softmax函數(shù)本質上不可分離，無法分解為獨立項的乘積。在解碼階段，由于只需要維護d × d維度的狀態(tài)矩陣S_(n-1)，每個token的生成復雜度僅為O(d2)。

但是這種計算效率的提升也帶來了一個重要的局限性。由于狀態(tài)矩陣S_(n-1)的維度限制為d × d，其信息存儲容量存在上限。比如：如果原始上下文需要存儲20d2的信息量，在壓縮過程中將不可避免地損失19d2的信息。這揭示了線性注意力機制中計算效率與內存容量之間的根本性權衡：通過維持固定維度的狀態(tài)矩陣獲得計算效率的同時，也限制了上下文信息的保存能力。這一矛盾促使研究者們引入門控機制來優(yōu)化這一權衡。

門控線性注意力機制

前文分析表明，在使用固定維度狀態(tài)矩陣優(yōu)化計算效率的過程中，信息損失是不可避免的。這引發(fā)了一個關鍵問題：是否可以通過某種機制來優(yōu)化信息保留策略？門控機制正是為解決這一問題而提出的。研究者們將其作為一種選擇性信息過濾機制，通過智能地選擇需要保留的信息來最小化信息損失的影響。門控并非新概念，在LSTM等架構中已經(jīng)得到了廣泛應用和驗證。

門控線性注意力對狀態(tài)矩陣Sn的構建方式進行了改進：

門控函數(shù)G有多種可能的實現(xiàn)方式，不同的選擇會導致不同的模型特性：

這種架構的一個顯著優(yōu)勢在于：門控函數(shù)僅依賴于當前token x和可學習參數(shù)，而不需要考慮完整的序列歷史。由于各個token的門控計算相互獨立，這種設計實現(xiàn)了訓練過程的高效并行化，使得序列中所有token的門控運算能夠同時進行。

狀態(tài)空間模型

在處理序列數(shù)據(jù)（如文本或時間序列）時，傳統(tǒng)方法通常依賴注意力機制或RNN。狀態(tài)空間模型(SSMs)提供了一種全新的視角：它將序列處理問題轉化為類似于CNN處理圖像的方式，通過卷積操作來捕獲序列信息。

狀態(tài)空間模型通過離散線性時不變系統(tǒng)來形式化這一思想：

這種方法與卷積運算的關系可以表示為：

其中F表示從參數(shù)(A, B, c)學習得到的卷積核，*代表卷積運算。

H3模型通過設計包含兩個互補SSM層的結構化架構來實現(xiàn)這一理論框架：

H3將輸入分解為三個通道以模擬K、Q、V結構，并通過組合兩個SSM層和兩個門控機制來模擬線性注意力的功能。實驗結果表明，這種架構設計在實際應用中展現(xiàn)出了優(yōu)異的性能。

選擇性狀態(tài)空間模型

前文討論的門控線性注意力通過引入數(shù)據(jù)依賴的信息保留機制改進了標準線性注意力。狀態(tài)空間模型同樣面臨類似的局限性：控制狀態(tài)轉換和輸出的參數(shù)A、B和c都是固定且數(shù)據(jù)無關的。這意味著所有輸入都要經(jīng)過相同的靜態(tài)系統(tǒng)處理，而不考慮輸入的重要性或上下文信息。

為解決這一問題，研究者們提出了通過時變動力系統(tǒng)來擴展SSMs：

這種擴展的核心問題在于如何將c_t、b_t和A_t參數(shù)化為輸入的函數(shù)。不同的參數(shù)化方案可能導致模型趨近于線性注意力或門控注意力機制。

Mamba模型通過選擇性SSM塊實現(xiàn)了這種時變狀態(tài)空間框架：

Mamba的創(chuàng)新之處在于用選擇性SSM取代了標準SSM，并結合輸出門控和額外的卷積操作來提升性能。這種架構設計展示了如何將多個關鍵組件有機地整合為一個高效的序列建模系統(tǒng)。

總結

本文系統(tǒng)性地探討了高效序列建模架構的演進歷程。從傳統(tǒng)softmax注意力機制的二次計算復雜度限制出發(fā)，研究者們發(fā)展出了線性注意力機制。通過核函數(shù)的重構，線性注意力實現(xiàn)了O(Nd2)的計算復雜度，但同時也面臨著固定維度狀態(tài)矩陣帶來的內存限制。

這一限制促使了門控線性注意力的提出，通過引入門控機制實現(xiàn)選擇性信息保留。隨后，狀態(tài)空間模型提供了一個全新的視角，通過類卷積操作處理序列數(shù)據(jù)。從基礎SSMs到時變系統(tǒng)，再到選擇性SSMs的發(fā)展過程，與線性注意力到門控注意力的演進具有相似性——在這兩個方向上，增強模型對輸入數(shù)據(jù)的適應性都是提升性能的關鍵。

這些發(fā)展揭示了一個核心主題：計算效率與內存容量之間的基本權衡。softmax注意力通過維持完整序列的注意力權重實現(xiàn)了出色的上下文學習能力，但付出了二次計算復雜度的代價。線性變體（包括SSMs）通過固定維度的狀態(tài)表示降低了計算復雜度，但也限制了保持詳細上下文信息的能力。這種權衡仍然是序列建模領域的核心挑戰(zhàn)，繼續(xù)推動著研究者們探索能夠更好平衡這些競爭需求的架構設計。

責任編輯：華軒來源： DeepHub IMBA

大型語言模型 Softmax 架構

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="mpny5"></cite>