自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="nvd1z"></pre>

<blockquote id="nvd1z"><i id="nvd1z"><video id="nvd1z"></video></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

《Transformer 關(guān)鍵要素：非所有注意力皆必要》論文解讀

智能交互引擎

發(fā)布于 2024-10-25 16:52

瀏覽

0收藏

摘要：隨著基于Transformer的大型語言模型（LLMs）在各種任務(wù)中展現(xiàn)出強(qiáng)大性能，其規(guī)模的擴(kuò)大也帶來了冗余結(jié)構(gòu)的問題。本文通過基于相似性的度量方法，研究了Transformer中不同模塊（包括塊、多層感知機(jī)（MLP）和注意力（Attention）層）的冗余情況。發(fā)現(xiàn)大量注意力層存在過高的相似性，可在不降低性能的情況下進(jìn)行修剪，從而降低內(nèi)存和計算成本。還提出了一種聯(lián)合丟棄注意力和MLP層的方法，提高了性能和丟棄比例。

一、研究背景和動機(jī)
（一）LLMs的發(fā)展與挑戰(zhàn)Transformer-basedLLMs在AI研究中取得了顯著進(jìn)展，但模型的擴(kuò)展導(dǎo)致冗余模塊增加，這不僅增加了部署成本和資源需求，還限制了其在邊緣設(shè)備上的應(yīng)用。例如GPT-3的參數(shù)規(guī)模巨大，對內(nèi)存要求過高。
（二）對模型結(jié)構(gòu)冗余性的關(guān)注以往的研究雖有優(yōu)化LLM效率的工作，但常忽略Transformer架構(gòu)的獨(dú)特性。Transformer由多個堆疊的塊組成，每個塊包含MLP層和Attention層，不同模塊可能存在不同類型和程度的冗余，這激發(fā)了作者對這些不同模塊冗余性的研究。

二、研究方法
（一）基于相似性的度量方法通過計算模塊輸入和輸出之間的余弦相似性來確定模塊的重要性。相似性越高，模塊的重要性得分越低，越有可能被丟棄。公式為，其中為輸入，為輸出。
（二）不同模塊的丟棄方法塊丟棄（BlockDrop）計算每個塊的輸入和輸出的相似性得分，從淺層到深層迭代計算每個塊的重要性得分，丟棄得分最低的塊。層丟棄（LayerDrop）MLP丟棄（MLPDrop）：考慮MLP層及其后續(xù)的層歸一化（LayerNorm）作為一個整體來計算相似性得分，同時丟棄不重要的MLP層和相關(guān)的LayerNorm層。注意力丟棄（AttentionDrop）：類似MLPDrop，考慮注意力層和相關(guān)LayerNorm層的整體輸出，計算重要性得分。聯(lián)合層丟棄（JointLayerDrop）先分別獲取注意力層和MLP層的重要性得分和，然后將它們連接起來，根據(jù)綜合得分丟棄層，以優(yōu)化丟棄過程。

三、實驗結(jié)果
（一）不同模塊丟棄的比較塊丟棄在Llama-2-13B上進(jìn)行實驗，丟棄8個塊時，平均性能分別下降了7.5%，性能下降明顯，說明塊對于維持性能較為重要。MLP層丟棄同樣在Llama-2-13B和Mistral-7B上實驗，丟棄8個MLP層時，性能分別下降了6.3%和6.9%，也會導(dǎo)致性能大幅下降。注意力層丟棄與前兩者不同，在Llama-3-13B和Mistral-7B上丟棄8個注意力層后，模型仍能保持超過99%的原始性能。而且在不同的丟棄比例實驗中，當(dāng)丟棄比例低于50%時，性能保持相對穩(wěn)定。
（二）模塊丟棄的效率提升內(nèi)存使用注意力層丟棄可以有效減少鍵值（KV）緩存，例如對于Llama-2-13B的一個輸入，可將約70GB的KV緩存減少一半，顯著降低內(nèi)存需求。速度提升與MLP層相比，注意力層丟棄對速度提升的貢獻(xiàn)更大，如在Mistral-7B上丟棄8層時，注意力層丟棄的速度提升倍數(shù)為1.17×，而MLP層丟棄為1.09×。
（三）聯(lián)合層丟棄的效果聯(lián)合層丟棄的性能明顯高于單獨(dú)的注意力層丟棄或MLP層丟棄。它首先只丟棄注意力層，直到達(dá)到一定數(shù)量后再考慮丟棄MLP層，提高了丟棄比例和性能。

四、進(jìn)一步分析
（一）注意力層冗余的一致性訓(xùn)練過程中的相似性通過評估MAP-Neo-7B在不同訓(xùn)練階段的檢查點，發(fā)現(xiàn)注意力層在所有訓(xùn)練階段的重要性得分都極低，而MLP層和塊的重要性得分隨著訓(xùn)練逐漸增加。更深層模塊的冗余性可視化不同模型的丟棄層或塊，發(fā)現(xiàn)無論是Llama-2-13B、Mistral-7B還是更大的Llama-2-70B，都傾向于先丟棄更深層的模塊，說明更深層模塊往往更冗余。
（二）塊丟棄和層丟棄的魯棒性對樣本數(shù)量的魯棒性隨著樣本數(shù)量增加（從4到1024），不同注意力層的特征相似性保持相對穩(wěn)定，說明使用256個樣本計算相似性足以滿足實驗需求。對校準(zhǔn)數(shù)據(jù)集的魯棒性改變校準(zhǔn)數(shù)據(jù)集（從預(yù)訓(xùn)練數(shù)據(jù)集到指令調(diào)整數(shù)據(jù)集），特征相似性沒有顯著變化，模塊的丟棄情況也基本相同，證明了塊丟棄和層丟棄對校準(zhǔn)數(shù)據(jù)集變化的適應(yīng)性。
（三）不同模型規(guī)模的影響更大模型的魯棒性在Llama-2-70B上進(jìn)行實驗，發(fā)現(xiàn)它對塊丟棄和MLP層丟棄也敏感，但相比較小模型更具魯棒性。例如，丟棄8個MLP層時，Llama-2-70B平均性能僅下降0.6%，而Llama-2-13B丟棄4個MLP層時下降3.9%。注意力層丟棄在更大模型上的表現(xiàn)在Llama-2-70B上丟棄32個注意力層時，性能平均僅下降0.1%，而在Llama-2-13B上丟棄相同比例的注意力層會導(dǎo)致明顯的性能下降。五、研究貢獻(xiàn)開發(fā)了基于相似性的度量方法來衡量LLMs內(nèi)的冗余，并研究了包括塊、MLP和注意力層在內(nèi)的各種模塊的結(jié)構(gòu)冗余。揭示了注意力層令人驚訝的冗余性，并證明了注意力層丟棄對準(zhǔn)確性、內(nèi)存和計算效率的好處。提出了聯(lián)合層丟棄等技術(shù)，進(jìn)一步提高了模塊丟棄的有效性和效率。所提出的層丟棄方法能有效識別重要和冗余層，為現(xiàn)有模型評估提供了關(guān)鍵信息，也為網(wǎng)絡(luò)架構(gòu)設(shè)計的未來研究提供了有價值的見解。六、研究局限所討論的丟棄技術(shù)雖在研究的模型上提高了效率，但還需進(jìn)一步探索其在更廣泛模型（如視覺Transformer和視覺-語言模型）中的應(yīng)用。主要關(guān)注訓(xùn)練后的丟棄，未涉及重新訓(xùn)練，而重新訓(xùn)練可能進(jìn)一步恢復(fù)或提高性能。更多內(nèi)容歡迎來卡奧斯智能交互引擎搜索探討

標(biāo)簽

大型語言模型

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

基于多級注意力機(jī)制的并行預(yù)測模型

Tang_Lan ? 4167瀏覽 ? 0回復(fù)
基于多級注意力機(jī)制的并行預(yù)測模型

Tang_Lan ? 2975瀏覽 ? 0回復(fù)
Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內(nèi)存

輕薄滴假象 ? 2044瀏覽 ? 0回復(fù)
麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存

Aceryt ? 3316瀏覽 ? 0回復(fù)
非Transformer模型終于來了！

51CTO技術(shù)棧 ? 2537瀏覽 ? 0回復(fù)
即插即用 | 時間編碼+LSTM+全局注意力

Tang_Lan ? 3680瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：深入注意力機(jī)制

魯班模錘1 ? 2833瀏覽 ? 0回復(fù)
聊聊 KAN、KAN 卷積結(jié)合注意力機(jī)制！

Tang_Lan ? 4735瀏覽 ? 0回復(fù)
注意力機(jī)制的變體之MLA

shizhi02 ? 6285瀏覽 ? 0回復(fù)
智能體協(xié)作進(jìn)化論，從心智理論到逆向注意力

xuxiangda ? 2123瀏覽 ? 0回復(fù)
一文圖解BERT注意力機(jī)制

石映飛云 ? 2292瀏覽 ? 0回復(fù)
【深度探索】FlashAttention-3：深度學(xué)習(xí)注意力機(jī)制的再進(jìn)化

sword_hero ? 2276瀏覽 ? 0回復(fù)
基于深度學(xué)習(xí)故障診斷注意力機(jī)制案例分析

步驚云_32 ? 1661瀏覽 ? 0回復(fù)
大模型神經(jīng)網(wǎng)絡(luò)之注意力機(jī)制——attention

AI探索時代 ? 1795瀏覽 ? 0回復(fù)
DeepSeek中的多頭潛在注意力（MLA）淺嘗

大模型自然語言處理 ? 2063瀏覽 ? 0回復(fù)
從《你所需要的就是注意力》到《你所需要的就是多頭潛在注意力》，TransMLA開啟AI技術(shù)新篇章

xuxiangda ? 1835瀏覽 ? 0回復(fù)
高效注意力機(jī)制與硬件優(yōu)化：硬件優(yōu)化的稀疏注意力，長上下文建模

AI研究前瞻 ? 1737瀏覽 ? 0回復(fù)
解鎖Transformer核心！一文吃透自注意力機(jī)制

人工智能訓(xùn)練營 ? 2962瀏覽 ? 0回復(fù)
一文讀懂 15 種注意力機(jī)制

智駐未來 ? 2342瀏覽 ? 0回復(fù)

智能交互引擎

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

論文解讀：Expressive Whole-Body 3D Gaussian Avatar 2024-12-02 14:10:35發(fā)布
《解讀論文：A Simple Framework for Contrastive Learning of Visual Representations》 2024-11-08 17:27:06發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：《解讀論文：Scaling Laws For Diffusion Transformers》

下一篇：《深度學(xué)習(xí) “魔法”：數(shù)據(jù)增強(qiáng)策略深度剖析》

社區(qū)精華內(nèi)容

目錄