自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Transformer后繼有模！MSRA提出全新大模型基礎(chǔ)架構(gòu)：推理速度8倍提升，內(nèi)存占用減少70%

作者：魚羊 2023-07-18 14:19:00

人工智能新聞

RetNet實現(xiàn)了良好的擴展結(jié)果、并行訓(xùn)練、低成本部署和高效推理。這些特性使這一基礎(chǔ)架構(gòu)，成為大語言模型中Transformer的有力繼承者。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

微軟大模型新架構(gòu)，正式向Transformer發(fā)起挑戰(zhàn)！

論文標(biāo)題明晃晃地寫道：

Retentive Network（RetNet）：大模型領(lǐng)域Transformer的繼任者。

圖片

論文提出新的Retention機制來代替Attention。來自微軟亞研院和清華的研究人員，毫不諱言“野心”，大膽放話：

RetNet實現(xiàn)了良好的擴展結(jié)果、并行訓(xùn)練、低成本部署和高效推理。

這些特性使這一基礎(chǔ)架構(gòu)，成為大語言模型中Transformer的有力繼承者。

而實驗數(shù)據(jù)也顯示，在語言建模任務(wù)上：

RetNet可以達到與Transformer相當(dāng)?shù)睦Щ蠖龋╬erplexity）
推理速度達8.4倍
內(nèi)存占用減少70%
具有良好的擴展性

并且當(dāng)模型大小大于一定規(guī)模時，RetNet表現(xiàn)會優(yōu)于Transformer。

圖片

Transformer果真“后繼有?！绷?？具體詳情，一起來看。

解決“不可能三角”

Transformer在大語言模型中的重要性毋庸置疑。無論是OpenAI的GPT系列，還是谷歌的PaLM、Meta的LLaMA，都是基于Transformer打造。

但Transformer也并非完美無缺：其并行處理機制是以低效推理為代價的，每個步驟的復(fù)雜度為O(N)；Transformer是內(nèi)存密集型模型，序列越長，占用的內(nèi)存越多。

在此之前，大家也不是沒想過繼續(xù)改進Transformer。但主要的幾種研究方向都有些顧此失彼：

線性attention可以降低推理成本，但性能較差；

循環(huán)神經(jīng)網(wǎng)絡(luò)則無法進行并行訓(xùn)練。

也就是說，這些神經(jīng)網(wǎng)絡(luò)架構(gòu)面前擺著一個“不可能三角”，三個角代表的分別是：并行訓(xùn)練、低成本推理和良好的擴展性能。

圖片

RetNet的研究人員想做的，就是化不可能為可能。

具體而言，RetNet在Transformer的基礎(chǔ)上，使用多尺度保持（retention）機制替代了標(biāo)準(zhǔn)的自注意力機制。

與標(biāo)準(zhǔn)自注意力機制相比，保持機制有幾大特點：

引入位置相關(guān)的指數(shù)衰減項取代softmax，簡化了計算，同時使前步的信息以衰減的形式保留下來。

引入復(fù)數(shù)空間表達位置信息，取代絕對或相對位置編碼，容易轉(zhuǎn)換為遞歸形式。

另外，保持機制使用多尺度的衰減率，增加了模型的表達能力，并利用GroupNorm的縮放不變性來提高retention層的數(shù)值精度。

圖片

△RetNet的雙重表示

每個RetNet塊包含兩個模塊：多尺度保持（MSR）模塊和前饋網(wǎng)絡(luò)（FFN）模塊。

保持機制支持以三種形式表示序列：

并行
遞歸
分塊遞歸，即并行表示和遞歸表示的混合形式，將輸入序列劃分為塊，在塊內(nèi)按照并行表示進行計算，在塊間遵循遞歸表示。

其中，并行表示使RetNet可以像Transformer一樣高效地利用GPU進行并行訓(xùn)練。

遞歸表示實現(xiàn)了O(1)的推理復(fù)雜度，降低了內(nèi)存占用和延遲。

分塊遞歸則可以更高效地處理長序列。

這樣一來，RetNet就使得“不可能三角”成為可能。以下為RetNet與其他基礎(chǔ)架構(gòu)的對比結(jié)果：

在語言建模任務(wù)上的實驗結(jié)果，進一步證明了RetNet的有效性。

結(jié)果顯示，RetNet可以達到與Transformer相似的困惑度（PPL，評價語言模型好壞的指標(biāo)，越小越好）。

同時，在模型參數(shù)為70億、輸入序列長度為8k的情況下，RetNet的推理速度能達到Transformer的8.4倍，內(nèi)存占用減少70%。

在訓(xùn)練過程中，RetNet在內(nèi)存節(jié)省和加速效果方面，也比標(biāo)準(zhǔn)Transformer+FlashAttention表現(xiàn)更好，分別達到25-50%和7倍。

值得一提的是，RetNet的推理成本與序列長度無關(guān)，推理延遲對批量大小不敏感，允許高吞吐量。

圖片

另外，當(dāng)模型參數(shù)規(guī)模大于20億時，RetNet的表現(xiàn)會優(yōu)于Transformer。

研究團隊

RetNet的研究團隊，來自微軟亞研院和清華大學(xué)。

共同一作為孫宇濤和董力。

孫宇濤，清華大學(xué)計算機系本科，現(xiàn)在在微軟亞研院實習(xí)。

董力，微軟亞研院研究員。他也是此前引發(fā)大量關(guān)注的“能記住10億token的Transformer”的論文作者之一。

RetNet論文的通訊作者是韋福如。他是微軟亞洲研究院全球研究合伙人，10億token Transformer亦是來自他的研究團隊。

論文地址：https://arxiv.org/abs/2307.08621

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="kuihe"><samp id="kuihe"></samp></p>

<style id="kuihe"></style>

<legend id="kuihe"><track id="kuihe"><dfn id="kuihe"></dfn></track></legend>

<blockquote id="kuihe"><p id="kuihe"></p></blockquote>