自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="x63vm"><rp id="x63vm"><form id="x63vm"></form></rp></cite>

<style id="x63vm"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌大腦Quoc發(fā)布Primer，從操作原語搜索高效Transformer變體

作者：佚名 2021-09-30 11:14:17

最近Google Brain的首席Quoc發(fā)布了一個搜索框架，能夠自動搜索高效率的Transformer變體，并找到一些有效的模型Primer，其中ReLU加個平方竟然能提升最多性能！

調(diào)參、改激活函數(shù)提高模型性能已經(jīng)見怪不改了。最近Google Brain的首席Quoc發(fā)布了一個搜索框架，能夠自動搜索高效率的Transformer變體，并找到一些有效的模型Primer，其中ReLU加個平方竟然能提升最多性能！

目前自然語言處理領(lǐng)域發(fā)展的紅利都來自于大型的、基于Transformer的語言模型，但這些語言模型的訓(xùn)練成本、推理成本都高到勸退平民煉金術(shù)師。

而當(dāng)模型參數(shù)量大到一定程度的時候，研究人員也在考慮如何在縮小模型的情況下，保持性能不變。

Google Brain團隊最近在arxiv 上傳了一篇論文，目標(biāo)是通過尋找更高效的Transformer 變體來降低訓(xùn)練和推理成本。

與之前的方法相比，新提出的方法在更低級別上執(zhí)行搜索，在Tensorflow 程序的原語上定義和搜索 Transformer。并提出了一種名為 Primer 的模型架構(gòu)，訓(xùn)練成本比原始 Transformer 和用于自回歸語言建模的其他模型變體要更小。

谷歌大腦Quoc發(fā)布Primer，從操作原語搜索高效Transformer變體

https://arxiv.org/abs/2109.08668

論文的作者是大神 Quoc V. Le，在斯坦福讀博期間導(dǎo)師是吳恩達(dá)教授，目前是谷歌的研究科學(xué)家，Google Brain 的創(chuàng)始成員之一；seq2seq的作者之一；谷歌AutoML的奠基人，提出包括神經(jīng)架構(gòu)等方法；EfficientNet的作者等。

研究人員使用TensorFlow（TF）中的操作來構(gòu)造Transformer 變體的搜索空間。在這個搜索空間中，每個程序定義了自回歸語言模型的可堆疊解碼器塊。給定輸入張量是一個長度為n且嵌入長度為d的序列，程序能夠返回相同形狀的張量。

堆疊時，其輸出表示每個序列位置的下一個token的預(yù)測embedding，并且程序只指定模型架構(gòu)，沒有其他內(nèi)容。換句話說，輸入和輸出embedding矩陣本身以及輸入預(yù)處理和權(quán)重優(yōu)化不在這個程序的任務(wù)范圍內(nèi)。

谷歌大腦Quoc發(fā)布Primer，從操作原語搜索高效Transformer變體

解碼器模型程序（DNA, decoder model program）定義了一個自回歸語言模型，每個DNA都有一組子程序，其中子程序0是MAIN函數(shù)的入口點。每個子程序都由指令組成，這些指令被轉(zhuǎn)換為TensorFlow代碼行。

指令操作映射到原語詞匯表中的基本TensorFlow庫函數(shù)或父DNA子程序之一，原語詞匯表由簡單的原語TF函數(shù)組成，如ADD、LOG、MATMUL等等，但像self-attention這樣的高級構(gòu)建塊不是搜索空間中的操作，自注意力可以從低級操作中構(gòu)建出來的。

DNA的子程序庫由附加程序組成，這些程序可以通過指令作為函數(shù)執(zhí)行。每個子程序只能調(diào)用子程序庫中索引較高的子程序，這樣就消除了循環(huán)的可能性。

谷歌大腦Quoc發(fā)布Primer，從操作原語搜索高效Transformer變體

使用父指令的參數(shù)集填充操作的參數(shù)，該參數(shù)集包含所有潛在操作參數(shù)的值，參數(shù)包括Input 1（用作第一個tensor輸入的隱藏狀態(tài)的索引）、Input 2（第二個tensor輸入的隱藏狀態(tài)的索引）、Constant（實值常數(shù)，可以用于MAX等函數(shù)）、Dimensionsize（用來表示輸出維度大小的整數(shù)）。特定操作中沒有使用的參數(shù)就直接被省略掉。

研究人員還提出進(jìn)化搜索（evolutionary search），目標(biāo)是在搜索空間中找到最有效的模型架構(gòu)。主要方法是設(shè)計一個固定的訓(xùn)練預(yù)算（使用TPUv2限時24小時），并將其適應(yīng)性指標(biāo)定義為Tensor2Tensor中One Billion Words Benchmark (LM1B)上的困惑度。

這些架構(gòu)搜索工作的明確目標(biāo)是在優(yōu)化效率時減少訓(xùn)練或推理步驟時間，在搜索過程中，可以發(fā)現(xiàn)將步長時間增加一倍、采樣效率提高三倍是一個不錯的修改方案，因為它最終使模型架構(gòu)的計算效率更高。還可以將ReLUs平方化，并在注意力上增加深度卷積，從而增加訓(xùn)練步長時間。

這些操作極大地提高了模型的采樣效率，通過大幅減少達(dá)到目標(biāo)質(zhì)量所需的訓(xùn)練步驟數(shù)量，減少了達(dá)到目標(biāo)性能所需的總計算量。

通過這個搜索程序找到的模型被研究人員命名為Primer，也就是原語搜索Transformer（PRIMitives searched transformER）。

Primer 的改進(jìn)主要有平方 ReLU 激活并在自注意力中的每個 Q、K 和 V 投影后添加一個深度卷積層。

最有效的修改是將變Transformer前饋塊中的ReLU激活改進(jìn)為平方ReLU激活函數(shù)，這也是第一次證明這種整流多項式激活在Transformer 中有用。并且高階多項式的有效性也可以在其他Transfomer 非線性激活函數(shù)中觀察到，例如GLU 的各種變體，ReGLU、近似GELU等。然而平方ReLU與最常用的激活功能相比 ReLU、GELU和Swish 具有截然不同的漸近性。

谷歌大腦Quoc發(fā)布Primer，從操作原語搜索高效Transformer變體

平方ReLU確實與ReGLU有顯著重疊，事實上，當(dāng)ReGLU的U和V權(quán)重矩陣相同時，平方ReLU與ReLU是等效的。并且平方ReLU在更簡單的同時，也能獲得GLU變體的好處，且無需額外參數(shù)，并提供更好的質(zhì)量。

研究人員使用三個Transformer 變體與Primer 進(jìn)行對比：

1、Vanilla Transformer: 原始Transformer，使用ReLU激活和layer normalization。

2、Transformer+GELU: Transformer的常用變體，使用GELU近似激活函數(shù)

3、Transformer++: 使用RMS歸一化、Swish激活和GLU乘法分支在前饋反向瓶頸（SwiGLU）中。這些修改在T5 中進(jìn)行了基準(zhǔn)測試，并被表明是有效的。

實驗表明，隨著計算規(guī)模的增長，Primer 相對于 Transformer 的收益會增加，并且在最佳模型大小下遵循與質(zhì)量相關(guān)的冪律。

谷歌大腦Quoc發(fā)布Primer，從操作原語搜索高效Transformer變體

研究人員還憑經(jīng)驗驗證了 Primer 可以放入不同的代碼庫，發(fā)現(xiàn)可以顯著加快訓(xùn)練速度，而無需額外調(diào)整。例如，在 500M 的參數(shù)大小下，Primer 在 C4 自回歸語言建模上改進(jìn)了原始 T5 架構(gòu)，將訓(xùn)練成本降低了 4 倍。

此外，降低的訓(xùn)練成本意味著 Primer 需要更少的計算來達(dá)到目標(biāo)one shot性能。例如，在類似于 GPT-3 XL 的 1.9B 參數(shù)配置中，Primer 使用 1/3 的訓(xùn)練計算來實現(xiàn)與 Transformer 相同的一次性性能。

研究人員已經(jīng)開源了模型，以幫助提論文可重復(fù)性。

谷歌大腦Quoc發(fā)布Primer，從操作原語搜索高效Transformer變體

責(zé)任編輯：張燕妮來源：新智元

谷歌框架技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營