自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌大腦Quoc發(fā)布Primer,從操作原語搜索高效Transformer變體

人工智能
最近Google Brain的首席Quoc發(fā)布了一個搜索框架,能夠自動搜索高效率的Transformer變體,并找到一些有效的模型Primer,其中ReLU加個平方竟然能提升最多性能!

 [[426884]]

調(diào)參、改激活函數(shù)提高模型性能已經(jīng)見怪不改了。最近Google Brain的首席Quoc發(fā)布了一個搜索框架,能夠自動搜索高效率的Transformer變體,并找到一些有效的模型Primer,其中ReLU加個平方竟然能提升最多性能!

目前自然語言處理領(lǐng)域發(fā)展的紅利都來自于大型的、基于Transformer的語言模型,但這些語言模型的訓(xùn)練成本、推理成本都高到勸退平民煉金術(shù)師。

而當(dāng)模型參數(shù)量大到一定程度的時候,研究人員也在考慮如何在縮小模型的情況下,保持性能不變。

Google Brain團隊最近在arxiv 上傳了一篇論文,目標(biāo)是通過尋找更高效的Transformer 變體來降低訓(xùn)練和推理成本。

與之前的方法相比,新提出的方法在更低級別上執(zhí)行搜索,在Tensorflow 程序的原語上定義和搜索 Transformer。并提出了一種名為 Primer 的模型架構(gòu),訓(xùn)練成本比原始 Transformer 和用于自回歸語言建模的其他模型變體要更小。

谷歌大腦Quoc發(fā)布Primer,從操作原語搜索高效Transformer變體

https://arxiv.org/abs/2109.08668

論文的作者是大神 Quoc V. Le,在斯坦福讀博期間導(dǎo)師是吳恩達(dá)教授,目前是谷歌的研究科學(xué)家,Google Brain 的創(chuàng)始成員之一;seq2seq的作者之一;谷歌AutoML的奠基人,提出包括神經(jīng)架構(gòu)等方法;EfficientNet的作者等。

[[426885]]

研究人員使用TensorFlow(TF)中的操作來構(gòu)造Transformer 變體的搜索空間。在這個搜索空間中,每個程序定義了自回歸語言模型的可堆疊解碼器塊。給定輸入張量是一個長度為n且嵌入長度為d的序列,程序能夠返回相同形狀的張量。

堆疊時,其輸出表示每個序列位置的下一個token的預(yù)測embedding,并且程序只指定模型架構(gòu),沒有其他內(nèi)容。換句話說,輸入和輸出embedding矩陣本身以及輸入預(yù)處理和權(quán)重優(yōu)化不在這個程序的任務(wù)范圍內(nèi)。

谷歌大腦Quoc發(fā)布Primer,從操作原語搜索高效Transformer變體

解碼器模型程序(DNA, decoder model program)定義了一個自回歸語言模型,每個DNA都有一組子程序,其中子程序0是MAIN函數(shù)的入口點。每個子程序都由指令組成,這些指令被轉(zhuǎn)換為TensorFlow代碼行。

指令操作映射到原語詞匯表中的基本TensorFlow庫函數(shù)或父DNA子程序之一,原語詞匯表由簡單的原語TF函數(shù)組成,如ADD、LOG、MATMUL等等,但像self-attention這樣的高級構(gòu)建塊不是搜索空間中的操作,自注意力可以從低級操作中構(gòu)建出來的。

DNA的子程序庫由附加程序組成,這些程序可以通過指令作為函數(shù)執(zhí)行。每個子程序只能調(diào)用子程序庫中索引較高的子程序,這樣就消除了循環(huán)的可能性。

谷歌大腦Quoc發(fā)布Primer,從操作原語搜索高效Transformer變體

使用父指令的參數(shù)集填充操作的參數(shù),該參數(shù)集包含所有潛在操作參數(shù)的值,參數(shù)包括Input 1( 用作第一個tensor輸入的隱藏狀態(tài)的索引)、Input 2(第二個tensor輸入的隱藏狀態(tài)的索引)、Constant(實值常數(shù),可以用于MAX等函數(shù))、Dimensionsize(用來表示輸出維度大小的整數(shù))。特定操作中沒有使用的參數(shù)就直接被省略掉。

研究人員還提出進(jìn)化搜索(evolutionary search),目標(biāo)是在搜索空間中找到最有效的模型架構(gòu)。主要方法是設(shè)計一個固定的訓(xùn)練預(yù)算(使用TPUv2限時24小時),并將其適應(yīng)性指標(biāo)定義為Tensor2Tensor中One Billion Words Benchmark (LM1B)上的困惑度。

這些架構(gòu)搜索工作的明確目標(biāo)是在優(yōu)化效率時減少訓(xùn)練或推理步驟時間,在搜索過程中,可以發(fā)現(xiàn)將步長時間增加一倍、采樣效率提高三倍是一個不錯的修改方案,因為它最終使模型架構(gòu)的計算效率更高。還可以將ReLUs平方化,并在注意力上增加深度卷積,從而增加訓(xùn)練步長時間。

這些操作極大地提高了模型的采樣效率,通過大幅減少達(dá)到目標(biāo)質(zhì)量所需的訓(xùn)練步驟數(shù)量,減少了達(dá)到目標(biāo)性能所需的總計算量。

通過這個搜索程序找到的模型被研究人員命名為Primer,也就是原語搜索Transformer(PRIMitives searched transformER)。

Primer 的改進(jìn)主要有平方 ReLU 激活并在自注意力中的每個 Q、K 和 V 投影后添加一個深度卷積層。

最有效的修改是將變Transformer前饋塊中的ReLU激活改進(jìn)為平方ReLU激活函數(shù),這也是第一次證明這種整流多項式激活在Transformer 中有用。并且高階多項式的有效性也可以在其他Transfomer 非線性激活函數(shù)中觀察到,例如GLU 的各種變體,ReGLU、近似GELU等。然而平方ReLU與最常用的激活功能相比 ReLU、GELU和Swish 具有截然不同的漸近性。

谷歌大腦Quoc發(fā)布Primer,從操作原語搜索高效Transformer變體

平方ReLU確實與ReGLU有顯著重疊,事實上,當(dāng)ReGLU的U和V權(quán)重矩陣相同時,平方ReLU與ReLU是等效的。并且平方ReLU在更簡單的同時,也能獲得GLU變體的好處,且無需額外參數(shù),并提供更好的質(zhì)量。

研究人員使用三個Transformer 變體與Primer 進(jìn)行對比:

1、Vanilla Transformer: 原始Transformer,使用ReLU激活和layer normalization。

2、Transformer+GELU: Transformer的常用變體,使用GELU近似激活函數(shù)

3、Transformer++: 使用RMS歸一化、Swish激活和GLU乘法分支在前饋反向瓶頸(SwiGLU)中。這些修改在T5 中進(jìn)行了基準(zhǔn)測試,并被表明是有效的。

實驗表明,隨著計算規(guī)模的增長,Primer 相對于 Transformer 的收益會增加,并且在最佳模型大小下遵循與質(zhì)量相關(guān)的冪律。

谷歌大腦Quoc發(fā)布Primer,從操作原語搜索高效Transformer變體

研究人員還憑經(jīng)驗驗證了 Primer 可以放入不同的代碼庫,發(fā)現(xiàn)可以顯著加快訓(xùn)練速度,而無需額外調(diào)整。例如,在 500M 的參數(shù)大小下,Primer 在 C4 自回歸語言建模上改進(jìn)了原始 T5 架構(gòu),將訓(xùn)練成本降低了 4 倍。

此外,降低的訓(xùn)練成本意味著 Primer 需要更少的計算來達(dá)到目標(biāo)one shot性能。例如,在類似于 GPT-3 XL 的 1.9B 參數(shù)配置中,Primer 使用 1/3 的訓(xùn)練計算來實現(xiàn)與 Transformer 相同的一次性性能。

研究人員已經(jīng)開源了模型,以幫助提論文可重復(fù)性。

谷歌大腦Quoc發(fā)布Primer,從操作原語搜索高效Transformer變體

 

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-06-29 15:33:28

谷歌Transformer模型

2020-01-23 15:19:26

谷歌Android開發(fā)者

2012-10-08 10:47:41

谷歌虛擬大腦

2018-05-23 09:28:23

2023-09-21 10:29:01

AI模型

2023-04-20 14:48:05

微軟AIChatGPT

2025-04-10 10:44:00

2020-11-29 20:24:13

數(shù)據(jù)谷歌DeepMind

2020-09-27 10:37:51

谷歌Transformer機器學(xué)習(xí)

2022-09-26 15:23:38

模型Transforme

2025-03-31 08:12:00

模型AI訓(xùn)練

2021-01-26 15:32:40

機器學(xué)習(xí)人工智能計算機

2009-03-25 08:48:17

AndroidGoogle移動OS

2023-01-27 13:32:51

大腦模型模仿

2014-07-21 09:18:26

谷歌Google Brai

2021-05-06 15:55:01

谷歌Android開發(fā)

2014-06-26 11:04:49

Android L

2021-09-06 14:53:15

人工智能機器學(xué)習(xí)技術(shù)

2022-10-20 15:30:04

操作系統(tǒng)開源

2018-04-16 13:32:19

谷歌搜索引擎Talk to Boo
點贊
收藏

51CTO技術(shù)棧公眾號