神經(jīng)網(wǎng)絡(luò)可能不再需要激活函數(shù)?Layer Normalization也具有非線(xiàn)性表達(dá)!
本文作者均來(lái)自北京航空航天大學(xué)人工智能學(xué)院和復(fù)雜關(guān)鍵軟件環(huán)境全國(guó)重點(diǎn)實(shí)驗(yàn)室黃雷副教授團(tuán)隊(duì)。一作倪云昊為研一學(xué)生,二作郭宇芯為大三學(xué)生,三作賈俊龍為研二學(xué)生,通訊作者為黃雷副教授(主頁(yè):https://huangleibuaa.github.io/)
神經(jīng)網(wǎng)絡(luò)通常由三部分組成:線(xiàn)性層、非線(xiàn)性層(激活函數(shù))和標(biāo)準(zhǔn)化層。線(xiàn)性層是網(wǎng)絡(luò)參數(shù)的主要存在位置,非線(xiàn)性層提升神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,而標(biāo)準(zhǔn)化層(Normalization)主要用于穩(wěn)定和加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練,很少有工作研究它們的表達(dá)能力,例如,以Batch Normalization為例,它在預(yù)測(cè)階段可以認(rèn)為是線(xiàn)性變換,從表達(dá)上并未引入非線(xiàn)性。因此研究人員普遍認(rèn)為Normalization并不能夠提升模型的表達(dá)能力。
然而,最近由北京航空航天大學(xué)人工智能學(xué)院黃雷老師團(tuán)隊(duì)發(fā)表在ICML2024上的論文《On the Nonlinearity of Layer Normalization》指出,層標(biāo)準(zhǔn)化(Layer Normlization,LN)以及其計(jì)算退化版本RMSNorm具有非線(xiàn)性表達(dá)能力,并詳細(xì)討論了LN的萬(wàn)能近似分類(lèi)能力。
- 論文地址:https://arxiv.org/abs/2406.01255
該論文對(duì)LN的非線(xiàn)性進(jìn)行了數(shù)學(xué)證明。并且提出了僅含線(xiàn)性層和LN的簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)LN-Net,在足夠深的情況下,理論上,可以任意分類(lèi)給定的樣本和樣本類(lèi)別。這一發(fā)現(xiàn)打破了人們將各種Normalization視為不具有擬合能力的線(xiàn)性變換的慣性認(rèn)知,而非線(xiàn)性層和標(biāo)準(zhǔn)化層也不再是互不相交的神經(jīng)網(wǎng)絡(luò)模塊。
目前,隨著transformer的廣泛使用,LN作為其中的固定組成部分,已經(jīng)成為了一種普遍使用的技術(shù),該研究在未來(lái)可能為神經(jīng)網(wǎng)絡(luò)架構(gòu)提供新的理論依據(jù),在這個(gè)方向上,具有開(kāi)創(chuàng)性意義。
LN非線(xiàn)性的數(shù)學(xué)發(fā)現(xiàn)
對(duì)于非線(xiàn)性研究,文章并沒(méi)有直接討論LN本身的分析性質(zhì),而是更具有實(shí)用意義地探究了LN與數(shù)據(jù)之間的交互。
作者首先提出了統(tǒng)計(jì)量SSR(Sum of Squares Ratio),描述兩個(gè)類(lèi)別下樣本的線(xiàn)性可分性。當(dāng)對(duì)樣本進(jìn)行線(xiàn)性變換時(shí),SSR也會(huì)發(fā)生變化。因此,定義樣本在所有線(xiàn)性變換下對(duì)應(yīng)的最小的SSR為L(zhǎng)SSR。文章指出,當(dāng)LSSR越小時(shí),樣本之間的線(xiàn)性可分性越強(qiáng)。
然而,當(dāng)對(duì)樣本施加的線(xiàn)性變化替換為“線(xiàn)性變換-LN-線(xiàn)性變換”的結(jié)構(gòu)時(shí),發(fā)現(xiàn)得到的新的SSR有可能低于LSSR,這驗(yàn)證了LN的非線(xiàn)性表達(dá)——如果LN是線(xiàn)性的,那么“線(xiàn)性變換-LN-線(xiàn)性變換”也是線(xiàn)性的,得到的新SSR不可能會(huì)低于LSSR。
LN在分類(lèi)問(wèn)題中的任意可分性
為了進(jìn)一步研究,作者將LN拆分為兩個(gè)步驟:中心化(centering)和尺度縮放(scaling)。中心化從數(shù)學(xué)上是一個(gè)線(xiàn)性變換,因此LN的非線(xiàn)性主要存在于尺度縮放操作當(dāng)中(文章中也稱(chēng)之為球面投影,是RMSNorm執(zhí)行的操作)。作者以最為簡(jiǎn)單的線(xiàn)性不可分的異或數(shù)據(jù)為例,通過(guò)線(xiàn)性變換和球面投影將這四個(gè)點(diǎn)進(jìn)行了正確分類(lèi)。
更一般地,作者提出了使用LN和線(xiàn)性層對(duì)任意數(shù)目樣本進(jìn)行正確分類(lèi)的算法,探究了LN-Net的萬(wàn)能近似能力。
通過(guò)構(gòu)造算法步驟,將神經(jīng)網(wǎng)絡(luò)的逐層變換轉(zhuǎn)換為同類(lèi)樣本合并問(wèn)題,將萬(wàn)能近似分類(lèi)問(wèn)題轉(zhuǎn)換為樣例歸并問(wèn)題,并指出——對(duì)于任意標(biāo)簽的m個(gè)樣本,都可以構(gòu)造一個(gè)O(m)層的LN-Net,對(duì)這m個(gè)樣本進(jìn)行正確分類(lèi)。這一構(gòu)造方法為計(jì)算神經(jīng)網(wǎng)絡(luò)的VC維也提供了新的思路。作者指出,在此基礎(chǔ)上,可以推斷出有L個(gè)層標(biāo)準(zhǔn)化層的LN-Net,VC維至少有L+2。
LN非線(xiàn)性加強(qiáng)與實(shí)際應(yīng)用
作者在證明了LN非線(xiàn)性的基礎(chǔ)上,為進(jìn)一步加強(qiáng)LN的非線(xiàn)性以便于實(shí)際應(yīng)用,提出了分組層標(biāo)準(zhǔn)化技術(shù)(LN-G)。作者在數(shù)學(xué)上從海森矩陣的角度預(yù)測(cè)分組能強(qiáng)化LN的非線(xiàn)性,并從實(shí)驗(yàn)上初步探測(cè)了LN-G的表達(dá)能力。
作者指出,在CIFAR-10隨機(jī)標(biāo)簽數(shù)據(jù)集上,對(duì)于通常的線(xiàn)性層模型,其準(zhǔn)確率不超過(guò)20%;而使用線(xiàn)性層和LN-G構(gòu)成的神經(jīng)網(wǎng)絡(luò)(不引入傳統(tǒng)的激活函數(shù)作為非線(xiàn)性單元)能夠取得55.85%的準(zhǔn)確率。
作者進(jìn)一步探究了LN-G在無(wú)激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)效果,并實(shí)驗(yàn)上證明了這種沒(méi)有激活函數(shù)的神經(jīng)網(wǎng)絡(luò)的確有著強(qiáng)大的擬合能力。此外,作者類(lèi)比MLP上GN作用于整個(gè)樣本上(將單個(gè)樣本拉伸成一維向量,再進(jìn)行GN),提出了LN-G-Position。在沒(méi)有非線(xiàn)性層的ResNet網(wǎng)絡(luò)上使用LN-G-Position方法在CIFAR-10數(shù)據(jù)集上能夠取得86.66%的準(zhǔn)確率,體現(xiàn)了LN-G-Position強(qiáng)大的表達(dá)能力。
作者接下來(lái)在Transformer上進(jìn)行了實(shí)驗(yàn)探究,將原本的LN替換為L(zhǎng)N-G,根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)了分組層標(biāo)準(zhǔn)化能有效性提升Transformer網(wǎng)絡(luò)的性能,證明了真實(shí)網(wǎng)絡(luò)中,該理論的可行性。
結(jié)論與展望
作者在《On the Nonlinearity of Layer Normalization》論文中,理論上首次證明了僅含有線(xiàn)性層和LN的模型的萬(wàn)能分類(lèi)能力以及給定特定深度的模型的VC維下界,這里面最重要的意義是將傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)的表達(dá)能力的分析朝廣泛使用的現(xiàn)代真實(shí)網(wǎng)絡(luò)邁出了一大步,這一點(diǎn)可能為未來(lái)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)提供新的思路。