自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun新作:神經網絡在實踐中的靈活性到底有多大?

人工智能 新聞
神經網絡擬合數據的能力受哪些因素影響?CNN一定比Transformer差嗎?ReLU和SGD還有哪些神奇的作用?近日,LeCun參與的一項工作向我們展示了神經網絡在實踐中的靈活性。

人工智能在今天百花齊放,大模型靠規(guī)模稱王,小模型則憑數據取勝。

當然我們也希望,可以付出更少的資源,并達到相同的效果。

很早之前,谷歌就有相關研究,探索了在固定算力的情況下,如何分配模型參數量和訓練數據量,以達到最好的性能。

近日,LeCun參與的一項工作從另一個角度向我們展示了,神經網絡在實踐中的靈活性到底有多大?

圖片

論文地址:https://arxiv.org/pdf/2406.11463

這個靈活性指的是,神經網絡擬合訓練數據(樣本數量)的能力,在實際應用中受到哪些因素的影響。

比如我們第一時間想到的可能就是模型的參數量。

人們普遍認為,神經網絡可以擬合至少與自身參數一樣多的訓練樣本。

這就像是解一個線性方程組,有多少個參數(或者方程)、多少個未知數,從而判斷解的數量。

圖片

然而神經網絡實際上要復雜的多,盡管在理論上能夠進行通用函數逼近,但在實踐中,我們訓練的模型容量有限,不同優(yōu)化器也會導致不同的效果。

所以,本文決定用實驗的方法,分別考察數據本身的性質、模型架構、大小、優(yōu)化器和正則化器等因素。

而模型擬合數據的能力(或者說學習信息的能力),由有效模型復雜性(EMC)來表示。

這個EMC是怎么算的呢?

一開始,在少量樣本上訓練模型。如果它在訓練后達到100%的訓練準確率,則將模型重新初始化并增大訓練樣本數量。

迭代執(zhí)行此過程,每次逐步增加樣本量,直到模型不再完全擬合所有訓練樣本,將模型能實現(xiàn)完美擬合的最大樣本量作為網絡的EMC。

——一直喂飯,直到吃撐,則得到飯量大小。

實證分析

為了全面剖析影響神經網絡靈活性的因素,研究人員考慮了各種數據集、架構和優(yōu)化器。

數據集

實驗采用了包括MNIST、CIFAR-10、CIFAR-100和ImageNet等視覺數據集,以及Forest-Cover Type、Adult Income和Credit等表格數據集。

另外,實驗還使用了更大規(guī)模的合成數據集,通過Min-SNR加權策略進行的高效擴散訓練,生成分辨率為128×128的高質量圖像數據集——ImageNet-20MS,包含10個類別的2000萬個樣本。

模型

實驗評估了多層感知器(MLP)、CNN架構的ResNet和EfficientNet,以及Transformer架構的ViT。

圖片

作者系統(tǒng)地調整了這些架構的寬度和深度:

比如對于MLP,通過每層添加神經元來增加寬度,同時保持層數不變,或者通過添加更多層來增加深度,同時保持每層神經元數量不變。

對于一般的CNN(多個卷積層,接一個恒定大小的全連接層),可以改變每層的kernel數量或者卷積層的總數。

對于ResNet,可以改變kernel的數量或者block的數量(深度)。

圖片

而對于ViT,可以改變編碼器的數量(深度)、patch embedding的維度和自注意力(寬度)。

圖片

優(yōu)化器

實驗采用的優(yōu)化器包括隨機梯度下降(SGD)、Adam、AdamW、全批次梯度下降(full-batch Gradient Descent)和second-order Shampoo optimizer。

由此,研究人員可以測試隨機性和預處理等特征如何影響最小值。同時。為了確??鐢祿湍P痛笮∵M行有效優(yōu)化,研究人員仔細調整了每個設置的學習率和批量大小,并省略了權重衰減。

數據對EMC的影響

研究人員通過修改隱藏層的寬度來擴展一個2層的MLP,通過修改層數和通道數來擴展CNN,并在一系列圖像(MNIST、CIFAR-10、CIFAR-100、ImageNet)和表格(CoverType、Income 和 Credit)數據集上訓練模型。

結果顯示,在不同數據類型上訓練的網絡在EMC方面存在顯著差異:

圖片

在表格數據集上訓練的網絡表現(xiàn)出更高的容量;而在圖像分類數據集中,測試精度和容量之間存在很強的相關性。

值得注意的是,MNIST(模型達到99%以上的測試準確度)產生的EMC最高,而ImageNet的EMC最低,這表明了泛化與數據擬合能力之間的關系。

輸入和標簽的作用

這里通過改變每層中的神經元或kernel的數量,來調整MLP和CNN的寬度,并在合成數據集ImageNet-20MS上進行訓練。

實驗測試了四種情況下的EMC:語義標簽、隨機標簽、隨機輸入(高斯噪聲)和固定隨機排列下的輸入。

分配隨機標簽(而非真實標簽)的目的是探索過參數化(overparameterization)和欠參數化(underparameterization)之間的邊界。

圖片

從上圖的結果可以發(fā)現(xiàn),與原始標簽相比,當分配隨機標簽時,網絡擬合的樣本要少得多,此時神經網絡的參數效率低于線性模型。而從整體上來看,模型的參數量與擬合的數據量大致呈線性關系。

分類數量對EMC的影響

作者隨機合并了CIFAR-100中的類別(保留原始數據集的大小),在具有不同數量kernel的2層CNN上進行實驗。

圖片

結果如上圖所示,隨著類數量的增加,帶有語義標簽的數據變得越來越難以擬合,因為模型必須對其權重中的每個樣本進行編碼。

相比之下,隨機標記的數據變得更容易擬合,因為模型不再被迫為語義上不同的樣本分配相同的類標簽。

預測泛化

神經網絡偏向于擬合語義連貫的標簽而不是隨機標簽,而且,與隨機標簽相比,網絡擬合語義標簽的熟練程度通常與其泛化能力相關。

這種泛化也使得CNN這種架構能夠擬合比模型參數量更多的樣本。

傳統(tǒng)的機器學習觀念認為,高容量模型往往會過度擬合,從而影響其對新數據的泛化,而PAC-貝葉斯理論則指出,模型更喜歡正確的數據標記。

而本文的實驗將這兩種理論聯(lián)系在了一起。

圖片

上圖中,在正確標記和隨機標記的數據上計算各種CNN和MLP的EMC,測量模型遇到語義標簽與隨機標簽時EMC增加的百分比。

結果表明EMC增加的百分比與generalization gap之間存在顯著的負相關關系,這不僅證實了泛化的理論基礎,而且闡明了理論的實際意義。

模型架構對EMC的影響

關于CNN和ViT的效率和泛化能力一直存在爭議。

實驗表明,CNN以硬編碼的歸納偏差為特征,在EMC中優(yōu)于ViT和MLP。當對語義標記的數據進行評估時,這種優(yōu)勢在所有模型大小中都持續(xù)存在。

圖片

CNN從具有空間結構的數據中獲益匪淺,當空間結構通過排列被打破時,擬合的樣本就會減少。而MLP缺乏這種對空間結構的偏好,因此它們擬合數據的能力是不變的。

圖片

另外,用高斯噪聲代替輸入可提高兩種架構的容量,這可以解釋為,在高維中,嘈雜的數據相距甚遠,因此更容易分離。

圖片

值得注意的是,與隨機輸入相比,CNN可以擬合具有語義標簽的樣本數量要多得多,MLP卻正好相反,這再次凸顯了CNN在圖像分類方面的卓越泛化能力。

擴展網絡規(guī)模

下圖展示了各種擴展配置下的EMC。

圖片

對于ResNet,擴展措施包括增加寬度(kernel數量)、增加深度。EfficientNet固定系數,同時縮放深度、寬度和分辨率。ResNet-RS根據模型大小、訓練持續(xù)時間和數據集大小調整縮放。

對于ViT,使用SViT和SoViT方法,并嘗試分別改變編碼器塊的數量(深度)和patch embedding的維度和自注意力(寬度)。

分析表明,縮放深度比縮放寬度更具參數效率。這個結論同時也適用于隨機標記的數據,表明并不是泛化的產物。

激活函數

非線性激活函數對于神經網絡容量至關重要,沒有它們,神經網絡只是大型因式分解線性模型。

研究結果表明,ReLU顯著增強了模型的容量。雖然它最初的作用是為了減輕梯度的消失和爆炸,但ReLU還提高了網絡的數據擬合能力。

圖片

相比之下,tanh雖然也是非線性的,但不能實現(xiàn)類似的效果。

優(yōu)化在擬合數據中的作用

優(yōu)化技術和正則化策略的選擇在神經網絡訓練中至關重要。這種選擇不僅影響訓練收斂性,還影響所找到的解決方案的性質。

參與實驗的優(yōu)化器包括SGD、全批次梯度下降、Adam、AdamW和Shampoo。

圖片

以前的研究認為SGD具有很強的平坦度尋求正則化效應,但上圖表明,SGD還能夠比全批次(非隨機)梯度下降訓練擬合更多的數據。

不同優(yōu)化器的EMC測量值表明,優(yōu)化器不僅在收斂速率上有所不同,而且在發(fā)現(xiàn)的最小值類型上也有所不同。

責任編輯:張燕妮 來源: 新智元
相關推薦

2009-01-01 22:08:15

企業(yè)網絡提高

2016-11-08 13:50:57

2010-02-01 18:23:54

Python

2012-08-30 16:24:04

HTML5歐朋W3C

2013-02-26 10:44:26

2022-05-10 15:10:25

加密貨幣區(qū)塊鏈金融犯罪

2012-08-23 14:21:47

大數據

2012-08-23 15:10:44

Facebook

2024-10-22 15:04:15

2012-05-31 09:24:55

云計算云存儲

2010-02-23 17:04:32

Python編程語言

2022-10-10 18:39:01

legendapp前端框架

2012-03-07 15:22:02

2009-01-22 19:03:32

服務器虛擬化VMware

2024-05-15 08:54:04

C++類型限定符代碼

2015-12-31 09:44:56

公有云谷歌云評測

2022-11-26 00:02:00

優(yōu)化器SQL語句

2012-02-22 13:59:11

云計算數據中心

2010-07-20 09:18:48

云計算靈活性

2009-08-25 16:11:12

Repeater控件
點贊
收藏

51CTO技術棧公眾號