自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

LeCun新作：神經網絡在實踐中的靈活性到底有多大？

作者：新智元 2024-07-10 14:38:05

人工智能新聞

神經網絡擬合數據的能力受哪些因素影響？CNN一定比Transformer差嗎？ReLU和SGD還有哪些神奇的作用？近日，LeCun參與的一項工作向我們展示了神經網絡在實踐中的靈活性。

人工智能在今天百花齊放，大模型靠規(guī)模稱王，小模型則憑數據取勝。

當然我們也希望，可以付出更少的資源，并達到相同的效果。

很早之前，谷歌就有相關研究，探索了在固定算力的情況下，如何分配模型參數量和訓練數據量，以達到最好的性能。

近日，LeCun參與的一項工作從另一個角度向我們展示了，神經網絡在實踐中的靈活性到底有多大？

論文地址：https://arxiv.org/pdf/2406.11463

這個靈活性指的是，神經網絡擬合訓練數據（樣本數量）的能力，在實際應用中受到哪些因素的影響。

比如我們第一時間想到的可能就是模型的參數量。

人們普遍認為，神經網絡可以擬合至少與自身參數一樣多的訓練樣本。

這就像是解一個線性方程組，有多少個參數（或者方程）、多少個未知數，從而判斷解的數量。

然而神經網絡實際上要復雜的多，盡管在理論上能夠進行通用函數逼近，但在實踐中，我們訓練的模型容量有限，不同優(yōu)化器也會導致不同的效果。

所以，本文決定用實驗的方法，分別考察數據本身的性質、模型架構、大小、優(yōu)化器和正則化器等因素。

而模型擬合數據的能力（或者說學習信息的能力），由有效模型復雜性（EMC）來表示。

這個EMC是怎么算的呢？

一開始，在少量樣本上訓練模型。如果它在訓練后達到100%的訓練準確率，則將模型重新初始化并增大訓練樣本數量。

迭代執(zhí)行此過程，每次逐步增加樣本量，直到模型不再完全擬合所有訓練樣本，將模型能實現(xiàn)完美擬合的最大樣本量作為網絡的EMC。

——一直喂飯，直到吃撐，則得到飯量大小。

實證分析

為了全面剖析影響神經網絡靈活性的因素，研究人員考慮了各種數據集、架構和優(yōu)化器。

數據集

實驗采用了包括MNIST、CIFAR-10、CIFAR-100和ImageNet等視覺數據集，以及Forest-Cover Type、Adult Income和Credit等表格數據集。

另外，實驗還使用了更大規(guī)模的合成數據集，通過Min-SNR加權策略進行的高效擴散訓練，生成分辨率為128×128的高質量圖像數據集——ImageNet-20MS，包含10個類別的2000萬個樣本。

模型

實驗評估了多層感知器（MLP）、CNN架構的ResNet和EfficientNet，以及Transformer架構的ViT。

作者系統(tǒng)地調整了這些架構的寬度和深度：

比如對于MLP，通過每層添加神經元來增加寬度，同時保持層數不變，或者通過添加更多層來增加深度，同時保持每層神經元數量不變。

對于一般的CNN（多個卷積層，接一個恒定大小的全連接層），可以改變每層的kernel數量或者卷積層的總數。

對于ResNet，可以改變kernel的數量或者block的數量（深度）。

而對于ViT，可以改變編碼器的數量（深度）、patch embedding的維度和自注意力（寬度）。

優(yōu)化器

實驗采用的優(yōu)化器包括隨機梯度下降（SGD）、Adam、AdamW、全批次梯度下降（full-batch Gradient Descent）和second-order Shampoo optimizer。

由此，研究人員可以測試隨機性和預處理等特征如何影響最小值。同時。為了確?？鐢祿湍Ｐ痛笮∵M行有效優(yōu)化，研究人員仔細調整了每個設置的學習率和批量大小，并省略了權重衰減。

數據對EMC的影響

研究人員通過修改隱藏層的寬度來擴展一個2層的MLP，通過修改層數和通道數來擴展CNN，并在一系列圖像（MNIST、CIFAR-10、CIFAR-100、ImageNet）和表格（CoverType、Income 和 Credit）數據集上訓練模型。

結果顯示，在不同數據類型上訓練的網絡在EMC方面存在顯著差異：

在表格數據集上訓練的網絡表現(xiàn)出更高的容量；而在圖像分類數據集中，測試精度和容量之間存在很強的相關性。

值得注意的是，MNIST（模型達到99%以上的測試準確度）產生的EMC最高，而ImageNet的EMC最低，這表明了泛化與數據擬合能力之間的關系。

輸入和標簽的作用

這里通過改變每層中的神經元或kernel的數量，來調整MLP和CNN的寬度，并在合成數據集ImageNet-20MS上進行訓練。

實驗測試了四種情況下的EMC：語義標簽、隨機標簽、隨機輸入（高斯噪聲）和固定隨機排列下的輸入。

分配隨機標簽（而非真實標簽）的目的是探索過參數化（overparameterization）和欠參數化（underparameterization）之間的邊界。

從上圖的結果可以發(fā)現(xiàn)，與原始標簽相比，當分配隨機標簽時，網絡擬合的樣本要少得多，此時神經網絡的參數效率低于線性模型。而從整體上來看，模型的參數量與擬合的數據量大致呈線性關系。

分類數量對EMC的影響

作者隨機合并了CIFAR-100中的類別（保留原始數據集的大小），在具有不同數量kernel的2層CNN上進行實驗。

結果如上圖所示，隨著類數量的增加，帶有語義標簽的數據變得越來越難以擬合，因為模型必須對其權重中的每個樣本進行編碼。

相比之下，隨機標記的數據變得更容易擬合，因為模型不再被迫為語義上不同的樣本分配相同的類標簽。

預測泛化

神經網絡偏向于擬合語義連貫的標簽而不是隨機標簽，而且，與隨機標簽相比，網絡擬合語義標簽的熟練程度通常與其泛化能力相關。

這種泛化也使得CNN這種架構能夠擬合比模型參數量更多的樣本。

傳統(tǒng)的機器學習觀念認為，高容量模型往往會過度擬合，從而影響其對新數據的泛化，而PAC-貝葉斯理論則指出，模型更喜歡正確的數據標記。

而本文的實驗將這兩種理論聯(lián)系在了一起。

上圖中，在正確標記和隨機標記的數據上計算各種CNN和MLP的EMC，測量模型遇到語義標簽與隨機標簽時EMC增加的百分比。

結果表明EMC增加的百分比與generalization gap之間存在顯著的負相關關系，這不僅證實了泛化的理論基礎，而且闡明了理論的實際意義。

模型架構對EMC的影響

關于CNN和ViT的效率和泛化能力一直存在爭議。

實驗表明，CNN以硬編碼的歸納偏差為特征，在EMC中優(yōu)于ViT和MLP。當對語義標記的數據進行評估時，這種優(yōu)勢在所有模型大小中都持續(xù)存在。

CNN從具有空間結構的數據中獲益匪淺，當空間結構通過排列被打破時，擬合的樣本就會減少。而MLP缺乏這種對空間結構的偏好，因此它們擬合數據的能力是不變的。

另外，用高斯噪聲代替輸入可提高兩種架構的容量，這可以解釋為，在高維中，嘈雜的數據相距甚遠，因此更容易分離。

值得注意的是，與隨機輸入相比，CNN可以擬合具有語義標簽的樣本數量要多得多，MLP卻正好相反，這再次凸顯了CNN在圖像分類方面的卓越泛化能力。

擴展網絡規(guī)模

下圖展示了各種擴展配置下的EMC。

對于ResNet，擴展措施包括增加寬度（kernel數量）、增加深度。EfficientNet固定系數，同時縮放深度、寬度和分辨率。ResNet-RS根據模型大小、訓練持續(xù)時間和數據集大小調整縮放。

對于ViT，使用SViT和SoViT方法，并嘗試分別改變編碼器塊的數量（深度）和patch embedding的維度和自注意力（寬度）。

分析表明，縮放深度比縮放寬度更具參數效率。這個結論同時也適用于隨機標記的數據，表明并不是泛化的產物。

激活函數

非線性激活函數對于神經網絡容量至關重要，沒有它們，神經網絡只是大型因式分解線性模型。

研究結果表明，ReLU顯著增強了模型的容量。雖然它最初的作用是為了減輕梯度的消失和爆炸，但ReLU還提高了網絡的數據擬合能力。

相比之下，tanh雖然也是非線性的，但不能實現(xiàn)類似的效果。

優(yōu)化在擬合數據中的作用

優(yōu)化技術和正則化策略的選擇在神經網絡訓練中至關重要。這種選擇不僅影響訓練收斂性，還影響所找到的解決方案的性質。

參與實驗的優(yōu)化器包括SGD、全批次梯度下降、Adam、AdamW和Shampoo。

以前的研究認為SGD具有很強的平坦度尋求正則化效應，但上圖表明，SGD還能夠比全批次（非隨機）梯度下降訓練擬合更多的數據。

不同優(yōu)化器的EMC測量值表明，優(yōu)化器不僅在收斂速率上有所不同，而且在發(fā)現(xiàn)的最小值類型上也有所不同。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="dgypq"></sub>

<sub id="dgypq"></sub>

<cite id="dgypq"><track id="dgypq"></track></cite>