自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

拋棄歸一化,深度學習模型準確率卻達到了前所未有的水平

人工智能 深度學習
我們知道,在傳遞給機器學習模型的數(shù)據(jù)中,我們需要對數(shù)據(jù)進行歸一化(normalization)處理。

我們知道,在傳遞給機器學習模型的數(shù)據(jù)中,我們需要對數(shù)據(jù)進行歸一化(normalization)處理。

在數(shù)據(jù)歸一化之后,數(shù)據(jù)被「拍扁」到統(tǒng)一的區(qū)間內(nèi),輸出范圍被縮小至 0 到 1 之間。人們通常認為經(jīng)過如此的操作,最優(yōu)解的尋找過程明顯會變得平緩,模型更容易正確的收斂到最佳水平。

然而這樣的「刻板印象」最近受到了挑戰(zhàn),DeepMind 的研究人員提出了一種不需要歸一化的深度學習模型 NFNet,其在大型圖像分類任務上卻又實現(xiàn)了業(yè)內(nèi)最佳水平(SOTA)。

拋棄歸一化,深度學習模型準確率卻達到了<span><span><span><i style=前所未有的水平">

該模型(紅色)與其他模型在 ImageNet 分類準確度和訓練時間上的對比。

該論文的第一作者,DeepMind 研究科學家 Andrew Brock 表示:「我們專注于開發(fā)可快速訓練的高性能體系架構(gòu),已經(jīng)展示了一種簡單的技術(shù)(自適應梯度裁剪,AGC),讓我們可以訓練大批量和大規(guī)模數(shù)據(jù)增強后的訓練,同時達到 SOTA 水平?!?/p>

該研究一經(jīng)提交,便吸引了人們的目光。

拋棄歸一化,深度學習模型準確率卻達到了<span><span><span><i style=前所未有的水平">
  • 論文鏈接:https://arxiv.org/abs/2102.06171
  • DeepMind 還放出了模型的實現(xiàn):https://github.com/deepmind/deepmind-research/tree/master/nfnets

NFNet 是不做歸一化的 ResNet 網(wǎng)絡。具體而言,該研究貢獻有以下幾點:

  • 提出了自適應梯度修剪(Adaptive Gradient Clipping,AGC)方法,基于梯度范數(shù)與參數(shù)范數(shù)的單位比例來剪切梯度,研究人員證明了 AGC 可以訓練更大批次和大規(guī)模數(shù)據(jù)增強的非歸一化網(wǎng)絡。
  • 設計出了被稱為 Normalizer-Free ResNets 的新網(wǎng)絡,該方法在 ImageNet 驗證集上大范圍訓練等待時間上都獲得了最高水平。NFNet-F1 模型達到了與 EfficientNet-B7 相似的準確率,同時訓練速度提高了 8.7 倍,而 NFNet 模型的最大版本則樹立了全新的 SOTA 水平,無需額外數(shù)據(jù)即達到了 86.5%的 top-1 準確率。
  • 如果在對 3 億張帶有標簽的大型私人數(shù)據(jù)集進行預訓練,隨后針對 ImageNet 進行微調(diào),NFNet 可以比批歸一化的模型獲得更高的 Top-1 準確率:高達 89.2%。

研究方法

在沒有歸一化的情況下,許多研究者試圖通過恢復批歸一化的好處來訓練深度 ResNet 以提升其準確率。這些研究大多數(shù)通過引入小常數(shù)或可學習的標量來抑制初始化時殘差分支上的激活尺度。

DeepMind 的這項研究采用并建立在「Normalizer-Free ResNet(NF-ResNet)」上,這是一類可以在沒有歸一化層的情況下,被訓練成具有訓練和測試準確率的預激活 ResNet。

NF-ResNet 使用如下形式的殘差塊:

拋棄歸一化,深度學習模型準確率卻達到了<span><span><span><i style=前所未有的水平">

其中,h_i 代表第 i 個殘差塊的輸入,f_i 代表由第 i 個殘差分支計算的函數(shù)。

用于高效大批量訓練的自適應梯度裁剪

為了將 NF-ResNet 擴展到更大的批規(guī)模,研究者探索了一系列梯度裁剪策略。梯度裁剪通常被用于語言建模中以穩(wěn)定訓練。近來一些研究表明:與梯度下降相比,梯度裁剪允許以更高的學習率進行訓練,從而加快收斂速度。這對于條件較差的 loss landscape 或大批量訓練尤為重要。因為在這些情況下,最佳學習率受到最大穩(wěn)定學習率的限制。因此該研究假設梯度裁剪應該有助于將 NF-ResNet 有效地擴展到大批量設置。

借助一種稱為 AGC 的梯度裁剪方法,該研究探索設計了 Normalizer-Free 架構(gòu),該架構(gòu)實現(xiàn)了 SOTA 的準確率和訓練速度。

當前圖像分類任務的 SOTA 大多是 EfficientNet 系列模型 (Tan & Le, 2019)取得的,該系列的模型經(jīng)過優(yōu)化以最大化測試準確率,同時最小化參數(shù)量和 FLOP 計數(shù),但它們的低理論計算復雜度并沒有轉(zhuǎn)化為訓練速度的提高。

拋棄歸一化,深度學習模型準確率卻達到了<span><span><span><i style=前所未有的水平">

該研究通過手動搜索設計導向來探索模型設計的空間,這些導向?qū)Ρ仍O備上的實際訓練延遲,可帶來 ImageNet 上 holdout top-1 的帕累托前沿面的改進。它們對 holdout 準確率的影響如下表 2 所示:

拋棄歸一化,深度學習模型準確率卻達到了<span><span><span><i style=前所未有的水平">

實驗

表 3 展示了六個不同的 NFNets(F0-F5)與其他模型在模型大小、訓練延遲和 ImageNet 驗證準確率方面的對比情況。NFNets-F5 達到了 86.0%的 SOTA top-1 準確率,相比 EfficientNet-B8 有了一定提升;NFNet-F1 的測試準確率與 EfficientNet-B7 相媲美,同時訓練速度提升了 8.7 倍;NFNet-F6+SAM 達到了 86.5%的 top-1 準確率。

拋棄歸一化,深度學習模型準確率卻達到了<span><span><span><i style=前所未有的水平">

NFNets 和其他模型在 ImageNet 數(shù)據(jù)集上的準確率對比。延遲是指在 TPU 或 GPU(V100)上運行單個完整訓練步驟所需要的毫秒時間。

此外,研究者使用了一個 3 億標注圖像的數(shù)據(jù)集對 NFNet 的變體進行了預訓練,并針對 ImageNet 進行微調(diào)。最終,NFNet-F4 + 在 ImageNet 上獲得了 89.2% 的 top-1 準確率。這是迄今為止通過額外訓練數(shù)據(jù)達到的第二高的驗證準確率,僅次于目前最強大的半監(jiān)督學習基線 (Pham et al., 2020) 和通過遷移學習達到的最高準確率。

拋棄歸一化,深度學習模型準確率卻達到了<span><span><span><i style=前所未有的水平">

表 5:使用額外數(shù)據(jù)進行大規(guī)模預訓練后,ImageNet 模型遷移性能對比。

Andrew Brock 表示,雖然我們對于神經(jīng)網(wǎng)絡信號傳遞、訓練規(guī)律的理解還有很多需要探索的方向,但無歸一化的方法已經(jīng)為人們提供了一個強有力的參考,并證明了發(fā)展這種深度理解能力可以有效地在生產(chǎn)環(huán)境中提升效率。 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-01-08 15:07:02

光子處理器計算密度AI

2022-02-28 17:56:51

英偉達天氣預報神經(jīng)網(wǎng)絡

2023-11-13 15:29:42

模型AI

2020-04-15 11:07:34

存儲閃存技術(shù)

2012-10-29 13:06:57

蘋果一體機

2025-04-15 10:16:12

2011-10-03 21:41:48

蘋果iPhone 5需求

2021-10-28 11:02:35

比特幣加密貨幣貨幣

2020-04-06 14:09:36

存儲閃存技術(shù)

2022-07-28 10:08:32

物聯(lián)網(wǎng)航空業(yè)

2019-06-13 15:00:35

2018-07-09 17:37:08

區(qū)塊鏈

2010-02-12 09:36:29

2021-04-03 12:45:03

人工智能遠程醫(yī)療疫情

2022-01-11 10:05:27

加密貨幣比特幣貨幣

2023-10-08 07:01:55

大數(shù)據(jù)ERP供應鏈

2017-07-14 10:28:16

2017-08-10 15:20:35

大數(shù)據(jù)數(shù)據(jù)安全用戶數(shù)據(jù)

2009-07-19 10:24:14

點贊
收藏

51CTO技術(shù)棧公眾號