自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度學(xué)習(xí)還不如淺層網(wǎng)絡(luò)?RL教父Sutton持續(xù)反向傳播算法登Nature

人工智能 新聞
最近,一篇發(fā)表在《nature》雜志上的研究論文《Loss of plasticity in deep continual learning》證明:標(biāo)準(zhǔn)的深度學(xué)習(xí)方法在持續(xù)學(xué)習(xí)環(huán)境中會逐漸失去可塑性(plasticity),直到它們的學(xué)習(xí)效果不比淺層網(wǎng)絡(luò)好。

人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)方法和反向傳播算法構(gòu)成了現(xiàn)代機(jī)器學(xué)習(xí)和人工智能的基礎(chǔ)。但現(xiàn)有方法往往是一個階段更新網(wǎng)絡(luò)權(quán)重,另一個階段在使用或評估網(wǎng)絡(luò)時權(quán)重保持不變。這與許多需要持續(xù)學(xué)習(xí)的應(yīng)用程序形成鮮明對比。

最近,一篇發(fā)表在《nature》雜志上的研究論文《Loss of plasticity in deep continual learning》證明:標(biāo)準(zhǔn)的深度學(xué)習(xí)方法在持續(xù)學(xué)習(xí)環(huán)境中會逐漸失去可塑性(plasticity),直到它們的學(xué)習(xí)效果不比淺層網(wǎng)絡(luò)好。

圖片

  • 論文地址:https://www.nature.com/articles/s41586-024-07711-7

值得注意的是,人工智能先驅(qū)、強(qiáng)化學(xué)習(xí)教父、DeepMind 杰出研究科學(xué)家,阿爾伯塔大學(xué)計算機(jī)科學(xué)教授 Richard S. Sutton 是這篇論文的作者之一。

簡單來說,該研究使用經(jīng)典的 ImageNet 數(shù)據(jù)集、神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)算法的各種變體來展示可塑性的喪失。只有通過不斷向網(wǎng)絡(luò)注入多樣性的算法才能無限期地維持可塑性?;谶@種思路,該研究還提出了「持續(xù)反向傳播算法」,這是反向傳播的一種變體,其中一小部分較少使用的單元被持續(xù)隨機(jī)地重新初始化。實驗結(jié)果表明,基于梯度下降的方法是不夠的,持續(xù)的深度學(xué)習(xí)需要隨機(jī)的、非梯度的成分來保持可變性和可塑性。

ImageNet 數(shù)據(jù)庫包含數(shù)百萬張用名詞(類別)標(biāo)記的圖像,例如動物類型和日常物品。典型的 ImageNet 任務(wù)是猜測給定圖像的標(biāo)簽。

為了使 ImageNet 適應(yīng)持續(xù)學(xué)習(xí),同時最大限度地減少所有其他變化,該研究通過成對的類構(gòu)建了一系列二元分類任務(wù)。例如,第一個任務(wù)可能是區(qū)分貓和房屋,第二個任務(wù)可能是區(qū)分停車標(biāo)志和校車。利用數(shù)據(jù)集中的 1000 個類,該研究能夠以這種方式形成 50 萬個二元分類任務(wù)。

對于每個任務(wù),該研究首先在兩個類的圖像子集上訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),然后在這些類的單獨測試集上測量其性能。在一個任務(wù)上訓(xùn)練和測試后,下一個任務(wù)從一對不同的類開始。研究團(tuán)隊將此問題稱為「持續(xù) ImageNet(Continual ImageNet)」。在持續(xù) ImageNet 中,任務(wù)的難度隨著時間的推移保持不變。性能下降意味著網(wǎng)絡(luò)正在失去學(xué)習(xí)能力,這是可塑性喪失的直接表現(xiàn)。

該研究將各種標(biāo)準(zhǔn)深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用于 Continual ImageNet,并測試了許多學(xué)習(xí)算法和參數(shù)設(shè)置。為了評估網(wǎng)絡(luò)在任務(wù)中的性能,該研究測量了正確分類測試圖像的百分比。

該研究發(fā)現(xiàn):對于經(jīng)過良好調(diào)整的網(wǎng)絡(luò),性能往往首先提高,然后大幅下降,最終接近或低于線性基線。當(dāng)性能開始下降時,網(wǎng)絡(luò)架構(gòu)、算法參數(shù)和優(yōu)化器的具體選擇會產(chǎn)生影響,但多種選擇都會導(dǎo)致性能嚴(yán)重下降。標(biāo)準(zhǔn)深度學(xué)習(xí)方法在后續(xù)任務(wù)中無法比線性網(wǎng)絡(luò)更好地學(xué)習(xí),這直接證明這些方法在持續(xù)學(xué)習(xí)問題中效果不佳。

圖片

令人驚訝的是,Adam、Dropout 和歸一化等流行方法實際上增加了可塑性的損失;而 L2 正則化在許多情況下減少了可塑性的損失。

圖片

研究團(tuán)隊發(fā)現(xiàn):顯式保持網(wǎng)絡(luò)權(quán)重較小的算法通常能夠保持可塑性,甚至在許多任務(wù)中能夠提高性能。

該研究基于上述發(fā)現(xiàn),提出了反向傳播算法的一種變體 —— 持續(xù)反向傳播,該算法向網(wǎng)絡(luò)注入可變性并保持其某些權(quán)重較小。

方法

持續(xù)反向傳播

持續(xù)反向傳播算法將選擇性地對網(wǎng)絡(luò)中低效的單元進(jìn)行初始化處理。研究團(tuán)隊定義了名為「貢獻(xiàn)效用」的值來衡量每個單元的重要性。如果神經(jīng)網(wǎng)絡(luò)中某個隱藏單元對它所連接的下游單元的影響很小,那么它的作用就可能被網(wǎng)絡(luò)中其他更有影響力的隱藏單元掩蓋。

貢獻(xiàn)效用通過計算即時貢獻(xiàn)的移動平均值來衡量,這個值由衰減率表示。在所有實驗中,初始衰減率 η 設(shè)置為 0.99。在前饋神經(jīng)網(wǎng)絡(luò)中,第 l 層第 i 個隱藏單元在時間 t 的貢獻(xiàn)效用圖片更新如下:

圖片

其中圖片是時間 t 時第 l 層第 i 個隱藏單元的輸出,圖片代表其權(quán)重,圖片代表第 l+1 層的單元數(shù)量。

當(dāng)一個隱藏單元被重新初始化時,它的輸出的權(quán)重將被初始化為零。這么做是為了新添加的隱藏單元不會影響模型已經(jīng)學(xué)到的功能。但是這樣也容易導(dǎo)致新的隱藏單元很快被重新初始化。

為了防止這種情況,研究團(tuán)隊設(shè)置了「成熟閾值」,在 m 次更新前,即使新的隱藏單元的效用是零,也不會被重新初始化。當(dāng)更新次數(shù)超過 m 后,每一步「成熟單元」的一部分 ρ(稱為替換率),在每一層都會被重新初始化。替換率 ρ 通常設(shè)置為一個非常小的值,這意味著在數(shù)百次更新后只替換一個單元。例如,在 CIFAR-100 中,研究團(tuán)隊將替換率設(shè)置為 10 的負(fù)五次方,每一步,大約 0.00512 個單元被替換。這相當(dāng)于大約每 200 次更新替換一次。

最終的算法結(jié)合了傳統(tǒng)的反向傳播和選擇性重新初始化兩種方法,以持續(xù)地從初始分布中引入隨機(jī)單元。每次更新時,持續(xù)反向傳播將執(zhí)行梯度下降并選擇性地重新初始化。

前饋神經(jīng)網(wǎng)絡(luò)的持續(xù)反向傳播如算法1所示。處理小批量數(shù)據(jù)時,可以采取一種更經(jīng)濟(jì)的方法:通過對小批量數(shù)據(jù)上的即時貢獻(xiàn)效用取平均值,而不是保持一個運行平均值來節(jié)省計算量。

圖片

圖片

在 ImageNet 上的應(yīng)用

研究使用了包含 1000 個類別的 ImageNet 數(shù)據(jù)庫,每個類別有 700 張圖片,分為 600 張訓(xùn)練圖像和 100 張測試圖像。在二元分類任務(wù)中,網(wǎng)絡(luò)首先在 1200 張訓(xùn)練圖像上訓(xùn)練,然后在 200 張測試圖像上評估分類準(zhǔn)確度。

所有在持續(xù) ImageNet 上使用的算法都采用了具有三個卷積加最大池化(convolutional-plus-max-pooling)層和三個全連接層的卷積網(wǎng)絡(luò)。最終層有兩個單元,對應(yīng)兩個類別。在任務(wù)變更時,這些單元的輸入權(quán)重會重置為零。這種做法在深度持續(xù)學(xué)習(xí)中是標(biāo)準(zhǔn)做法,盡管它為學(xué)習(xí)系統(tǒng)提供了關(guān)于任務(wù)變化時間的特權(quán)信息。

線性網(wǎng)絡(luò)的性能在持續(xù) ImageNet 上不會下降,因為它在每個任務(wù)開始時都會重置。通過在數(shù)千個任務(wù)上取均值,得到線性網(wǎng)絡(luò)性能的低方差估計值,作為基線。

網(wǎng)絡(luò)使用帶有動量的 SGD 在交叉熵?fù)p失上進(jìn)行訓(xùn)練,動量參數(shù)設(shè)為 0.9。研究者測試了不同的步長參數(shù),但為了清晰起見,只展示了 0.01、0.001 和 0.0001 的步長性能。

該研究還通過網(wǎng)格搜索確定了 L2 正則化、收縮和擾動以及持續(xù)反向傳播算法的超參數(shù),以在 5000 個任務(wù)上獲得最高的平均分類準(zhǔn)確度。L2 正則化和收縮擾動的超參數(shù)包括步長、權(quán)重衰減和噪聲方差,持續(xù)反向傳播的超參數(shù)包括步長和替換率,成熟度閾值設(shè)為 100。

研究者對所有超參數(shù)集合進(jìn)行了 10 次獨立運行,然后對表現(xiàn)最佳的超參數(shù)集合進(jìn)行了額外的 20 次運行,總共 30 次。

圖片

CIFAR-100 的類別增量學(xué)習(xí)

在 CIFAR-100 的類別增量學(xué)習(xí)中,開始時,模型可以識別 5 種類型的圖片,隨著訓(xùn)練時間越來越長,模型能識別的圖片種類越來越多,比如能同時學(xué)習(xí) 100 種類別的圖片。在這個過程中,系統(tǒng)將通過測試檢驗自己的學(xué)習(xí)效果。數(shù)據(jù)集由 100 個類別組成,每個類別有 600 張圖像,其中 450 張用于創(chuàng)建訓(xùn)練集,50 張用于驗證集,100 張用于測試集。

每次增加學(xué)習(xí)的類別后,網(wǎng)絡(luò)被訓(xùn)練 200 個周期,總共增加 20 次,共訓(xùn)練 4000 個周期。研究團(tuán)隊在前 60 個周期中將學(xué)習(xí)率設(shè)置為 0.1,接下來的 60 個周期為 0.02,此后的 30 個周期為 0.004,最后的 40 個周期為 0.0008。在每次增加的 200 個周期中,研究團(tuán)隊選出了在驗證集上準(zhǔn)確度最高的網(wǎng)絡(luò)。為了防止過擬合,在每輪訓(xùn)練中,新網(wǎng)絡(luò)的權(quán)重將被重置為上一輪準(zhǔn)確度最高網(wǎng)絡(luò)的權(quán)重。

他們選擇了 18 層的 ResNet 做實驗。在將輸入圖像呈現(xiàn)給網(wǎng)絡(luò)之前,該研究進(jìn)行了幾個步驟的數(shù)據(jù)預(yù)處理。首先,將每張圖像中所有像素的值重新縮放到 0 和 1 之間。然后,每個通道中的每個像素值通過該通道像素值的平均值和標(biāo)準(zhǔn)差分別進(jìn)行中心化和重新縮放。最后,在將圖像輸入給網(wǎng)絡(luò)之前,該研究對每張圖像應(yīng)用了三種隨機(jī)數(shù)據(jù)轉(zhuǎn)換:以 0.5 的概率隨機(jī)水平翻轉(zhuǎn)圖像,通過在每邊填充 4 個像素然后隨機(jī)裁剪到原始大小來隨機(jī)裁剪圖像,以及在 0-15° 之間隨機(jī)旋轉(zhuǎn)圖像。預(yù)處理的前兩步應(yīng)用于訓(xùn)練集、驗證集和測試集,但隨機(jī)轉(zhuǎn)換僅應(yīng)用于訓(xùn)練集中的圖像。

該研究測試了多個超參數(shù),以確保在特定架構(gòu)下保持每個算法的最佳性能。對于基礎(chǔ)系統(tǒng),該研究測試的權(quán)重衰減參數(shù)取值范圍為 {0.005, 0.0005, 0.00005}。對于「持續(xù)反向傳播」,該研究測試的成熟度閾值取值范圍為 {1000, 10000},替換率的取值范圍為圖片,采用了公式 (1) 中描述的貢獻(xiàn)效用。成熟度閾值為 1000,替換率為 10^(-5) 時,表現(xiàn)最佳。

圖片

作為參考,該研究還實現(xiàn)了一個具有與基礎(chǔ)系統(tǒng)相同超參數(shù)的網(wǎng)絡(luò),但在每次增量的開始時都會重新初始化。圖 2b 顯示了每個算法相對于重新初始化網(wǎng)絡(luò)的性能表現(xiàn)。

持續(xù)反向傳播在全部的 100 個類別中的最終準(zhǔn)確率為 76.13%,而擴(kuò)展數(shù)據(jù)圖 1b 展示了在成熟度閾值為 1000 時,持續(xù)反向傳播在不同替換率下的性能表現(xiàn)。

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-09-27 15:37:21

深度學(xué)習(xí)算法

2024-08-09 12:46:53

模型訓(xùn)練

2016-12-27 16:31:34

反向傳播課程

2017-04-24 08:35:09

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)合成梯度

2017-07-11 10:19:24

淺層模型機(jī)器學(xué)習(xí)優(yōu)化算法

2024-11-01 09:39:26

強(qiáng)化學(xué)習(xí)AI

2025-03-03 08:10:00

神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)人工智能

2018-08-30 09:15:42

人工智能神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2022-03-17 17:55:08

深度學(xué)習(xí)人工智能Nature

2021-10-21 15:20:35

智能自動化Science

2022-10-08 09:53:17

AI算法

2024-11-29 16:33:24

2021-04-16 11:31:24

人工智能深度學(xué)習(xí)

2022-09-30 15:26:57

人工智能技術(shù)

2017-09-28 16:15:12

神經(jīng)網(wǎng)絡(luò)訓(xùn)練多層

2017-11-20 13:46:10

AI深度學(xué)習(xí)方法

2016-12-02 18:59:14

公交WIFI地鐵16Wi-Fi

2021-06-22 09:46:52

神經(jīng)網(wǎng)絡(luò)人工智能深度學(xué)習(xí)

2018-05-28 13:12:49

深度學(xué)習(xí)Python神經(jīng)網(wǎng)絡(luò)

2024-01-10 09:59:19

虛擬線程信息
點贊
收藏

51CTO技術(shù)棧公眾號