自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

人工智能 深度學(xué)習(xí)
我們這篇文章討論的問題是根據(jù) ICLR 2019 中的一篇文章而來:《CRITICAL LEARNING PERIODS IN DEEP NETWORKS》。

[[409851]]

 0 引言

我們這篇文章討論的問題是根據(jù) ICLR 2019 中的一篇文章而來:《CRITICAL LEARNING PERIODS IN DEEP NETWORKS》[1]。在這篇文章中,作者提出了這樣一個(gè)概念:對于深度神經(jīng)網(wǎng)絡(luò)來說,與動(dòng)物和人類的學(xué)習(xí)過程類似,其對于技能的學(xué)習(xí)過程也存在一個(gè)“關(guān)鍵學(xué)習(xí)期”。從生物學(xué)角度來看,關(guān)鍵期(critical periods)是指出生后早期發(fā)育的時(shí)間窗口,在這期間,感知缺陷可能導(dǎo)致永久性的技能損傷。生物學(xué)領(lǐng)域的研究人員已經(jīng)發(fā)現(xiàn)并記錄了影響一系列物種和系統(tǒng)的關(guān)鍵期,包括小貓的視力、鳥類的歌曲學(xué)習(xí)等等。對于人類來說,在視覺發(fā)育的關(guān)鍵時(shí)期,未被矯正的眼睛缺陷(如斜視、白內(nèi)障)會(huì)導(dǎo)致 1/50 的成人弱視。

生物學(xué)領(lǐng)域的研究人員已經(jīng)確定,人類或動(dòng)物存在關(guān)鍵期的原因是對神經(jīng)元可塑性窗口的生物化學(xué)調(diào)控(the biochemical modulation of windows of neuronal plasticity)[2]。神經(jīng)網(wǎng)絡(luò)最早起源就是期望模擬人腦神經(jīng)元的工作模式,Achille 等在文獻(xiàn) [1] 中證明了深度神經(jīng)網(wǎng)絡(luò)對感覺缺陷的反應(yīng)方式與在人類和動(dòng)物模型中觀察到的類似。在動(dòng)物模型中最終造成的損害的程度取決于缺陷窗口的開始(onset)和長度(length),而在神經(jīng)網(wǎng)絡(luò)中則取決于神經(jīng)網(wǎng)絡(luò)的大小。不過,在神經(jīng)網(wǎng)絡(luò)中,缺陷并不會(huì)影響低層次的統(tǒng)計(jì)特征,如圖像的垂直翻轉(zhuǎn),同時(shí)對性能并沒有持久的影響,以及最終可以通過進(jìn)一步的訓(xùn)練來克服。這一研究發(fā)現(xiàn)引發(fā)了作者的思考,他認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中存在的 “關(guān)鍵期” 可能來自于信息處理,而不是生化現(xiàn)象[1]。這一發(fā)現(xiàn)最終引發(fā)了本文所討論的問題,即 DNNs 中的關(guān)鍵學(xué)習(xí)期現(xiàn)象。

與此類似,我們也看到了其它一些討論相關(guān)問題的文章。當(dāng)然,這些文章并沒有從 “關(guān)鍵期” 的角度來討論這個(gè)問題,只不過其所揭示的規(guī)律與 [1] 中關(guān)于 DNNs 中的關(guān)鍵期現(xiàn)象的規(guī)律非常相似,主要探討的是深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練早期階段的問題,即在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,早期階段與其它階段具有不同的“特點(diǎn)”。由于這些研究能夠從另外的角度證實(shí) DNNs 中存在“關(guān)鍵學(xué)習(xí)期”,所以我們也將它們納入到本文的討論中。

例如,來自紐約大學(xué)等多家大學(xué)和研究機(jī)構(gòu)的研究人員的工作《The Break-Even Point on Optimization Trajectories of Deep Neural Networks》[5],提出了一種模擬 DNNs 早期訓(xùn)練軌跡的簡化模型。作者表示,損失面的局部曲率(Hessian 的頻譜范數(shù))沿 DNNs 優(yōu)化軌跡單調(diào)地增加或減少。梯度下降在 DNNs 訓(xùn)練早期階段會(huì)最終達(dá)到一個(gè)點(diǎn),在這個(gè)點(diǎn)上梯度下降會(huì)沿著損失面的最彎曲方向振動(dòng),這一點(diǎn)稱為損益平衡點(diǎn)(break-even point)。此外,來自 Princeton 大學(xué)和 Google 大腦團(tuán)隊(duì)的研究人員發(fā)表的《The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks》[4]指出,可以通過訓(xùn)練一個(gè)簡單模型來模仿雙層全連接神經(jīng)網(wǎng)絡(luò)早期學(xué)習(xí)階段的梯度下降動(dòng)態(tài)變化。當(dāng)只訓(xùn)練第一層時(shí),這個(gè)簡單的模型是輸入特征的線性函數(shù);當(dāng)訓(xùn)練第二層或兩層時(shí),它是特征和其 L2-norm 的線性函數(shù)。這一結(jié)果意味著,神經(jīng)網(wǎng)絡(luò)直到訓(xùn)練后期才會(huì)完全發(fā)揮其非線性能力。最后一篇文章發(fā)表在 PLOS COMPUTATIONAL BIOLOGY 中,提出了一個(gè)模仿人類視覺系統(tǒng)行為的前饋卷積網(wǎng)絡(luò),作者具體分析了分析了不同層次的網(wǎng)絡(luò)表征("virtual fMRI"),并研究了網(wǎng)絡(luò)容量(即單元數(shù)量)對內(nèi)部表征的影響。

1 深度網(wǎng)絡(luò)中的關(guān)鍵學(xué)習(xí)期 [1]

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

1.1 問題闡述

一個(gè)非常著名的影響人類的關(guān)鍵期缺陷的示例是人類在嬰兒期或兒童期白內(nèi)障引起的弱視(一只眼睛的視力下降)[6]。即使在手術(shù)矯正白內(nèi)障后,患者恢復(fù)患眼正常視力的能力也取決于視力缺陷的持續(xù)時(shí)間和發(fā)病年齡,早期和長期的視力缺陷會(huì)造成更嚴(yán)重的影響。本文的的目標(biāo)是研究 DNN 中類似缺陷的影響。為此,作者訓(xùn)練了一個(gè)標(biāo)準(zhǔn)的 All-CNN 架構(gòu),對 CIFAR-10 數(shù)據(jù)庫中的 32x32 大小圖像中的物體進(jìn)行分類。實(shí)驗(yàn)中使用 SGD 進(jìn)行訓(xùn)練。為了模擬白內(nèi)障的影響,在最初的 t_0 個(gè) epoch 中,數(shù)據(jù)庫中的圖像被下采樣為 8x8 大小,然后使用雙線性插值上采樣為 32x32 大小以得到模糊處理的圖像,破壞了小尺度圖像細(xì)節(jié)。之后,繼續(xù)訓(xùn)練 160 個(gè) epoch 以確保網(wǎng)絡(luò)收斂,并確保它能夠得到與對照組(t_0=0)實(shí)驗(yàn)中相同數(shù)量的未損壞的圖像。

圖 1 給出了受缺陷影響的網(wǎng)絡(luò)的最終性能,具體的,將該性能展示為糾正缺陷 epoch t_0 的函數(shù)。我們可以很容易地從圖 1 中觀察到一個(gè)關(guān)鍵時(shí)期的存在。如果在最初的 40-60 個(gè) epoch 中沒有去除模糊,那么與基線方法相比,最終的性能會(huì)嚴(yán)重下降(誤差最多會(huì)增加三倍)。這種性能的下降遵循在動(dòng)物身上普遍觀察到的趨勢,例如早期研究中證實(shí)的在小貓出生后被剝奪單眼的情況下觀察到的視覺敏銳度的損失與缺陷的長度有關(guān)[7]。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 1. DNN 中顯示出的關(guān)鍵期

由上述實(shí)驗(yàn)給出的結(jié)果人們很自然地會(huì)提問:是否輸入數(shù)據(jù)分布的任何變化都會(huì)有一個(gè)相應(yīng)的學(xué)習(xí)關(guān)鍵期?作者表示,對于神經(jīng)元網(wǎng)絡(luò)來說,情況并非如此,它們有足夠的可塑性來適應(yīng)感覺處理(sensory processing)的 high-level 變化。例如,成年人類能夠迅速適應(yīng)某些劇烈的變化,如視野的倒置。在圖 2 中,我們觀察到 DNN 也基本上不受 high-level 缺陷的影響—比如圖像的垂直翻轉(zhuǎn)或輸出標(biāo)簽的隨機(jī)排列。在缺陷修正之后,網(wǎng)絡(luò)很快就恢復(fù)了它的基線性能。這暗示了數(shù)據(jù)分布的結(jié)構(gòu)和優(yōu)化算法之間存在更精細(xì)的相互作用,進(jìn)而導(dǎo)致存在一個(gè)關(guān)鍵期。

接下來,作者對網(wǎng)絡(luò)施加了一個(gè)更激烈的缺陷攻擊,令每個(gè)圖像都被白噪聲取代。圖 2 顯示,這種極端的缺陷所表現(xiàn)出的效果明顯比只模糊圖像所得到的效果要輕。用白噪聲訓(xùn)練網(wǎng)絡(luò)并不會(huì)提供任何關(guān)于自然圖像的信息,因此,與其它缺陷(例如,圖像模糊)相比,白噪聲的效果更溫和。不過,白噪聲中包含了一些信息,從而導(dǎo)致網(wǎng)絡(luò)(錯(cuò)誤地)學(xué)習(xí)圖像中并沒有存在的精細(xì)結(jié)構(gòu)。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 2.(左)High-level 的擾動(dòng)并不會(huì)導(dǎo)致關(guān)鍵期。當(dāng)缺陷只影響 high-level 特征(圖像的垂直翻轉(zhuǎn))或 CNN 的最后一層(標(biāo)簽互換)時(shí),網(wǎng)絡(luò)不會(huì)表現(xiàn)出關(guān)鍵期(測試準(zhǔn)確度基本保持平穩(wěn))。另一方面,類似于感知?jiǎng)儕Z的缺陷(圖像被隨機(jī)噪聲取代)確實(shí)會(huì)導(dǎo)致缺陷,但其影響沒有圖像模糊的情況那么嚴(yán)重。(右)關(guān)鍵期曲線對網(wǎng)絡(luò)深度的依賴情況。添加更多的卷積層會(huì)增大關(guān)鍵期缺陷的影響。

圖 3 顯示,在 MNIST 庫上訓(xùn)練的全連接網(wǎng)絡(luò)也存在圖像模糊缺陷的關(guān)鍵期。因此,作者認(rèn)為(對于重現(xiàn)模型訓(xùn)練的關(guān)鍵期)卷積結(jié)構(gòu)不是必需的,使用自然圖像也不是必需的。同樣,在 CIFAR-10 上訓(xùn)練的 ResNet-18 也有一個(gè)關(guān)鍵期,它也比標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)中的關(guān)鍵期明顯更清晰(圖 1)。作者分析,ResNets 允許梯度更容易地反向傳播到低層,其關(guān)鍵期的存在可以表明關(guān)鍵期不是由梯度消失引起的。圖 2(右)顯示,關(guān)鍵期的存在確實(shí)關(guān)鍵地取決于網(wǎng)絡(luò)的深度。在圖 3 中,作者確認(rèn),即使在網(wǎng)絡(luò)以恒定的學(xué)習(xí)速率訓(xùn)練時(shí),也存在一個(gè)關(guān)鍵期。圖 3(右下角)顯示,當(dāng)使用 Adam 作為優(yōu)化器時(shí),使用其前兩個(gè)時(shí)刻的運(yùn)行平均值對梯度進(jìn)行重歸一化,我們?nèi)匀挥^察到一個(gè)與標(biāo)準(zhǔn) SGD 類似的關(guān)鍵期。改變優(yōu)化的超參數(shù)可以改變關(guān)鍵期的形狀:圖 3(左下角)顯示,增加權(quán)重衰減(weight decay)使關(guān)鍵期更長,更不尖銳。這可以解釋為它既減慢了網(wǎng)絡(luò)的收斂速度,又限制了 high-level 為克服缺陷而改變的能力,從而鼓勵(lì) low-level 也學(xué)習(xí)新特征。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 3. 不同 DNN 架構(gòu)和優(yōu)化方案中的關(guān)鍵期

1.2 Fisher 信息分析

作者根據(jù)經(jīng)驗(yàn)確定,在動(dòng)物和 DNN 中,訓(xùn)練的早期階段對訓(xùn)練過程的結(jié)果至關(guān)重要。在動(dòng)物中,這與缺陷有關(guān)的區(qū)域的大腦結(jié)構(gòu)變化密切相關(guān)。這在人工網(wǎng)絡(luò)中不可避免地有所不同,因?yàn)樗鼈兊倪B接性在訓(xùn)練期間一直都是固定的。然而,并不是所有的連接對網(wǎng)絡(luò)都同樣有用??紤]一個(gè)編碼近似后驗(yàn)分布 p_ω(y|x)的網(wǎng)絡(luò),其中,ω表示權(quán)重參數(shù)。來自特定連接的最終輸出的依賴性可以通過擾動(dòng)相應(yīng)的權(quán)重和觀察最終分布的變化幅度來估計(jì)。給定權(quán)重?cái)_動(dòng)ω'=ω+δω,p_ω(y|x)和由擾動(dòng)生成的 p_ω'(y|x)之間的偏差可以由 K-L 散度度量,即:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

其中的 F 為 Fisher 信息矩陣(Fisher Information Matrix,F(xiàn)IM):

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

FIM 可以被認(rèn)為是一個(gè)局部指標(biāo),用于衡量一個(gè)單一權(quán)重(或一個(gè)權(quán)重組合)的擾動(dòng)對網(wǎng)絡(luò)輸出的影響程度。特別是,具有低 Fisher 信息的權(quán)重可以被改變或 "修剪",對網(wǎng)絡(luò)的性能影響不大。這表明,F(xiàn)isher 信息可以作為 DNN 有效連接的衡量指標(biāo),或者,更廣泛地說,作為連接的 "突觸強(qiáng)度(synaptic strength)" 的衡量標(biāo)準(zhǔn)。最后,F(xiàn)IM 也是損失函數(shù) Hessian 的半定逼近,因此也是訓(xùn)練過程中某一點(diǎn)ω的損失情況的曲率,在 FIM 和優(yōu)化程序之間提供了一種關(guān)聯(lián)性。

不幸的是,完整的 FIM 太大,無法計(jì)算。因此,本文作者使用它的軌跡來測量全局或逐層的連接強(qiáng)度。作者提出使用以下方法計(jì)算 FIM:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

為了捕捉非對角線項(xiàng)的行為,作者還嘗試使用 Kronecker-Factorized 近似計(jì)算全矩陣的對數(shù)行列式。作者觀察到了與 trace 相同的定性趨勢。由于 FIM 是一個(gè)局部測量,它對損失情況的不規(guī)則性非常敏感。因此,作者在文中主要使用 ResNets,ResNets 具備相對平滑的損失情況。對于其他架構(gòu),作者則使用一個(gè)基于在權(quán)重中注入噪聲的更穩(wěn)健的 FIM 估計(jì)器。

FIM 可以被確定為對模型中包含的訓(xùn)練數(shù)據(jù)信息量的一種衡量。在此基礎(chǔ)上,人們會(huì)期望隨著從經(jīng)驗(yàn)中獲得信息,連接(connection)的總體強(qiáng)度會(huì)單調(diào)地增加。然而,情況并非如此。雖然在早期階段網(wǎng)絡(luò)就獲得了有關(guān)數(shù)據(jù)的信息,從而使得連接強(qiáng)度的大幅增加,但一旦任務(wù)的表現(xiàn)開始趨于平穩(wěn),網(wǎng)絡(luò)就開始降低其連接的整體強(qiáng)度。然而,這并不對應(yīng)于性能的降低,相反,性能一直在緩慢提高。這可以被看作是一個(gè) "遺忘" 或 "壓縮" 階段,在這個(gè)階段,多余的連接被消除,數(shù)據(jù)中不相關(guān)的變化被拋棄。在學(xué)習(xí)和大腦發(fā)育過程中,消除("修剪")不必要的突觸是一個(gè)基本的過程,這一點(diǎn)已經(jīng)得到了前期研究的證實(shí)(圖 4,中心)[8]。在圖 4(左)中,類似的現(xiàn)象在 DNN 中得到了清晰和定量的顯示。

連接強(qiáng)度的這些變化與對關(guān)鍵期誘發(fā)的缺陷(如圖像模糊)的敏感性密切相關(guān),如圖 1 中使用 "滑動(dòng)窗口" 方法計(jì)算。在圖 4 中,我們看到敏感性與 FIM 的趨勢密切相關(guān)。FIM 是在沒有缺陷的情況下在網(wǎng)絡(luò)訓(xùn)練過程中的一個(gè)點(diǎn)上計(jì)算的局部數(shù)量,而關(guān)鍵期的敏感性是在有缺陷的網(wǎng)絡(luò)訓(xùn)練結(jié)束后,使用測試數(shù)據(jù)計(jì)算的。圖 4(右)進(jìn)一步強(qiáng)調(diào)了缺陷對 FIM 的影響:在存在缺陷的情況下,F(xiàn)IM 會(huì)增長,甚至在缺陷消除后仍然大幅增長。作者分析,這可能是由于當(dāng)數(shù)據(jù)被破壞到無法分類時(shí),網(wǎng)絡(luò)被迫記憶標(biāo)簽,因此增加了執(zhí)行相同任務(wù)所需的信息量。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 4. DNN 的關(guān)鍵期可追溯到 Fisher 信息的變化

對 FIM 的逐層分析進(jìn)一步揭示了缺陷對網(wǎng)絡(luò)的影響。在沒有缺陷的情況下訓(xùn)練網(wǎng)絡(luò)時(shí)(在這種情況下是 All-CNN,它比 ResNet 有更清晰的層次劃分),最重要的連接是在中間層(圖 5,左),它可以在最有信息量的中間尺度上處理輸入的 CIFAR-10 圖像。然而,如果網(wǎng)絡(luò)最初是在模糊的數(shù)據(jù)上訓(xùn)練的(圖 5,右上方),連接的強(qiáng)度是由頂層(第 6 層)主導(dǎo)的。作者分析,這是因?yàn)閳D像的低層和中層結(jié)構(gòu)被破壞了。然而,如果在訓(xùn)練的早期消除缺陷(圖 5,頂部中心),網(wǎng)絡(luò)會(huì)設(shè)法 "重組",以減少最后一層所包含的信息,同時(shí)增加中間層的信息。作者把這些現(xiàn)象稱為 "信息可塑性" 的變化。然而,如果數(shù)據(jù)變化發(fā)生在鞏固階段(consolidation phase)之后,網(wǎng)絡(luò)就無法改變其有效連接。每層的連接強(qiáng)度基本上保持不變。此時(shí),網(wǎng)絡(luò)失去了它的信息可塑性,錯(cuò)過了它的關(guān)鍵期。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 5. 各層權(quán)重所含信息的歸一化數(shù)量與訓(xùn)練 epoch 的關(guān)系。(左上)在沒有缺陷的情況下,網(wǎng)絡(luò)主要依靠中間層(3-4-5)來解決任務(wù)。(右上)在存在圖像模糊缺陷的情況下,直到第 100 個(gè) epoch,更多的資源被分配到高層(6-7),而不是中間層。(頂部中心)當(dāng)缺陷在較早的 epoch 被消除時(shí),各層可以部分地重新配置 (例如,第 6 層中信息的快速損失)。(最下面一行) 同樣的圖,但引入的是翻轉(zhuǎn)缺陷,并不會(huì)誘發(fā)關(guān)鍵期

最后,對 FIM 的分析也揭示了損失函數(shù)的幾何形狀和學(xué)習(xí)動(dòng)態(tài)。由于 FIM 可以被解釋為殘余分布 (landscape) 的局部曲率,圖 4 顯示,學(xué)習(xí)需要越過瓶頸階段。在初始階段,網(wǎng)絡(luò)進(jìn)入高曲率的區(qū)域(高 Fisher 信息),一旦開始進(jìn)入鞏固階段,曲率就會(huì)下降,使其能夠跨越瓶頸以進(jìn)入后續(xù)階段。收斂的早期階段是引導(dǎo)網(wǎng)絡(luò)走向 "正確的" 收斂結(jié)果的關(guān)鍵。關(guān)鍵期的結(jié)束是在網(wǎng)絡(luò)跨越了所有的瓶頸(從而學(xué)會(huì)了特征)并進(jìn)入一個(gè)收斂區(qū)域(低曲率的權(quán)重空間區(qū)域,或低 Fisher 信息)之后。

1.3 討論

到目前為止,關(guān)鍵期仍被認(rèn)為是一種專門的生物現(xiàn)象。同時(shí),對 DNN 的分析主要集中在其漸進(jìn)特性上,而忽略了其初始的瞬態(tài)行為。作者表示,本文是第一個(gè)探討人工神經(jīng)網(wǎng)絡(luò)臨界期現(xiàn)象的文章,并強(qiáng)調(diào)瞬態(tài)在決定人工神經(jīng)網(wǎng)絡(luò)的漸進(jìn)性能中的關(guān)鍵作用。受突觸連接在調(diào)節(jié)關(guān)鍵期作用的啟發(fā),作者引入了 Fisher 信息來研究這個(gè)階段。文章表明,對缺陷的最初敏感性與 FIM 的變化密切相關(guān),既是全局性的,因?yàn)榫W(wǎng)絡(luò)首先迅速增加,然后減少儲存的信息量;也是分層的,因?yàn)榫W(wǎng)絡(luò) "重組" 其有效連接,以最佳方式處理信息。

本文工作與生物學(xué)中關(guān)于關(guān)鍵期的大量文獻(xiàn)相關(guān)。盡管人工網(wǎng)絡(luò)是神經(jīng)元網(wǎng)絡(luò)的一種極其簡化的近似,但它們表現(xiàn)出的行為與在人類和動(dòng)物模型中觀察到的關(guān)鍵期有本質(zhì)上的相似。本文給出的信息分析表明,DNN 中最初的快速記憶階段之后是信息可塑性的損失,這反過來又進(jìn)一步提高了其性能。在文獻(xiàn) [9] 中,作者觀察到并討論了訓(xùn)練的兩個(gè)不同階段的存在,他們的分析建立在激活的(香農(nóng))信息上,而不是權(quán)重的(費(fèi)雪)Fisher 信息。在多層感知器(MLP)上,文獻(xiàn) [9] 根據(jù)經(jīng)驗(yàn)將這兩個(gè)階段與梯度協(xié)方差的突然增加聯(lián)系起來。然而,必須注意的是,F(xiàn)IM 的計(jì)算是使用與模型預(yù)測有關(guān)的梯度,而不是與 ground-truth 標(biāo)簽有關(guān)的梯度,這就會(huì)導(dǎo)致質(zhì)量差異。圖 6 顯示梯度的均值和標(biāo)準(zhǔn)偏差在有缺陷和無缺陷的訓(xùn)練中沒有表現(xiàn)出明顯的趨勢,因此,與 FIM 不同,它與對關(guān)鍵期的敏感性沒有關(guān)聯(lián)。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 6. 訓(xùn)練期間梯度均值(實(shí)線)和標(biāo)準(zhǔn)偏差(虛線)的對數(shù)值。(左)不存在缺陷,(中)第 70 個(gè) epoch 后出現(xiàn)模糊缺陷,(右)最后一個(gè) epoch 出現(xiàn)缺陷。

除了與關(guān)鍵期的缺陷敏感性有密切的關(guān)系外,F(xiàn)isher 信息還具有一些技術(shù)優(yōu)勢,包括對角線易估計(jì)、對互信息的選擇估計(jì)器不敏感,以及能夠輔助探測人工神經(jīng)網(wǎng)絡(luò)中各層有效連接的變化情況。

對激活的完整分析不僅要考慮到信息量(包括與任務(wù)有關(guān)的和與干擾有關(guān)的),還要考慮其可及性,例如,與任務(wù)有關(guān)的信息能多容易被一個(gè)線性分類器提取出來。按照類似的想法,Montavon 等人 [10] 通過對每層表征的徑向基函數(shù)(RBF)核嵌入進(jìn)行主成分分析(PCA),研究了表征的簡單性的逐層或 "空間"(不是時(shí)間)的演變。他們表明,在多層感知器上,與任務(wù)相關(guān)的信息更多地集中在表征嵌入的第一個(gè)主成分上,從而使得它們變得更容易被逐層 "訪問"。本文工作專注于權(quán)重的時(shí)間演變。一個(gè)具有較簡單權(quán)重的網(wǎng)絡(luò)(由 FIM 測量)也需要一個(gè)較簡單的平滑表示(如由 RBF 嵌入測量),以抵抗權(quán)重的擾動(dòng)從而正常運(yùn)行。因此,本文分析與 Montavon 等人的工作是一致的。同時(shí)使用這兩個(gè)框架來研究網(wǎng)絡(luò)的聯(lián)合時(shí)空演變情況將會(huì)非常有趣。

關(guān)注權(quán)重信息而不是激活或網(wǎng)絡(luò)行為的一個(gè)好處是:在關(guān)鍵期有一個(gè) "有效連接" 的讀數(shù)。在人工和神經(jīng)元網(wǎng)絡(luò)中,消除缺陷后的 "行為" 讀數(shù)有可能被視覺通路不同層次的缺陷適應(yīng)性變化所混淆。

Knudsen 對動(dòng)物模型中的關(guān)鍵期給出了一個(gè)精辟的解釋:神經(jīng)元網(wǎng)絡(luò)的初始連接是不穩(wěn)定的,容易修改(高度可塑性),但隨著觀察到更多的 "樣本",它們會(huì)發(fā)生變化并達(dá)到一個(gè)更穩(wěn)定的配置,難以修改[11]。然而,在新創(chuàng)建的連接模式中仍然可以存在學(xué)習(xí)。這與本文的研究結(jié)果基本一致。當(dāng)連接被重塑時(shí),對關(guān)鍵期誘導(dǎo)缺陷的敏感度達(dá)到峰值(圖 4,左),并且在有缺陷和無缺陷的網(wǎng)絡(luò)中觀察到不同的連接圖譜(圖 5)。對于高級別的缺陷來說,如圖像翻轉(zhuǎn)和標(biāo)簽置換,不需要對網(wǎng)絡(luò)的連接進(jìn)行徹底的重組就能糾正缺陷,因此不存在關(guān)鍵期。

此外,本文的工作也可以與預(yù)訓(xùn)練進(jìn)行比較。Erhan 等人研究了某種相關(guān)的、但現(xiàn)在很少使用的層間無監(jiān)督預(yù)訓(xùn)練的做法,并認(rèn)為可以將它用作一個(gè)正則化算子(regularizer)從而將網(wǎng)絡(luò)的權(quán)重向更接近好的解決方案的損失情況移動(dòng),而且早期樣本在引導(dǎo)網(wǎng)絡(luò)向特定解決方案移動(dòng)方面具有更好的效果[12]。

圖 4 表明,SGD 在網(wǎng)絡(luò)訓(xùn)練中經(jīng)歷了兩個(gè)不同的階段。起初,網(wǎng)絡(luò)向損失情況的高曲率區(qū)域移動(dòng);而在第二階段,曲率下降,網(wǎng)絡(luò)最終收斂到一個(gè)平坦的最小值。作者把這些解釋為網(wǎng)絡(luò)在訓(xùn)練過程中為了學(xué)習(xí)有用的特征而跨越了瓶頸,最終在學(xué)習(xí)完成后進(jìn)入損失面的平坦區(qū)域。當(dāng)把這一假設(shè)與缺陷敏感性分析結(jié)合起來時(shí),我們可以假設(shè),關(guān)鍵期恰恰發(fā)生在跨越這一瓶頸時(shí)。同樣值得注意的是,有證據(jù)表明,在 DNN 中收斂到平坦的最小值(低曲率的最小值)與良好的泛化性能相關(guān)。與該解釋一致,圖 4(右)顯示,受缺陷影響較大的網(wǎng)絡(luò)最終會(huì)收斂到更尖銳的最小值。然而,我們也發(fā)現(xiàn),網(wǎng)絡(luò)的性能在早期的 "敏感" 階段已經(jīng)基本確定。因此,作者也承認(rèn),實(shí)驗(yàn)中收斂時(shí)的最終銳度可能是一個(gè)偶發(fā)現(xiàn)象,而不是已經(jīng)經(jīng)過良好總結(jié)和概括后推導(dǎo)出的原因。

本文的研究目標(biāo)并不是通過人工網(wǎng)絡(luò)來研究人類(或動(dòng)物)的大腦,而是了解基本的信息處理現(xiàn)象,包括其在生物和人工的實(shí)現(xiàn)。此外,作者強(qiáng)調(diào)盡管文中的分析和實(shí)驗(yàn)顯示生物大腦或人工網(wǎng)絡(luò)都存在關(guān)鍵期,但并不是說 DNN 就一定是神經(jīng)生物學(xué)信息處理的有效模型。關(guān)于 "人工神經(jīng)科學(xué)" 的工作,其研究部分是為了滿足開發(fā) "可解釋的" 人工智能系統(tǒng)的技術(shù)需要,以使得這些系統(tǒng)的行為可以被理解和預(yù)測。神經(jīng)科學(xué)家往往采用數(shù)學(xué)模型來研究生物現(xiàn)象,而我們選擇利用周知的生物現(xiàn)象來幫助理解人工網(wǎng)絡(luò)的信息處理。反過來說,探討如何測試生物網(wǎng)絡(luò)修剪連接是否是信息可塑性損失的結(jié)果,而不是原因,也將是很有趣的。學(xué)習(xí)和發(fā)展過程中網(wǎng)絡(luò)重構(gòu)的機(jī)制可能是在基本信息處理現(xiàn)象的推動(dòng)下獲得的進(jìn)化結(jié)果。

2 深度神經(jīng)網(wǎng)絡(luò)優(yōu)化軌跡的損益平衡點(diǎn) [5]

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

這篇文章與嚴(yán)格意義上生物學(xué)概念的 “關(guān)鍵期” 并無直接關(guān)聯(lián),它聚焦的問題是“深度神經(jīng)網(wǎng)絡(luò)的早期訓(xùn)練階段對其最終性能影響的重要性”。盡管它并沒有與生物學(xué)理念相關(guān)聯(lián),但其探討的是深度學(xué)習(xí)中關(guān)鍵學(xué)習(xí)期(早期訓(xùn)練階段)問題,所以我們也對本文進(jìn)行解讀。

2.1 問題闡述

近年來,關(guān)于深度神經(jīng)網(wǎng)絡(luò)(DNNs)的研究和應(yīng)用發(fā)展迅速,但關(guān)于其優(yōu)化和泛化能力之間的聯(lián)系并沒有被完全理解。例如,使用一個(gè)大的初始學(xué)習(xí)率往往能夠提高 DNNs 的泛化能力,但卻是以減少初始訓(xùn)練損失為代價(jià)的。相比之下,使用批歸一化層(batch normalization layers)通??梢蕴岣呱疃壬窠?jīng)網(wǎng)絡(luò)的泛化能力和收斂速度。關(guān)于深度神經(jīng)網(wǎng)絡(luò)早期訓(xùn)練階段的研究是解決 DNN 優(yōu)化和泛化能力之間聯(lián)系的有效途徑。例如,在訓(xùn)練的早期階段引入正則化處理是實(shí)現(xiàn)良好泛化能力的必要條件。

本文具體研究了優(yōu)化軌跡對訓(xùn)練的早期階段的依賴性。作者引入梯度協(xié)方差研究小批量梯度的噪聲,引入 Hessian 研究損失面的局部曲率,梯度協(xié)方差矩陣和 Hessian 矩陣能夠有效捕捉 DNN 的優(yōu)化和泛化性能的重要性和互補(bǔ)能力。此外,作者陳述并提出了關(guān)于優(yōu)化軌跡對訓(xùn)練早期階段的依賴性的兩個(gè)猜想的經(jīng)驗(yàn)證據(jù)。最后,作者將本文分析應(yīng)用于具有批歸一化(batch normalization,BN)層的網(wǎng)絡(luò),發(fā)現(xiàn)本文的預(yù)測在這種情況下也是有效的。

2.2 損益平衡點(diǎn)和關(guān)于 SGD 軌跡的兩個(gè)猜想

作者的研究動(dòng)機(jī)是為了更好地理解 DNNs 的優(yōu)化和泛化能力之間的聯(lián)系。在本節(jié)中,作者具體研究梯度的協(xié)方差(K)和 Hessian(H)如何取決于訓(xùn)練的早期階段。

首先,定義樣本 (x,y) 的損失為 L(x,y; θ),其中θ為 D 維參數(shù)向量。訓(xùn)練損失的 Hessian 矩陣記為 H,梯度協(xié)方差矩陣記為:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

其中,g_i 表示梯度,g 為全批次梯度。

作者引入以下條件來量化給定θ(t)的穩(wěn)定性。參數(shù)θ投射到(e_H)^1 表示為下式((e_H)^1 為 H 的第 1 個(gè)特征向量):

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

可以令

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

如果下列序列的范數(shù)在τ趨向于無窮大時(shí)不收斂,則稱 SGD 沿(e_H)^1 是不穩(wěn)定的:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

其中,ψ(0)=θ(t)。序列ψ(t)表征每一步驟 t’>t 映射到(e_H)^1 中的優(yōu)化策略。

假設(shè)。根據(jù)實(shí)證研究的結(jié)論,作者做了以下假設(shè):

1. 投影到(e_H)^1 的損失面是一個(gè)二次一維函數(shù)。

2. 特征向量(e_H)^1 和(e_K)^1 是共線的。

3. 如果沿(e_H)^1 優(yōu)化在下一步會(huì)出現(xiàn)下降,則沿(e_H)^1 方向距離最小值的距離值在下一步會(huì)增大。

4. H 的譜范數(shù)(λ_H)^1 在訓(xùn)練階段增大,沿(e_H)^1 方向距離最小值的距離值減小,如果不滿足,則增大(λ_H)^1 會(huì)導(dǎo)致進(jìn)入一個(gè)特定區(qū)域,該區(qū)域中沿(e_H)^1 方向的訓(xùn)練是不穩(wěn)定的。

此外,作者還假設(shè) S≥N,即,與訓(xùn)練樣本的數(shù)量相比,批處理的規(guī)模較小。

較大的學(xué)習(xí)率或較小的批處理量會(huì)更早達(dá)到損益平衡點(diǎn)。僅考慮從θ(0)開始的訓(xùn)練,且沿 (e_H)^1(0)^2 的 SGD 穩(wěn)定。本文目標(biāo)是證明學(xué)習(xí)率(η) 和批大小 (S) 在本文模型中決定了 H 和 K,并猜想其它神經(jīng)網(wǎng)絡(luò)在經(jīng)驗(yàn)上也是如此。

給定η_1 和 η_2 對應(yīng)的優(yōu)化軌跡,η_1 > η_2,二者從相同的θ_0 初始化。根據(jù)假設(shè) 1,沿 (e_H)^1(t) 的損失面為:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

可以證明,在任何迭代 t,SGD 沿 (e_H)^1(t) 穩(wěn)定的必要和充分條件是

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

N 為訓(xùn)練樣本集大小,s(t)^2=Var[H_i(t)]。作者把上式中公式左邊第一次變?yōu)?1 時(shí)對應(yīng)的軌跡上的這一點(diǎn)稱為損益平衡點(diǎn)(break-even point)。根據(jù)定義,訓(xùn)練軌跡上只存在一個(gè)損益平衡點(diǎn)。

根據(jù)假設(shè) 3 可知,(λ_H)^1(t)和 (λ_K)^1(t) 隨時(shí)間增大。當(dāng) S=N,損益平衡點(diǎn)為(λ_H)^1(t)=2/η。由假設(shè) 4 可知,在通過訓(xùn)練軌跡上的損益平衡點(diǎn)后,SGD 不會(huì)進(jìn)入(λ_H)^1 或(λ_K)^1 大于損益平衡點(diǎn)的區(qū)域,否則會(huì)導(dǎo)致上式左半部分中的一個(gè)項(xiàng)增加,從而沿(e_H)^1 失去穩(wěn)定性。

關(guān)于 DNN 的兩個(gè)猜想。假設(shè) DNN 達(dá)到了損益平衡點(diǎn),作者對其優(yōu)化軌跡提出以下兩個(gè)猜想。達(dá)到損益平衡點(diǎn)的最直接含義是,損益平衡點(diǎn)的(λ_H)^1 和(λ_K)^1 取決于η和 S,將其形式化為:

猜想 1(SGD 的方差減少效應(yīng))。沿著 SGD 的軌跡,在較大的學(xué)習(xí)率或較小的批處理規(guī)模下,(λ_H)^1 和(λ_K)^1 的最大值較小。

猜想 2(SGD 的預(yù)處理效果)。沿著 SGD 的軌跡,學(xué)習(xí)率越大或批越小,則有 ((λ_H)^*)/((λ_H)^1) 和((λ_K)^*)/((λ_K)^1)的最大值就越大,其中λ_K * 和λ_H * 分別是 K 和 H 的最小非零特征值。此外,對于較大的學(xué)習(xí)率或較小的批規(guī)模,Tr(K)和 Tr(H)的最大值也較小。

作者在猜想中考慮了非零特征值,因?yàn)?K 最多有 N-1 個(gè)非零特征值,其中 N 是訓(xùn)練數(shù)據(jù)的數(shù)量,這一數(shù)量在超參數(shù)化的 DNN 中可能比 D 小很多。這兩個(gè)猜想只對能夠保證訓(xùn)練收斂的學(xué)習(xí)率和批大小有效。

2.3 實(shí)驗(yàn)分析

作者首先分析了訓(xùn)練早期階段的學(xué)習(xí)情況。接下來,對兩個(gè)猜想進(jìn)行了經(jīng)驗(yàn)性研究。在最后一部分,作者將分析擴(kuò)展到具有批規(guī)一化層的神經(jīng)網(wǎng)絡(luò)。作者在實(shí)驗(yàn)中使用的數(shù)據(jù)庫包括 CIFAR-10、IMDB、ImageNet、MNLI。使用的網(wǎng)絡(luò)結(jié)構(gòu)包括 SimpleCNN、ResNet-32、LSTM、DenseNet、BERT。

本文理論模型的關(guān)鍵假設(shè)是,(λ_H)^1 和(λ_K)^1 是相關(guān)的,至少在達(dá)到損益平衡點(diǎn)之前是這樣的。作者在圖 7 中證實(shí)了這一點(diǎn)。對于較小的η來說,(λ_H)^1 和(λ_K)^1 可得的最大值是較大的。根據(jù)假設(shè) 3,(λ_H)^1 和(λ_K)^1 的增大會(huì)導(dǎo)致穩(wěn)定性的降低,作者將其形式化為沿(e_H)^1 的穩(wěn)定性。不過,直接計(jì)算沿(λ_H)^1 的穩(wěn)定性的計(jì)算代價(jià)非常高。因此,作者轉(zhuǎn)為測量一個(gè)更實(shí)用的度量標(biāo)準(zhǔn):在每一次迭代中,連續(xù)兩個(gè)步驟之間的訓(xùn)練損失的差異ΔL。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 7. 在不同的訓(xùn)練迭代中,H 的譜范數(shù)(左)和ΔL(在兩個(gè)連續(xù)步驟之間計(jì)算的訓(xùn)練損失的差異,右)與(λ_K)^1 的對比。用 SimpleCNN 在 CIFAR-10 數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),有兩種不同的學(xué)習(xí)率(顏色不同)

接著,作者對猜想 1 和猜想 2 進(jìn)行了經(jīng)驗(yàn)性驗(yàn)證。對于每個(gè)模型,手動(dòng)選擇合適的學(xué)習(xí)率和批大小,以確保 K 和 H 的屬性在合理的計(jì)算代價(jià)下收斂。實(shí)驗(yàn)中主要是研究梯度的協(xié)方差(K),當(dāng)改變訓(xùn)練的批大小時(shí),使用 128 的批大小來計(jì)算 K。當(dāng)改變學(xué)習(xí)率時(shí),使用與訓(xùn)練模型相同的批大小。圖 8 中給出實(shí)驗(yàn)結(jié)果。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 8. SGD 的方差減少和預(yù)處理效果。與較大的學(xué)習(xí)率(η)或較小的批大小(S)相對應(yīng)的優(yōu)化軌跡的特點(diǎn)是較低的最大(λ_K)^1(梯度協(xié)方差的譜范數(shù))和較大的最大((λ_K)^*)/((λ_K)^1)(梯度協(xié)方差的條件數(shù))。垂直線標(biāo)志著訓(xùn)練準(zhǔn)確度大于(第一次)手動(dòng)挑選的閾值的 epoch,這說明這些影響不是由訓(xùn)練速度的差異所解釋的。

然后,作者在兩個(gè)更大規(guī)模的環(huán)境中測試這兩個(gè)猜想:BERT 在 MNLI 數(shù)據(jù)庫上進(jìn)行微調(diào),DenseNet 在 ImageNet 數(shù)據(jù)庫上進(jìn)行訓(xùn)練。由于內(nèi)存的限制,作者在實(shí)驗(yàn)中只改變了學(xué)習(xí)率。圖 9 給出了實(shí)驗(yàn)結(jié)果。我們觀察到,這兩個(gè)猜想在這兩種情況下都成立。值得注意的是,DenseNet 使用了批歸一化層。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 9. Variance 減少和 SGD 的預(yù)調(diào)效果

最后的實(shí)驗(yàn)是關(guān)于在具有批規(guī)一化層的網(wǎng)絡(luò)中,學(xué)習(xí)率對調(diào)節(jié)(conditioning)的重要性。深度神經(jīng)網(wǎng)絡(luò)的損失面是 ill-condition 的。近年來,一些研究人員認(rèn)為批規(guī)一化具有有效性的關(guān)鍵原因是能夠改善損失面的 conditioning。為了研究猜想是否在具有批歸一化層的網(wǎng)絡(luò)中成立,作者在 CIFAR-10 數(shù)據(jù)庫上使用具有批歸一化層的 SimpleCNN 模型(SimpleCNN-BN)進(jìn)行了實(shí)驗(yàn)。結(jié)果見圖 10。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 10. 改變學(xué)習(xí)率對各種指標(biāo)的影響,SimpleCNN 有和沒有批規(guī)一化層(SimpleCNN-BN 和 SimpleCNN)

由圖 10(底部)可知,SimpleCNN-BN 的訓(xùn)練開始于一個(gè) (λ_K)^1 相對較高的區(qū)域。這與之前研究的結(jié)論是一致的[13],即帶有批歸一化層的網(wǎng)絡(luò)在第一次迭代中會(huì)出現(xiàn)梯度爆炸的現(xiàn)象。然后,除了最低的η值之外,所有的(λ_K)^1 值都會(huì)衰減。這種行為與本文的理論模型是一致的。作者還跟蹤了圖 10(底部)中網(wǎng)絡(luò)最后一層的批歸一化層中的縮放因子的范數(shù) ||γ||。作者比較了兩種設(shè)置。SimpleCNN-BN,η=0.001;SimpleCNN,η=0.01。作者得出了三個(gè)觀察結(jié)果。首先,||g||/||g_5|| 的最大值和最小值分別為 1.90(1.37) 和 2.02(1.09)。第二,(λ_K)^1 的最大值和最小值分別為 12.05 和 3.30。最后,((λ_K)^*)/((λ_K)^1)在第一個(gè)設(shè)定中達(dá)到 0.343,在第二個(gè)設(shè)定中達(dá)到 0.24。將這些差異與 SimpleCNN-BN 中使用最高η=1.0 所引起的差異相比較,作者得出結(jié)論:使用較大的學(xué)習(xí)率會(huì)導(dǎo)致?lián)p失平滑的效果,而這在以前只會(huì)由批規(guī)一化處理所導(dǎo)致。

作者證明,猜想 1 和猜想 2 中預(yù)測的學(xué)習(xí)率的影響在有批歸一化層的網(wǎng)絡(luò)中是成立的,與沒有批歸一化層的同一網(wǎng)絡(luò)中損失面的調(diào)節(jié)(conditioning)相比,在有批歸一化層的網(wǎng)絡(luò)中使用較大的學(xué)習(xí)率對于改進(jìn)損失面的調(diào)節(jié)是有效的。

3 神經(jīng)網(wǎng)絡(luò)早期學(xué)習(xí)動(dòng)力學(xué)的簡單性 [4]

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

現(xiàn)代神經(jīng)網(wǎng)絡(luò)通常被認(rèn)為是復(fù)雜的黑箱函數(shù),由于其對數(shù)據(jù)的非線性依賴和損失情況(loss landscape)的非凸性,其工作過程和輸出結(jié)果難以理解。在本文的工作中,作者嘗試分析和證明神經(jīng)網(wǎng)絡(luò)的早期學(xué)習(xí)階段的情況可能并非如此。作者在文章中證明,對于一類 well-behaved 輸入分布,在早期訓(xùn)練階段,具有任何共同激活的兩層全連接神經(jīng)網(wǎng)絡(luò)的梯度下降動(dòng)態(tài)變化過程都可以通過訓(xùn)練一個(gè)針對此輸入的簡單模型來模仿。當(dāng)只訓(xùn)練第一層時(shí),這個(gè)簡單的模型是輸入特征的線性函數(shù);當(dāng)訓(xùn)練第二層或兩層時(shí),它是特征和其 L_2 范數(shù)的線性函數(shù)。這一結(jié)果意味著,神經(jīng)網(wǎng)絡(luò)直到訓(xùn)練的后期階段才會(huì)完全發(fā)揮其非線性能力。

3.1 兩層神經(jīng)網(wǎng)絡(luò)

考慮一個(gè)有 m 個(gè)隱藏神經(jīng)元的兩層全連接神經(jīng)網(wǎng)絡(luò),定義為:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(1)

其中,x 為輸入,W 為第一層的權(quán)重矩陣,v 為第二層的權(quán)重向量,φ為激活函數(shù)。令 {(x_i,y_i)} 表征 n 個(gè)訓(xùn)練樣本,x_i 為輸入,y_i 為對應(yīng)的輸出。X 為數(shù)據(jù)矩陣,y 為對應(yīng)的標(biāo)簽向量??紤] L_2 訓(xùn)練損失如下:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(2)

從隨機(jī)初始化開始對目標(biāo)公式(2)運(yùn)行梯度下降(Gradient descent, GD)處理。具體來說,對權(quán)重(W, v)進(jìn)行以下對稱初始化處理:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(3)

令 (W(0), v(0)) 表征一組從對稱初始化公式 (3) 中提取的初始權(quán)重。然后根據(jù) GD 來更新權(quán)重:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(4)

其中,η_1 和η_2 分別為學(xué)習(xí)速率。

接下來,作者給出輸入分布假設(shè)。

假設(shè) 3.1(輸入分布)。數(shù)據(jù) x_1,...,x_n 是來自均值為 0、協(xié)方差為 0 的分布 D 的獨(dú)立同分布(i.i.d.)樣本,使得 Tr[∑]=d 和 ||∑||=O(1)。此外,x~ D 可以寫成 x =∑^(1/2) 1x,其中 x 的輸入是獨(dú)立的,都是 O(1)-subgaussian 的。

假設(shè) 3.2(激活函數(shù))。激活函數(shù)φ滿足以下任一條件:(i)平滑激活:φ具有有界的一階和二階導(dǎo)數(shù):

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

或 (ii) 塊狀線性激活:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

Claim3.1。假設(shè) n 遠(yuǎn)大于 d,那么在假設(shè) 3.1 下,我們有很大概率能夠得到:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有
動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

本節(jié)的結(jié)果是證明由 GD 訓(xùn)練的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的早期階段近似于一個(gè)線性函數(shù)。由于神經(jīng)網(wǎng)絡(luò)中兩層的貢獻(xiàn)是不同的,作者將后續(xù)討論分為只訓(xùn)練第一層、只訓(xùn)練第二層和兩層一起訓(xùn)練。

3.1.1 只訓(xùn)練第一層

只考慮訓(xùn)練第一層權(quán)重 W,這相當(dāng)于在公式(4)中設(shè)置η_2=0。在訓(xùn)練的早期階段,引入一個(gè)用于模仿神經(jīng)網(wǎng)絡(luò)(f_t)^1 的線性模型:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有
動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(5)

考慮通過 GD 在 L_2 損失上從零開始訓(xùn)練這個(gè)線性模型:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(6)

定理 3.2(訓(xùn)練第一層的主要定理)。令α∈(0,1/4)為一個(gè)固定的常數(shù)。假設(shè)訓(xùn)練樣本的數(shù)量 n 和網(wǎng)絡(luò)寬度 m 滿足

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

假設(shè)η_1 遠(yuǎn)小于 d,η_2 = 0,那么存在一個(gè)常數(shù) c > 0,在很大的概率下對于所有 t 神經(jīng)網(wǎng)絡(luò)和線性模型在訓(xùn)練數(shù)據(jù)上平均接近。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(7)

大概率地,對于所有的 t,我們有

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(8)

3.1.2 只訓(xùn)練第二層

只考慮訓(xùn)練第二層權(quán)重 v,這相當(dāng)于在公式(4)中設(shè)置η_1=0。在訓(xùn)練的早期階段,用于模仿神經(jīng)網(wǎng)絡(luò)(f_t)^2 的線性模型是

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(9)

從零開始,使用 GD 訓(xùn)練該線性模型:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(10)

令(f_t)^lin2 表征第 t 輪循環(huán)的結(jié)果模型。

嚴(yán)格意義上講 f^lin2(x;γ)并不是關(guān)于 x 的線性模型,不過在本文分析的數(shù)據(jù)中,根據(jù) Claim3.1,||x||/sqrt(d)≈1,所以非線性的特征幾乎可以忽略。與第一層的訓(xùn)練類似,本文用于訓(xùn)練第二層的主要定理如下:

定理 3.5(訓(xùn)練第二層的主要定理)。令α為常數(shù),假設(shè):

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有
動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

存在一個(gè)常數(shù) c>0,在很高的概率下,對所有 t 同時(shí)我們有

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

3.1.3 同時(shí)訓(xùn)練兩層

最后,考慮同時(shí)訓(xùn)練兩層的情況,這相當(dāng)于在公式(4)中設(shè)置η_1=η_2=η>0。在訓(xùn)練的早期階段,用于模仿神經(jīng)網(wǎng)絡(luò)(f_t)^2 的線性模型是

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

(11)

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

3.2 初步驗(yàn)證

作者通過在 x~ N(0, I)和 y = sign(f*(x))產(chǎn)生的合成數(shù)據(jù)上訓(xùn)練一個(gè)具有誤差函數(shù)(erf) 激活和寬度為 256 的兩層神經(jīng)網(wǎng)絡(luò)來驗(yàn)證上文的理論,其中 f* 是一個(gè)寬度為 5 的真實(shí)兩層誤差函數(shù)(erf) 網(wǎng)絡(luò)。在圖 11a 中,作者給出了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試損失(藍(lán)色)和其相應(yīng)的線性模型 f^lin(紅色)。在早期訓(xùn)練階段(最多 1,000 step),網(wǎng)絡(luò)和線性模型的訓(xùn)練 / 測試損失是很難區(qū)分的。之后,達(dá)到最佳的線性模型后網(wǎng)絡(luò)會(huì)持續(xù)改進(jìn)。在圖 11b 中,作者給出了網(wǎng)絡(luò)和線性模型在 5 個(gè)隨機(jī)測試?yán)由系妮敵觯╨ogits)的演變過程,我們可以看到,每個(gè)單獨(dú)的樣本在訓(xùn)練的早期階段也展現(xiàn)出了很好的一致性。最后,在圖 11c 中,作者改變了輸入維度 d,并為每種情況繪制了網(wǎng)絡(luò)輸出和線性模型之間差異的均方誤差(MSE)。我們看到,差異確實(shí)隨著 d 的增大而變小,與前文的理論預(yù)測相吻合。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 11. 兩層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練初期學(xué)習(xí)了一個(gè)線性模型。(a) 神經(jīng)網(wǎng)絡(luò)的損失和由公式 (11) 預(yù)測的相應(yīng)線性模型。實(shí)線(虛線)代表訓(xùn)練(測試)損失。d = 50,并使用 20,000 個(gè)訓(xùn)練樣本和 2,000 個(gè)測試樣本。神經(jīng)網(wǎng)絡(luò)和線性模型在最初的 1000step 中是很難區(qū)分的,之后線性學(xué)習(xí)結(jié)束,網(wǎng)絡(luò)繼續(xù)改進(jìn)。(b) 5 個(gè)隨機(jī)測試?yán)拥?logits(即輸出)演變。我們看到神經(jīng)網(wǎng)絡(luò)的預(yù)測和線性模型在早期的預(yù)測階段具有很好的一致性。(c)在不同的 d 值下,網(wǎng)絡(luò)的輸出和線性模型之間的差異(MSE)。

然后,作者通過一個(gè)學(xué)習(xí)范數(shù)相關(guān)函數(shù)的實(shí)驗(yàn)來說明在公式(11)和公式(9)中引入范數(shù)相關(guān)特征的必要性。作者使用的數(shù)據(jù)產(chǎn)生方式為:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

以及使用 ReLU 激活。圖 12 顯示,與簡單線性模型相比,f^lin 確實(shí)是一個(gè)更好的神經(jīng)網(wǎng)絡(luò)近似。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 12. 范數(shù)依賴性特征是非常必要的。對于學(xué)習(xí)范數(shù)依賴性函數(shù)的任務(wù),測試損失顯示了具有 ReLU 激活的神經(jīng)網(wǎng)絡(luò),其相應(yīng)的線性模型預(yù)測公式(11),以及通過重置公式(11)中ν_1 = ν_2 = 0 的線性模型。本文預(yù)測的線性模型是一個(gè)更好的神經(jīng)網(wǎng)絡(luò)的近似。

3.3 擴(kuò)展到多層和卷積神經(jīng)網(wǎng)絡(luò)

最后,作者給出理論和實(shí)驗(yàn)分析以證明神經(jīng)網(wǎng)絡(luò)和線性模型在訓(xùn)練早期階段的一致性可以擴(kuò)展到更復(fù)雜的網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)庫上。具體的,考慮一個(gè)簡單的一維 CNN,包含一個(gè)卷積層,沒有池化層:

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

作者使用多層 FC 網(wǎng)絡(luò)和 CNN 對 CIFAR-10 的二元分類任務(wù)("cats" 與 "horses")進(jìn)行了實(shí)驗(yàn)。訓(xùn)練和測試數(shù)據(jù)的數(shù)量分別是 10,000 和 2,000。圖像的原始大小為 32×32×3,使用 4×4 平均池化處理將圖像縮小為 8×8×3。作者將測試數(shù)據(jù)的預(yù)測殘差分解到 V_lin,即輸入所覆蓋的空間,以及它的補(bǔ)充 (V_lin)^⊥(維數(shù)為 2000d)。對于這兩個(gè)網(wǎng)絡(luò),我們在圖 13 (a) 中觀察到,網(wǎng)絡(luò)和線性模型的測試損失在 1,000step 以內(nèi)幾乎是相同的,之后網(wǎng)絡(luò)開始在 (V_lin)^⊥處改進(jìn)。在圖 13 (b) 中,作者繪制了 3 個(gè)隨機(jī)測試數(shù)據(jù)的 logit 演變情況,并再次觀察到在早期訓(xùn)練階段的良好一致性。圖 13 (c)繪制了網(wǎng)絡(luò)和線性模型之間的相對 MSE。我們觀察到,這兩個(gè)網(wǎng)絡(luò)的 MSE 在最初的 1000step 中是很小的,之后就會(huì)增長。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 13. 在早期訓(xùn)練階段,4 個(gè)隱藏層的 CNN/FC 網(wǎng)絡(luò)與 CIFAR-10 的線性模型之間具有很好的一致性

4 液體的視覺感知:來自深度神經(jīng)網(wǎng)絡(luò)的啟示 [3]

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

最后這篇文章的切入角度與前三篇不同,它提出了一個(gè)模仿人類視覺系統(tǒng)行為的前饋卷積網(wǎng)絡(luò),作者具體分析了不同層次的網(wǎng)絡(luò)表征("virtual fMRI"),并研究了網(wǎng)絡(luò)容量(即單元數(shù)量)對內(nèi)部表征的影響。

搞清大腦是如何在視覺上計(jì)算復(fù)雜的自然物質(zhì)的物理特性的任務(wù)是視覺神經(jīng)科學(xué)領(lǐng)域的一個(gè)重大挑戰(zhàn)。本文著重研究了液體的感知(the perception of liquids)—由于其極端的可變性和多樣化的行為,液體是一類特別具有挑戰(zhàn)性的材料。具體的,作者提出了一個(gè)可通過圖像計(jì)算的模型,該模型可以從流體模擬影片中預(yù)測人類的平均粘度判斷,也可以預(yù)測個(gè)體觀察者在各種觀察條件下的粘度判斷。作者訓(xùn)練了一個(gè)人工神經(jīng)網(wǎng)絡(luò),從 10 萬個(gè) 20 幀的模擬中估計(jì)粘度,并發(fā)現(xiàn)這些模型在經(jīng)歷相對較少的訓(xùn)練步驟后(在它們達(dá)到最佳性能之前)就能很好地預(yù)測人類的感知。也就是說,在本文選擇的這一視覺神經(jīng)科學(xué)的研究問題中,人工神經(jīng)網(wǎng)絡(luò)也展現(xiàn)出了明顯的“早期關(guān)鍵學(xué)習(xí)期”的特征。這表明,雖然人類的粘度感知非常好,但理論上還可能有更好的表現(xiàn)。

此外,作者在文中使用 "虛擬電生理學(xué) (virtual electrophysiology)" 深入分析網(wǎng)絡(luò),揭示了網(wǎng)絡(luò)用于估計(jì)粘度的許多不同特征。作者發(fā)現(xiàn)這些特征受網(wǎng)絡(luò)參數(shù)空間大小的影響很大,但最終的預(yù)測性能幾乎沒有變化。這意味著在神經(jīng)網(wǎng)絡(luò)模型和人類視覺系統(tǒng)之間進(jìn)行直接推斷時(shí)需要非常謹(jǐn)慎。不過,本文介紹的方法還是能夠?yàn)楸容^人類和神經(jīng)網(wǎng)絡(luò)提供一個(gè)可參考的系統(tǒng)性的框架。

4.1 問題背景介紹

幾個(gè)世紀(jì)以來,研究人員一直試圖解開人類視覺系統(tǒng)的工作機(jī)制—人類視覺系統(tǒng)能夠在難以想象的廣泛圖像中成功識別復(fù)雜、自然的物體和材料。其中,一個(gè)特別有趣的視覺能力是人類對液體的感知。液體可以展現(xiàn)出一系列不同的外觀,因?yàn)樗鼈兊男螤顦O易變化,既受內(nèi)部物理參數(shù)的影響,如粘度,也受外部力量的影響,如重力。區(qū)分不同液體的最重要的物理特性是粘度。迄今為止,仍然沒有一個(gè)可通過圖像計(jì)算的模型能夠預(yù)測液體或其粘度的感知。本文作者嘗試?yán)蒙疃壬窠?jīng)網(wǎng)絡(luò)(DNNs)的最新進(jìn)展來開發(fā)這樣一個(gè)模型,探測模型的內(nèi)部運(yùn)作機(jī)制以推斷出關(guān)于人類視覺系統(tǒng)如何刺激粘度的新假設(shè)。

在目前的機(jī)器學(xué)習(xí)中,大多數(shù)關(guān)于人工神經(jīng)網(wǎng)絡(luò)的工作都集中在獲得在特定任務(wù)中的最佳性能。相比之下,本文的研究并不是開發(fā)一個(gè)在數(shù)學(xué)上最適合估計(jì)粘度的神經(jīng)網(wǎng)絡(luò),而是開發(fā)一個(gè)最接近于模仿人類視覺系統(tǒng)行為的前饋卷積網(wǎng)絡(luò)。為了評估模型與人類的相似程度,要求觀察者根據(jù)影片對粘度做出判斷,而這些影片也會(huì)直接展示給經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)以輸出判斷結(jié)果。

本文使用的神經(jīng)網(wǎng)絡(luò)具有適用于處理影片數(shù)據(jù)的 "慢速融合(slow-fusion)" 架構(gòu)(與靜態(tài)幀相對)[14]。在一個(gè)由計(jì)算機(jī)生成的流體模擬動(dòng)畫影片的數(shù)據(jù)庫上訓(xùn)練該模型,這些動(dòng)畫影片長 20 幀,描述了液體在 10 個(gè)不同的場景類別中的互動(dòng),誘發(fā)了各種各樣的行為(傾倒、攪拌、灑落等,如圖 14 所示)。訓(xùn)練目標(biāo)是估計(jì)模擬中的物理粘度參數(shù)。為了測試通用性,作者在訓(xùn)練期間未使用第十個(gè)場景(Scene 10),保留訓(xùn)練階段中每個(gè)場景中 0.8% 的模擬動(dòng)畫影片用來進(jìn)行驗(yàn)證。訓(xùn)練標(biāo)簽與模擬的 16 個(gè)不同的物理粘度步驟相對應(yīng)。作為比較,人類觀察者執(zhí)行了一項(xiàng)粘度評級任務(wù),他們觀看了 800 個(gè)這些場景,并對場景分配了對應(yīng)的感知粘度標(biāo)簽。神經(jīng)網(wǎng)絡(luò)是基于物理粘度標(biāo)簽上訓(xùn)練的,而不是人類的評分。但是,作者使用了貝葉斯優(yōu)化網(wǎng)絡(luò)的超參數(shù)(例如,學(xué)習(xí)率,動(dòng)量)和層的具體設(shè)置(核大小,過濾器的數(shù)量)來確定與人類在 800 個(gè)感知的粘度標(biāo)簽上有良好關(guān)聯(lián)的網(wǎng)絡(luò)。訓(xùn)練時(shí)間相對較短,只有 30 個(gè) epochs(整個(gè)訓(xùn)練庫的 30 次重復(fù))。得到這些網(wǎng)絡(luò)后,作者分析了它們的內(nèi)部表征,以確定導(dǎo)致類人行為的特征。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 14. 十個(gè)不同的 stimuli 場景。場景中模擬了不同的液體相互作用,如傾瀉、下雨、攪拌和浸泡。光學(xué)材料特性和照明圖是隨機(jī)分配的,白色平面和方形水庫保持不變。

作者的主要分析和發(fā)現(xiàn)如下。為了確定我們是否得到了一個(gè)足夠接近人類表現(xiàn)的模型,首先我們在逐個(gè) stimuli 的基礎(chǔ)上比較了網(wǎng)絡(luò)的預(yù)測和人類的感知判斷。作者發(fā)現(xiàn),為估計(jì)物理粘度而訓(xùn)練的網(wǎng)絡(luò)確實(shí)能夠預(yù)測人類的平均粘度判斷,且與人類個(gè)體的判斷大致相同。人類就是這樣根據(jù)視覺 stimuli 展示來學(xué)習(xí)執(zhí)行不同的視覺任務(wù)的,所以這樣一個(gè)在物理標(biāo)簽和計(jì)算機(jī)模擬上訓(xùn)練的網(wǎng)絡(luò)能夠預(yù)測人類的表現(xiàn)并不是一件非常簡單的事。作者還發(fā)現(xiàn),經(jīng)過早期訓(xùn)練階段,網(wǎng)絡(luò)就能夠輸出很好的預(yù)測結(jié)果。

第二,在確定該網(wǎng)絡(luò)能夠模擬人類的表現(xiàn)后,作者試圖通過分析該網(wǎng)絡(luò)各個(gè)階段的單個(gè)單元的反應(yīng)特性(虛擬電生理學(xué))來深入了解該網(wǎng)絡(luò)的內(nèi)部運(yùn)作情況。具體做法是:(a)比較他們對一組手工設(shè)計(jì)的特征和真實(shí)場景屬性的反應(yīng),(b)確定最強(qiáng)烈或最弱地驅(qū)動(dòng)單元的 stimuli,以及 (c) 通過激活最大化直接將特征可視化。這些分析表明,許多單元被調(diào)整為可解釋的時(shí)空和顏色特征。然而,作者也發(fā)現(xiàn)存在一組獨(dú)特的單元,這一組單元具有較復(fù)雜反應(yīng)特性(即其反應(yīng)很難被我們所考慮的任何特征所解釋),而這些單元對網(wǎng)絡(luò)的性能特別重要。作者的分析還表明,手工設(shè)計(jì)的特征的線性組合本身不足以解釋人類的粘度感知,這也進(jìn)一步體現(xiàn)了額外單元的重要性。

第三,作者分析了整個(gè)層次的網(wǎng)絡(luò)表征("虛擬 fMRI"),并研究了網(wǎng)絡(luò)容量(即單元數(shù)量)對內(nèi)部表征的影響。作者得出的主要結(jié)論有:(1) 沿著網(wǎng)絡(luò)的層次結(jié)構(gòu),從低層次的圖像描述符逐漸過渡到更高層次的特征,以及(2) 內(nèi)部表征對單元數(shù)量的依賴程度與整體性能和預(yù)測人類判斷的能力無關(guān)。

最后,作者在整個(gè)網(wǎng)絡(luò)的層面上比較了表征以確認(rèn)在同一數(shù)據(jù)庫上訓(xùn)練的同一架構(gòu)的 100 個(gè)實(shí)例是否產(chǎn)生了類似的內(nèi)部表征(虛擬個(gè)體差異)。結(jié)果確實(shí)顯示出高度的相似性,但隨著網(wǎng)絡(luò)層次的加深相似性略有下降(即,低層次的表征在不同的網(wǎng)絡(luò)中幾乎是相同的,但是在訓(xùn)練的后期階段的差異會(huì)增大)。作者還將本文模型與其他數(shù)據(jù)庫上(預(yù))訓(xùn)練的網(wǎng)絡(luò)架構(gòu)進(jìn)行了比較,發(fā)現(xiàn)在本文使用的特定訓(xùn)練庫上訓(xùn)練本文所使用的網(wǎng)絡(luò)架構(gòu)可以產(chǎn)生與人類判斷最接近的判斷結(jié)果。

4.2 總體比較

4.2.1 人類的粘度評級

首先,作者嘗試確定在計(jì)算機(jī)模擬液體的過程中,為估計(jì)物理粘度參數(shù)而訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是否能夠預(yù)測人類的主觀粘度判斷。為了做到這一點(diǎn),作者首先測試了人類在粘度評級任務(wù)中的表現(xiàn),以生成可與神經(jīng)網(wǎng)絡(luò)進(jìn)行比較的感知判斷。16 名觀察者分別對 800 部液體動(dòng)畫影片的粘度進(jìn)行評分,10 個(gè)場景類別中涵蓋了 16 個(gè)粘度等級。在每個(gè)場景類別中,用不同的隨機(jī)參數(shù)(如發(fā)射器速度、幾何體大小或不同的照明條件)模擬了五種變化。具體關(guān)于模擬的方法本文不再贅述,感興趣的讀者可以閱讀原文進(jìn)行了解。粘度評分是通過 stimuli 物下方的反應(yīng)滑塊完成的,允許觀察者報(bào)告每種液體的流動(dòng)或粘稠程度。在訓(xùn)練期間,觀察者會(huì)看到四個(gè)示例,其中包括最大和最小的粘度示例,以幫助他們確定他們的評級。

圖 15 給出了人類觀察員的結(jié)果(藍(lán)線)。在整個(gè)過程中,給出的報(bào)告數(shù)值是每個(gè)場景的五個(gè)變化中的平均值。一些場景(例如,場景 1)的表現(xiàn)明顯好于其他場景(例如,場景 4 和場景 6)。總的來說,物理粘度解釋了人類評分中 68% 的變異(R^2 = 0.68,F(xiàn)(1,158) = 337,p < .001)。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 15. (A) 10 個(gè)不同場景的粘度等級。X 軸顯示的是物理粘度等級(1-16)。y 軸顯示的是五個(gè)變化中的平均感知 / 預(yù)測的粘度。誤差帶顯示的是平均值的標(biāo)準(zhǔn)誤差(SEM)。藍(lán)線是人類的粘度評級,紅線是 DNN 的粘度預(yù)測。對角線上的虛線表示真實(shí)情況。DNN 沒有在這里預(yù)測的任何 stimuli 上進(jìn)行訓(xùn)練,場景 10(紅色)被完全排除在訓(xùn)練庫之外,以測試對其他場景的通用性;(B) X 軸顯示了 Y 軸上 10 個(gè)場景中每個(gè)場景的均方根誤差。這是人類觀察和網(wǎng)絡(luò)預(yù)測之間的誤差。紅色虛線顯示的是各場景的平均誤差,綠色虛線顯示的是 1000 個(gè)隨機(jī)抽取的觀察結(jié)果的誤差。

4.2.2 網(wǎng)絡(luò)預(yù)測結(jié)果

在確定了人類在一系列條件下的表現(xiàn)后,我們接下來訓(xùn)練神經(jīng)網(wǎng)絡(luò),目標(biāo)是測試這種訓(xùn)練是否能夠生成模仿人類判斷的成功和失敗模式的內(nèi)部表征。具體網(wǎng)絡(luò)結(jié)構(gòu)見圖 16。圖 15A 給出了一個(gè)神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果(紅線)??偟膩碚f,該模型在解釋物理粘度方面的表現(xiàn)與人類觀察者大致相同(R^2=0.73,F(xiàn)(1,158)=437,P<0.001)。重要的是,該網(wǎng)絡(luò)能很好地預(yù)測不同場景下粘度感知的差異。例如,像人類一樣,該網(wǎng)絡(luò)在場景 5 中表現(xiàn)良好,而在場景 4 中則表現(xiàn)不佳。因此,該模型正確地預(yù)測了人類感知的成功和失敗。事實(shí)上,網(wǎng)絡(luò)的預(yù)測和人類的平均判斷之間的 RMSE 只有 1.50 個(gè)粘度單位(圖 15B)。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 16. 慢速融合網(wǎng)絡(luò)結(jié)構(gòu)。輸入包括一個(gè) 20 幀的 64×64×3 圖像的動(dòng)畫。包括三個(gè)連續(xù)的卷積階段,所有神經(jīng)激活都是在 ReLU 層測量的,其中的響應(yīng)被合并到 parallel layers。dropout 層在訓(xùn)練期間以 50% 的概率將輸入元素隨機(jī)設(shè)置為零。

為了更好地了解網(wǎng)絡(luò)之間的可變性,作者訓(xùn)練了 100 個(gè)相同的網(wǎng)絡(luò)實(shí)例,其中只有隨機(jī)初始化和訓(xùn)練 stimuli 的隨機(jī)順序是不同的。作者表示,本文中使用的神經(jīng)網(wǎng)絡(luò)是在誤差方面能最好地預(yù)測感知粘度的網(wǎng)絡(luò)。從圖 17 中的實(shí)驗(yàn)結(jié)果可以看出,該網(wǎng)絡(luò)的不同實(shí)例具有非常相似的性能。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 17.(A)單個(gè)觀察者的均方根誤差(藍(lán)色),單獨(dú)訓(xùn)練的 DNN 網(wǎng)絡(luò)中最終的網(wǎng)絡(luò)有一個(gè)黑色的輪廓(紅色),綠點(diǎn)顯示了基于 1000 次隨機(jī)抽樣的隨機(jī)性能的引導(dǎo)估計(jì)。如果數(shù)據(jù)點(diǎn)在圖的下半部分,則真值的誤差要大于人類的平均值或感知的粘度。(B)相同類型的圖表顯示了皮爾遜相關(guān)性(Pearson correlation)而不是 RMSE。在真值是控制變量的情況下,與人類平均值進(jìn)行部分相關(guān)。如果數(shù)據(jù)點(diǎn)在圖的下半部分,則與真值的相關(guān)性大于人類平均值或感知粘度的相關(guān)性。(C)與 B 相同的圖,只有部分相關(guān),其中對于物理真值,人類的平均值是一個(gè)顯示獨(dú)立相關(guān)性的控制變量。

粘度估計(jì)任務(wù)是非常具有挑戰(zhàn)性的,盡管如此,神經(jīng)網(wǎng)絡(luò)仍然能夠捕獲人類判斷的一些核心特征的空間和時(shí)間圖像信息。有趣的是,進(jìn)一步的訓(xùn)練實(shí)際上降低了網(wǎng)絡(luò)預(yù)測人類感知粘度的能力(圖 18)。在早期訓(xùn)練階段的 epoch 30 左右是一個(gè)關(guān)鍵時(shí)刻,之后過擬合開始增加(即藍(lán)色曲線與綠色曲線分離)。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 18. 在 26 個(gè)單獨(dú)訓(xùn)練的網(wǎng)絡(luò)中,隨著訓(xùn)練時(shí)間的增加(X 軸),展示平均訓(xùn)練和驗(yàn)證誤差的變化(Y 軸)。本研究中使用的 100 個(gè)網(wǎng)絡(luò)只訓(xùn)練了 30 個(gè) epochs,因?yàn)殡S著訓(xùn)練的繼續(xù),感知的粘度預(yù)測誤差會(huì)增加。

由上述分析,作者表示本文開發(fā)了一個(gè)圖像可計(jì)算模型,實(shí)現(xiàn)了在一個(gè)具有挑戰(zhàn)性的材料感知任務(wù)中預(yù)測人類的感知。特別是,開發(fā)這種模型的一種方法是用數(shù)萬部影片訓(xùn)練神經(jīng)網(wǎng)絡(luò)來估計(jì) ground-truth 物理粘度,同時(shí)通過貝葉斯優(yōu)化來優(yōu)化網(wǎng)絡(luò)的超參數(shù),使預(yù)測 800 個(gè)實(shí)驗(yàn) stimuli 物的感知粘度的誤差最小。此外,作者發(fā)現(xiàn),通過相對較短的 30 個(gè) epochs 的訓(xùn)練即可獲得很好的訓(xùn)練結(jié)果,此后進(jìn)一步的訓(xùn)練則會(huì)降低性能。作者表示,這一發(fā)現(xiàn)可以幫助克服 “只有擁有足夠的標(biāo)記數(shù)據(jù)才能訓(xùn)練模型” 的挑戰(zhàn),并允許我們測試特定的學(xué)習(xí)目標(biāo)和訓(xùn)練庫在人類表現(xiàn)中的作用。

4.3 神經(jīng)活動(dòng)

在確定這些網(wǎng)絡(luò)能夠?yàn)槿祟惖母兄袛嗵峁┝艘粋€(gè)很好的模型之后,作者接下來研究它們的內(nèi)部運(yùn)作方式。具體來說,為了更好地了解網(wǎng)絡(luò)所進(jìn)行的計(jì)算,作者對單元級(unit-level)和層級(layer-level)的激活進(jìn)行了表征相似性分析(Representational

Similarity Analysis,RSA),并進(jìn)行了網(wǎng)絡(luò)間激活的比較(Centred Kernel Alignment,CKA)。

為了得到與網(wǎng)絡(luò)反應(yīng)的詳細(xì)情況相關(guān)的信息(類似于單細(xì)胞電生理學(xué))作者在單個(gè)單元的水平上進(jìn)行了 RSA,映射出網(wǎng)絡(luò)中的每個(gè)單元如何代表所有 800 個(gè)實(shí)驗(yàn) stimuli 之間的關(guān)系,并將這些與基于圖像和高級預(yù)測器進(jìn)行比較(圖 19A)。具體來說,對于 800 個(gè) stimuli 中的每一個(gè) stimuli,作者從網(wǎng)絡(luò)中收集單個(gè)單元的神經(jīng)激活模式;從每個(gè)影片中計(jì)算出的圖像特征值;以及與每個(gè) stimuli 相關(guān)的高級特征(例如,感知的粘度、場景標(biāo)簽,圖 19B)。計(jì)算 800 個(gè) stimuli 中的每一個(gè)與所有其它 stimuli 之間的差異,并存儲在一個(gè)表征差異矩陣(Representational Dissimilarity Matrix,RDM;圖 19C)中。然后,我們衡量每個(gè)圖像特征的 RDM 與來自網(wǎng)絡(luò)中特定單元的 RDM 之間的關(guān)聯(lián)程度。對于卷積層中的每個(gè)單元,在 18 維的預(yù)測器空間中都有一個(gè)對應(yīng)的位置。圖 19D 顯示了四個(gè)示例單元的 18 個(gè)預(yù)測器的一個(gè)子集,以及預(yù)測器的 RDM 和一個(gè)單元的激活 RDM 之間的相關(guān)性。為了更清楚地了解單元的具體功能,我們將最小和最大限度地激活單元的 stimuli 可視化展示(如圖 19E)。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 19.(A) 單元級分析的 RSA 工作流程。(B) 兩個(gè) stimuli 與所產(chǎn)生的圖像度量輸出的示例。重影效應(yīng)(the ghosting effect)顯示了隨時(shí)間變化的運(yùn)動(dòng)。多特征指標(biāo),如運(yùn)動(dòng)能量和 GIST,失去了空間結(jié)構(gòu)。(C)與 B 相同的圖像指標(biāo)的 RDM 實(shí)例。每行 / 列代表一個(gè) stimuli,顏色表示每對 stimuli 之間在相應(yīng)圖像指標(biāo)方面的距離。每個(gè) RDM 都與單個(gè)單元的激活 RDM 相關(guān),在本例中是 Unit237。(D) 最接近四個(gè)群組中心的單元的 RSA 相關(guān)性的選擇。整個(gè)數(shù)據(jù)庫中的兩個(gè) stimuli 為 D 的單元?jiǎng)?chuàng)造了最小和最大的激活反應(yīng)。

為進(jìn)一步了解驅(qū)動(dòng)單個(gè)單元活動(dòng)的因素,作者應(yīng)用激活最大化來可視化每個(gè)單元的響應(yīng)函數(shù)(圖 20)。慢速融合結(jié)構(gòu)的平行通路(parallel pathways)允許每條通路捕獲特定時(shí)間的特征。這種關(guān)于時(shí)間和空間信息的自由的編碼方式,加上較小的內(nèi)核,產(chǎn)生的可視化結(jié)果往往是抽象的和難以解釋的。第 1 層和第 2 層有不同的時(shí)間長度,可部分訪問完整的圖像序列(即 L1=8 幀,L2=12 幀,L3 和 L4=20 幀的完整序列)。根據(jù)視覺檢查,我們發(fā)現(xiàn)第一層主要包含不同時(shí)間頻率和方向的簡單運(yùn)動(dòng)相關(guān)特征。顏色起了一些作用,不同程度的亮度也被編碼。第二層的特征編碼了一系列具有時(shí)間和顏色變化的紋理,包括具有不同方向的脈動(dòng)和流動(dòng)的空間 - 時(shí)間紋理。在第 3 層,特征包括不同空間和時(shí)間位置的強(qiáng)烈對比的紋理。然而,反應(yīng)變得越來越抽象,很難想象這樣的單元是真正預(yù)測粘度的,這也表明了表征是高度分布的(即依賴許多單元的群體活動(dòng),而不是特定粘度或流動(dòng)模式的 "祖母細(xì)胞(grandmother cells)")。全連接的第 4 層的視覺效果主要描述了具有時(shí)間上重復(fù)出現(xiàn)的顏色模式的噪聲斑塊,這些顏色模式在各單元之間是同步的。這種同步性也發(fā)生在不同的種子圖像上,表明這些顏色的敏感性在第 4 層的各個(gè)單元中都有類似的編碼。針對這一現(xiàn)象,作者提出了一個(gè)問題:時(shí)間上的顏色序列是否可能是網(wǎng)絡(luò)功能的一個(gè)重要線索?我們都知道,對于人類來說粘度感知在很大程度上與顏色無關(guān)。不過,繼續(xù)實(shí)驗(yàn)我們發(fā)現(xiàn),當(dāng)我們使用灰度 stimuli 時(shí),網(wǎng)絡(luò)的預(yù)測誤差只增加了 7%。這表明顏色只為粘度估計(jì)提供了有限的信息。因此,作者表示,第 4 層各單元的顏色敏感性的同步時(shí)間波動(dòng)仍然難以解釋。

動(dòng)物與人類的關(guān)鍵學(xué)習(xí)期,深度神經(jīng)網(wǎng)絡(luò)也有

圖 20. 每個(gè)層的激活最大化結(jié)果的靜態(tài)快照。全連接層 4(FC4)有 4096 個(gè)單元,隨機(jī)挑選了 100 個(gè)單元用于此圖。

最后,聚焦到我們這篇文章討論的深度學(xué)習(xí)中的關(guān)鍵學(xué)習(xí)期問題,本文網(wǎng)絡(luò)只訓(xùn)練了 30 個(gè) epochs,這是一個(gè)相對較短的時(shí)間。作者發(fā)現(xiàn),在第 30 個(gè) epoch 之后,感知到的粘度預(yù)測結(jié)果越來越差,網(wǎng)絡(luò)開始過擬合。在第 30 個(gè) epoch 后,帶有物理粘度標(biāo)簽的訓(xùn)練誤差和帶有物理粘度標(biāo)簽的驗(yàn)證誤差之間的差異越來越大。

作者討論了這一發(fā)現(xiàn)的原因和意義。作者首先猜測,人類的表現(xiàn)與訓(xùn)練的關(guān)系是呈 U 型近似的。不過,作者說這可能只是本文所用的訓(xùn)練庫上展示出來的一個(gè)假象。這里考慮的模型完全是在計(jì)算機(jī)模擬的液體中訓(xùn)練的,雖然在本文給出的模擬環(huán)境中成功的模擬了人類的學(xué)習(xí)能力,但是在更多的、更大的或自然的訓(xùn)練數(shù)據(jù)中,可能會(huì)隨著訓(xùn)練的持續(xù)反而提高對人類性能的近似能力(即不會(huì)觀察到對人類性能的 U 形近似),也即與本文提出的關(guān)鍵學(xué)習(xí)期并不吻合。

作者也提出了另一種可能性,即我們這篇文章討論的 “關(guān)鍵學(xué)習(xí)期” 的存在。人類觀察者使用的線索是那些網(wǎng)絡(luò)也傾向于首先學(xué)習(xí)的線索。有可能這些線索是數(shù)據(jù)庫中最容易辨別或最穩(wěn)健的線索。隨著訓(xùn)練的繼續(xù),網(wǎng)絡(luò)在物理粘度估計(jì)目標(biāo)方面繼續(xù)改進(jìn),可能是通過學(xué)習(xí)數(shù)據(jù)庫中特有的更微妙的線索來實(shí)現(xiàn),而人類視覺系統(tǒng)根本無法辨別或?qū)@些線索不太敏感。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的早期階段的其它研究也發(fā)現(xiàn),關(guān)鍵的學(xué)習(xí)期與生物網(wǎng)絡(luò)相似[1],有證據(jù)表明,在訓(xùn)練早期階段,神經(jīng)連接大致上處于記憶形成階段,此后神經(jīng)可塑性下降,只有通過重組或遺忘較少的預(yù)測性權(quán)重而發(fā)生小得多的變化。這使得早期階段(<10 epoch)成為一個(gè)特別關(guān)鍵的時(shí)期,這一時(shí)期完成對數(shù)據(jù)庫中最主要的信息的編碼。在本文的案例中,這一時(shí)期的定義是感知到的粘度誤差下降特別大。這與我們的猜測一致,即在早期訓(xùn)練中編碼的最明顯的線索與人類使用的感知粘度線索一致。

5 小結(jié)

本文討論了深度學(xué)習(xí)中的關(guān)鍵學(xué)習(xí)期問題,即在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,早期階段與其它階段具有不同的 “特點(diǎn)”。第 2-4 篇文章從不同的角度證實(shí)了 DNNs 中可能確實(shí)存在“關(guān)鍵學(xué)習(xí)期”,當(dāng)然這種“關(guān)鍵學(xué)習(xí)期” 可能僅僅展示為線性 / 非線性性能的不同,也可能展示為模型學(xué)習(xí)能力的不同。

在我們參考引用的文章中,給出了大量的、角度不同的實(shí)驗(yàn)結(jié)果展示深度神經(jīng)網(wǎng)絡(luò)中 “關(guān)鍵學(xué)習(xí)期” 的存在。不過,幾位作者在文中都表示了,確實(shí)沒有確切的、可推廣的理論分析以支撐普遍的關(guān)鍵學(xué)習(xí)期存在且發(fā)揮作用的說法。甚至如第四篇文章作者猜測,模型的性能有可能最終展示為 U 型,即,在大量的、自然的、高質(zhì)量的數(shù)據(jù)存在的情況下,是否有可能在不斷訓(xùn)練的后期性能反而提升?而目前看到的 “關(guān)鍵學(xué)習(xí)期” 可能還是訓(xùn)練數(shù)據(jù)本身的質(zhì)量受限所造成的?

深度學(xué)習(xí)中的關(guān)鍵學(xué)習(xí)期問題還是一個(gè)開放性的問題,我們也會(huì)在以后的文章中關(guān)注這一領(lǐng)域的研究進(jìn)展,希望能夠在實(shí)現(xiàn)模型性能提升的同時(shí),慢慢地發(fā)現(xiàn)和了解模型的內(nèi)在的特性。

本文參考引用的文獻(xiàn)

[1] Alessandro Achille, Matteo Rovere, Stefano Soatto, CRITICAL LEARNING PERIODS IN DEEP NETWORKS, ICLR 2019., https://arxiv.org/abs/1711.08856

[2] Takao K Hensch. Critical period regulation. Annual review of neuroscience, 27:549–579, 2004.

[3] van Assen JJR, Nishida S, Fleming RW (2020) Visual perception of liquids: Insights from deep neural networks. PLoS Comput Biol 16(8): e1008018. https://doi.org/10.1371/journal.pcbi.1008018

[4] Hu W , Xiao L , Adlam B , et al. The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks. arXiv e-prints, 2020. https://arxiv.org/abs/2006.14599

[5] Jastrzebski S , Szymczak M , Fort S , et al. The Break-Even Point on Optimization Trajectories of Deep Neural Networks. ICLR 2020.https://arxiv.org/abs/2002.09572

[6] David Taylor et al. Critical period for deprivation amblyopia in children. Transactions of the ophthalmological societies of the United Kingdom, 99(3):432–439, 1979.

[7] Donald E Mitchell. The extent of visual recovery from early monocular or binocular visual deprivation in kittens. The Journal of physiology, 395(1):639–660, 1988.

[8] Pasko Rakic, Jean-Pierre Bourgeois, Maryellen F Eckenhoff, Nada Zecevic, and Patricia S Goldman-Rakic. Concurrent overproduction of synapses in diverse regions of the primate cerebral cortex. Science, 232(4747):232–235, 1986.

[9] Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.

[10] Gr´egoire Montavon, Mikio L Braun, and Klaus-Robert M¨uller. Kernel analysis of deep networks. Journal of Machine Learning Research, 12(Sep):2563–2581, 2011.

[11] Eric I Knudsen. Sensitive periods in the development of the brain and behavior. Journal of cognitive neuroscience, 16(8):1412–1425, 2004.

[12] Dumitru Erhan, Yoshua Bengio, Aaron Courville, Pierre-Antoine Manzagol, Pascal Vincent, and Samy Bengio. Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, 11(Feb):625–660, 2010.

[13] Greg Yang, Jeffrey Pennington, Vinay Rao, Jascha Sohl-Dickstein, and Samuel S. Schoenholz. A mean field theory of batch normalization. CoRR, abs/1902.08129, 2019.

[14] Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L. Large-scale video classification with convolutional neural networks. In: Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014. p. 1725–1732.

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2020-10-06 19:05:09

神經(jīng)網(wǎng)絡(luò)人類思維人工智能

2023-04-19 10:17:35

機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2021-03-29 09:02:24

深度學(xué)習(xí)預(yù)測間隔

2016-12-27 14:24:57

課程筆記神經(jīng)網(wǎng)絡(luò)

2017-06-25 16:04:56

神經(jīng)網(wǎng)絡(luò)人類視覺信號

2017-08-11 17:44:31

人工智能神經(jīng)網(wǎng)絡(luò)神經(jīng)元

2020-08-06 10:11:13

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法

2017-03-20 15:23:46

人工智能連續(xù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2023-02-28 08:00:00

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2017-03-07 13:55:30

自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2017-05-23 18:54:18

深度學(xué)習(xí)人工智能

2022-10-17 15:43:14

深度學(xué)習(xí)回歸模型函數(shù)

2023-09-03 14:17:56

深度學(xué)習(xí)人工智能

2018-04-08 11:20:43

深度學(xué)習(xí)

2017-12-22 08:47:41

神經(jīng)網(wǎng)絡(luò)AND運(yùn)算

2022-10-19 16:08:07

人工智能深度學(xué)習(xí)

2018-03-22 13:34:59

TensorFlow神經(jīng)網(wǎng)絡(luò)

2019-11-06 17:00:51

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2020-09-18 17:52:10

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2017-03-22 11:59:40

深度神經(jīng)網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號