自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

卷積神經(jīng)網(wǎng)絡(luò)十五問:CNN與生物視覺系統(tǒng)的研究探索

開發(fā) 開發(fā)工具 深度學(xué)習(xí)
近日,哥倫比亞大學(xué)神經(jīng)生物學(xué)與行為學(xué)博士 Grace Lindsay 在其博客上發(fā)文,通過問答的形式討論了 CNN 和生物視覺系統(tǒng)之間的區(qū)別和聯(lián)系。

CNN 的發(fā)展早期從大腦神經(jīng)網(wǎng)絡(luò)取得了很多靈感,現(xiàn)在相關(guān)研究中的一些思路和方法也在反過來幫助神經(jīng)科學(xué)方面的研究,如DeepMind近期用AI探索大腦導(dǎo)航和多巴胺功能的工作。近日,哥倫比亞大學(xué)神經(jīng)生物學(xué)與行為學(xué)博士 Grace Lindsay 在其博客上發(fā)文,通過問答的形式討論了 CNN 和生物視覺系統(tǒng)之間的區(qū)別和聯(lián)系。

和我近期的大多數(shù)博文一樣,我寫這篇文章的起因是近期一個 Twitter 討論,具體是關(guān)于如何將深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的組件與大腦聯(lián)系起來。但是,這里的大多數(shù)思考都是我以前考慮并討論過的。當(dāng)有人使用 CNN 作為視覺系統(tǒng)的模型時,我通常(在研究討論和其它對話上)必須鼓勵和支持這一選擇。部分原因是它們(在某種程度上)是神經(jīng)科學(xué)領(lǐng)域相對較新的方法,還有部分原因是人們對它們持懷疑態(tài)度。計算模型一般在神經(jīng)科學(xué)領(lǐng)域發(fā)展較慢,很大部分(但并非全部)是來自不使用或構(gòu)建計算模型的人;它們通常被描述成不切實際或沒有用處。在對技術(shù)宅的普遍反感和深度學(xué)習(xí)/人工智能(會值多少錢?)的過度炒作氛圍中,不管你得到了什么模型,某些人都會厭惡它。

所以在這里我希望使用一個簡單(但很長)的問答形式來相對合理且準確地闡釋使用 CNN 建模生物視覺系統(tǒng)的情況。這個子領(lǐng)域很大程度上仍處于發(fā)展階段,所以文中不會有太多確定無疑的事實,但我會盡可能引述。此外,這些顯然是我個人對這些問題的答案(以及我個人提出的問題),所以請相信其中值得相信的。

我重點關(guān)注的是作為視覺系統(tǒng)的模型的 CNN——而不是更寬泛的問題,比如「深度學(xué)習(xí)能否幫助我們理解大腦?」——因為我相信這一領(lǐng)域是比較起來最合理、信息最多、最富成效的(而且也是我研究的領(lǐng)域)。但這種通用流程(根據(jù)生物學(xué)信息指定一個架構(gòu)然后在相關(guān)數(shù)據(jù)上訓(xùn)練)也可用于幫助理解和復(fù)現(xiàn)其它大腦區(qū)域和功能。當(dāng)然,已經(jīng)有人做過這種事了,可參閱:

https://www.frontiersin.org/articles/10.3389/fncom.2016.00094/full

(我希望機器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域的讀者都能讀懂這篇文章,但其中確實有些神經(jīng)科學(xué)詞匯沒有給出定義。)

1. CNN 是什么?

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類人工神經(jīng)網(wǎng)絡(luò)。因此,它們是由被稱為「神經(jīng)元」的單元構(gòu)成的,這些單元可根據(jù)輸入的加權(quán)和輸出一個活動水平。這個活動水平通常是輸入的非線性函數(shù),通常只是一個整流線性單元(ReLU),其中當(dāng)輸入全為正時活動等于輸入,當(dāng)輸入全為非正時活動等于 0。

CNN 的獨特之處是神經(jīng)元之間的連接的構(gòu)建方式。在一個前饋神經(jīng)網(wǎng)絡(luò)中,單元會被組織成層的形式,給定層的單元只會獲得來自其下面一層的輸入(即不會有來自同一層或后續(xù)層的其它單元的輸入,大多數(shù)情況下也不會有來自之前超過 1 層的輸入)。CNN 是前饋網(wǎng)絡(luò)。但不同于標準的單純的前饋網(wǎng)絡(luò),CNN 中的單元具有一種空間排列。在每一層,單元都會被組織成 2D 網(wǎng)格形式,這被稱為特征圖(feature map)。每一個特征圖都是在其下面一層上執(zhí)行卷積所得的結(jié)果(CNN 也因此得名)。這意味著在其下面一層的每個位置都應(yīng)用了同樣的卷積過濾器(權(quán)重集)。因此,在該 2D 網(wǎng)格上特定位置的單元只能收到來自其下面一層相似位置的單元的輸入。此外,輸入上附帶的權(quán)重對一個特征圖中的每個單元都是一樣的(而各個特征圖各不相同)。

在卷積(和非線性)之后,通常還會完成一些其它計算。一種可能的計算是交叉特征歸一化(盡管這種方法在現(xiàn)代的高性能 CNN 中已不再流行)。其中,特征圖中某個特定空間位置的單元的活動會除以其它特征圖中同一位置的單元活動。一種更常見的操作是池化(pooling)。其中,每個 2D 特征圖的一小個空間區(qū)域中的***活動會被用于表示該區(qū)域。這能縮減特征圖的大小。這一組操作(卷積+非線性→歸一化→池化)整體被稱為一層。一個網(wǎng)絡(luò)架構(gòu)就是由層的數(shù)量和各種相關(guān)參數(shù)(比如卷積過濾器的大小)的選擇定義的。

CNN

大多數(shù)現(xiàn)代 CNN 都有多個(至少 5)這樣的層,其中***一層會向一個全連接層饋送數(shù)據(jù)。全連接層就像是標準的前饋網(wǎng)絡(luò),其中沒有空間布局或受限的連接。通常會有 2-3 個全連接層連在一起使用,并且網(wǎng)絡(luò)的***一層執(zhí)行分類。舉個例子,如果該網(wǎng)絡(luò)執(zhí)行的是 10 類目標分類,那么***一層將會有 10 個單元,會有一個 softmax 操作應(yīng)用在它們的活動水平上以得到每個類別相關(guān)的概率。

這些網(wǎng)絡(luò)主要通過監(jiān)督學(xué)習(xí)和反向傳播訓(xùn)練。這時,提供給網(wǎng)絡(luò)的輸入是圖像及其相關(guān)類別標簽構(gòu)成的配對集。圖像像素值輸入網(wǎng)絡(luò)的***層,然后網(wǎng)絡(luò)***一層得出一個預(yù)測類別。如果這個預(yù)測得到的標簽與所提供的標簽不一致,那么就會計算梯度,確定應(yīng)該如何修改權(quán)重(即卷積過濾器中的值)以使分類正確。如此重復(fù)很多很多次(很多網(wǎng)絡(luò)都是在 ImageNet 數(shù)據(jù)庫上訓(xùn)練的,這個數(shù)據(jù)庫包含 1000 個目標類別的超過 100 萬張圖像),就能得到在留存測試圖像上有很高準確度的模型。CNN 的某些變體模型現(xiàn)在已能達到 4.94% 乃至更低的錯誤率,優(yōu)于人類水平。要得到優(yōu)良的表現(xiàn),通常需要很多訓(xùn)練「技巧」,比如智能學(xué)習(xí)率選擇和權(quán)重正則化(主要是通過 dropout,即在每個訓(xùn)練階段都有隨機一半的權(quán)重關(guān)閉)。

歷史上曾使用無監(jiān)督預(yù)訓(xùn)練來初始化權(quán)重,然后再使用監(jiān)督學(xué)習(xí)來進行改善。但是,這似乎已經(jīng)不再是優(yōu)越性能所必需的了。

神經(jīng)科學(xué)家能夠理解的深度 CNN 介紹可參閱《深度神經(jīng)網(wǎng)絡(luò):一種用于建模生物視覺和大腦信息處理的新框架》:

https://www.annualreviews.org/doi/10.1146/annurev-vision-082114-035447

2. CNN 是否曾受視覺系統(tǒng)的啟發(fā)?

是的。首先,從名稱上就能看出來,人工神經(jīng)網(wǎng)絡(luò)整體都受到了 20 世紀中期開始發(fā)展的神經(jīng)生物學(xué)的啟發(fā)。人工神經(jīng)元被設(shè)計用來模擬神經(jīng)元接收和轉(zhuǎn)換信息的基本特性。

其次,卷積網(wǎng)絡(luò)所執(zhí)行的主要功能和計算受到了某些關(guān)于視覺系統(tǒng)的早期發(fā)現(xiàn)的啟發(fā)。1962 年,Hubel 和 Wiesel 發(fā)現(xiàn)初級視覺皮層中的神經(jīng)元會響應(yīng)視覺環(huán)境中特定的簡單特征(尤其是有向的邊)。此外,他們注意到了兩種不同類型的細胞:簡單細胞(它們只在非常特定的空間位置對它們偏好的方向起***烈的響應(yīng))和復(fù)雜細胞(它們的響應(yīng)有更大的空間不變性)。他們得出結(jié)論:復(fù)雜細胞通過在來自多個簡單細胞(每個都有一個不同的偏好位置)的輸入上進行池化而實現(xiàn)了這種不變性。這兩個特征(對特定特征的選擇性以及通過前饋連接增大空間不變性)構(gòu)成了 CNN 這樣的人工視覺系統(tǒng)的基礎(chǔ)。

神經(jīng)認知機

神經(jīng)認知機(neocognitron)

CNN 的發(fā)展可以通過被稱為神經(jīng)認知機的模型直接追溯到這一發(fā)現(xiàn)。神經(jīng)認知機是福島邦彥(Kunihiko Fukushima)于 1980 年開發(fā)的,其融合了當(dāng)時有關(guān)生物視覺的知識,以期構(gòu)建出一個能夠工作的人工視覺系統(tǒng)。神經(jīng)認知機由「S 細胞」和「C 細胞」構(gòu)成,可通過無監(jiān)督學(xué)習(xí)來學(xué)習(xí)識別簡單的圖像。最早開發(fā)出 CNN 的 AI 研究者 Yann LeCun 明確表明他們的開發(fā)根基于神經(jīng)認知機,參閱:

https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

3. CNN 什么時候開始流行起來的?

縱觀整個計算機視覺史,很多研究工作都集中在人工設(shè)計要在圖像中檢測的特征上,這些設(shè)計都基于人們對圖像中最有信息的部分的看法。經(jīng)過這些人工設(shè)計的特征的過濾之后,學(xué)習(xí)只會在***的階段進行,以將特征映射到目標類別。通過監(jiān)督學(xué)習(xí)端到端訓(xùn)練的 CNN 提供了一種自動生成這些特征的方法,這是最適合這種任務(wù)的方法。

這方面最早的主要示例出現(xiàn)在 1989 年。那時候 LeCun 等人使用反向傳播訓(xùn)練了一個小型 CNN 來識別手寫數(shù)字。隨著 1999 年 MNIST 數(shù)據(jù)集的引入,CNN 的能力得到了進一步的發(fā)展和驗證。盡管取得了這樣的成功,但由于研究界認為這種訓(xùn)練很困難,這種方法失勢了,非神經(jīng)網(wǎng)絡(luò)方法(比如支持向量機)迎來了發(fā)展勢頭。

下一個大事件直到 2012 年才出現(xiàn),那一年完全通過監(jiān)督方法訓(xùn)練的一個深度 CNN 贏得了當(dāng)年的 ImageNet 競賽。那時候,1000 類目標分類的優(yōu)良錯誤率大約是 25%,但 AlexNet 實現(xiàn)了 16% 的錯誤率,這是一個巨大進步。這一挑戰(zhàn)賽之前的獲勝方法依賴于更古老的技術(shù),比如淺網(wǎng)絡(luò)和 SVM。CNN 的這一進展得益于使用了某些全新的技術(shù),比如 ReLU(而不是 sigmoid 或雙曲正切非線性)、將網(wǎng)絡(luò)分配在 2 個 GPU 上執(zhí)行和 dropout 正則化。但這并不是無中生有突如其來的,神經(jīng)網(wǎng)絡(luò)的復(fù)興早在 2006 年就初見端倪了。但是,這些網(wǎng)絡(luò)大都使用了無監(jiān)督預(yù)訓(xùn)練。2012 年的這一進展絕對算得上是現(xiàn)代深度學(xué)習(xí)大爆發(fā)的一個重磅時刻。

參閱《用于圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò):全面回顧》:

https://www.mitpressjournals.org/doi/abs/10.1162/neco_a_00990

4. CNN 與視覺系統(tǒng)的當(dāng)前聯(lián)系是何時出現(xiàn)的?

當(dāng)今神經(jīng)科學(xué)領(lǐng)域?qū)?CNN 的熱情喧囂很多都源自 2014 年左右發(fā)表的少數(shù)研究。這些研究明確比較了在不同的系統(tǒng)看到同樣的圖像時,從人類和獼猴身上記錄到的神經(jīng)活動與 CNN 中的人工活動。

首先是 Yamins et al. (2014)。這一研究探索了很多不同的 CNN 架構(gòu),以確定是什么導(dǎo)致了預(yù)測猴子 IT 細胞的響應(yīng)的優(yōu)良能力。對于一個給定的網(wǎng)絡(luò),數(shù)據(jù)的一個子集被用于訓(xùn)練能將人工網(wǎng)絡(luò)中的活動映射到單個 IT 細胞活動的線性回歸模型。在留存數(shù)據(jù)上的預(yù)測能力被用于評估該模型。另外還有使用另外一種方法:表征相似度分析(representational similarity analysis)。這一方法不涉及對神經(jīng)活動的直接預(yù)測,而是會問兩個系統(tǒng)是否能以相同的方式表征信息。這是通過為每個系統(tǒng)構(gòu)建一個矩陣實現(xiàn)的,其中的值代表對兩個不同輸入的響應(yīng)的相似度。如果這些矩陣在不同的系統(tǒng)上看起來一樣,那么它們表征信息的方式也是類似的。

不同系統(tǒng)的表征相異度矩陣

不同系統(tǒng)的表征相異度矩陣(Representational Dissimilarity Matrix)

通過這兩種措施,為目標識別優(yōu)化過的 CNN 的表現(xiàn)超越了其它方法。此外,該網(wǎng)絡(luò)的第 3 層能更好地預(yù)測 V4 細胞的活動,而第 4 層(***一層)能更好地預(yù)測 IT 細胞的活動。這表明模型層與腦區(qū)之間存在對應(yīng)關(guān)系。

另一個發(fā)現(xiàn)是在目標識別上表現(xiàn)更好的網(wǎng)絡(luò)在獲取 IT 活動上也表現(xiàn)更好,而無需直接在 IT 數(shù)據(jù)上進行優(yōu)化。這一趨勢在更大更好的網(wǎng)絡(luò)上也能大致保持,直到遇到某些限制(見第 11 問)。

CNN 的后面幾層有與人類 IT 更相似的表征

CNN 的后面幾層有與人類 IT 更相似的表征

另一篇論文 Khaligh-Razavi and Kriegeskorte (2014) 也使用了表征相似度分析,其將 37 種不同的模型與人類和猴子 IT 進行了比較。他們也發(fā)現(xiàn)更擅長目標識別的模型也能更好地匹配 IT 表征。此外,通過監(jiān)督學(xué)習(xí)訓(xùn)練的深度 CNN(AlexNet)是表現(xiàn)***的,也是最匹配的,其中該網(wǎng)絡(luò)的后面基層的表現(xiàn)比前面幾層更好。

5.  神經(jīng)科學(xué)家過去是否使用過類似 CNN 的方法?

是的!第 2 問中提到的神經(jīng)認知機受到了 Hubel 和 Wiesel 的發(fā)現(xiàn)的啟發(fā),并且又轉(zhuǎn)而啟發(fā)了現(xiàn)代 CNN,但它也還催生了一些視覺神經(jīng)科學(xué)領(lǐng)域的研究分支,其中最顯眼的是 Tomaso Poggio、Thomas Serre、Maximilian Riesenhuber 和 Jim DiCarlo 的實驗室的研究?;诰矸e的堆疊和***池化的模型被用于解釋視覺系統(tǒng)的各種性質(zhì)。這些模型通常使用了不同于當(dāng)前 CNN 的非線性和特征的無監(jiān)督訓(xùn)練(在當(dāng)時的機器學(xué)習(xí)領(lǐng)域也很流行),而且它們沒有達到現(xiàn)代 CNN 的規(guī)模。

視覺神經(jīng)科學(xué)家和計算機視覺研究者所選擇的道路有各種不同的重合和分岔,因為他們所追求的目標不同但又相關(guān)。但總體而言,CNN 可以很好地被視為視覺神經(jīng)科學(xué)家的建模道路的延續(xù)。來自深度學(xué)習(xí)領(lǐng)域的貢獻涉及到計算能力和訓(xùn)練方法(以及數(shù)據(jù)),讓這些模型最終發(fā)揮了作用。

6. 我們有什么證據(jù)說 CNN 的工作方式「類似大腦」?

卷積神經(jīng)網(wǎng)絡(luò)有三個主要特點能支持將它們用作生物視覺的模型:(1)它們可以以接近人類的水平執(zhí)行視覺任務(wù),(2)它們的工作架構(gòu)復(fù)制了有關(guān)視覺系統(tǒng)的已知基本功能,(3)它們產(chǎn)生的活動能與視覺系統(tǒng)中不同區(qū)域的活動直接關(guān)聯(lián)。

視覺層次結(jié)構(gòu)的特征

視覺層次結(jié)構(gòu)的特征

首先,究其根本和架構(gòu),它們有視覺層次結(jié)構(gòu)的兩個重要組件。首先,單個單元感受野的大小會隨網(wǎng)絡(luò)中層的遞進而增大,就像 V1 到 IT 中感受野的增大一樣。第二,隨著層的遞進,神經(jīng)元所響應(yīng)的圖像特征也越來越復(fù)雜,就像調(diào)諧過程從 V1 中的簡單線條到 IT 中的目標部分一樣。這種特征復(fù)雜度的增長可直接通過可用于 CNN 的可視化技術(shù)看到。

網(wǎng)絡(luò)在不同層所學(xué)習(xí)的特征的可視化

網(wǎng)絡(luò)在不同層所學(xué)習(xí)的特征的可視化

再更深入地看一下第(3)點,在原來的 2014 年的研究(Q4)之后的很多研究都在進一步確定 CNN 中的活動與視覺系統(tǒng)之間的關(guān)系。這些都表明了同樣的一般性發(fā)現(xiàn):在觀看同樣的圖像時,人工網(wǎng)絡(luò)中的活動可與視覺系統(tǒng)的活動關(guān)聯(lián)起來。此外,人工網(wǎng)絡(luò)中后面的層能對應(yīng)于腹視流(ventral visual stream)中更后的區(qū)域(或使用 MEG 等方法時所得響應(yīng)中更后的時間點)。

很多不同的方法和數(shù)據(jù)集都可被用于制作這些點,比如下列研究:Seibert et al. (2016)、Cadena et al. (2017)、Cichy et al. (2016)、Wen et al. (2018)、Eickenberg et al. (2017)、Güçlü and van Gerven (2015) 和 Seeliger et al. (2017)。

不同 CNN 層與腦區(qū)的表征的對應(yīng)

不同 CNN 層與腦區(qū)的表征的對應(yīng)(來自 Cichy et al.)

這些研究關(guān)注的重點一般是在簡單呈現(xiàn)不同目標類別的自然圖像時所得到的初始神經(jīng)響應(yīng)。因此,這些 CNN 實現(xiàn)的是所謂的「核心目標識別」或「快速鑒別給定視覺目標與其它所有目標的能力,即使出現(xiàn)了身份保持不變的變換(位置、尺寸、視角和視覺背景改變)」。一般而言,標準的前饋 CNN 能***地得到視覺響應(yīng)的早期組件,這說明它們復(fù)現(xiàn)了從視網(wǎng)膜到更高的皮層區(qū)的初始前饋信息掃視。

視覺系統(tǒng)創(chuàng)建的一系列神經(jīng)表征可以被 CNN 復(fù)現(xiàn),這一事實說明它們執(zhí)行了一樣的「解開(untangling)過程。也就是說,這兩種系統(tǒng)都會取圖像/視網(wǎng)膜層面上不可分的不同目標類別的表征,并且創(chuàng)建允許線性可分的表征。

除了比較活動,我們還可以更深入(1),即網(wǎng)絡(luò)的表現(xiàn)。這些網(wǎng)絡(luò)與人類和動物的行為之間的詳細比較可以進一步被用于驗證它們作為模型的使用情況以及確定仍然需要進展的領(lǐng)域。來自這類研究的發(fā)現(xiàn)已經(jīng)表明這些網(wǎng)絡(luò)可以比之前來自多個領(lǐng)域的模型更好地取得人類分類行為的模式(甚至能預(yù)測/操作它),但在某些特定領(lǐng)域這些網(wǎng)絡(luò)表現(xiàn)很差,比如圖像中出現(xiàn)噪聲或圖像差別很小但準確度下降很多的情況。

這種行為效應(yīng)的研究包括:Rajalingham et al. (2018)、Kheradpishesh et al. (2015)、Elsayed et al. (2018)、Jozwik et al. (2017)、Kubilius et al. (2016)、Dodge and Karam (2017)、Berardino et al. (2017) 和 Geirhos et al. (2017)。

所有這些是否滿足優(yōu)秀大腦模型的標準?我們***看看視覺領(lǐng)域的人說他們希望從視覺系統(tǒng)模型中得到什么:

理解大腦的目標識別解決方案的進展需要構(gòu)建人工識別系統(tǒng)(通常會用到生物學(xué)啟發(fā),比如 [2-6]),其最終目的是模擬我們自己的視覺能力。這樣的計算方法是至關(guān)重要的,因為它們能提供可通過實驗檢驗的假設(shè),也因為有效識別系統(tǒng)的實例化是理解目標識別上一種特別有效的成功度量。

——Pinto et al., 2007

從這個角度看,很顯然 CNN 并不是視覺科學(xué)領(lǐng)域目標的轉(zhuǎn)移,而是實現(xiàn)其目標的一種方法。

7. 有其它能更好預(yù)測視覺區(qū)域的行為的模型嗎?

總體而言,沒有。已經(jīng)有一些研究直接比較了 CNN 與之前的視覺系統(tǒng)模型(比如 HMAX)的獲取神經(jīng)活動的能力。CNN 出類拔萃。這樣的研究包括:Yamins et al. (2014)、Cichy et al. (2017) 和 Cadieu et al. (2014)。

8. CNN 是視覺系統(tǒng)的機制模型還是描述模型?

機制模型的合理定義是該模型的內(nèi)部部分可以映射到系統(tǒng)中相關(guān)的內(nèi)部部分。而描述模型則是僅匹配他們的整體輸入-輸出關(guān)系。所以視覺系統(tǒng)的描述模型可能是一個輸入圖像并且能輸出與人類給出的標簽一致的目標標簽的模型,但可能其工作方式與大腦并沒有明顯的聯(lián)系。但是,如上所述,CNN 的層可以映射到大腦的區(qū)域。因此,在 CNN 執(zhí)行目標識別時,它是腹側(cè)系統(tǒng)所執(zhí)行的表征變換的機制模型。

整體而言,如果要讓 CNN 是機制模型,我們不需要讓所有組件都有對應(yīng)機制。舉個例子,傳統(tǒng)的大腦回路模型中基于放電率(rate-based)的神經(jīng)元的使用?;诜烹娐实纳窠?jīng)模型只是一個將輸入強度映射到輸出放電率的簡單函數(shù)。因此,它們只是神經(jīng)元的描述性模型:模型中沒有內(nèi)部組件與導(dǎo)致放電率的神經(jīng)過程有關(guān)(Hodgkin-Huxley 神經(jīng)元等更細化的生物物理模型是機制的)。然而,我們?nèi)匀豢梢允褂没诜烹娐实纳窠?jīng)元來構(gòu)建回路的機制模型(我喜歡的一個案例:https://www.ncbi.nlm.nih.gov/pubmed/25611511)。所有機制模型都依賴描述模型作為它們的基本單元(否則我們都需要深入到量子機制來構(gòu)建模型了)。

所以 CNN 的組件(即層——由卷積、非線性、可能的歸一化和池化構(gòu)成)是腦區(qū)的機制模型還是描述模型?這個問題更難以回答。盡管這些層是由人工神經(jīng)元構(gòu)成的,其可以合理地映射到真實的神經(jīng)元(或神經(jīng)元群),但很多計算的實現(xiàn)都不是生物式的。比如,歸一化(在使用它的網(wǎng)絡(luò)中)是使用高度參數(shù)化的除法方程實現(xiàn)的。我們相信這些計算可以使用擬真的神經(jīng)機制實現(xiàn)(見上面引用的研究),但目前的模型并沒有這樣使用(不過我和其他一些人正在研究這個問題……見第 12 問)。

9. 我們應(yīng)該如何解讀 CNN 的不同部分與大腦的關(guān)系?

對于習(xí)慣了處理細胞層面的事物的神經(jīng)科學(xué)家而言,可能會覺得 CNN 這樣的模型的抽象價值大過實用價值(盡管研究抽象多區(qū)域建模的認知科學(xué)家可能會更熟悉它們)。

將 CNN 與大腦的區(qū)域和處理關(guān)聯(lián)起來

將 CNN 與大腦的區(qū)域和處理關(guān)聯(lián)起來

但就算沒有確切的生物學(xué)細節(jié),我們還是可以將 CNN 的組件映射到視覺系統(tǒng)的組件。首先,CNN 的輸入通常是三維(RGB)的像素值,它們已經(jīng)過了一些歸一化或變白處理,大致可以對應(yīng)視網(wǎng)膜和背外側(cè)膝狀體核所執(zhí)行的計算。卷積所創(chuàng)造的特征圖有一個空間布局,類似于在視覺區(qū)域中找到的視網(wǎng)膜拓撲映射(retinotopy),這意味著每個人工神經(jīng)元都有一個空間受限的感受野。與每個特征圖相關(guān)的卷積過濾器確定了該特征圖中的神經(jīng)元的特征調(diào)制。單個人工神經(jīng)元并不是要直接映射到單個真實神經(jīng)元;將單個單元想成是皮質(zhì)柱(cortical column)可能會更合理一點。

CNN 的哪些層對應(yīng)于哪些腦區(qū)?早期使用僅包含少量層的模型的研究為一層映射一個腦區(qū)提供了支持。比如,在 Yamins et al. (2014) 中,***的卷積層能***地預(yù)測 IT 活動,而倒數(shù)第二層能***地預(yù)測 V4。但是,其確切的關(guān)系將取決于所使用的模型(更深度的模型允許每個腦區(qū)有更多層)。

在卷積網(wǎng)絡(luò)末尾的全連接層有更復(fù)雜的解讀方式。它們與分類器的最終決策的緊密關(guān)系以及它們不再有視網(wǎng)膜拓撲的事實說明它們更像是前額皮質(zhì)。但它們在預(yù)測 IT 活動上也可能表現(xiàn)很好。

10. 視覺系統(tǒng)有哪些 CNN 不具備的東西?

有很多。尖峰、掃視(saccade)、分開的激勵和抑制細胞、動態(tài)、反饋連接、跳過某些層的前饋連接、振蕩、樹突、皮質(zhì)層、神經(jīng)調(diào)質(zhì)、中央凹、橫向連接、不同細胞類型、雙眼視覺、適應(yīng)、噪聲以及大腦的其它細節(jié)。

當(dāng)然,還有一些特性是當(dāng)今用作模型的大多數(shù)標準 CNN 默認沒有的。但它們中很多都已經(jīng)在更新型的模型中得到了研究,比如:skip 連接、反饋連接、掃視、尖峰、橫向連接和中央凹。

所以很顯然,CNN 并不是對靈長類視覺的直接復(fù)制。還應(yīng)該清楚這并不意味著模型不合格。模型不可能是(也不應(yīng)該)是相關(guān)系統(tǒng)的完整復(fù)現(xiàn)。我們的目標是讓模型具備能解釋我們想要了解的關(guān)于視覺的信息的必要特性,所以某個特性的缺乏對不同的人來說重要性也不一樣。比如說,預(yù)測 IT 神經(jīng)元在前 100 ms 左右對圖像的平均響應(yīng)需要哪些特性?這是一個需要實證的問題。我們不能事先就說某個生物特性是必要的或沒有這個特性的模型不好。

我們可以說沒有尖峰、E-I 類型和其它實現(xiàn)特性的細節(jié)的模型比有這些細節(jié)的模型更加抽象。但抽象沒有錯。這只是意味著我們愿意把問題分成不同的層次,然后單獨解決它們。我們某天應(yīng)該能將這些不同層面的解釋組合到一起,得到在大尺度和精細尺度上復(fù)現(xiàn)大腦的復(fù)制品。但我們必須記住,不要讓***成為成功路上的敵人。

11. CNN 能做到什么視覺系統(tǒng)無法做到的事?

對我而言,這是一個更加相關(guān)的問題。使用某種非生物學(xué)的模型來繞過困難問題比使用缺乏某些特定生物特性的模型更有問題。

***個問題:卷積權(quán)重有正有負。這意味著前饋連接有激勵性的,也有抑制性的(而在大腦區(qū)域之間的大腦連接大都是激勵性的),單個的人工神經(jīng)元可以激勵也可以抑制。如果我們只把權(quán)重看作是凈效果,那么這還問題不大,這實際上也許可以通過連接抑制細胞的前饋激勵連接而執(zhí)行。

接下來:權(quán)重是共享的。這意味著特征圖中某個位置的神經(jīng)元在其輸入上會使用與同一特征圖中另一個不同神經(jīng)元完全一樣的權(quán)重。盡管方位調(diào)諧(orientation tuning)等功能在 V1 中的視網(wǎng)膜拓撲上是這個情況,但我們不相信在一個視覺空間中更偏愛垂直線的神經(jīng)元會與另一個位置更偏愛垂直線的神經(jīng)元有完全一樣的輸入權(quán)重。這里可沒有確保所有權(quán)重都相關(guān)和共享的「鬼魅般的超距作用」。因此,當(dāng)前使用的幫助訓(xùn)練這些網(wǎng)絡(luò)的權(quán)重共享應(yīng)該被更接近生物創(chuàng)建空間不變調(diào)節(jié)的方法替代。

第三:***池化怎么樣?用神經(jīng)科學(xué)的術(shù)語講,***池化操作類似于神經(jīng)元的放電率,其等于其***放電輸入的放電率。因為神經(jīng)元會匯集很多神經(jīng)元的信號,所以很難設(shè)計一個能直接做到這一點的神經(jīng)元。但池化操作是受復(fù)雜細胞的發(fā)現(xiàn)啟發(fā)的,而且最早是被用作一種平均化操作,這是神經(jīng)元可以輕松實現(xiàn)的。但事實已經(jīng)證明***池化在目標識別表現(xiàn)和擬合生物數(shù)據(jù)方面會更加成功,而且現(xiàn)在已被廣泛使用。

機器學(xué)習(xí)研究者對 CNN 的進一步發(fā)展已經(jīng)讓它們遠遠超越了視覺系統(tǒng)的范疇(因為機器學(xué)習(xí)研究者的目標只有表現(xiàn)水平本身)。某些表現(xiàn)***的 CNN 現(xiàn)在有很多在生物學(xué)角度上看起來很奇怪的特征。此外,這些更新的模型的極端深度(大約 50 層)已然降低了它們的活動與視覺系統(tǒng)的關(guān)聯(lián)。

當(dāng)然,也還存在這些網(wǎng)絡(luò)的訓(xùn)練方式的問題(通過反向傳播)。這會在第 13 問討論。

12. CNN 能做得更像人腦嗎?

我當(dāng)計算神經(jīng)科學(xué)家的一個主要原因是(沒有實驗設(shè)置的限制)我們可以做任何我們想做的事情。所以,是的!我們可以讓標準 CNN 有更多生物啟發(fā)式特性。讓我們看看我們已經(jīng)取得的成果:

正如第 10 問中提及的,很多架構(gòu)元素已經(jīng)被添加到了 CNN 的不同變體中,這使得它們更接近腹側(cè)流。此外,在增加學(xué)習(xí)過程的合理性方面也已經(jīng)有了一些研究成果(見第 13 問)。

除了這些努力之外,在復(fù)現(xiàn)生物細節(jié)方面的具體研究還包括:

受生物學(xué)啟發(fā)的 Spoerer et al. (2017) 表明橫向連接和反饋連接可以讓模型更好地識別有遮擋和有噪聲的目標。

增加生物學(xué)啟發(fā)的連接

增加生物學(xué)啟發(fā)的連接,來自 Spoerer et al. (2017)

我本人的一些研究(在 Cosyne 2017 上呈現(xiàn)并在準確提交期刊)涉及到將穩(wěn)定超線性網(wǎng)絡(luò)(stabilized supralinear network)(一種實現(xiàn)歸一化的仿生物回路模型)納入 CNN 架構(gòu)中。這會為 CNN 引入 E 和 I 細胞類型、動態(tài)和循環(huán)(recurrence)。

Costa et al. (2017) 使用生物學(xué)啟發(fā)的組件實現(xiàn)了長短期記憶網(wǎng)絡(luò)(LSTM)。在為人工神經(jīng)網(wǎng)絡(luò)添加循環(huán)時,LSTM 是很常用的,所以確定可以如何通過生物式的方式實現(xiàn)這種功能會很有用。

13. CNN 使用反向傳播學(xué)習(xí)權(quán)重的方法是否重要?

反向傳播涉及到計算網(wǎng)絡(luò)中任意位置的權(quán)重應(yīng)該變化的方式,以便減少分類器產(chǎn)生的誤差。這意味著***層的一個突觸會有一些關(guān)于錯誤的信息并一直傳遞到頂層。但真正的神經(jīng)元往往依賴于局部的學(xué)習(xí)規(guī)則(比如赫布可塑性(Hebbian plasticity)),其中權(quán)重的變化主要是由神經(jīng)元之前和之后的突觸決定的,而不會受到任何遙遠因素的影響。因此,反向傳播應(yīng)該不是模擬生物方式。

這無需影響我們對完全訓(xùn)練的 CNN 作為視覺系統(tǒng)的模型的影響。計算模型中的參數(shù)往往是用與大腦學(xué)習(xí)方式(比如用于獲取功能連接性的貝葉斯推理)沒有任何相似之處的技術(shù)擬合的。但這并不會讓所得到的回路模型無法解讀。在極端的情況下,我們可以將反向傳播看作是一個和其它技術(shù)一樣的單純的參數(shù)擬合工具。而且 Yamins et al. (2014) 確實使用了一種不同的參數(shù)擬合技術(shù)(不是反向傳播)。

但是,采納這一觀點并不意味著模型的特定方面是無法解讀的。比如,我們并不期望學(xué)習(xí)曲線(誤差隨模型學(xué)習(xí)的變化方式)與人類或動物學(xué)習(xí)時犯錯的情況有關(guān)聯(lián)。

使用分離樹突(segregated dendrite)的局部誤差計算

使用分離樹突(segregated dendrite)的局部誤差計算

盡管當(dāng)前實現(xiàn)的反向傳播不具有生物合理性,但其可被看作是大腦實際工作方式的一種抽象版本。目前有多個研究正努力使反向傳播具有生物合理性,比如通過局部計算和擬真的細胞類型來實現(xiàn)反向傳播,比如《Towards deep learning with segregated dendrites》和《An Approximation of the Error Backpropagation Algorithm in a Predictive Coding Network with Local Hebbian Synaptic Plasticity》。這會讓這一學(xué)習(xí)過程獲得更好的生物學(xué)解釋。使用更有生物合理性的學(xué)習(xí)流程是否能得到更匹配數(shù)據(jù)的神經(jīng)活動?這還是一個需要實證解答的問題。

另一方面,無監(jiān)督學(xué)習(xí)看起來像是一個大腦機制,因為它不需要關(guān)于標簽的明確反饋,而是使用了有關(guān)環(huán)境的自然統(tǒng)計來發(fā)展表征。到目前為止,無監(jiān)督學(xué)習(xí)還沒有實現(xiàn)監(jiān)督學(xué)習(xí)那樣高的目標分類表現(xiàn)。但使無監(jiān)督學(xué)習(xí)和方法具有生物合理性的進展可能最終會帶來更好的視覺系統(tǒng)模型。

14. 我們能使用 CNN 了解到有關(guān)視覺系統(tǒng)的什么信息?

只靠 CNN,什么也了解不到。所有的見解和發(fā)展都需要通過與實驗數(shù)據(jù)的交互而進行驗證和延展。也就是說,CNN 對我們理解視覺系統(tǒng)的方式可以有三種貢獻。

***是驗證我們的直觀理解。就像費曼說的「我們不能理解我們不能創(chuàng)造的東西」。有了收集到的所有數(shù)據(jù)和發(fā)展起來的視覺系統(tǒng)理論,神經(jīng)科學(xué)家為什么不能創(chuàng)造一個可工作的視覺系統(tǒng)呢?這應(yīng)該能讓我們警醒,并意識到我們錯過了一些關(guān)鍵的東西?,F(xiàn)在我們可以說我們對視覺系統(tǒng)的直觀理解基本上是正確的,我們只是缺少計算能力和訓(xùn)練數(shù)據(jù)。

第二是允許實現(xiàn)理想的實驗檢驗平臺。這是科學(xué)界對機制模型的常用方法。我們可以使用已有數(shù)據(jù)建立一個模擬我們所感興趣的內(nèi)容的合理模型。然后我們測試其各個部分,看哪些部分對功能實現(xiàn)是重要的。這能用于產(chǎn)生假設(shè)以便未來實驗和/或解釋之前未用于構(gòu)建該模型的數(shù)據(jù)。

第三種貢獻方式是通過數(shù)學(xué)分析。對于計算建模而言,情況總是如此;將我們關(guān)于視覺系統(tǒng)工作方式的信念整合成具體的數(shù)據(jù)術(shù)語,從而開啟新型的研究方向。盡管在模型上進行分析時通常需要將它們進一步簡化,但這仍然能為模型行為的一般趨勢和局限性提供有幫助的見解。在這種特定情況下,還會有一些額外的發(fā)展動力,因為某些機器學(xué)習(xí)也有興趣在數(shù)學(xué)上剖解這些模型。這樣他們的見解就能在適當(dāng)?shù)那闆r成為我們的見解,比如 http://www.cs.toronto.edu/~wenjie/papers/nips16/top.pdf

15. 使用 CNN 作為視覺系統(tǒng)模型已讓我們了解到了什么?

首先,我們表明我們的直觀理解實際上可以用來構(gòu)建可工作的視覺系統(tǒng),從而驗證了這些直觀理解。此外,這種方法已經(jīng)幫助我們定義了(用 Marr 的術(shù)語)視覺系統(tǒng)的計算層面和算法層面。通過在目標檢測上訓(xùn)練而獲得如此之多神經(jīng)數(shù)據(jù)和行為數(shù)據(jù)的能力說明這是腹側(cè)流的核心計算作用。而一系列卷積和池化就是做到這一點所需的算法的一部分。

我相信,這些網(wǎng)絡(luò)的成功也有助于我們改變對視覺神經(jīng)科學(xué)領(lǐng)域基本研究單元的看法。很多視覺神經(jīng)科學(xué)領(lǐng)域(乃至所有神經(jīng)科學(xué)領(lǐng)域)一直以來都被以單個細胞及其調(diào)諧偏好為中心的方法所主導(dǎo)。沒有嚴格一個神經(jīng)元對應(yīng)一個神經(jīng)元的獲取數(shù)據(jù)的抽象模型將關(guān)注焦點放在了群編碼(population coding)上。某天有可能對理解單個調(diào)制函數(shù)的嘗試會得到同樣的結(jié)果,但目前群層面的方法看起來更有效。

此外,將視覺系統(tǒng)看作一整個系統(tǒng),而不是隔離的區(qū)域,能重塑我們對這些區(qū)域的理解方式。人們在研究 V4 上投入了大量工作,比如試圖用語言或簡單的數(shù)學(xué)來描述什么會導(dǎo)致該區(qū)域的細胞產(chǎn)生響應(yīng)。當(dāng) V4 被看作是目標識別路徑上的中間立足點時,似乎就更不可能將其拿出來單獨描述了。就像這篇綜述論文《Deep neural networks: a new framework for modelling

biological vision and brain information processing》說的:「對一個單位的口頭功能解釋(比如作為眼睛或人臉檢測器)可能有助于我們直接理解某些重要的東西。但是,這樣的口頭解釋可能會夸大分類和定位的程度,并低估這些表征的統(tǒng)計和分布本質(zhì)?!故聦嵣?,對訓(xùn)練后的網(wǎng)絡(luò)的分析已經(jīng)表明對單個單元的強大且可解讀的調(diào)制與優(yōu)良表現(xiàn)無關(guān),這說明歷史上對單個單元的關(guān)注的方向有誤。

在探索不同的架構(gòu)方面還有一些更加具體的進展。通過檢查獲取神經(jīng)和行為響應(yīng)的哪些元素上需要哪些細節(jié),我們可以得到結(jié)構(gòu)和功能之間的直接聯(lián)系。在《Deep Recurrent Neural Network Reveals a Hierarchy of Process Memory during Dynamic Natural Vision》這項研究中,加入網(wǎng)絡(luò)的橫向連接在解釋背側(cè)流響應(yīng)的時間過程上比在腹側(cè)流上的作用更大。其它研究說明反饋連接對于獲取腹側(cè)流動態(tài)而言是很重要的。還有研究表明神經(jīng)響應(yīng)的特定組分可以通過隨機權(quán)重的模型取得,這說明分層架構(gòu)本身就能解釋它們。而其它組分則需要在自然且有效的圖像類別上訓(xùn)練得到。

此外,我們還觀察到,特定表現(xiàn)優(yōu)良的 CNN 并不能準確預(yù)測神經(jīng)行為(見第 11 問)。這個觀察很重要,因為這說明并非所有具有視覺能力的模型都是大腦的良模型。這讓我們相信,我們看到的能很好預(yù)測神經(jīng)活動的架構(gòu)(通過大腦區(qū)域和層之間的對應(yīng))表現(xiàn)良好的原因是它們確實獲取到了大腦所執(zhí)行的變換的某些過程。

因為 CNN 提供了一種生成擬真神經(jīng)響應(yīng)的「圖像可計算的」方式,所以它們也可被用于將更少被理解的信號與視覺處理關(guān)聯(lián)起來,比如這兩項關(guān)于 contextualizing oscillation 的研究:《Using DNNs as a yardstick for estimating the representational value of oscillatory brain signals.》和《Activations of Deep Convolutional Neural Network are Aligned with Gamma Band Activity of Human Visual Cortex》。

我自己也有使用 CNN 作為視覺系統(tǒng)的模型的研究《Understanding Biological Visual Attention Using Convolutional Neural Networks》,我的研究主要是證明特征相似性增益模型(它描述了注意的神經(jīng)影響)可以解釋注意機制對表現(xiàn)效果的有益影響。

***,某些研究已經(jīng)記錄到了沒有被 CNN 所實現(xiàn)的神經(jīng)或行為元素(見第 6 問)。這些研究有助于確定需要進一步實驗和計算探索的區(qū)域。

案例還有很多。總而言之,鑒于這方面的研究從 2014 年左右才真正開始,我會說研究的數(shù)量已經(jīng)相當(dāng)不錯了。

原文鏈接:

https://neurdiness.wordpress.com/2018/05/17/deep-convolutional-neural-networks-as-models-of-the-visual-system-qa/

【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2017-05-04 18:30:34

大數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)

2024-08-21 08:21:45

CNN算法神經(jīng)網(wǎng)絡(luò)

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2020-09-18 11:40:44

神經(jīng)網(wǎng)絡(luò)人工智能PyTorch

2016-12-20 09:55:52

卷積神經(jīng)網(wǎng)絡(luò)無人駕駛

2021-06-22 09:46:52

神經(jīng)網(wǎng)絡(luò)人工智能深度學(xué)習(xí)

2022-04-07 09:01:52

神經(jīng)網(wǎng)絡(luò)人工智能

2017-05-03 08:52:13

卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)非線性激活函數(shù)

2017-04-24 23:46:40

卷積神經(jīng)網(wǎng)絡(luò)圖像R-CNN

2019-01-05 08:40:17

VGG神經(jīng)網(wǎng)絡(luò)

2015-02-11 16:11:23

微軟

2022-10-11 23:35:28

神經(jīng)網(wǎng)絡(luò)VGGNetAlexNet

2019-06-03 13:10:30

神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)人工智能

2025-03-31 09:52:00

2024-12-16 08:06:42

2022-02-17 10:34:21

神經(jīng)網(wǎng)絡(luò)識別驗證碼

2018-04-08 11:20:43

深度學(xué)習(xí)

2022-06-16 10:29:33

神經(jīng)網(wǎng)絡(luò)圖像分類算法

2020-03-25 09:48:10

AI芯片神經(jīng)網(wǎng)絡(luò)

2018-04-03 11:20:00

深度學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號