深度神經(jīng)網(wǎng)絡比拼人類視覺:信號弱時的物體識別差異
近日,來自德國 Tubingen大學和Potsdam大學的研究人員們共同發(fā)布了一項研究成果——深度神經(jīng)網(wǎng)絡和人類視覺在信號變?nèi)鯐r進行物體識別的差異對比。這些專家分別來自神經(jīng)信息處理、綜合神經(jīng)學、心理學與生物控制等不同領域。此項研究旨在對DNN和人類神經(jīng)系統(tǒng)的結構和處理過程的差別作出相應解釋,并且找到在信號變?nèi)鯐r兩種視覺系統(tǒng)的分類錯誤模式的不同。
論文:Comparing deep neural networks against humans: object recognition when the signal gets weaker
論文鏈接:https://arxiv.org/pdf/1706.06969.pdf
摘要:人類視覺在進行物體識別時通常是很迅速的,而且似乎毫不費力,并且很大程度上與視角和面向?qū)ο鬅o關。直到最近,動態(tài)視覺系統(tǒng)才有能力完成這一非凡的計算技能。這正是隨著一類叫做深度神經(jīng)網(wǎng)絡(DNN)算法的出現(xiàn)而改變的,它在物體識別任務中已經(jīng)可以達到人類級別的分類表現(xiàn)。而且,更多與 DNN 方法相類似的研究報告,還有人體視覺系統(tǒng)處理物體的進程,都表明現(xiàn)在的 DNN 可能就是人類視覺進行物體識別的良好模型。然而,***型的 DNN 和靈長類動物的視覺系統(tǒng)確實在結構和處理過程上還存在著明顯的不同。這些不同的潛在的行為結果還不能得到充分的解釋。我們的目標正是通過比較人類和 DNN 對圖像降解(image degradations)的整合能力來解決這一問題。我們發(fā)現(xiàn)人類視覺系統(tǒng)對圖像處理操作具有更好的魯棒性,比如在反差衰(contrast reduction)、加性噪聲(additive noise)或者新型的幻象失真(eidolon-distortions)這些方面。而且我們逐步地找到了在信號逐漸變?nèi)鯐r,人類和 DNN 進行分類時的錯誤方式的不同,這表明人類和現(xiàn)在的 DNN 在進行視覺物體識別(visual object recognition)時仍舊存在著很大差異。我們希望我們的發(fā)現(xiàn),還有我們經(jīng)過仔細測試而且可以自由使用的行為型數(shù)據(jù)集,可以給計算機視覺界提供一種新的且實用的基準,從而來增強 DNN 的魯棒性,并且促使神經(jīng)科學家去搜尋可以促進這種魯棒性的大腦機制。
圖 1
圖 1.:實驗原理圖。在呈現(xiàn)出一個中央固定方塊之后(300 ms),圖像在 200ms 的情況下可視,緊接著是一個 1/f 頻譜(200ms)的噪聲屏蔽(noise-mask)。然后,在 1500ms 時出現(xiàn)一個響應屏,在這里觀察者可以點擊一個類別。注意我們在這張圖中增強了噪聲屏蔽的對比,這是為了在出版時擁有更好的可視性。從上到下的類別分別是:刀具,自行車,熊,卡車,飛機,表,船,小汽車,鍵盤,烤箱,貓,鳥,大象,椅子,瓶子,狗。這些圖示是 MS COCO(http://mscoco.org/ explore/)版本的修改版。
圖 2
圖 2: 顏色試驗結果(n=3)。(a)精度。DNN 對應藍色,人類對應紅色;菱形對應 AlexNet,方形對應 GoogLeNet,三角是 VGG-16,圓圈是人類觀察者。(b)響應分布熵(Response distribution entropy)。
圖 3
圖 3: 預估刺激信號(Estimated stimuli)對應 50% 分類精度。(a)噪聲實驗。(b)Eidolon 實驗。連貫性參數(shù)=1.0。首行:刺激信號(stimuli)對應平均人類觀察者的閾值(threshold)。底下三行:刺激信號對應 VGG-16(第二行), GoogLeNet(第三行)和 AlexNet(***一行)的相同精度。
【本文是51CTO專欄機構“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】