人類看見(jiàn)形狀,AI看見(jiàn)紋理:從計(jì)算機(jī)視覺(jué)分類失敗談起
研究人員們驚訝地發(fā)現(xiàn),深度學(xué)習(xí)視覺(jué)算法之所以經(jīng)常在圖像分類時(shí)遭遇挑戰(zhàn),是因?yàn)樗鼈冎饕獜募y理——而非形狀——當(dāng)中提取判斷線索。
在我們觀察一張貓的照片時(shí),往往能夠很快認(rèn)出這是橘貓還是虎斑貓——此外,圖像是不是黑白、是否存在斑點(diǎn)、是否存在磨損以及褪色等等,也都是觀察過(guò)程中能夠輕松得到的結(jié)論。此外,我們還會(huì)發(fā)現(xiàn)這些小生靈是蜷縮在枕頭后邊,還是迅捷地躍上一張臺(tái)面??偠灾?,人類總能不知不覺(jué)快速學(xué)會(huì)識(shí)別小貓。相比之下,由深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的機(jī)器視覺(jué)系統(tǒng)雖然能夠在某些特定情況下提供優(yōu)于人類的識(shí)別能力,但一旦構(gòu)圖較為罕見(jiàn)、存在噪點(diǎn)或者其它一些干擾因素,系統(tǒng)也有可能對(duì)一張內(nèi)容明確的圖像束手無(wú)策。
最近德國(guó)一支研究小組發(fā)現(xiàn)了當(dāng)中令人意想不到的原因:人類對(duì)圖像里各對(duì)象的形狀較為敏感,而深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)算法卻通常更關(guān)注對(duì)象的紋理。
這一發(fā)現(xiàn)發(fā)表在今年5月舉辦的國(guó)際學(xué)習(xí)代表大會(huì)上,主要強(qiáng)調(diào)了人與機(jī)器在“思考”方式之間的鮮明差異,并闡述了我們的直覺(jué)如何誤導(dǎo)人工智能。此外,這項(xiàng)研究也暗示了,人類的視覺(jué)為何會(huì)發(fā)展成今天的形式。
擁有大象皮膚的小貓與由鐘表構(gòu)成的飛機(jī)
舉例來(lái)說(shuō),深度學(xué)習(xí)算法體現(xiàn)為一套神經(jīng)網(wǎng)絡(luò),其中包含著成千上萬(wàn)張有貓或者無(wú)貓的圖像素材。系統(tǒng)能夠從這些數(shù)據(jù)當(dāng)中找到模式,而后利用它來(lái)決定如何更好地標(biāo)記自己從未見(jiàn)過(guò)的圖像。網(wǎng)絡(luò)的架構(gòu)類似于人類視覺(jué)系統(tǒng),但建模方式更為松散——這是因?yàn)椋渲械倪B接層允許網(wǎng)絡(luò)一步步從圖像中提取出越來(lái)越抽象的特征。然而,這套系統(tǒng)實(shí)際上是一種“暗箱”流程,我們只能獲得正確答案,卻不知道這答案從何而來(lái)。并未參與此項(xiàng)研究的俄勒岡州立大學(xué)計(jì)算機(jī)科學(xué)家Thomas Dietterich指出,“我們一直在努力找到使得深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)算法得出正確結(jié)果的原因,以及哪些因素有可能干擾這種視覺(jué)識(shí)別能力。”
為了達(dá)成這一目標(biāo),有些研究人員開(kāi)始探索,在對(duì)圖像內(nèi)容進(jìn)行修改之后,網(wǎng)絡(luò)會(huì)因欺騙而得出怎樣的結(jié)論。他們發(fā)現(xiàn),某些非常小的變化都有可能導(dǎo)致系統(tǒng)完全錯(cuò)誤地標(biāo)記圖像中的對(duì)象——但有些很大的變化,卻反而不會(huì)讓系統(tǒng)修改其標(biāo)記內(nèi)容。與此同時(shí),也有其他一些專家通過(guò)網(wǎng)絡(luò)進(jìn)行了回溯,分析了其中單一“神經(jīng)元”在圖像中的響應(yīng),并據(jù)此為系統(tǒng)學(xué)習(xí)到的特征生成所謂“激活圖集”。
其中計(jì)算神經(jīng)科學(xué)家Matthias Bethge實(shí)驗(yàn)室的一組科學(xué)家,以及來(lái)自德國(guó)蒂賓根大學(xué)的心理物理學(xué)家Felix Wichmann采取了更為定性的方法。去年,該團(tuán)隊(duì)報(bào)告稱,當(dāng)他們?cè)诶锰囟ㄔ肼曔M(jìn)行干擾處理的圖像上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),結(jié)果發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在對(duì)存在類似失真干擾的新圖像進(jìn)行分類方面,表現(xiàn)要優(yōu)于人類。但只要對(duì)這些圖像稍微進(jìn)行一些新的模式調(diào)整,就能夠完全騙過(guò)網(wǎng)絡(luò)——即使新的內(nèi)容扭曲與圖中原本存在的扭曲看起來(lái)并無(wú)不同。
為了解釋這一結(jié)果,研究人員們猜測(cè),也許極低的噪音水平也可能會(huì)具有巨大的判定權(quán)重。在這方面,紋理似乎是個(gè)很不錯(cuò)的線索。Bethge和Wichmann實(shí)驗(yàn)室研究生,研究論文***作者Robert Geirhos指出,“如果長(zhǎng)時(shí)間添加大量噪音,圖像對(duì)象的形狀因素其實(shí)并不會(huì)受到太大的影響。但在另一方面,圖像中的某些局部結(jié)構(gòu),在添加一丁點(diǎn)噪音因素時(shí)也可能變得極度扭曲。”因此,他們提出了一種巧妙的方法,以測(cè)試人類與深度學(xué)習(xí)系統(tǒng)究竟是如何處理圖像的。
Geirhos、Bethge和他們的同事創(chuàng)造出兩幅包含相互沖突線索的圖像,即對(duì)象的形狀取自某一物體,紋理則取自另一個(gè)物體。例如,用帶裂紋的灰色紋理(大象皮膚)填充在貓的輪廓當(dāng)中;或者制作小熊紋理的鋁罐,乃至由鐘面堆疊而成的飛機(jī)圖形等。利用數(shù)百?gòu)埓祟悎D像,人類仍能夠根據(jù)圖像中的形狀——貓、熊、飛機(jī)等——以極高的準(zhǔn)確度進(jìn)行標(biāo)記。相比之下,四種不同的分類算法則傾向于另一種理解方式,即給出能夠反映物體紋理的標(biāo)記,包括大象、罐頭、時(shí)鐘等。
并未參與此項(xiàng)研究的哥倫比亞大學(xué)計(jì)算神經(jīng)科學(xué)家Nikolaus Kriegeskorte指出,“這正在改變我們對(duì)深度前饋神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)視覺(jué)識(shí)別能力、及其訓(xùn)練過(guò)程的理解方式。”
奇怪的是,人工智能采取的紋理大于形狀的理解方式,似乎很有那么點(diǎn)現(xiàn)實(shí)意義。Kriegeskorte表示,“我們其實(shí)可以把紋理看成是一種更精細(xì)的形狀。”神經(jīng)系統(tǒng)能夠更輕松地鎖定高精度形狀比例:具有紋理信息的像素?cái)?shù),要遠(yuǎn)遠(yuǎn)超過(guò)構(gòu)成對(duì)象邊界的像素?cái)?shù),而神經(jīng)網(wǎng)絡(luò)的***步就是檢測(cè)線條與邊緣等局部特征。并未參與此項(xiàng)研究的多倫多約克大學(xué)計(jì)算視覺(jué)科學(xué)家John Tsotsos指出,“這就是紋理。所有的線段組都以相同的方式進(jìn)行排列。”
Geirhos和他的同事已經(jīng)證明,這些局部特征已經(jīng)足以幫助神經(jīng)網(wǎng)絡(luò)完成圖像分類任務(wù)。事實(shí)上,Bethge和該研究的另一位作者,博士后研究員Wieland Brendel在今年5月的大會(huì)上也通過(guò)一篇論文提到了這一點(diǎn)。在這次工作當(dāng)中,他們構(gòu)建起一套深度學(xué)習(xí)系統(tǒng),但具體運(yùn)行方式卻與深度學(xué)習(xí)技術(shù)出現(xiàn)之前的分類算法非常相似——這更像是一種“特征包”。它最初會(huì)將圖像分割成眾多微小的塊(類似于目前的Geirhos等現(xiàn)有模型),但接下來(lái)它并不像其它模型那樣逐步整合信息并提取高級(jí)特征,而是立即識(shí)別出每個(gè)小塊中的圖像內(nèi)容(「這個(gè)塊中包含自行車的因素,另一塊當(dāng)中包含鳥(niǎo)的因素」等)。它會(huì)將這些決策結(jié)果疊加在一起以確定對(duì)象的實(shí)際內(nèi)容(「如果包含自行車因素的小塊更多,那么圖像展示的就是自行車」),而完全不考慮不同圖塊之間的全局空間關(guān)系。但就是這種“笨辦法”,卻能夠以驚人的準(zhǔn)確度識(shí)別物體對(duì)象。
Brendel表示,“這一發(fā)現(xiàn)挑戰(zhàn)了此前人們所認(rèn)定的,深度學(xué)習(xí)技術(shù)與原有模型完全不同的假設(shè)。很明顯……深度學(xué)習(xí)仍然代表著一種飛躍,只是不像有些人所希望的那么天翻地覆。”
根據(jù)約克大學(xué)與多倫多大學(xué)博士后研究員Amir Rosenfeld的觀點(diǎn)(并未參與此項(xiàng)研究),“我們理解中的神經(jīng)網(wǎng)絡(luò)運(yùn)作方式,與其實(shí)際運(yùn)作方式之間仍然存在著「巨大的差異」”,其中也包括神經(jīng)網(wǎng)絡(luò)對(duì)人類行為的復(fù)制效果。
Brendel也表達(dá)出類似的觀點(diǎn),他表示人們很容易假設(shè)神經(jīng)網(wǎng)絡(luò)能夠像人類一樣解決任務(wù),“但我們也忘了、或者說(shuō)是在刻意忽略其中還存在著別的可能。”
一種更接近人類的觀察方法
目前的深度學(xué)習(xí)方法可以將紋理等局部特征整合至更多全局模式當(dāng)中。Kriegeskorte指出,例如在談到形狀時(shí),“論文當(dāng)中提出了令人驚訝、但又非常引人注目的證明,即雖然架構(gòu)能夠關(guān)注形狀,但如果僅僅進(jìn)行訓(xùn)練(對(duì)標(biāo)準(zhǔn)圖像進(jìn)行分類),那么神經(jīng)網(wǎng)絡(luò)不會(huì)自動(dòng)提出形狀這一概念。”
Geirhos希望看到當(dāng)團(tuán)隊(duì)強(qiáng)迫這些神經(jīng)模型忽略紋理因素時(shí),會(huì)發(fā)生怎樣的結(jié)果。該團(tuán)隊(duì)采用傳統(tǒng)上用于訓(xùn)練分類算法的圖像,并以不同的樣式對(duì)圖像加以“繪制”,從而在根本上剝離出有用的紋理信息。當(dāng)他們?cè)谛聢D像上重新訓(xùn)練每套深度學(xué)習(xí)模型時(shí),這些系統(tǒng)開(kāi)始逐步關(guān)注更大、更為全局的模式,同時(shí)也表現(xiàn)出更類似于人類的形狀偏好。
在采取這種方式時(shí),算法能夠更好地分辨包含噪音干擾的圖像,甚至無(wú)需訓(xùn)練即可識(shí)別出其中的內(nèi)容。Geirhos表示,“基于形狀的網(wǎng)絡(luò)能夠提供更強(qiáng)大的識(shí)別功能。這讓我們意識(shí)到,對(duì)于特定任務(wù),其實(shí)是存在「正確的偏見(jiàn)」這一概念的。以我們的研究為例,形狀偏見(jiàn)能夠把視覺(jué)識(shí)別算法推廣到更多新穎的場(chǎng)景當(dāng)中。”
研究還暗示,人類有可能也會(huì)自然地產(chǎn)生這種偏見(jiàn);因?yàn)閷?duì)于***或者干擾因素較多的情況,形狀是一種更為健壯的指標(biāo),能夠幫助我們更好地定義自己看到的內(nèi)容。人類生活在一個(gè)三維世界當(dāng)中,很多物體在不同條件、不同角度之下都會(huì)呈現(xiàn)出不同的狀態(tài)。而我們的其它感官,例如觸覺(jué),可以根據(jù)需要完善物體識(shí)別能力。因此,我們的固有思維就認(rèn)定形狀優(yōu)先于紋理。(此外,也有一些心理學(xué)家提出,語(yǔ)言、學(xué)習(xí)與人類形狀偏見(jiàn)之間的聯(lián)系;當(dāng)幼兒接受訓(xùn)練時(shí),他們可以專門學(xué)習(xí)某些特定類別的單詞以更多關(guān)注形狀因素。如此一來(lái),他們?cè)诤罄m(xù)掌握名詞或物體相關(guān)詞匯時(shí),往往會(huì)表現(xiàn)出較超未訓(xùn)練孩子的學(xué)習(xí)能力。)
Wichamnn表示,這項(xiàng)工作提醒人們“數(shù)據(jù)會(huì)產(chǎn)生遠(yuǎn)超我們認(rèn)知的偏見(jiàn)與影響。”這已經(jīng)不是研究人員們***次面對(duì)這個(gè)難題:人臉識(shí)別程序、自動(dòng)招聘算法以及其它神經(jīng)網(wǎng)絡(luò),此前都已經(jīng)被證明會(huì)過(guò)度重視某些出人意料的特征。這是因?yàn)檫@些神經(jīng)網(wǎng)絡(luò)所使用的訓(xùn)練數(shù)據(jù)之內(nèi),已經(jīng)存在著根深蒂固的偏見(jiàn)。事實(shí)證明,從決策過(guò)程當(dāng)中消除這些不必要的偏見(jiàn)往往非常困難,但Wichmann認(rèn)為此次新研究展示出新的可能性,也讓他對(duì)此充滿信心。
然而,以便Geirhos的模型已經(jīng)開(kāi)始關(guān)注形狀這一因素,也有可能被圖像當(dāng)中的大量噪音或特定像素變化所干擾——這表明其距離還原人類視覺(jué)能力還有很長(zhǎng)的道路要走。(同樣的,Tsosenos實(shí)驗(yàn)室研究生Rosenfeld、Tsotsos以及Markus Solbach最近也發(fā)表了研究報(bào)告,認(rèn)為機(jī)器學(xué)習(xí)算法無(wú)法像人類那樣感知不同圖像之間的相似性。)不過(guò)Krigeskorte指出,“通過(guò)此項(xiàng)研究,我們終于開(kāi)始觸及一個(gè)實(shí)質(zhì)性問(wèn)題——計(jì)算機(jī)視覺(jué)識(shí)別算法并沒(méi)能把握住人類大腦當(dāng)中的某些重要機(jī)制。”而在Wichmann看來(lái),“在某些情況下,關(guān)注數(shù)據(jù)集可能更為重要。”
多倫多大學(xué)計(jì)算機(jī)科學(xué)家Sanja Fidler(并未參與此項(xiàng)研究)也對(duì)這一觀點(diǎn)表示贊同。她解釋稱,“具體結(jié)果,取決于我們能否設(shè)計(jì)出聰明的數(shù)據(jù)與聰明的任務(wù)。”她和她的同事目前正在研究如何為神經(jīng)網(wǎng)絡(luò)提供輔助,以幫助網(wǎng)絡(luò)提取出最重要的特征。受到Geirhos調(diào)查結(jié)果的啟發(fā),他們最近訓(xùn)練出一種圖像分類算法,其不僅能夠識(shí)別出物體本身,同時(shí)也可以判斷哪些像素屬于其輪廓或者形狀的組成部分。該網(wǎng)絡(luò)在常規(guī)對(duì)象識(shí)別任務(wù)中能夠自動(dòng)提升判斷水平。Fidler指出,“只要完成了一項(xiàng)任務(wù),我們就會(huì)自然地在關(guān)注當(dāng)中帶有選擇性,同時(shí)忽略掉其它很多不同的因素。但如果面對(duì)多個(gè)任務(wù),我們可能會(huì)發(fā)現(xiàn)更多影響要素。這些算法也是如此。”算法在解決各種任務(wù)的過(guò)程中會(huì)“對(duì)不同的信息產(chǎn)生偏見(jiàn)”,這與Geirhos在形狀與紋理實(shí)驗(yàn)中的發(fā)現(xiàn)高度契合。
Dietterich總結(jié)稱,所有這些研究都代表著“在深入了解深度學(xué)習(xí)中具體步驟與內(nèi)容方面,一個(gè)個(gè)令人興奮的階段。這也許將幫助我們克服一系列當(dāng)下困擾著我們的局限。因此,我非常贊賞此次發(fā)布的一系列論文。”