別再吹CNN 了:簡單的區(qū)分異同都做不到
《芝麻街》中有一個游戲,叫做「其中一個不一樣(One of These Things Is Not Like the Other)」。顧名思義,參與該游戲的小朋友需要從幾個東西中找出那個不一樣的。對于人類幼崽來說,這個任務(wù)著實太簡單了,換著花樣玩一百次可能也不會出錯。

但是,對于神經(jīng)網(wǎng)絡(luò)來說,這個游戲就沒那么簡單了。以強(qiáng)大的卷積神經(jīng)網(wǎng)絡(luò)(CNN)為例,經(jīng)過訓(xùn)練的 CNN 可以完成一系列復(fù)雜任務(wù),甚至比人類完成得還要出色,但最近的研究表明,CNN 只能在非常有限的條件下區(qū)分兩個簡單的圖案是否相同。只要稍微改變這些條件,該網(wǎng)絡(luò)的性能就會隨之下降。

2018 年的一項研究表明,雖然 CNN 能夠區(qū)分圖 (a) 中兩只狗的品種,但卻不知道圖 (b)(i) 中的兩個圖案其實是一樣的,只是經(jīng)過了旋轉(zhuǎn)。
這些結(jié)果在深度學(xué)習(xí)研究者和認(rèn)知科學(xué)研究者中引起了爭議。如果工程方面得到提升,CNN 能否像人類幼崽一樣區(qū)分「相同」和「不同」?還是說 CNN 的抽象推理能力本身就是有限的,無論設(shè)計得多么精巧,用多少數(shù)據(jù)訓(xùn)練?
無論哪種猜想是對的,大多數(shù)研究者都同意一個觀點:理解異同關(guān)系是智能的重要標(biāo)志,無論這種智能是人工的還是其他形式的。
「不只你我能夠區(qū)分『相同』和『不同』,很多動物也能做到,比如鴨子和蜜蜂,」在約翰 · 霍普金斯大學(xué)研究視覺認(rèn)知的 Chaz Firestone 表示。
成功區(qū)分異同的能力可以被看作人類作出各種推理的基礎(chǔ)。DeepMind 研究者 Adam Santoro 表示,他們公司正在「以一種整體的方式研究異 - 同關(guān)系」,即不僅局限于視覺場景,還擴(kuò)展到了自然語言和物理交互。
「當(dāng)我讓一個 AI 智能體『撿起玩具車』的時候,我的意思是讓它撿起我們玩的這輛玩具車,而不是隔壁房間那輛?!顾忉屨f。去年 10 月份一項關(guān)于異同推理的研究也強(qiáng)調(diào)了這一點。來自布朗大學(xué)等機(jī)構(gòu)的研究者在文中寫道:「如果沒有識別『相同』的能力,打造真正智能的視覺推理機(jī)器的夢想就會變得無望?!?/p>
自 2013 年起,異同關(guān)系就一直困擾著神經(jīng)網(wǎng)絡(luò)。當(dāng)時的人工智能先驅(qū) Yoshua Bengio 及其合作者 Caglar Gulcehre 在論文《Knowledge Matters: Importance of Prior Information for Optimization》中的研究表明:CNN 無法判斷若干組俄羅斯方塊形狀是否相同。但這個盲點并沒有阻止 CNN 主宰 AI。卷積神經(jīng)網(wǎng)絡(luò)曾幫助 AlphaGo 擊敗了世界上最好的圍棋棋手,近 90% 支持深度學(xué)習(xí)的 Android 應(yīng)用都依賴于卷積神經(jīng)網(wǎng)絡(luò)。
這種能力的激增重新點燃了一些研究人員對探索神經(jīng)網(wǎng)絡(luò)無法做到的事情的興趣。CNN 通過粗略模仿哺乳動物大腦處理視覺輸入的方式來學(xué)習(xí)視覺處理。神經(jīng)網(wǎng)絡(luò)中一層人工神經(jīng)元檢測原始數(shù)據(jù)中的簡單特征(例如亮度和對比度差異)。然后神經(jīng)網(wǎng)絡(luò)再將這些特征傳遞給連續(xù)的層,這些層將它們組合成更復(fù)雜、更抽象的類別。
根據(jù)布朗大學(xué)機(jī)器學(xué)習(xí)研究員 Matthew Ricci 的說法,異同關(guān)系似乎是對 CNN 局限性一個很好的測試,因為它們是「與圖像特征無關(guān)的最簡單問題。」也就是說,兩個對象是否相同并不取決于它們是一對藍(lán)色三角形還是一對紅色圓圈。特征之間的關(guān)系比特征本身更重要。
2018 年,Ricci、Junkyung Kim 和 Thomas Serre 在來自合成視覺推理測試 (SVRT) 的圖像上測試了 CNN,SVRT 是一組旨在探索神經(jīng)網(wǎng)絡(luò)抽象推理技巧的簡單圖案。這些圖案由在白色方塊上以黑色輪廓繪制的成對不規(guī)則形狀組成。如果一對圖案在形狀、大小和方向上都相同,則被歸類為「相同」;否則,這一對被標(biāo)記為「不同」。
Ricci 等人的研究發(fā)現(xiàn),使用來自 SVRT 圖像集中的新樣例訓(xùn)練 CNN,辨別異同的準(zhǔn)確率將高達(dá) 75%。但是只要以非常簡單的方式修改形狀(比如只是讓它們變大,或者拉遠(yuǎn)它們之間的距離),CNN 的準(zhǔn)確率就會嚴(yán)重下降。研究人員因此得出結(jié)論,神經(jīng)網(wǎng)絡(luò)仍然專注于特征,而不善于學(xué)習(xí)「異同」等關(guān)系概念。
去年,圖賓根大學(xué)的 Christina Funke 和 Judy Borowski 的研究表明,將神經(jīng)網(wǎng)絡(luò)的層數(shù)從 6 層增加到 50 層可以將其在 SVRT 異同任務(wù)上的準(zhǔn)確率提升到 90% 以上。然而,他們并沒有測試這個層數(shù)增加的 CNN 在 SVRT 數(shù)據(jù)集以外的樣例上性能如何。因此,該研究沒有任何證據(jù)表明更深層的 CNN 具備概括「異同」定義的能力。

布里斯托大學(xué)的認(rèn)知科學(xué)家 Guillermo Puebla 和 Jeffrey Bowers 在今年早些時候進(jìn)行了一項后續(xù)研究。Puebla 以人類的智能舉例說:「人們一旦理解一種事物關(guān)系,就可以將它應(yīng)用到任何相關(guān)事情上」,他認(rèn)為 CNN 也應(yīng)該遵守這個標(biāo)準(zhǔn)。
Puebla 和 Bowers 使用 4 種不同的初始設(shè)置(其中包含 Funke 和 Borowski 使用的一些設(shè)置)在 SVRT 異同任務(wù)的幾種變體上訓(xùn)練了四個 CNN。他們發(fā)現(xiàn)圖案低級特征的細(xì)微變化(比如將形狀輪廓的厚度從一個像素更改為兩個像素)通常就足以讓 CNN 的性能降低一半,從接近完美到幾乎無用。
這對人工智能意味著什么?不同人有不同的回答。Firestone 和 Puebla 認(rèn)為最近一些研究中的實驗結(jié)果表明:當(dāng)前的 CNN 缺乏基本的推理能力,并且無法通過添加更多數(shù)據(jù)或設(shè)計更精巧的訓(xùn)練來解決這個問題。Puebla 表示:「盡管 CNN 越來越強(qiáng)大,但它不太可能解決辨別異同的問題。也許引入其他方法能夠解決,而只依靠 CNN 自己則無望?!?/p>
Funke 同意 Puebla 的結(jié)論。但她建議:「聲稱深度卷積神經(jīng)網(wǎng)絡(luò)無法學(xué)習(xí)一個概念要非常謹(jǐn)慎?!笵eepMind 研究員 Santoro 表示同意:「缺乏證據(jù)并不代表著證據(jù)不存在,神經(jīng)網(wǎng)絡(luò)歷來如此?!筍antoro 指出:神經(jīng)網(wǎng)絡(luò)在數(shù)學(xué)上已被證明能夠在原則上逼近任何函數(shù),并說道:「研究人員在這方面需要做的就是確定函數(shù)所需的實際條件。」
Ricci 則認(rèn)為:讓任何機(jī)器學(xué)會辨別異同都需要在對學(xué)習(xí)本身的理解上取得突破。人類幼崽玩一次游戲就能夠區(qū)分異同,不需要長期訓(xùn)練。鳥類、蜜蜂和人類都可以通過這種方式學(xué)習(xí),除了辨別異同,還有許多認(rèn)知任務(wù)也是如此。Ricci 說:「我認(rèn)為在弄清楚如何從少量樣本和新數(shù)據(jù)樣本中學(xué)習(xí)之前,很多問題都不能完全解決?!?/p>


2011-05-31 09:51:23
2017-08-16 09:55:36




