標(biāo)準(zhǔn)出現(xiàn)問(wèn)題,人工智能正在走向錯(cuò)誤的方向
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
我的這篇文章不是第一篇(也不會(huì)是最后一篇)討論人工智能界如何按自身規(guī)律發(fā)展的文章。正如不久前漢娜·克納(Hannah Kerner)的話:“很多AI研究人員認(rèn)為現(xiàn)實(shí)世界中的問(wèn)題無(wú)關(guān)緊要。社區(qū)過(guò)度關(guān)注新方法,卻忽略了真正要緊的事情。”
許多大型會(huì)議公然忽視了應(yīng)用型論文,這些文章聚焦于使用目前的技術(shù)解決現(xiàn)實(shí)世界中的問(wèn)題,其中很多文章還關(guān)注在此過(guò)程中面臨的挑戰(zhàn)。程序是虛無(wú)縹緲的,目標(biāo)檢測(cè)額外精準(zhǔn)10%,遠(yuǎn)比減少癌癥死亡的1%更有價(jià)值。
人工智能界忽略了一個(gè)顯而易見(jiàn)的事實(shí):深度學(xué)習(xí)是一門(mén)實(shí)驗(yàn)科學(xué)。雖然神經(jīng)網(wǎng)絡(luò)脈絡(luò)清晰,但它是一個(gè)難以解釋的龐大的非線性系統(tǒng)。盡管越來(lái)越多的研究致力于闡釋神經(jīng)網(wǎng)絡(luò),但神經(jīng)網(wǎng)絡(luò)依然像以前一樣神秘??茖W(xué)方法是我們理解神經(jīng)網(wǎng)絡(luò)的唯一可靠工具,因?yàn)樗哺趯?shí)驗(yàn)。
而矛盾之處在于,盡管神經(jīng)網(wǎng)絡(luò)的本質(zhì)是實(shí)驗(yàn),但是這個(gè)領(lǐng)域卻拒絕純粹的實(shí)驗(yàn)。一般,一篇神經(jīng)網(wǎng)絡(luò)的論文首先介紹其新穎之處,然后嘗試形式證明,接著做消融研究,最后得出結(jié)論。這是根據(jù)實(shí)驗(yàn)得出的結(jié)論。
想象一下,如果土木工程師們決定創(chuàng)造與眾不同的橋梁設(shè)計(jì),卻選擇在桌子大小的樂(lè)高復(fù)制品上進(jìn)行驗(yàn)證。沒(méi)有使用真實(shí)建筑材料進(jìn)行昂貴的仿真模擬或試驗(yàn),你敢相信新提出的設(shè)計(jì)方案嗎?你會(huì)特別信任這些實(shí)驗(yàn),然后投資數(shù)百萬(wàn)美元來(lái)實(shí)現(xiàn)它們嗎?不管你敢不敢,反正我是不敢。
簡(jiǎn)化的世界模型對(duì)于快速構(gòu)建原型和嘗試想法非常有用。但為了實(shí)際驗(yàn)證,你需要在真實(shí)的世界中進(jìn)行嘗試。這是一個(gè)兩步走的過(guò)程。
現(xiàn)代AI研究停滯在前半段——基準(zhǔn)這一問(wèn)題上,實(shí)際的使用案例是后半段。ImageNet、COCO、CIFAR-10,這些都是人工智能的樂(lè)高。它們讓我們實(shí)驗(yàn)新的想法,摒棄不佳的構(gòu)思,它們是很好的工具。然而,它們只是達(dá)到目的的一種手段,而不是目的本身。
這并不是說(shuō)當(dāng)前的研究是錯(cuò)的,關(guān)鍵問(wèn)題在于學(xué)術(shù)界與現(xiàn)實(shí)世界之間的脫節(jié)。
看看這個(gè)圖表:該圖介紹了COCO目標(biāo)檢測(cè)基準(zhǔn)的最新進(jìn)展,每一個(gè)小點(diǎn)都是一個(gè)不同的模型——一種新技術(shù)或現(xiàn)有技術(shù)的融合,領(lǐng)跑者用藍(lán)色標(biāo)出。

COCO測(cè)試開(kāi)發(fā)排行榜上帶有編碼的論文
該圖表顯示了從2016年1月的28.8點(diǎn)到2020年7月的55.1點(diǎn)的軌跡。取得的進(jìn)步是無(wú)可否認(rèn)的,從圖中可以看出,EfficientDet D7x是目前最好的目標(biāo)檢測(cè)技術(shù)。但是,問(wèn)你一個(gè)問(wèn)題:你會(huì)在應(yīng)用程序中使用哪一個(gè)模型?
你很可能無(wú)法作答,因?yàn)槟悴恢牢艺f(shuō)的是哪個(gè)應(yīng)用程序,也不知道它有哪些要求。它需要實(shí)時(shí)運(yùn)行嗎?它能在移動(dòng)設(shè)備上運(yùn)行嗎?它需要識(shí)別多少類?用戶對(duì)錯(cuò)誤檢測(cè)的容忍度有多大……
依據(jù)答案,以上這些都不值得考慮,甚至連EfficientDet D7x都不值得考慮。如果模型必須在手機(jī)上實(shí)時(shí)運(yùn)行,那么即使略微調(diào)整這些模型,也執(zhí)行不了。更糟糕的是,不能保證這些模型能在連續(xù)幀之間產(chǎn)生一致的檢測(cè)結(jié)果。我甚至不能說(shuō)出一個(gè)要求最高檢測(cè)質(zhì)量的應(yīng)用程序的名字,除了高準(zhǔn)確度之外,沒(méi)有其他要求。
換句話說(shuō),科研界所追求的度量標(biāo)準(zhǔn)只用于研究其本身。
早在2015年,研究發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)的深度增加超過(guò)12層會(huì)對(duì)性能造成損害。在著名的殘差網(wǎng)絡(luò)(ResNet)論文(https://arxiv.org/abs/1512.03385)中,何凱明博士以及其他幾位學(xué)者假設(shè)通過(guò)跳過(guò)連接,連接非連續(xù)層可以擴(kuò)大容量,因?yàn)樗梢蕴嵘荻攘鳌?/p>
第一年,ResNet在幾個(gè)基準(zhǔn)競(jìng)賽中取得了優(yōu)異的成績(jī),如ILSVRC和COCO。但你現(xiàn)在應(yīng)該已經(jīng)意識(shí)到了這只暗示ResNet是一個(gè)重要貢獻(xiàn),但這不是證據(jù)。
ResNet在人工智能歷史上的地位的確切證據(jù)是建立在其大量工作上的。ResNet的驚人之處在于它解決不相關(guān)問(wèn)題的數(shù)量,而不在它獲勝的競(jìng)爭(zhēng)。它真正的貢獻(xiàn)在于這個(gè)跳過(guò)連接的想法,而不是架構(gòu)本身。
這篇有關(guān)Focal Loss(https://arxiv.org/abs/1708.02002)的論文同樣經(jīng)受住了時(shí)間的考驗(yàn),確實(shí)改進(jìn)了他人的研究。這篇關(guān)于Attention的論文(https://arxiv.org/abs/1706.03762)也遵循同樣的路線。每天都有一篇新文章討論Attention是如何提高某些基準(zhǔn)的,以及聚集損失讓Attention變得更好。
重要的不是競(jìng)賽,而是之后的影響。事實(shí)上,2012年ILSVRC的冠軍是AlexNet,而2015年的冠軍是ResNet。你能說(shuō)出2013年和2014年的獲勝者嗎?2016年、2017年和2018年的挑戰(zhàn)是什么?你能確保每年都舉辦ILSVRC嗎?
你可能會(huì)問(wèn):為什么沒(méi)有更好的基準(zhǔn)或更有用的度量標(biāo)準(zhǔn)?我們?nèi)绾魏饬亢罄^影響?
遺憾的是,我們做不到。我們可以使用引用或下載的計(jì)數(shù),Reddit的訪問(wèn)量或者GitHub的星號(hào)標(biāo)注。然而,這些度量標(biāo)準(zhǔn)都是有瑕疵的。為了進(jìn)行公平的比較,我們需要考慮到每一個(gè)細(xì)節(jié),同時(shí)從等式中將所有的偏差進(jìn)行標(biāo)準(zhǔn)化處理,這太難了。
例如,為了比較Attention和ResNet的影響力,我們需要考慮正確使用這些概念,權(quán)衡它們的相對(duì)影響,并將時(shí)間和影響范圍進(jìn)行標(biāo)準(zhǔn)化處理。很明顯,量化這些屬性的工作量巨大,可能與所有基準(zhǔn)或度量標(biāo)準(zhǔn)一樣有缺陷。諸如雜志的影響因素之類的想法甚至沒(méi)有觸及這個(gè)問(wèn)題的表面。
有些目標(biāo)是無(wú)法量化的。誰(shuí)是最有聲望的人?是西方音樂(lè)史上最具影響力的作曲家巴赫,還是最具影響力的劇作家莎士比亞?比較他們的作品毫無(wú)意義,更不用說(shuō)他們的領(lǐng)域了。
巴赫還是莎士比亞,音樂(lè)還是戲劇?
這就走進(jìn)了死胡同。我們可以測(cè)量精確度,可以測(cè)量速度,但是無(wú)法判定影響力。我們都承認(rèn)我們需要更先進(jìn)的科學(xué),但是我們?nèi)绾螖喽ㄒ环N科學(xué)比另一種科學(xué)更好呢?我們?nèi)绾魏饬垦芯亢同F(xiàn)實(shí)之間的脫節(jié)?我們希望能和人工智能一起前進(jìn),但是我們既不知道前進(jìn)的方向,也不知道已經(jīng)走了多遠(yuǎn)。
這不僅僅是人工智能的問(wèn)題。我們想要更健全的政府,更完善的醫(yī)療服務(wù),更優(yōu)質(zhì)的教育,但是怎樣才能真正量化這些呢?到目前為止,最失敗的方法(也是最普遍的方法)是替代度量,比如COCO AP的得分。
我們無(wú)法衡量人工智能的進(jìn)步,但我們可以測(cè)量目前的目標(biāo)檢測(cè)方法有多精準(zhǔn)。目標(biāo)檢測(cè)也是AI的一部分,所以,如果能在這方面取得一些進(jìn)展,我們也可以期待在人工智能方面取得進(jìn)展。
在我們確定使用COCO之前,我們一直使用ImageNet前5名的結(jié)果,所以面臨一個(gè)更具挑戰(zhàn)性的問(wèn)題。我們無(wú)法通過(guò)訓(xùn)練檢測(cè)模型來(lái)提高AP,但是可以教會(huì)它們減少邊界盒坐標(biāo)的L2損失。損失是不可微度量的替代。L2損失不是AP,但低L2損失與高AP相關(guān),所以它是有效的。
從前,識(shí)字率是許多國(guó)家衡量教育進(jìn)步的主要指標(biāo)。幾十年后,在識(shí)字率非常高的情況下,更高的學(xué)業(yè)完成率便是衡量教育進(jìn)步的重點(diǎn)。然后是更高的大學(xué)入學(xué)率。我不知道學(xué)位與教育之間的關(guān)系是否像我們想象的那樣緊密,也不知道高中教的知識(shí)是不是他們應(yīng)該教的,但這是我們今天追求的指標(biāo)。
從某種意義上說(shuō),對(duì)于這些問(wèn)題,沒(méi)有什么解決方法是對(duì)的。因此,根據(jù)定義,所有的路線都是錯(cuò)誤的。只有盡可能多的嘗試各種途徑,我們才有可能選擇一條相對(duì)正確的道路。使用AI術(shù)語(yǔ),我們需要使用更大的批量抓取,并對(duì)盡可能多的分布進(jìn)行采樣。
這意味著我們必須將關(guān)注范圍擴(kuò)大到“準(zhǔn)確性”和“速度”之外,還要包括“穩(wěn)健性”或“連貫性”等內(nèi)容。最重要的是,我們需要從精心挑選的基準(zhǔn)轉(zhuǎn)向現(xiàn)實(shí)世界。
以我研究乳腺癌檢測(cè)算法的案例為例,研究員很容易錯(cuò)將這個(gè)領(lǐng)域當(dāng)成已解決的領(lǐng)域。最近的研究已經(jīng)在這個(gè)主題上取得了超人的成績(jī),但是,這些算法卻無(wú)法應(yīng)用于任何一家醫(yī)院。原因很簡(jiǎn)單,它并不起作用。
這聽(tīng)起來(lái)有些夸張,但其實(shí)非常簡(jiǎn)單:即使是同一種東西,即乳房x光片,如果你在數(shù)據(jù)集a上訓(xùn)練算法,算法不會(huì)在數(shù)據(jù)集B上工作。
目前沒(méi)有已知的技術(shù)可以在不進(jìn)行微調(diào)的情況下,在數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在其他數(shù)據(jù)集上運(yùn)行良好。你必須針對(duì)每臺(tái)機(jī)器/每家醫(yī)院建立數(shù)據(jù)集,以獲得有用的結(jié)果。度量標(biāo)準(zhǔn)合理,這個(gè)領(lǐng)域就解決了。實(shí)際上,這連開(kāi)始都難。
最重要的是,算法無(wú)法為他們的答案提供幫助。站在醫(yī)生的角度想想:你會(huì)因?yàn)闄C(jī)器是這樣顯示的,就告訴患者他們得了癌癥嗎?你不會(huì),你會(huì)再次查看這些圖像。
如果人們不信任人工智能,那么就永遠(yuǎn)不會(huì)使用它。
到目前為止,已發(fā)表的論文的主要評(píng)判標(biāo)準(zhǔn)是AUC評(píng)分。它告訴你該算法對(duì)乳房x光片的良惡性分類有多合理,不會(huì)告訴你它對(duì)其他數(shù)據(jù)集有多穩(wěn)健,或者所有都是可解釋的。換句話說(shuō),它從不回答“它有用嗎”這類問(wèn)題。
發(fā)展人工智能沒(méi)有正確的道路,但肯定有非常錯(cuò)誤的道路?;ú涣颂嗟臅r(shí)間,你就能發(fā)現(xiàn)大多數(shù)文獻(xiàn)有多不適用,以及真正緊迫的問(wèn)題是如何堂而皇之的被人們忽視了。
正如我在開(kāi)頭所說(shuō)的,這篇文章并不要指責(zé)當(dāng)前的研究不好,而是說(shuō)問(wèn)題的關(guān)鍵在于當(dāng)前學(xué)術(shù)界和現(xiàn)實(shí)世界之間脫節(jié)——我們過(guò)于狹隘地關(guān)注準(zhǔn)確性。
發(fā)展人工智能不是為了紙上談兵,推動(dòng)社會(huì)發(fā)展是真正重要的事,我們希望通過(guò)改善人工智能來(lái)實(shí)現(xiàn)這一點(diǎn)。但只有當(dāng)我們正視現(xiàn)實(shí)的社會(huì)問(wèn)題時(shí),我們才能正確地做到這一點(diǎn)。社會(huì)的問(wèn)題遠(yuǎn)比精確的目標(biāo)檢測(cè)更復(fù)雜