自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個世界」的博物館

新聞 人工智能
近日,由加州大學(xué)伯克利分校、華盛頓大學(xué)和谷歌研究院合著的論文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基準(zhǔn)定義的模糊任務(wù)在促進智能理解上的局限性,就像用有限的博物館來代表整個世界一樣。

 

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

在日常生活中,我們需要一些「標(biāo)準(zhǔn)」來衡量個人的行為。

而在科研工作中,研究人員也需要一些「基準(zhǔn)」來評估模型的性能。

因此,不管是普遍的「標(biāo)準(zhǔn)」還是特定的「基準(zhǔn)」,它們都有一定的參考意義。

然而,如果有一天我們發(fā)現(xiàn)這些「參照物」與實際生活漸行漸遠時,它們該往何處去?

近日,由加州大學(xué)伯克利分校、華盛頓大學(xué)和谷歌研究院合著的論文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基準(zhǔn)定義的模糊任務(wù)在促進智能理解上的局限性,就像用有限的博物館來代表整個世界一樣。

論文地址:https://openreview.net/pdf?id=j6NxpQbREA1

在這篇論文中,研究人員闡述了機器學(xué)習(xí)(ML)對通用任務(wù)框架(CTF)的過度依賴,因為這個框架不恰當(dāng)?shù)匮葑兂晌覀兘裉焖斫獾倪@些聲稱評估「通用能力」的基準(zhǔn)。值得注意的是,研究團隊并不否認這些基準(zhǔn)的實用性,而是希望指出將其作為框架存在的固有缺陷。

1. 展示「整個世界」的博物館 VS ImageNet

這篇論文最能引起共鳴的一點就是用故事書作為引子,且將情節(jié)貫穿全文,使得論文的研究內(nèi)容更為直白易懂。

這本書就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》,書中的主人公Grover參觀了一家聲稱展示「整個世界」的博物館。

該博物館的每個展廳都陳列著不同類別的東西,有些類別是隨意和主觀的,比如「你在墻上看到的東西( Things You Find On a Wall )」和「房間里能讓你撓癢癢的東西( The Things that Can Tickle You Room )」;有些類別則非常具體的,例如「胡蘿卜屋( The Carrot Room )」,而另一些則含糊不清,如「高大的廳堂( The Tall Hall )」。

當(dāng)Grover認為自己已經(jīng)參觀完博物館的一切時,他來到寫著「其他東西(Everything Else)」的大門前。打開門后,卻發(fā)現(xiàn)自己置身于外面的世界。

作為兒童故事,Grover的經(jīng)歷是荒誕的。然而,在實際的研究中,例如人工智能尤其是ML領(lǐng)域,也存在類似的固有錯誤邏輯,其中許多流行的基準(zhǔn)依賴于固有的錯誤假設(shè)。

這篇論文的研究人員認為,在諸如「視覺理解」或「語言理解」之類的模糊任務(wù)中,作為衡量一般能力進展的基準(zhǔn),與有限的博物館在代表「整個世界的一切」方面一樣無效,且這兩個謬論的原因是相似的,即本質(zhì)上是基于特定的、有限的且局限于上下文的環(huán)境。

GLUE或ImageNet之類的基準(zhǔn)測試常常被提議為驗證任何給定模型性能的基本通用任務(wù)的定義。其結(jié)果是,通過這些基準(zhǔn)數(shù)據(jù)集證明合理的結(jié)論往往遠遠超越了它們最初設(shè)計的任務(wù),甚至超出了最初的開發(fā)目標(biāo)。

盡管作為邁向「通用目標(biāo)」的標(biāo)志,這些基準(zhǔn)存在明顯的局限性。事實上,這些基準(zhǔn)的開發(fā)、使用和采用表明了一個結(jié)構(gòu)有效性的問題,其中涉及的基準(zhǔn)——由于它們在特定數(shù)據(jù)、度量和實踐中的實例化——不可能捕獲任何具有代表性的關(guān)于它們的普遍適用性的結(jié)論。

論文的作者們認為測量通用能力的目標(biāo)(即通用對象識別、通用語言理解或領(lǐng)域獨立推理等目標(biāo))不能充分體現(xiàn)在數(shù)據(jù)定義的基準(zhǔn)中。研究人員注意到,當(dāng)前的趨勢不恰當(dāng)?shù)財U展了CTF范式,以將其應(yīng)用于與現(xiàn)實世界目標(biāo)或背景不同的抽象表現(xiàn)任務(wù)。

從歷史上看,CTF的開發(fā)正是為了引入實用導(dǎo)向和嚴(yán)格范圍的人工智能任務(wù),即自動語音識別(ASR)或機器翻譯(MT),其中所需的驗證是基準(zhǔn)是否準(zhǔn)確地反映了計算機在現(xiàn)實環(huán)境中所要求的實際任務(wù)。這一波定義不明確的「通用」目標(biāo)則完全顛覆了其引入的意圖。

與其把Grover的經(jīng)歷當(dāng)成兒童故事來看,倒不如說這是一則深刻的寓言故事。當(dāng)Grover打開「其他東西」的大門時,卻發(fā)現(xiàn)自己置身于博物館外的大千世界。故事的結(jié)尾或許已經(jīng)預(yù)示了這個研究的結(jié)論,ImageNet之類的基準(zhǔn)定義必然不能代表適應(yīng)所有現(xiàn)實世界模糊任務(wù)的「通用目標(biāo)」。

因此,這篇論文確實有許多值得討論和深思的地方。ImageNet存在不足,那其他基準(zhǔn)定義就是完美無缺的嗎?除了ImageNet,目前在通用對象識別上還有更好的參照基準(zhǔn)嗎?該如何看待以及解決基準(zhǔn)定義越來越「不基準(zhǔn)」這個問題?

外行看熱鬧,內(nèi)行看門道,這么頭疼的問題就應(yīng)該交給專業(yè)人士。

 

2. OpenReview官方怎么評

 

迎面向我們走來的是第一位評委,該評委發(fā)出了“反對CV和NLP的“通用”基準(zhǔn)中令人信服的觀點!(A compelling argument against "general" monolithic benchmarks in vision and NLP)”的贊嘆,因為他覺得這篇論文史料詳實,觀點明確,分析到位,著實令人信服。

論文的研究人員先在文中鋪墊了大量的背景知識,向讀者展現(xiàn)了通用人工智能和基準(zhǔn)測試的相關(guān)研究,并分析了ML的基準(zhǔn)測試何時開始作為評估范圍狹窄的任務(wù)性能的標(biāo)準(zhǔn)化方法。最后,結(jié)論就水到渠成了:通用語言理解和通用對象識別的基準(zhǔn)本質(zhì)上是有缺陷的,因為它們應(yīng)用于狹窄的范圍。

最后,這位評委真誠地希望計算機視覺和NLP社區(qū)能認真對待這篇論文,因為他認為該論文對在這兩個領(lǐng)域取得更有意義的進展做出了寶貴的貢獻,而不僅僅是追求最先進的技術(shù)。

但美中不足的是,既然發(fā)現(xiàn)了ImageNet基準(zhǔn)存在局限性,那有什么辦法可以減少對這些通用標(biāo)準(zhǔn)的過度依賴?看來論文的研究人員也還沒找到這個問題的答案。

而第二位評委對這篇論文的評價是:通用人工智能基準(zhǔn)的謬論(The Fallacy of Benchmarks for General Artificial Intelligence )。因為這篇論文的受眾主要是AI領(lǐng)域的研究人員,所以作者在前文回顧了通用AI的相關(guān)基準(zhǔn),一下拉近了與讀者的距離。此外,引用Grover的故事也使得該論文有趣易懂。

即使這篇論文的開頭存在表述問題,未能無縫銜接主題,但瑕不掩瑜,評委二號高度贊揚了這篇論文為ML領(lǐng)域的研究指明了方向。

接著,評委三號也帶著他的觀點款款走來:好論文!但改一下結(jié)構(gòu)就更好了(Well argued paper, with some reorganization suggested)。這位評委指出,這篇論文最大的亮點是觀點獨特且論據(jù)充足。但也發(fā)出了和第一位評委相同的疑惑:所以,有什么解決方案可以減少對通用標(biāo)準(zhǔn)的過度依賴?

不同于前三位評委的「慷慨」,第四位評委只給出了5分的評價,認為這篇論文只是:當(dāng)前基準(zhǔn)測試的簡史(History of the benchmarks we use today)。從這個評語不難看出,這位評委覺得這篇論文列舉了很多基準(zhǔn)測試且強調(diào)了它們的局限性,但作者團隊并沒有采取任何立場。

最后,評委五號不見其人,先聞其聲:很棒!但還有上升空間(Great, but improvements needed)。第五位評委認為這篇論文在梳理和總結(jié)相關(guān)工作的方面做得非常好,同時有大量的研究支撐文中的論點,希望這篇論文能引起相關(guān)領(lǐng)域研究人員的重視。

正因為對這篇論文寄予了極高的期望,因此評委只給出了6分的評價,同時羅列了非常詳細的修改建議,希望論文的作者能加以改進。

 

3. Reddit網(wǎng)友怎么說

 

看完五大評審的官方評論,總結(jié)起來基本就是:論文不錯,觀點新穎,論據(jù)充分,要是能提出解決方案就更好了。此外,有三位評委都不約而同地希望這篇論文能引起相關(guān)領(lǐng)域的重視。

Reddit上關(guān)于這篇文章的討論熱度也不小,我們來看看神通廣大的網(wǎng)友怎么說。

某位網(wǎng)友一針見血地指出,雖然ImageNet等基準(zhǔn)測試像「有限的博物館」一樣存在不足,但卻是目前我們訓(xùn)練模型最有力的工具。

確實,就像上述評委提到的,ImageNet是有局限性,但是否有更好的解決方案?因此,有熱心網(wǎng)友為論文的作者修改了摘要:沒有任何數(shù)據(jù)集能夠捕捉所有細節(jié)的全部復(fù)雜性,就像沒有博物館可以包含整個世界中所有的事物一樣。

一些網(wǎng)友則認為論文不錯,尤其是「芝麻街」故事情節(jié)的插入加深了他們對該論文的理解。

這些網(wǎng)友覺得,用「無法展示一切的博物館」類比「ImageNet在一些模糊任務(wù)上的局限性」非常恰當(dāng)。

大概論文的作者們也沒想到,寫個文章還能為一本書代言,有網(wǎng)友調(diào)侃:宇宙萬物的答案就隱藏在這本「芝麻街」故事書中。

更多網(wǎng)友表示贊同論文作者的觀點,畢竟相比解決問題,發(fā)現(xiàn)問題太容易了。(狗頭)

所以,解決方案究竟在哪?

就算博物館「無法展示一切」,也沒有人能否定其價值。同理,ImageNet這類基準(zhǔn)定義的存在意義也不容置喙。不斷發(fā)現(xiàn)問題并解決問題,歷史的車輪才會滾滾向前(狗頭)。

 

 

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2023-04-03 09:41:39

技術(shù)數(shù)字博物館

2021-08-26 16:34:45

智能博物館物聯(lián)網(wǎng)

2011-05-05 17:13:10

Google Art

2013-10-22 09:10:30

微軟WindowsXP

2017-05-19 12:33:23

2019-12-18 14:52:19

.com域名互聯(lián)網(wǎng)

2012-08-10 11:06:21

筆記本

2017-11-24 11:14:00

2016-06-17 17:55:27

Google Home惡意軟件勒索軟件

2010-08-13 16:49:20

網(wǎng)絡(luò)監(jiān)控系統(tǒng)博物館D-Link

2012-11-28 10:45:39

投影機NEC

2024-01-26 10:19:00

AI模型

2011-11-10 16:12:31

掃描儀用戶體驗

2012-07-24 10:02:38

2013-02-18 09:16:33

計算機博物館古董計算機

2024-11-08 10:47:32

2021-08-16 11:12:58

微軟谷歌脫碳

2019-12-26 15:43:45

區(qū)塊鏈技術(shù)智能
點贊
收藏

51CTO技術(shù)棧公眾號