深度學(xué)習(xí)十年后是撞墻了嗎?Hinton、LeCun、李飛飛可不這么認(rèn)為
自 2012 年,以 AlexNet 為代表的深度學(xué)習(xí)技術(shù)突破開始,至今已有 10 年。
10 年后,如今已經(jīng)成為圖靈獎得主的 Geoffrey Hinton、Yann LeCun,ImageNet 挑戰(zhàn)賽的主要發(fā)起人與推動者李飛飛如何看待過去十年的 AI 技術(shù)突破?又對接下來十年的技術(shù)發(fā)展有什么判斷?
近日,海外媒體 VentureBeat 的一篇專訪文章,讓 AI 社區(qū)開始討論起這些問題。
在LeCun看來,過去十年最重要的成果包括自監(jiān)督學(xué)習(xí)、ResNets、門-注意力-動態(tài)連接圖、可微存儲和置換等變模塊,例如多頭自注意力-Transformer。
Hinton 認(rèn)為,AI 領(lǐng)域的快速發(fā)展勢頭將繼續(xù)加速。此前,他與其他一些 AI 領(lǐng)域知名人士對「深度學(xué)習(xí)已經(jīng)碰壁」這一觀點進(jìn)行了反駁。Hinton 表示,「我們看到機(jī)器人領(lǐng)域出現(xiàn)了巨大進(jìn)步,靈活、敏捷且更順從的機(jī)器人比人類更高效、溫和地做事情?!?br>
Geoffrey Hinton。圖源:https://www.thestar.com/
LeCun 和李飛飛贊同 Hinton 的觀點,即 2012 年基于 ImageNet 數(shù)據(jù)集的一系列開創(chuàng)性研究開啟了計算機(jī)視覺尤其是深度學(xué)習(xí)領(lǐng)域的重大進(jìn)步,將深度學(xué)習(xí)推向了主流,并引發(fā)了一股難以阻擋的發(fā)展勢頭。李飛飛對此表示,自 2012 年以來的深度學(xué)習(xí)變革是她做夢也想不到的。
李飛飛
不過,成功往往會招致批評。最近,很多觀點紛紛指出了深度學(xué)習(xí)的局限性,認(rèn)為它的成功僅限于很小的范圍。這些觀點認(rèn)為深度學(xué)習(xí)無法實現(xiàn)其宣稱的根本性突破,即最終幫助人類實現(xiàn)期望的通用人工智能,其中 AI 的推理能力真正地類似于人類。
知名 AI 學(xué)者、Robust.AI 創(chuàng)始人 Gary Marcus 在今年三月發(fā)表了一篇《深度學(xué)習(xí)撞墻了》的文章,他認(rèn)為純粹的端到端深度學(xué)習(xí)差不多走到盡頭了,整個 AI 領(lǐng)域必須要尋找新出路。之后,Hinton 和 LeCun 都對他的觀點發(fā)起了駁斥,由此更引發(fā)了圈內(nèi)熱議。
雖然批評的聲音不斷,但他們不能否認(rèn)計算機(jī)視覺和語言等關(guān)鍵應(yīng)用已經(jīng)取得了巨大進(jìn)展。成千上萬的企業(yè)也見識到了深度學(xué)習(xí)的強(qiáng)大力量,并在推薦引擎、翻譯軟件、聊天機(jī)器人以及更多其他領(lǐng)域取得了顯著的成果。
2022 年了,當(dāng)我們回顧過往蓬勃發(fā)展的 AI 十年,我們能從深度學(xué)習(xí)的進(jìn)展中學(xué)到什么呢?這一改變世界的變革性技術(shù)未來會更好還是走下坡路呢?Hinton、LeCun、李飛飛等人對此發(fā)表了自己的看法。
2012 年,深度學(xué)習(xí)變革的開始
一直以來,Hinton 堅信深度學(xué)習(xí)革命的到來。1986 年,Hinton 等人的論文《Learning representations by back-propagating errors》提出了訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的反向傳播算法,他便堅信這就是人工智能的未來。之后,1989 年率先使用反向傳播和卷積神經(jīng)網(wǎng)絡(luò)的 LeCun 對此表示贊同。
Hinton 和 LeCun 以及其他人認(rèn)為多層神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)架構(gòu)可以應(yīng)用于計算機(jī)視覺、語音識別、自然語言處理和機(jī)器翻譯等領(lǐng)域,并生成媲美甚至超越人類專家的結(jié)果。與此同時,李飛飛也提出了自己深信不疑的假設(shè),即只要算法正確,ImageNet 數(shù)據(jù)集將成為推進(jìn)計算機(jī)視覺和深度學(xué)習(xí)研究的關(guān)鍵。
到了 2012 年,Alex Krizhevsky、Ilya Sutskever 和 Hinton 的論文《ImageNet Classification with Deep Convolutional Neural Networks》問世,使用 ImageNet 數(shù)據(jù)集創(chuàng)建了今天大家非常熟悉的 AlexNet 神經(jīng)網(wǎng)絡(luò)架構(gòu),并獲得了當(dāng)年的 ImageNet 競賽冠軍。這個在當(dāng)時具有開創(chuàng)性意義的架構(gòu)在分類不同的圖像方面比以往方法準(zhǔn)確得多。
論文地址:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
可以這么說,這項研究在 ImageNet 數(shù)據(jù)集和更強(qiáng)大 GPU 硬件的加持下,直接促成了下個十年的主要 AI 成功案例,比如 Google Photos、Google Translate、Amazon Alexa、OpenAI DALL-E 和 DeepMind AlphaFold 等。
在 AlexNet 推出的 2012 年,也有其他人和機(jī)構(gòu)開始轉(zhuǎn)向深度學(xué)習(xí)研究領(lǐng)域。Google X 實驗室構(gòu)建了一個由 16000 個計算機(jī)處理器組成的神經(jīng)網(wǎng)絡(luò),它具有 10 億個連接,并逐漸能夠識別類貓(cat-like)特征以及高度準(zhǔn)確地識別 YouTube 上的貓視頻。
與此同時,Jeffrey Dean 和 Andrew Ng 也在大規(guī)模圖像識別領(lǐng)域進(jìn)行突破性工作。Dan Ciregan 等人中稿 CVPR 2012 的論文顯著提高了卷積神經(jīng)網(wǎng)絡(luò)在多個圖像數(shù)據(jù)集上的 SOTA 性能。
論文地址:https://arxiv.org/pdf/1202.2745.pdf
總而言之,到了 2013 年,「幾乎所有的計算機(jī)視覺研究都轉(zhuǎn)向了神經(jīng)網(wǎng)絡(luò),」Hinton 說,他從那時起就在 Google Research 和多倫多大學(xué)之間分配時間。他補(bǔ)充說,從最近的 2007 年算起,幾乎發(fā)生了一次人工智能的徹底改變,遙想當(dāng)時,「在一次會議上發(fā)表兩篇關(guān)于深度學(xué)習(xí)的論文甚至是不合適的」。
十年深度學(xué)習(xí)進(jìn)展
李飛飛表示,她深度參與了深度學(xué)習(xí)的突破——在 2012 年意大利佛羅倫薩會議上親自宣布了 ImageNet 競賽的獲勝者——人們認(rèn)識到那一刻的重要性也就不足為奇了。
「ImageNet 是一個始于 2006 年的愿景,當(dāng)時幾乎沒有人支持,」李飛飛補(bǔ)充說,它后來「在事實上以如此具有歷史意義的重大方式獲得了回報。」
自 2012 年以來,深度學(xué)習(xí)的發(fā)展速度驚人,深度也令人印象深刻。
「有一些障礙正在以令人難以置信的速度被清除,」LeCun 說,他引用了自然語言理解、文本生成翻譯和圖像合成方面的進(jìn)展。
有些領(lǐng)域的進(jìn)展甚至比預(yù)期中要快。對于 Hinton 來說,這種進(jìn)展包括在機(jī)器翻譯中使用神經(jīng)網(wǎng)絡(luò),其在 2014 年取得了長足的進(jìn)步。「我本認(rèn)為那會是很多年,」他說。
李飛飛也承認(rèn)了計算機(jī)視覺的進(jìn)步——比如 DALL-E——「比我想象的要快。」
駁回深度學(xué)習(xí)批評者
然而,并不是所有人都同意深度學(xué)習(xí)的進(jìn)展令人瞠目結(jié)舌。2012 年 11 月,Gary Marcus 為《紐約客》寫了一篇文章,他這么說:「套用一句古老的寓言,Hinton 建造了一個更好的梯子,但更好的梯子并不一定能讓你登上月球。」
Marcus 認(rèn)為深度學(xué)習(xí)沒有比十年前更接近「月球」,此處的月球是指通用人工智能或人類水平的人工智能。
「當(dāng)然有進(jìn)步,但為了登上月球,你必須解決因果理解和自然語言理解及推理,」他說?!冈谶@些事情上沒有太大進(jìn)展?!?br>
Marcus 認(rèn)為將神經(jīng)網(wǎng)絡(luò)與符號 AI(在深度學(xué)習(xí)興起之前主導(dǎo)該領(lǐng)域的 AI 分支)相結(jié)合的混合模型是對抗神經(jīng)網(wǎng)絡(luò)極限的前進(jìn)方向。不過 Hinton 和 LeCun 都駁斥過 Marcus 的批評。
「深度學(xué)習(xí)沒有撞墻——如果你看看最近的進(jìn)展,那真是太棒了,」Hinton 說,盡管他曾承認(rèn)深度學(xué)習(xí)在它可以解決的問題范圍內(nèi)是有限的。
LeCun 補(bǔ)充說,「沒有被撞到的墻」?!肝艺J(rèn)為有一些障礙需要清除,而這些障礙的解決方案并不完全清楚,」他說。「但我根本沒有看到進(jìn)展放緩…… 進(jìn)展正在加速?!?br>
不過,Bender 并不相信。「在某種程度上,他們只是在談?wù)摳鶕?jù) ImageNet 等基準(zhǔn)提供的標(biāo)簽對圖像進(jìn)行分類的進(jìn)展,看來 2012 年取得了一些質(zhì)的突破。但如果他們在談?wù)摫冗@更宏大的事情,那都是炒作。」
人工智能偏見和道德問題迫在眉睫
在其他方面,Bender 也認(rèn)為人工智能和深度學(xué)習(xí)領(lǐng)域已經(jīng)走得太遠(yuǎn)了。
「我確實認(rèn)為,將非常大的數(shù)據(jù)集處理成可以生成合成文本和圖像的系統(tǒng)的能力(計算能力 + 高效算法)已經(jīng)讓我們在幾個方面脫軌了,」她說。比如,人們似乎陷入了一個循環(huán):發(fā)現(xiàn)模型有偏見,并提議嘗試去掉偏見,不過公認(rèn)的結(jié)果是,目前并沒有完全去偏見的數(shù)據(jù)集或模型。
此外,她表示希望看到該領(lǐng)域遵守真正的問責(zé)標(biāo)準(zhǔn),無論是針對實際測試還是產(chǎn)品安全——「為此,我們需要廣大公眾了解以及如何看穿人工智能炒作的說法都處于危險之中,我們將需要有效的監(jiān)管?!?br>
然而,LeCun 指出,這些都是人們傾向于簡化的復(fù)雜而重要的問題,而且很多人「有惡意的假設(shè)」。他堅持認(rèn)為,大多數(shù)公司「實際上都想做正確的事」。
此外,他還抱怨了那些不參與人工智能技術(shù)和研究的人?!高@是一個完整的生態(tài)系統(tǒng),但一些人在看臺上射擊,」他說,「基本上只是在吸引注意力?!?br>
關(guān)于深度學(xué)習(xí)的辯論肯定會繼續(xù)
盡管辯論看起來很激烈,但李飛飛強(qiáng)調(diào),這些是科學(xué)的全部內(nèi)容?!缚茖W(xué)不是真理,科學(xué)是尋求真理的旅程。這是發(fā)現(xiàn)和改進(jìn)的旅程——所以辯論、批評、慶祝都是其中的一部分?!?br>
然而,一些辯論和批評讓李飛飛覺得「有點做作」,無論是說 AI 都是錯誤的,還是說 AGI 即將來臨,都屬于極端情況?!肝艺J(rèn)為這是一場更深入、更微妙、更細(xì)微、更多維度的科學(xué)辯論的相對普及版本?!?br>
當(dāng)然,李飛飛指出,在過去十年中,人工智能的進(jìn)步令人失望——而且并不總是與技術(shù)有關(guān)。
人工智能和深度學(xué)習(xí)的未來
LeCun 承認(rèn),一些人們投入大量資源的 AI 挑戰(zhàn)尚未得到解決,例如自動駕駛?!肝視f其他人低估了它的復(fù)雜性,」他說,并補(bǔ)充說他沒有將自己歸入這一類別。
「我知道這很難,而且需要很長時間,」他聲稱?!肝也煌庖恍┤说恼f法,他們說我們基本上已經(jīng)弄清楚了…… 這只是讓這些模型更大的問題?!?br>
事實上,LeCun 最近發(fā)布了一份創(chuàng)建「自主機(jī)器智能」的藍(lán)圖,這也表明他認(rèn)為當(dāng)前的人工智能方法并不能達(dá)到人類水平的人工智能。
但他也看到了深度學(xué)習(xí)未來的巨大潛力,表示自己最興奮的是讓機(jī)器更高效地學(xué)習(xí),更像動物和人類。
LeCun 表示,對他本人來說,最大的問題是動物學(xué)習(xí)的基本原則是什么,這也是他一直提倡自監(jiān)督學(xué)習(xí)等事物的原因之一。
「這一進(jìn)展將使我們能夠構(gòu)建目前遙不可及的東西,比如可以在日常生活中助力智能系統(tǒng),就好像它們是人類助手一樣。這是我們將需要的東西,因為所有人都將戴上 AR 眼鏡,我們將不得不與其互動。」
Hinton 同意深度學(xué)習(xí)正在取得更多進(jìn)展。除了機(jī)器人技術(shù)的進(jìn)步,他還相信神經(jīng)網(wǎng)絡(luò)的計算基礎(chǔ)設(shè)施將會有另一個突破,因為目前的設(shè)施只是用非常擅長做矩陣乘法器的加速器完成數(shù)字計算。他說,對于反向傳播,需要將模擬信號轉(zhuǎn)換為數(shù)字信號。
「我們會找到在模擬硬件中工作的反向傳播的替代方案,」他說?!肝曳浅O嘈牛L遠(yuǎn)來看我們幾乎所有的計算都將以模擬方式完成?!?br>
李飛飛認(rèn)為,對于深度學(xué)習(xí)的未來,最重要的是交流和教育。「在 Stanford HAI,我們實際上花費(fèi)了過多的精力來面對商業(yè)領(lǐng)袖、政府、政策制定者、媒體、記者和記者以及整個社會,并創(chuàng)建專題討論會、會議、研討會、發(fā)布政策簡報、行業(yè)簡報?!?
對于如此新的技術(shù),李飛飛比較擔(dān)心的是缺乏背景知識無助于傳達(dá)對這個時代的更細(xì)致和更深思熟慮的描述。
10 年來的深度學(xué)習(xí)將如何被銘記
對于 Hinton 來說,深度學(xué)習(xí)在過去十年取得了超出想象的成功,但他也強(qiáng)調(diào)了,這種巨大的進(jìn)步應(yīng)該被歸功于「計算機(jī)硬件的進(jìn)步」。
Marcus 是一位批評者的角色,他認(rèn)為深度學(xué)習(xí)雖然取得了一些進(jìn)展,但之后看來這可能是一種不幸。
「我認(rèn)為 2050 年的人們會從 2022 年開始審視這些系統(tǒng),并且會說:是的,它們很勇敢,但并沒有真正發(fā)揮作用?!?br>
但李飛飛希望過去十年將被銘記為「偉大的數(shù)字革命的開端」:「它讓所有人而不僅僅是少數(shù)人或部分人類的生活和工作更好了?!?br>
她還補(bǔ)充道,作為一名科學(xué)家,「我永遠(yuǎn)不會認(rèn)為今天的深度學(xué)習(xí)是人工智能探索的終結(jié)?!?br>
在社會層面,她說她希望將人工智能視為「一種令人難以置信的技術(shù)工具,它以最以人為本的方式被開發(fā)和使用——我們必須認(rèn)識到這種工具的深遠(yuǎn)影響,并接受以人為本的思維框架以及設(shè)計和部署人工智能?!?br>
最后,李飛飛表示:「我們?nèi)绾伪挥涀。Q于我們現(xiàn)在正在做什么?!?nbsp;