2020年的AI現(xiàn)狀
人工智能(AI)是當今最熱門的主題之一。從字面上來說,最近的進展是不言而喻的-向GPT-3打個招呼,它會打招呼。人工智能發(fā)現(xiàn)的藥劑指日可待。在政策制定者試圖通過具有數(shù)百年歷史的法律來理解今年的技術時,公司聘用的博士學位比以往任何時候都多。對于研究人員和投資者而言,激動人心的時刻,對于政客和律師而言,可能并不那么多。
今年,內森·貝納希(Nathan Benaich)和伊恩·霍加斯(Ian Hogarth)第三次合作編寫關于AI的業(yè)務狀況報告,其中涵蓋了最新的研究,行業(yè),人才和政策新聞。最后但并非最不重要的一點是,作者對2021年做出了預測。
您可以在此處 (https://www.stateof.ai/) 閱讀完整的報告。
在本文中,我總結了報告的主要主題和發(fā)現(xiàn),然后就此事發(fā)表了自己的看法。。
報告摘要
研究(幻燈片10-62)
該報告從技術方面開始:只有15%的AI論文公開了其代碼的開源性,PyTorch擁有大部分的"研究市場份額",并且有幾所大學集團達到了十億參數(shù)大關。此外,它還談到了大型模型的經濟和環(huán)境成本。即使硬件在改進,深度學習成本也呈指數(shù)增長。當前的SOTA模型需要數(shù)百萬美元的培訓費用,更不用說調整了。
在應用方面,自然語言處理(NLP)在今年引起了大多數(shù)關注。除了自然語言處理之外,人工智能還在推動生物學和醫(yī)學界不斷發(fā)展的紙張繁榮。除了這兩個領域之外,圖神經網(wǎng)絡(GNN)和強化學習(RL)今年也取得了突破性進展。
當然,COVID-19也已在AI社區(qū)中留下了自己的印記,并致力于該疾病的幾乎所有方面。
人才(幻燈片63-81)
在論文數(shù)量不斷增長的同時,離開學術界前往大型科技公司的教授數(shù)量也在不斷增長,而大學正在遭受打擊。為了反擊,大學將重點放在專門的AI研究所和資助計劃上。
國際人才流失更大。今年,有許多科學家從亞洲移居到美國進行研究,其中大多數(shù)人畢業(yè)后仍留在美國。美國對外國人才的依賴是公然的。在美國工作的AI研究人員中有70%沒有接受過美國培訓。這轉化為出版結果。中國研究人員約占NeurIPS口頭報告的29%(接受率為0.5%)。
盡管存在COVID,但AI人才需求仍然很高,并且AI課程的注冊人數(shù)一直在增長。
工業(yè)(幻燈片82-129)
最大的亮點是基于AI的藥物。我們已經接近AI藥物進入市場的地步。這與生物學/醫(yī)學論文的繁榮并駕齊驅。然而,鄙視的一點是法規(guī)和程序。當前的批準方法既不是針對AI發(fā)現(xiàn)的產品,也不是針對AI主導的產品,也不是針對持續(xù)改進的工作流程。
自動駕駛汽車(AV)行業(yè)面臨類似的問題。盡管投入了數(shù)十億美元,但無人駕駛汽車的立法比自動駕駛汽車本身滯后得多。部分資金將用于內部硬件,特別是定制的LiDAR技術,另一筆資金將用于自動駕駛汽車堆棧,而剩下的仍然很大程度上是手工制作的。
同時,對計算的需求激發(fā)了新的計算平臺提供商和專門的AI硬件,例如Graphcore的M2000,Nvidia的DGX-A100和Google的TPUv4。同時,改進的ML基礎架構和操作方面的工作也在飛速發(fā)展。
幻燈片113至129專門介紹行業(yè)成功案例。
政治(幻燈片130–170)
今年以AI的道德問題成為主流為標志,包括但不限于性別/種族偏見,警察和軍事用途,面部識別,監(jiān)視和偽造品。特別是,軍方對AI技術的興趣令人震驚,但并非出乎意料。
諸如NeurIPS,ICLR和Google之類的會議已經采用了新的道德規(guī)范,并且一些公司傾向于公平和隱私的理想。但是,要實現(xiàn)真正的變革,還有很長的路要走。芯片生產和IP所有權似乎是各國政府更加關注的問題。
政治上的流行語是AI民族主義:投資成為AI領導人和全國性AI政策的國家-主權問題。
預測(幻燈片172)
Benaich和Hogarth以2021年的預測結束了報告。它們如下(幻燈片172):
1)建立更大語言模型的競賽仍在繼續(xù),我們看到了第一個10萬億參數(shù)模型。
2)基于注意力的神經網(wǎng)絡從NLP遷移到計算機視覺,以實現(xiàn)最先進的結果。
3)一家大型公司AI實驗室因其母公司更改策略而關閉。
4)為響應美國國防部的活動和對美國軍事AI初創(chuàng)公司的投資,在接下來的12個月里,一波以中國和歐洲國防為重點的AI初創(chuàng)公司合計籌集了超過1億美元。
5)一家領先的人工智能先行藥物發(fā)現(xiàn)初創(chuàng)公司(例如Recursion,Exscientia)進行首次公開募股或以超過$ 10B的價格被收購。
6)DeepMind在AlphaFold之外在結構生物學和藥物發(fā)現(xiàn)方面取得了重大突破。
7)Facebook通過3D計算機視覺在增強現(xiàn)實和虛擬現(xiàn)實方面取得了重大突破。
8)NVIDIA最終并沒有完成對Arm的收購。
盡管這些預測是針對明年的,但其中一些已經成為現(xiàn)實。關于(1),微軟宣布其DeepSpeed庫已經具有"萬億參數(shù)模型"的功能。盡管到目前為止尚未發(fā)布任何版本,但顯然要出現(xiàn)10萬億美元的模型之路。關于(2),圖像值16x16字朝此方向邁進。
關于(6),除了AlphaFold,我們還有……AlphaFold 2!它的最新版本對生物學的影響與2012年AlexNet對計算機視覺的影響相同或更大。當前的媒體報道似乎是一致的。我堅信作者將在2021年將其標記為正確。
報告內容
接下來,我按照幻燈片順序將自己的觀點添加到報告結果中,并與最近發(fā)生的事件進行一些關聯(lián)。請記住,該報告已于10月發(fā)布。從那以后,發(fā)生了很多事情。
研究(幻燈片10-62)
· 僅有15%的AI論文發(fā)布了他們的代碼(幻燈片11):我想知道其他計算機科學領域的百分比率。此外,并非所有代碼都一樣。在代碼方面,由預先存在的組件構成的新體系結構不如全新實現(xiàn)重要。新穎的損失或優(yōu)化器功能可以像嵌入式代碼片段一樣短??偠灾?,我同意AI并不像我們想象的那樣開放,但相對于計算機科學的其他領域,它仍然是相當開放的
· PyTorch在行業(yè)使用方面將超過TensorFlow(幻燈片13、14):雖然我相信這是事實,但數(shù)據(jù)具有誤導性。只有30%的論文陳述了他們的框架。許多可能仍受TensorFlow約束。此外,我發(fā)現(xiàn)沒有顯示Keras數(shù)據(jù)很奇怪(幻燈片14)。
· AI競賽非常耗費資源(幻燈片16-24):最近,蒂姆尼特·格布魯(Timnit Gebru)被Google開除,因為他的論文草稿概述了訓練大型語言模型的金錢和生態(tài)成本。根據(jù)她的論文,在NAS上訓練的0.2bi參數(shù)的Transformer大約需要100萬美元。GPT-3擁有175bi。數(shù)學看起來對地球沒有任何好處。
· 這次軍備競賽不會帶我們到任何地方(幻燈片16-24):我認為,爭取NLP突破的競賽根本不會帶來真正的突破。GPT-3在類固醇上幾乎是GPT-2??紤]到上面提到的Microsoft DeepSpeed,我們將繼續(xù)看到媒體上出現(xiàn)models腫的模型,并且通過這種努力在理解上不會有有意義的結果。
· 大學跟不上,還是可以?(幻燈片22):任何AI部門都無法跟上大型技術。大學需要玩另一種游戲。小型模型研究可能以對數(shù)成本帶來盡可能多的性能。但是,目前,公司是有關高效學習的領先研究者。例如,MobileNet / EfficientDet是Google的,ShuffleNet是Face ++的。
· Transformer很顯眼(幻燈片29):這些模型基于注意力機制,這是眾所周知的耗電和耗資源的問題,因為給定N個元素序列,該機制為N²。有效關注是一個熱門話題,但尚未有解決方案被宣布為贏家。上面提到的大多數(shù)AI成本都可以追溯到此機制。
· 生物學正在經歷其"人工智能時刻"(幻燈片30):的確如此。有了AlphaFold 2,我們可能會在這十年中看到生物學方面的重大突破,就像我們在2010年代通過AlexNet和Computer Vision看到的那樣。
· 基于AI的篩查乳房X線照片(幻燈片34):這是一篇引起爭議的文章。它聲稱具有超人的性能,但缺乏可解釋性,到目前為止,尚未發(fā)布任何代碼或數(shù)據(jù)集供第三方檢查和復制。這篇廣為宣傳的文章引起了全球研究人員的熱烈響應,共同表示"透明性和可重復性在人工智能研究中的重要性。"作為一個社區(qū),我們必須努力打破AI成為愚蠢的準確性競賽的障礙。醫(yī)生如何信任黑匣子算法?
人才(幻燈片63-81)
· 人才外流(幻燈片64):雖然這是關于人工智能和2020年的,但我不禁要提到這種觀點以美國為中心。所有提到的大學都位于美國。大腦一直在運動,特別是從發(fā)展中國家到富裕國家。恰好這次大學是"窮國",公司是"富國"。
· 離職與企業(yè)家精神下降有關(幻燈片66):我認為這種聯(lián)系很差。市場上公司充斥著人才,缺乏人才,這對于更多公司來說是一個糟糕的環(huán)境?;脽羝?3同意,因為大多數(shù)博士都是外國人,而且外國人更可能加入大公司而不是自己創(chuàng)業(yè)。
· 在NeurIPS(幻燈片70)上受中國教育的研究人員的貢獻:與中國成為AI領導者的計劃有關。
· 在美國工作的大多數(shù)頂級AI研究人員都沒有在美國接受培訓(幻燈片71-75):這些幻燈片指出了一個簡單的事實:美國高度依賴外國人才。大多數(shù)學生會獲得博士學位并留在科技公司工作。仇外法律對美國不利。但是…
· 特朗普對美國不利(幻燈片76):特朗普試圖將移民拒之門外,卻一無所獲,但無疑提高了人們對美國對外國人才依賴的認識,其他尋求人工智能優(yōu)勢的國家可能會抓住這樣的機會吸引人才來他們的大學。
工業(yè)(幻燈片82–129)
· AI優(yōu)先藥物發(fā)現(xiàn)(幻燈片83-92):顯然,與自動駕駛汽車上的所有投資相比,藥物的投資收益更快。此外,與自動駕駛汽車相比,更好的藥物和更大的疾病覆蓋率可能對人類更有益。
· 影音公司尚處于起步階段(幻燈片93-96):立法目前還為時過早,而且離世界范圍還很遠。如果今天發(fā)布的AV完美無缺,那么幾乎在任何地方都將禁止它,或者無論如何都需要駕駛員。
· 當甚至十億美元還不夠的時候(幻燈片97-106):還會投入更多,而這仍然不夠。AV是一個時間問題,而不是金錢問題。人工智能還不夠成熟,我們的法律也沒有為此做好準備。當前的視覺研究忽略了我們的世界是連續(xù)的。我們不需要從單個圖像中檢測路標。我們需要更好地匯總多個框架的結果。恕我直言,公司只是在向LiDAR和受監(jiān)管的死胡同問題上傾銷資金。
· 計算進展(幻燈片107-111):新穎的硬件總是不錯的。但是,我不知道堆棧的其余部分是否會保持下去。大型數(shù)據(jù)集+大型計算的問題在于準時準備下一批。計算越快(越大),就越難以所需的速度(+數(shù)據(jù)擴充)來獲取訓練數(shù)據(jù)。
政治(幻燈片130–170)
· 道德風險(幻燈片131):這需要特別注意。Timnit Gebru的最近解雇凸顯了整個行業(yè)在對待道德方面有多么錯誤。要求大型AI技術領導AI倫理學研究就像要求石油公司領導應對全球變暖的斗爭。她的解雇表明,只要公司不損害其商業(yè)模式,他們就會發(fā)揮自己的作用。這并不奇怪。考慮到美國大學與公司資金的緊密聯(lián)系,很難指望它們也參與其中。
· 人臉識別是一個主要問題(幻燈片132-140):當前的法律是為人類而設計的。如何將其推廣到可以識別人群中所有個體的系統(tǒng)?我們有資格獲得匿名身份嗎?在什么程度上?公司應該被封鎖但允許執(zhí)法嗎?從某種意義上說,超級英雄具有相似之處。我們的法律將如何適用于超人或閃電俠?我們真的可以期望普通人法律同樣適用于超人能力嗎?
· 語音和文字呢?(幻燈片132–140):人臉識別關系到我們的存在,但是我們在手機上說的一切呢?我們所說的一切都可以被處理,監(jiān)視和曲解。通過臉上的法律和無視其他媒體將無視房間里的大象:我們所做的一切都受到監(jiān)控。
· AI民族主義(幻燈片161-167):大多數(shù)發(fā)達國家都醒悟了AI及其存在的威脅。人工智能的霸權很容易轉化為軍事和經濟上的統(tǒng)治,并影響主權。中國顯然已經處于領先地位,因為它已經在AI領導領域努力了很長時間,并且正在大力投資人才。如上所述,我認為,中國吸引外國人才離開美國是時間問題。印度也是如此。
人工智能是有史以來的最高點。結果從未如此出色。從來沒有這么多論文。Alphas , Formers,木偶。將自己淹沒在消融研究中,而看不見還有什么是很容易的。除了準確之外,模型還應該是經濟的,包容的和可解釋的。僅出于準確性的考慮而犧牲這些屬性是自戀的。它只對作者有幫助。高精度是第一步,而不是最后一步。
最重要的是,人工智能不是自然資源。它不屬于一個國家,也不屬于一個土地,計算機也不屬于。爭取人工智能至上的競賽與其他地緣政治斗爭不同。這是一場由計算硬件和操作它的人才以及人才流推動的智力競賽。