54%中國NeurIPS作者流入美國:劍橋AI全景報告出爐
NeurIPS 接收論文中,29% 的作者有中國大學的本科學位,但他們在畢業(yè)后有 54% 會去美國攻讀研究生博士,這其中又有 90% 選擇留美工作。劍橋大學的 2020 版《AI 全景報告》寫出了 AI 領(lǐng)域哪些值得關(guān)注的新觀察?
機器之心報道,作者:澤南、蛋醬、小舟
人工智能是基礎(chǔ)科學與工程實踐結(jié)合的技術(shù)領(lǐng)域,近年來已經(jīng)融合了越來越多的其他方向。在數(shù)字化逐漸成型的今天,AI 將為技術(shù)進步產(chǎn)生推動作用。
近日,劍橋大學的 2020 版《AI 全景報告》終于出爐,這是該年度報告的第三期。和往年一樣,該報告援引的數(shù)據(jù)來自知名科技公司和研究小組。新版 AI 全景報告以幾個方面分別介紹了人工智能領(lǐng)域最近一段時間的發(fā)展趨勢:研究、人才、業(yè)界、政策和未來展望。
該調(diào)查的兩位主要作者 Nathan Benaich 與 Ian Hogarth 均來自劍橋大學。
報告地址:https://www.stateof.ai/
一、人工智能研究進展
人工智能領(lǐng)域的發(fā)展雖然伴隨著開源的框架和活躍的社區(qū),但在今年報告的開頭,我們還是需要以數(shù)據(jù)說話,首先明確一點:AI 研究的開放性并沒有我們想象的那么高。
在深度學習框架上,正如我們最近所感受到的,在各個 AI 頂會的論文中,研究人員已經(jīng)廣泛使用了 PyTorch,其搶占了大部分原來 TensorFlow 的位置。
在 GitHub 上,PyTorch 相比 TensorFlow 也有更多的新研究實現(xiàn):據(jù)統(tǒng)計現(xiàn)在約有 47% 的實現(xiàn)是基于 PyTorch 的,而 TensorFlow 的大約為 18%。
另一方面,大尺寸模型正在推動著 NLP 領(lǐng)域的技術(shù)進步,OpenAI 的 GPT-3 等新研究已經(jīng)把深度學習模型的參數(shù)數(shù)量推到了千億。根據(jù)目前的云服務(wù)算力價格,訓練每 1000 參數(shù)的模型平均需要 1 美元,擁有 1750 億參數(shù)的 GPT-3 可能需要花費百萬美元級別的費用,有專家認為這一數(shù)字超過了 1000 萬美元。高昂的訓練費用,讓研究人員們在探索新方向時遭遇了挑戰(zhàn)。
在 AI 模型訓練需求越來越多算力的同時,傳統(tǒng)計算機架構(gòu)卻在逐漸接近摩爾定律的終點。MIT 等大學的研究稱,科學家如果希望將 ImageNet 數(shù)據(jù)集圖像分類任務(wù)的錯誤率從 11.5% 降到 1%,可能需要數(shù)百億美元的投入。
不過,人們也在研究提高模型效率的方法,OpenAI 的統(tǒng)計表明:自 2012 年起,訓練深度學習神經(jīng)網(wǎng)絡(luò)進行 ImageNet 圖像分類要想達到特定的水平,其所需的算力每 16 個月減半。
毋庸置疑的是,GPT-3、BERT 等模型已經(jīng)讓 NLP 領(lǐng)域的研究進入了新的階段。現(xiàn)在甚至出現(xiàn)了自動翻譯編程語言的無監(jiān)督機器翻譯工具。在 GitHub 上把 C++ 函數(shù)翻譯至 Java 準確率達到 90%。
技術(shù)的快速發(fā)展源于人工智能領(lǐng)域的高研究力度。據(jù)統(tǒng)計,全球有關(guān) AI 方法(深度學習、NLP、計算機視覺、強化學習等)的論文數(shù)量自 2017 年起每年增長 50%,在 2020 年,我們可能將會看到超過 21000 篇 AI 領(lǐng)域的新論文。
不過,當前的大多數(shù)機器學習應用是通過統(tǒng)計來實現(xiàn)功能的,其忽略了人類學習知識的重要方法——因果推理。在為患者尋找診療方案等任務(wù)中,因果推理是更好的方式。Judea Pearl、Yoshua Bengio 等人工智能先驅(qū)者都認為,因果推理是使得機器學習系統(tǒng)更好地泛化,更強大穩(wěn)健,并為決策作出更大貢獻的新方向。
二、AI 人才:美國占主導
人工智能領(lǐng)域研究者的分布情況近幾年呈現(xiàn)出幾種新的趨勢。
人才流動
首先,學術(shù)界面臨人才外流的情況,美國許多研究教授離開大學,前往科技公司任職。從 2004 年至 2018 年,谷歌、DeepMind、亞馬遜、微軟已經(jīng)從美國大學聘請了 52 位終身教授??▋?nèi)基梅隆大學、華盛頓大學和伯克利大學在同一時期失去了 38 名教授。值得注意的是,僅 2018 年一年就有 41 位 AI 教授離開。
從 AI 頂會的角度看,在中國有過教育經(jīng)歷的研究者近幾年為 AI 領(lǐng)域的研究做出了突出貢獻。以人工智能國際頂會 NeurIPS 2019 為例,接收論文的作者中有 29% 都曾在中國獲得本科學位。
但是從國內(nèi)的大學畢業(yè)后,繼續(xù)在 NeurIPS 上發(fā)表論文的畢業(yè)生中有 54% 都去了美國。
在人工智能領(lǐng)域里,美國仍然是國際研究的中心,有 90% 在美國畢業(yè)的留學博士都會留美繼續(xù)工作。
而非美國籍的 AI 博士畢業(yè)生畢業(yè)之后很有可能到大型科技公司就職,而美國籍的博士畢業(yè)生更有可能去初創(chuàng)公司就職或加入學術(shù)界的研究行列。
與此同時,許多 AI 領(lǐng)域的美國博士畢業(yè)生畢業(yè)之后會前往英國和中國就職。
接下來我們再從研究機構(gòu)的角度分析一下 AI 領(lǐng)域的概況。
以 NeurIPS 2019 為例,谷歌、斯坦福、卡內(nèi)基梅隆大學、MIT 和微軟發(fā)表的論文數(shù)量位居前五。
人才供不應求
作為當下最熱門的研究領(lǐng)域之一,AI 領(lǐng)域的人才需求不斷增長。許多一流大學也在擴大 AI 專業(yè)的招生規(guī)模。以斯坦福為例,最近幾年斯坦福 AI 領(lǐng)域的學生是 1999-2004 年的十倍之多,與 2012-2014 年相比 AI 領(lǐng)域?qū)W生數(shù)量也是翻了一倍。盡管如此,來自 Indeed 的數(shù)據(jù)顯示,招聘職位的數(shù)量仍約為求職者數(shù)量的三倍。
但不可避免的是,2020 年人工智能領(lǐng)域的人才市場受到了新冠疫情的嚴重影響。根據(jù)領(lǐng)英發(fā)布的數(shù)據(jù),2020 年機器學習領(lǐng)域職位原本強勁的增長趨勢在 2 月受到打擊,開始下滑。
三、業(yè)界快速發(fā)展
人工智能設(shè)計的藥物,在日本已經(jīng)開始了一期臨床試驗。在人工智能醫(yī)療領(lǐng)域,眾多創(chuàng)業(yè)公司收集了巨額資金,實現(xiàn)了「平臺戰(zhàn)略」。
在新冠疫情期間,眾多科技公司也快速將 AI 醫(yī)療影像識別技術(shù)投入了實用化。最近一段時間里,美國醫(yī)療保險和醫(yī)療補助服務(wù)中心提出了基于深度學習的醫(yī)療成像產(chǎn)品費用標準。AI 系統(tǒng)可以快速掃描胸透等多種醫(yī)療影像,并將篩查結(jié)果提交給人類專家,排除非敏感因素。
說到人工智能最引人關(guān)注的自動駕駛。自 2018 年以來,在加利福尼亞州擁有自動駕駛汽車測試許可的 66 家公司中,只有 3 家被允許在沒有安全駕駛員的情況下進行測試,其分別為 Waymo(谷歌)、Nuro 和 AutoX。
即使在政策最為開放的加州,迄今為止自動駕駛汽車的行駛里程相比人類也是微不足道——自動駕駛汽車公司在 2019 年的自動駕駛里程比 2018 年增加了 42%。但這僅相當于 2019 年有駕照加州駕駛員行駛里程的 0.000737%。
使用每次人工干涉之前,汽車自動駕駛的行駛里程作為評判標準,其實不一定是最客觀的。在美國一些州,駕駛員雙手完全脫離方向盤的行駛里程并沒有記錄。
不過最近,我們看到了這項數(shù)據(jù)的新變化。百度的自動駕駛已經(jīng)達到了人工每次干涉之間 18,050 英里,超過了 Waymo(谷歌)的 13,219 英里。對于不斷加強 AI 投入的百度來說,最近的投入已經(jīng)開始得到回報。
自動駕駛領(lǐng)域的公司,必須要有強大的資金支持。13 億美元被亞馬遜收購的 Zoox,其自 2015 年以來收獲的融資已超過了 9.55 億美元,Zoox 最新的估值約為 32 億美元。交易文件顯示,Zoox 在 2020 年初每個月要燒掉 3000 萬美元。
國內(nèi)的出行公司滴滴最近也把自動駕駛業(yè)務(wù)剝離,并從軟銀遠景基金等機構(gòu)籌集了 5 億美元。今年 7 月,滴滴在上海推出了自動駕駛汽車服務(wù)。
目前,自動駕駛系統(tǒng)中的大多數(shù)機器學習算法只專注于車輛周圍的事物,并基于工程量巨大的手寫規(guī)則。研究人員正在開發(fā)類似于 AlphaGo,學習大量人類駕駛經(jīng)驗進行訓練的新算法。最近,Waymo、Uber 和 Lyft 都展示了模仿學習和逆強化學習的新技術(shù)。
自動駕駛等領(lǐng)域的發(fā)展也需求大量算力,Graphcore、英偉達等公司今年推出的新一代芯片成為了人們的希望。
政策變化
除了 AI 研究方向之外,人工智能應用的快速落地也引起了人們對于隱私和倫理的擔憂。
人臉識別技術(shù)正面臨著前所未有的爭議
目前,世界上 50% 的地方都允許使用人臉識別技術(shù),只有 3 個國家 (比利時、盧森堡、摩洛哥) 部分禁止該技術(shù),只允許在特定情況下使用。
那些頭部科技公司,對于人臉識別技術(shù)的使用也更加謹慎:
微軟刪除了其 1000 萬張人臉的數(shù)據(jù)庫——這是目前可用的最大數(shù)據(jù)庫。數(shù)據(jù)庫中的人臉是從網(wǎng)絡(luò)上抓取的,并未取得當事人的許可。
亞馬遜宣布一年內(nèi)暫停警方使用其面部識別工具 Rekognition,以便「國會有足夠時間制定適當?shù)囊?guī)定」。
IBM 宣布放棄其人臉識別產(chǎn)品及技術(shù)。
紐約大都會運輸署 (MTA) 要求蘋果允許乘客戴口罩時啟用 FaceID,以防止新冠病毒擴散。
這一年以來,人臉識別技術(shù)所面臨的爭議比以往都要洶涌。
美國繼續(xù)在軍用 AI 系統(tǒng)上投入大量資金
隨著機器學習技術(shù)的落地,軍方在該方面的探索也越來越多,盡管我們尚不清楚這一趨勢對現(xiàn)實世界的影響程度。
美國總務(wù)管理局和美國國防部聯(lián)合人工智能中心授予博思艾倫咨詢公司一份為期 5 年、總共 8 億多美元的訂單,內(nèi)容簡介中包括「數(shù)據(jù)標簽、數(shù)據(jù)管理、人工智能產(chǎn)品開發(fā)」等關(guān)鍵詞。
在國防層面,還有更多與此相關(guān)的 AI 公司正在獲得豐厚的政府合同和風險投資。戴爾旗下 Pivotal 軟件公司獲得了美國國防部 1.21 億美元的合同,還有一些從事無人機、高分辨率衛(wèi)星地圖、信息管理等業(yè)務(wù)的公司獲得了大量風險投資,例如 Anduril、Rebellion、Skydio。
美國國防部高級研究計劃局(DARPA)組織了一場虛擬空戰(zhàn)大賽,一眾 AI 系統(tǒng)相互競爭,最終勝出的「選手」、蒼鷺系統(tǒng)公司開發(fā)的頂級 AI 以 5:0 的成績擊敗了人類飛行員。
從 AlphaGo、AlphaStar 到 AlphaDogfight,借助深度強化學習技術(shù),人工智能正在更多的領(lǐng)域擊敗頂尖人類選手。這也充分說明,在游戲?qū)?zhàn)環(huán)境中所訓練的取勝技術(shù),可以迅速遷移到軍事環(huán)境中。被擊敗的飛行員表示:「作為戰(zhàn)斗機飛行員,我們往常的標準操作方法已經(jīng)不起作用了?!?/p>
美國國防部長 Mark T. Esper 表示,這些在模擬戰(zhàn)斗環(huán)境中訓練的算法,將在 2024 年應用于真實世界的戰(zhàn)爭中,包括全尺寸戰(zhàn)術(shù)飛機。機器學習將對未來世界的戰(zhàn)爭產(chǎn)生結(jié)構(gòu)性影響,他指出:「那些率先利用最新迭代技術(shù)的人,往往會在未來戰(zhàn)場上占據(jù)決定性優(yōu)勢。」
兩大 AI 頂會采用全新的道德規(guī)范
NeurIPS 和 ICLR 都提出了新的倫理規(guī)范,但并未強制代碼和數(shù)據(jù)共享。以人工智能領(lǐng)域最頂級會議 NeurIPS 為例:
- NeurIPS 將創(chuàng)建一個專門的子團隊,由機器學習和倫理學交叉領(lǐng)域的專家組成。
- NeurIPS 現(xiàn)在要求論文作者提交關(guān)于「該工作可能產(chǎn)生的更廣泛的影響,包括道德方面以及未來的社會影響」。
- 鑒于 Facebook 和谷歌等公司在 NeurIPS 中的影響力日益增強,因此「作者必須提供明確披露資金來源以及競爭利益點」。
- NeurIPS「強烈鼓勵」共享數(shù)據(jù)和模型,但沒有強制性規(guī)定。
- 在這方面,機器學習領(lǐng)域落后于生命科學領(lǐng)域,例如在 Nature 期刊上發(fā)表論文的條件之一是,作者必須「及時向讀者提供材料、數(shù)據(jù)、代碼和相關(guān)協(xié)議」。
華為在智能手機領(lǐng)域的主導性增強,并在機器學習技術(shù)上大量投資
這也是 9 年來第一次由蘋果和三星之外的公司占據(jù)了市場領(lǐng)先地位,但到了 2020 年 9 月中旬,由于美國的制裁,華為面臨著芯片供應的困境。
使用美國芯片制造設(shè)備的外國公司必需獲得美國政府的許可,才能向華為提供某些芯片。華為消費者業(yè)務(wù) CEO 余承東在中國信息化百人會 2020 年峰會上表示:「我們手機業(yè)務(wù)現(xiàn)在很困難,芯片供應困難,很缺貨。」
華為的麒麟 AI 芯片由臺積電代工,受到美國制裁政策影響,臺積電接受的最后一筆訂單是在 2020 年 5 月 15 日。目前,華為正嘗試向中芯國際(SMIC)尋求芯片制造方面的支持。
但臺積電在研發(fā)支出和半導體制造方面仍占據(jù)業(yè)內(nèi)主導地位。臺積電的研發(fā)費用與中芯國際的收入相當,前者是目前唯一商用 5nm 制造工藝 (N5) 的制造商,目前正致力于 3 納米制造工藝 ,其功率效率比 7 納米高出 2 倍,性能比 7 納米高出 33% 。不久之前,中芯國際也表示,2020 年會將資本支出增至 67 億美元(高于原定目標 31 億美元)。
未來展望:8 個趨勢
在最后一部分,劍橋 2020 年度 AI 全景報告給出了關(guān)于未來 12 個月的 8 項趨勢預測。
1、搭建更大語言模型的競賽仍將持續(xù),我們將會見證第一個 10 萬億參數(shù)級模型的誕生。
2、基于注意力的神經(jīng)網(wǎng)絡(luò)將從 NLP 領(lǐng)域遷移到 CV 領(lǐng)域,實現(xiàn)新的 SOTA。
3、隨著母公司戰(zhàn)略的調(diào)整,一家大型企業(yè)的 AI lab 即將關(guān)閉。
4、作為對美國國防部活動和美國軍事 AI 初創(chuàng)公司融資的回應,一部分中國和歐洲的國防 AI 企業(yè)將在未來的 12 個月內(nèi)融資超過 1 億美元。
5、一家頭部 AI 藥物發(fā)現(xiàn)初創(chuàng)公司(比如 Recursion、Exscientia)要么進入 IPO,要么以超過 10 億美元的價格被收購。
6、DeepMind 將在結(jié)構(gòu)生物學和藥物發(fā)現(xiàn)方面取得重大突破。
7、Facebook 將憑借 3D 計算機視覺技術(shù)在 AR 和 VR 上取得重大突破。
8、NVIDIA 最終不會完成對 Arm 的收購。