Jeff Dean萬字長文:2020谷歌10大領(lǐng)域AI技術(shù)發(fā)展
Jeff Dean 發(fā)了一篇幾萬字長文,回顧了這一年來谷歌在各個領(lǐng)域的成就與突破,并展望了 2021 年的工作目標(biāo)。
“當(dāng)我 20 多年前加入谷歌的時候,只想弄清楚如何真正開始使用電腦在網(wǎng)絡(luò)上提供高質(zhì)量和全面的信息搜索服務(wù)。時間快進(jìn)到今天,當(dāng)面對更廣泛的技術(shù)挑戰(zhàn)時,我們?nèi)匀挥兄瑯拥目傮w目標(biāo),那就是組織全世界的信息,使其普遍可獲取和有用。
2020 年,隨著世界被冠狀病毒重塑,我們看到了技術(shù)可以幫助數(shù)十億人更好地交流,理解世界和完成任務(wù)。我為我們所取得的成就感到驕傲,也為即將到來的新的可能性感到興奮。”
Google Research 的目標(biāo)是解決一系列長期而又重大的問題,從預(yù)測冠狀病毒疾病的傳播,到設(shè)計算法、自動翻譯越來越多的語言,再到減少機(jī)器學(xué)習(xí)模型中的偏見。
本文涵蓋了今年的關(guān)鍵亮點(diǎn)。
新冠病毒和健康
COVID-19 的影響給人們的生活帶來了巨大的損失,世界各地的研究人員和開發(fā)人員聯(lián)合起來開發(fā)工具和技術(shù),以幫助公共衛(wèi)生官員和政策制定者理解和應(yīng)對這場流行病。
蘋果和谷歌在 2020 年合作開發(fā)了暴露通知系統(tǒng)(ENS) ,這是一種支持藍(lán)牙的隱私保護(hù)技術(shù),如果人們暴露在其他檢測呈陽性的人群中,可以通知他們。
ENS 補(bǔ)充了傳統(tǒng)的接觸者追蹤工作,并由 50 多個國家、州和地區(qū)的公共衛(wèi)生當(dāng)局部署,以幫助遏制感染的傳播。
在流感大流行的早期,公共衛(wèi)生官員表示,他們需要更全面的數(shù)據(jù)來對抗病毒的快速傳播。我們的社區(qū)流動性報告,提供了對人口流動趨勢的匿名追蹤,不僅幫助研究人員了解政策的影響,如居家指令和社會距離,同時還進(jìn)行了經(jīng)濟(jì)影響的預(yù)測。
我們自己的研究人員也探索了用這種匿名數(shù)據(jù)來預(yù)測 COVID-19 的傳播,用圖神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的基于時間序列的模型。
冠狀病毒疾病搜索趨勢癥狀允許研究人員探索時間或癥狀之間的聯(lián)系,比如嗅覺缺失---- 嗅覺缺失有時是病毒的癥狀之一。為了進(jìn)一步支持更廣泛的研究社區(qū),我們推出了谷歌健康研究應(yīng)用程序,以提供公眾參與研究的方式。
圖:COVID-19 搜索趨勢正在幫助研究人員研究疾病傳播和癥狀相關(guān)搜索之間的聯(lián)系
谷歌的團(tuán)隊正在為更廣泛的科學(xué)界提供工具和資源,這些科學(xué)界正在努力解決病毒對健康和經(jīng)濟(jì)的影響。
圖:一個模擬新冠病毒擴(kuò)散的時空圖
我們還致力于幫助識別皮膚疾病,幫助檢測老年黃斑變性(在美國和英國是導(dǎo)致失明的主要原因,在全世界是第三大致盲原因) ,以及潛在的新型非侵入性診斷(例如,能夠從視網(wǎng)膜圖像中檢測出貧血的跡象)。
圖:深度學(xué)習(xí)模型從視網(wǎng)膜圖像中量化血紅蛋白水平。血紅蛋白水平是檢測貧血的一項(xiàng)指標(biāo)
今年,同樣的技術(shù)如何可以窺視人類基因組,也帶來了令人興奮的演示。谷歌的開源工具 DeepVariant,使用卷積神經(jīng)網(wǎng)絡(luò)基因組測序數(shù)據(jù)識別基因組變異,并在今年贏得了 FDA 的 4 個類別中的 3 個類別的最佳準(zhǔn)確性的挑戰(zhàn)。丹納-法伯癌癥研究所領(lǐng)導(dǎo)的一項(xiàng)研究使用同樣的工具,在 2367 名癌癥患者中,將導(dǎo)致前列腺癌和黑色素瘤的遺傳變異的診斷率提高了 14% 。
天氣、環(huán)境和氣候變化
機(jī)器學(xué)習(xí)能幫助我們更好地了解環(huán)境,并幫助人們在日常生活中以及在災(zāi)難情況下做出有用的預(yù)測。
對于天氣和降水預(yù)報,像 NOAA 的 HRRR 這樣基于計算物理的模型一直占據(jù)著主導(dǎo)地位。然而,我們已經(jīng)能夠證明,基于 ML 的預(yù)報系統(tǒng)能夠以更好的空間分辨率預(yù)測當(dāng)前的降水量(“西雅圖的本地公園是不是在下雨? ”而不僅僅是“西雅圖在下雨嗎? ”)它能夠產(chǎn)生長達(dá) 8 小時的短期預(yù)報,比 HRRR 準(zhǔn)確得多,并且能夠以更高的時間和空間分辨率更快地計算預(yù)報。
我們還開發(fā)了一種改進(jìn)的技術(shù),稱為 HydroNets,它使用一個神經(jīng)網(wǎng)絡(luò)來建模真實(shí)的河流系統(tǒng),以更準(zhǔn)確地了解上游水位對下游洪水的相互作用,做出更準(zhǔn)確的水位預(yù)測和洪水預(yù)報。利用這些技術(shù),我們已經(jīng)將印度和孟加拉國的洪水警報覆蓋范圍擴(kuò)大了 20 倍,幫助在 25 萬平方公里內(nèi)更好地保護(hù)了 2 億多人。
可訪問性(Accessibility)
機(jī)器學(xué)習(xí)繼續(xù)為提高可訪問性提供了驚人的機(jī)會,因?yàn)樗梢詫W(xué)會將一種感官輸入轉(zhuǎn)化為其他輸入。舉個例子,我們發(fā)布了 Lookout,一個 Android 應(yīng)用程序,可以幫助視力受損的用戶識別包裝食品,無論是在雜貨店還是在他們家的廚房櫥柜里。
Lookout 背后的機(jī)器學(xué)習(xí)系統(tǒng)演示了一個功能強(qiáng)大但緊湊的機(jī)器學(xué)習(xí)模型,可以在有近 200 萬個產(chǎn)品的手機(jī)上實(shí)時完成這一任務(wù)。
同樣,使用手語交流的人很難使用視頻會議系統(tǒng),因?yàn)榧词顾麄冊谑终Z,基于音頻的揚(yáng)聲器檢測系統(tǒng)也檢測不到他們在主動說話。為視頻會議開發(fā)實(shí)時自動手語檢測,我們提出了一種實(shí)時手語檢測模型,并演示了如何利用該模型為視頻會議系統(tǒng)提供一種識別手語者為主動說話者的機(jī)制。
機(jī)器學(xué)習(xí)在其他領(lǐng)域的應(yīng)用
2020 年,我們與 FlyEM 團(tuán)隊合作,發(fā)布了果蠅半腦連接體,這是一種大型突觸分辨率圖譜的大腦連接,重建使用大規(guī)模機(jī)器學(xué)習(xí)模型應(yīng)用于高分辨率電子顯微鏡成像的腦組織。這些連接體信息將幫助神經(jīng)科學(xué)家進(jìn)行各種各樣的研究,幫助我們更好地理解大腦是如何運(yùn)作的。
負(fù)責(zé)任的人工智能
為了更好地理解語言模型的行為,我們開發(fā)了語言可解釋性工具(LIT) ,這是一個可以更好地解釋語言模型的工具包,使得交互式探索和分析語言模型的決策成為可能。
我們開發(fā)了在預(yù)訓(xùn)練語言模型中測量性別相關(guān)性的技術(shù),以及在谷歌翻譯中減少性別偏見的可擴(kuò)展技術(shù)。
為了幫助非專業(yè)人員解釋機(jī)器學(xué)習(xí)結(jié)果,我們擴(kuò)展了 2019 年引入的 TCAV 技術(shù),現(xiàn)在提供了一套完整而充分的概念。我們可以說“毛”和“長耳朵”是“兔子”預(yù)測的重要概念。通過這項(xiàng)工作,我們還可以說,這兩個概念足以充分解釋預(yù)測; 您不需要任何其他概念。
概念瓶頸模型是一種技術(shù),通過訓(xùn)練模型,使其中一層與預(yù)先定義的專家概念(例如,“骨刺呈現(xiàn)” ,或“翅膀顏色” ,如下所示)保持一致,然后再對任務(wù)做出最終預(yù)測,這樣我們不僅可以解釋這些概念,還可以動態(tài)地打開/關(guān)閉這些概念。
自然語言理解
更好地理解語言是我們今年看到相當(dāng)大進(jìn)展的一個領(lǐng)域。谷歌和其他公司在這個領(lǐng)域的大部分工作現(xiàn)在都依賴于 transformer,這是一種特殊風(fēng)格的神經(jīng)網(wǎng)絡(luò)模型,最初是為了解決語言問題而開發(fā)的(但是越來越多的證據(jù)表明,它們對圖像、視頻、語音、蛋白質(zhì)折疊以及其他各種各樣的領(lǐng)域也很有用)。
在 2020 年,我們描述了 Meena,一個對話機(jī)器人,可以聊任何事情。
谷歌仍向無監(jiān)督學(xué)習(xí)方向大力發(fā)展,例如 2020 年開發(fā)的 SimCLR,推進(jìn)自監(jiān)督和半監(jiān)督學(xué)習(xí)技術(shù)。
使用不同的自監(jiān)督方法(在 ImageNet 上預(yù)訓(xùn)練)學(xué)習(xí)的表示形式,對 ImageClass 的分類器進(jìn)行 ImageNet top-1 準(zhǔn)確性訓(xùn)練。灰色十字表示受監(jiān)管的 ResNet-50。
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)通過學(xué)習(xí)其他主體以及改進(jìn)探索,谷歌已經(jīng)提高了 RL 算法的效率。
他們今年的主要重點(diǎn)是離線 RL,它僅依賴于固定的,先前收集的數(shù)據(jù)集(例如先前的實(shí)驗(yàn)或人類演示),從而將 RL 擴(kuò)展到了無法即時收集訓(xùn)練數(shù)據(jù)的應(yīng)用程序中。研究人員為 RL 引入了對偶方法,開發(fā)了改進(jìn)的算法以用于非策略評估,此外,他們正在與更廣泛的社區(qū)合作,通過發(fā)布開源基準(zhǔn)測試數(shù)據(jù)集和 Atari 的 DQN 數(shù)據(jù)集來解決這些問題。
使用 DQN 重播數(shù)據(jù)集的 Atari 游戲的離線 RL
另一個研究方向是通過學(xué)徒制學(xué)習(xí)(apprenticeship learning),向其他代理學(xué)習(xí),從而提高了樣本效率。
需要注意的是,將 RL 擴(kuò)展到復(fù)雜的實(shí)際問題來說是一個重要的挑戰(zhàn)。
概述我們的方法并說明 AttentionAgent 中的數(shù)據(jù)處理流程。頂部:輸入轉(zhuǎn)換 - 一個滑動窗口將輸入圖像分割成更小的補(bǔ)丁,然后將它們 "扁平化",以便將來處理。中間。補(bǔ)丁選舉 - 修改后的自我注意力模塊在補(bǔ)丁之間進(jìn)行投票,以生成補(bǔ)丁重要性向量。底部:動作生成--AttentionAgent 在補(bǔ)丁之間進(jìn)行投票,生成補(bǔ)丁的重要性向量。行動生成--AttentionAgent 選擇重要性最高的補(bǔ)丁,提取相應(yīng)的特征,并基于這些特征做出決策。
AutoML
毫無疑問,這是一個非常活躍和令人興奮的研究領(lǐng)域。
我在 AutoML-Zero 中:不斷學(xué)習(xí)的代碼,我們采用了另一種方法,即為演化算法提供一個由非常原始的運(yùn)算(例如加法,減法,變量賦值和矩陣乘法)組成的搜索空間,以查看是否有可能從頭開始發(fā)展現(xiàn)代 ML 算法。
但是,有用的算法實(shí)在太少了。如下圖所示,該系統(tǒng)重塑了過去 30 年中許多最重要的 ML 發(fā)現(xiàn),例如線性模型,梯度下降,校正線性單位,有效的學(xué)習(xí)率設(shè)置和權(quán)重初始化以及梯度歸一化。
隨著神經(jīng)網(wǎng)絡(luò)被做得更寬更深,它們往往訓(xùn)練得更快,泛化得更好。這是深度學(xué)習(xí)中的一個核心奧秘,因?yàn)榻?jīng)典學(xué)習(xí)理論表明,大型網(wǎng)絡(luò)應(yīng)該超配更多。
在無限寬的限制下,神經(jīng)網(wǎng)絡(luò)呈現(xiàn)出驚人的簡單形式,并由神經(jīng)網(wǎng)絡(luò)高斯過程(NNGP)或神經(jīng)切線核(NTK)來描述。谷歌研究人員從理論和實(shí)驗(yàn)上研究了這一現(xiàn)象,并發(fā)布了 Neural Tangents,這是一個用 JAX 編寫的開源軟件庫,允許研究人員構(gòu)建和訓(xùn)練無限寬度的神經(jīng)網(wǎng)絡(luò)。
左:該示意圖顯示了深層神經(jīng)網(wǎng)絡(luò)如何隨著簡單的輸入/輸出圖變得無限寬而引發(fā)它們。右圖:隨著神經(jīng)網(wǎng)絡(luò)寬度的增加,我們看到在網(wǎng)絡(luò)的不同隨機(jī)實(shí)例上的輸出分布變?yōu)楦咚狗植肌?/p>
機(jī)器感知
對我們周圍世界的感知--對視覺、聽覺和多模態(tài)輸入的理解、建模和行動--仍然是一個具有巨大潛力的研究領(lǐng)域,對我們的日常生活大有裨益。
2020 年,深度學(xué)習(xí)使 3D 計算機(jī)視覺和計算機(jī)圖形學(xué)更緊密地結(jié)合在一起。CvxNet、3D 形狀的深度隱含函數(shù)、神經(jīng)體素渲染和 CoReNet 是這個方向的幾個例子。此外,他們關(guān)于將場景表示為神經(jīng)輻射場的研究(又名 NeRF,也可參見本篇博文)是一個很好的例子,說明 Google Research 的學(xué)術(shù)合作如何刺激神經(jīng)體量渲染領(lǐng)域的快速進(jìn)展。
在與加州大學(xué)伯克利分校合作的《學(xué)習(xí)因素化和重新點(diǎn)亮城市》中,谷歌提出了一個基于學(xué)習(xí)的框架,用于將戶外場景分解為時空變化的照明和永久場景因素。這能為任何街景全景改變照明效果和場景幾何,甚至將其變成全天的延時視頻。
2020 年,他們還使用神經(jīng)網(wǎng)絡(luò)進(jìn)行媒體壓縮的領(lǐng)域不斷擴(kuò)大,不僅在學(xué)習(xí)的圖像壓縮方面,而且在視頻壓縮的深層方法,體壓縮以及深不可知的圖像水印方面都取得了不錯的成績。
第一行:沒有嵌入消息的封面圖像。第二行:來自 HiDDeN 組合失真模型的編碼圖像。第三行:來自我們模型的編碼圖像。第四行:HiDDeN 組合模型的編碼圖像和封面圖像的歸一化差異。第五行:模型的歸一化差異
通過開源解決方案和數(shù)據(jù)集與更廣泛的研究社區(qū)進(jìn)行互動是另一個重要方面。2020 年,谷歌在 MediaPipe 中開源了多種新的感知推理功能和解決方案,例如設(shè)備上的面部,手和姿勢預(yù)測,實(shí)時身體姿勢跟蹤,實(shí)時虹膜跟蹤和深度估計以及實(shí)時 3D 對象檢測。
“最后,展望這一年,我特別熱衷于構(gòu)建更多通用機(jī)器學(xué)習(xí)模型的可能性,這些模型可以處理各種模式,并且可以通過很少的培訓(xùn)示例來自動學(xué)習(xí)完成新任務(wù)。
該領(lǐng)域的進(jìn)步將為人們提供功能更強(qiáng)大的產(chǎn)品,為全世界數(shù)十億人帶來更好的翻譯,語音識別,語言理解和創(chuàng)作工具。
這種探索和影響使我們對工作感到興奮!”