Jeff Dean長(zhǎng)文展望:2021年之后,機(jī)器學(xué)習(xí)領(lǐng)域的五大潛力趨勢(shì)
在過(guò)去的數(shù)年,見(jiàn)證了機(jī)器學(xué)習(xí)(ML)和計(jì)算機(jī)科學(xué)領(lǐng)域的許多變化。按照這種長(zhǎng)弧形的進(jìn)步模式,人們或許將在接下來(lái)的幾年中看到許多令人興奮的進(jìn)展,這些進(jìn)步最終將造福數(shù)十億人的生活,并產(chǎn)生比以往更深遠(yuǎn)的影響。
在一篇總結(jié)文章中,谷歌 AI 負(fù)責(zé)人、知名學(xué)者 Jeff Dean 重點(diǎn)介紹了 2021 年之后機(jī)器學(xué)習(xí)最具潛力的五個(gè)領(lǐng)域:
- 趨勢(shì) 1:能力、通用性更強(qiáng)的機(jī)器學(xué)習(xí)模型
- 趨勢(shì) 2:機(jī)器學(xué)習(xí)持續(xù)的效率提升
- 趨勢(shì) 3:機(jī)器學(xué)習(xí)變得更個(gè)性化,對(duì)社區(qū)也更有益
- 趨勢(shì) 4:機(jī)器學(xué)習(xí)對(duì)科學(xué)、健康和可持續(xù)發(fā)展的影響越來(lái)越大
- 趨勢(shì) 5:對(duì)機(jī)器學(xué)習(xí)更深入和更廣泛的理解
文章具體內(nèi)容如下:
趨勢(shì) 1:能力、通用性更強(qiáng)的機(jī)器學(xué)習(xí)模型
研究人員正在訓(xùn)練比以往任何時(shí)候規(guī)模更大、能力更強(qiáng)的機(jī)器學(xué)習(xí)模型。過(guò)去幾年,語(yǔ)言領(lǐng)域已經(jīng)從數(shù)百億 token 數(shù)據(jù)上訓(xùn)練的數(shù)十億參數(shù)模型(如 110 億參數(shù)的 T5 模型),發(fā)展到了在數(shù)萬(wàn)億 token 數(shù)據(jù)上訓(xùn)練的數(shù)千億或萬(wàn)億參數(shù)模型(如 OpenAI 1750 億參數(shù)的 GPT-3 和 DeepMind 2800 億參數(shù)的 Gopher 等密集模型和谷歌 6000 億參數(shù)的 GShard 和 1.2 萬(wàn)億參數(shù)的 GLaM 等稀疏模型)。數(shù)據(jù)集和模型規(guī)模的增長(zhǎng)帶來(lái)了多種語(yǔ)言任務(wù)上準(zhǔn)確率的顯著提升,并通過(guò)標(biāo)準(zhǔn) NLP 基準(zhǔn)任務(wù)上的全面改進(jìn)證明了這一點(diǎn)。
這些先進(jìn)的模型中有很多都聚焦于單一但重要的書(shū)面語(yǔ)言形態(tài)上,并在語(yǔ)言理解基準(zhǔn)和開(kāi)放式會(huì)話(huà)能力中展現(xiàn)出了 SOTA 結(jié)果,即使跨同一領(lǐng)域多個(gè)任務(wù)也是如此。同時(shí),這些模型在訓(xùn)練數(shù)據(jù)相對(duì)較少時(shí)也有能力泛化至新的語(yǔ)言任務(wù),在某些情況下,對(duì)于新任務(wù)需要極少甚至不需要訓(xùn)練樣本。
與谷歌對(duì)話(huà)應(yīng)用語(yǔ)言模型 LaMDA 模擬威德?tīng)柺虾1?weddell seal)時(shí)的對(duì)話(huà)
Transformer 模型也對(duì)圖像、視頻和語(yǔ)音模型產(chǎn)生了重大影響,所有這些都從規(guī)模中獲益頗多。用于圖像識(shí)別和視頻分類(lèi)的 Transformer 模型在很多基準(zhǔn)上實(shí)現(xiàn)了 SOTA,我們也證明了在圖像和視頻數(shù)據(jù)上協(xié)同訓(xùn)練模型可以獲得較單獨(dú)在視頻數(shù)據(jù)上訓(xùn)練模型更高的性能。
我們開(kāi)發(fā)了用于圖像和視頻 Transformer 的稀疏、軸性注意力機(jī)制,為視覺(jué) Transformer 模型找到了更好的標(biāo)記化圖像方法,并通過(guò)檢查視覺(jué) Transformer 方法相較于 CNN 的操作原理來(lái)提升對(duì)它們的理解。卷積操作與 Transformer 模型的結(jié)合也在視覺(jué)和語(yǔ)音識(shí)別任務(wù)中大有裨益。
生成模型的輸出也大幅提升。這在圖像生成模型中最為明顯,并在過(guò)去幾年取得了顯著進(jìn)步。例如,最近的模型有能力在僅給出一個(gè)類(lèi)別的情況下創(chuàng)建真實(shí)圖像,可以填充一個(gè)低分辨率圖像以創(chuàng)建看起來(lái)自然的高分辨率對(duì)應(yīng)物,甚至還可以創(chuàng)建任意長(zhǎng)度的空中自然景觀。
基于給定類(lèi)生成全新圖像的 cascade 擴(kuò)散模型示意圖
除了先進(jìn)的單模態(tài)模型之外,大規(guī)模多模態(tài)模型也在發(fā)展中。其中一些最先進(jìn)的多模態(tài)模型可以接受語(yǔ)言、圖像、語(yǔ)言和視頻等多種不同的輸入模態(tài),產(chǎn)生不同的輸出模態(tài)。這是一個(gè)令人興奮的方向,就像真實(shí)世界一樣,有些東西在多模態(tài)數(shù)據(jù)中更容易學(xué)習(xí)。
同樣地,圖像和文本配對(duì)有助于多語(yǔ)種檢索任務(wù),并且更好地理解如何配對(duì)文本和圖像輸入可以提升圖像描述任務(wù)。視覺(jué)和文本數(shù)據(jù)上的協(xié)同訓(xùn)練有助于提升視覺(jué)分類(lèi)任務(wù)的準(zhǔn)確率和穩(wěn)健性,同時(shí)圖像、視頻和語(yǔ)音任務(wù)上的聯(lián)合訓(xùn)練能夠提升所有模態(tài)的泛化性能。

谷歌機(jī)器人團(tuán)隊(duì)(Robotics at Google)基于視覺(jué)的機(jī)器人操作系統(tǒng)的示意圖,該系統(tǒng)可以泛化至全新任務(wù)。
所有這些趨勢(shì)都指向了訓(xùn)練能力更強(qiáng)的通用性模型,這些模型可以處理多種數(shù)據(jù)模態(tài)并解決數(shù)千甚至數(shù)萬(wàn)個(gè)任務(wù)。在接下來(lái)的幾年,我們將通過(guò)下一代架構(gòu) Pathways 來(lái)追求這一愿景,并期望在該領(lǐng)域看到實(shí)質(zhì)性進(jìn)展。

趨勢(shì) 2:機(jī)器學(xué)習(xí)持續(xù)的效率提升
效率的提升源自計(jì)算機(jī)硬件設(shè)計(jì)和機(jī)器學(xué)習(xí)算法、元學(xué)習(xí)研究的進(jìn)步,并正在推動(dòng)機(jī)器學(xué)習(xí)模型更強(qiáng)大的功能。機(jī)器學(xué)習(xí) pipeline 的很多方面,從訓(xùn)練和執(zhí)行模型的硬件到機(jī)器學(xué)習(xí)架構(gòu)的各個(gè)組件,這些都可以進(jìn)行效率優(yōu)化,同時(shí)保持或提升整體性能。更高的效率促成了大量關(guān)鍵性進(jìn)步,這些進(jìn)步將繼續(xù)顯著提升機(jī)器學(xué)習(xí)的效率,使更大、更高質(zhì)量的機(jī)器學(xué)習(xí)模型能夠在保持成本效益的前提下開(kāi)發(fā),并進(jìn)一步促進(jìn)大眾化。
一是機(jī)器學(xué)習(xí)加速性能的持續(xù)提升。每一代機(jī)器學(xué)習(xí)加速器都較前代更強(qiáng),實(shí)現(xiàn)了更快的每芯片性能,并常常增加整體系統(tǒng)的規(guī)模。2021 年,我們推出了谷歌第四代張量處理器 TPUv4,在 MLPerf 基準(zhǔn)上顯示出較 TPUv3 2.7 倍的提升。移動(dòng)設(shè)備上的機(jī)器學(xué)習(xí)能力也在顯著提升。Pixel 6 手機(jī)配有全新的谷歌張量處理器(Google Tensor processor ),該處理器集成了一個(gè)強(qiáng)大的機(jī)器學(xué)習(xí)加速器,以支持重要的設(shè)備上功能。
左:TPUv4 板;中:TPUv4 艙;右:Pixel 6 手機(jī)采用的谷歌張量芯片
二是機(jī)器學(xué)習(xí)編譯和機(jī)器學(xué)習(xí)工作負(fù)載優(yōu)化的持續(xù)提升。即使當(dāng)硬件無(wú)法改變時(shí),編譯器的改進(jìn)以及機(jī)器學(xué)習(xí)加速器的其他系統(tǒng)軟件優(yōu)化也可以實(shí)現(xiàn)效率的顯著提升。
在 150 個(gè)機(jī)器學(xué)習(xí)模型上使用基于 ML 的編譯器進(jìn)行自動(dòng)調(diào)優(yōu),可以實(shí)現(xiàn)端到端模型加速
三是人類(lèi)創(chuàng)造力驅(qū)動(dòng)的更高效模型架構(gòu)的發(fā)現(xiàn)。模型架構(gòu)的持續(xù)改進(jìn)大幅度減少了在很多問(wèn)題上實(shí)現(xiàn)一定準(zhǔn)確率水平所需的計(jì)算量。例如,在使用計(jì)算量比 CNN 少 4 至 10 倍的情況下,Vision Transformer 能夠在大量不同的圖像分類(lèi)任務(wù)上提升 SOTA 結(jié)果。
四是機(jī)器驅(qū)動(dòng)的更高效模型架構(gòu)的發(fā)現(xiàn)。神經(jīng)架構(gòu)搜索(NAS)可以自動(dòng)發(fā)現(xiàn)新的機(jī)器學(xué)習(xí)架構(gòu),這些架構(gòu)對(duì)于給定的問(wèn)題域更加高效。神經(jīng)架構(gòu)搜索的主要優(yōu)勢(shì)是可以顯著減少算法開(kāi)發(fā)所需的努力,這是因?yàn)樗鼘?duì)每個(gè)搜索空間和問(wèn)題域組合只需要一次努力(one-time effort)。
此外,雖然執(zhí)行神經(jīng)架構(gòu)搜索的初始努力需要很高的計(jì)算成本,但生成的模型可以極大地減少下游研究和生產(chǎn)設(shè)置中的計(jì)算量,從而減少整體資源需求。
神經(jīng)架構(gòu)搜索發(fā)現(xiàn)的 Primer 架構(gòu),效率是 plain Transformer 模型的 4 倍
五是稀疏性的使用。所謂稀疏性,即模型具有非常大的容量,但只有一部分針對(duì)給定的任務(wù)、示例或 token 而被激活。稀疏性是另一個(gè)重大的算法進(jìn)步,可以極大地提升效率。
2017 年,我們提出了稀疏門(mén)混合專(zhuān)家層(sparsely-gated mixture-of-experts layers),使用計(jì)算量比當(dāng)時(shí) SOTA 密集 LSTM 模型少 10 倍時(shí)在多個(gè)翻譯基準(zhǔn)上實(shí)現(xiàn)更好結(jié)果。還有最近的 Swin Transformer,將混合專(zhuān)家風(fēng)格的架構(gòu)與 Transformer 模型架構(gòu)結(jié)合,結(jié)果顯示訓(xùn)練時(shí)間和效率均實(shí)現(xiàn)了較密集 T5-Base Transformer 模型 7 倍的加速。稀疏性概念還可以用來(lái)降低核心 Transformer 架構(gòu)中注意力機(jī)制的成本。
谷歌研究院提出的 BigBird 稀疏注意力模型由處理輸入序列所有部分的全局 token、局部 token 和一系列隨機(jī) token 組成。
趨勢(shì) 3:機(jī)器學(xué)習(xí)變得更個(gè)性化,對(duì)社區(qū)也更有益
隨著機(jī)器學(xué)習(xí)和硅硬件(如谷歌 Pixel 6 上的谷歌張量處理器)的創(chuàng)新,許多新體驗(yàn)成為了可能,使移動(dòng)設(shè)備更有能力持續(xù)有效地感知周?chē)谋尘昂铜h(huán)境。這些進(jìn)步提升了可訪(fǎng)問(wèn)性和易用性,同時(shí)也增強(qiáng)了計(jì)算能力,對(duì)于移動(dòng)攝影、實(shí)時(shí)翻譯等功能至關(guān)重要。值得注意的是,最近的技術(shù)進(jìn)步還為用戶(hù)提供了更加個(gè)性化的體驗(yàn),同時(shí)加強(qiáng)了隱私保護(hù)。
可以看到,更多的人比以往任何時(shí)候都要依靠手機(jī)攝像頭來(lái)記錄他們的日常生活并進(jìn)行藝術(shù)表達(dá)。機(jī)器學(xué)習(xí)在計(jì)算攝影中的巧妙應(yīng)用不斷提升了手機(jī)攝像頭的功能,使其更易于使用、性能更強(qiáng)并生成更高質(zhì)量的圖像。
例如,改進(jìn)的 HDR+、在極低光下拍照的能力、更好地人像處理能力、以及適用于所有膚色的更具包容性的相機(jī),所有這些進(jìn)步都使用戶(hù)可以拍攝出更好的照片。使用 Google Photos 中現(xiàn)在提供的基于 ML 的強(qiáng)大工具,如電影照片(Cinematic Photo)等,進(jìn)一步提高了照片拍攝效果。
HDR + 從一組全分辨率的原始圖像開(kāi)始,每張都有相同的曝光度(圖左);合并后的圖像減少了噪聲,增加了動(dòng)態(tài)范圍,從而得到更高質(zhì)量的最終圖像(圖右)。
除了使用手機(jī)進(jìn)行創(chuàng)意表達(dá)外,許多人還依靠手機(jī)來(lái)與他人實(shí)時(shí)溝通,使用消息應(yīng)用中的 Live Translate 和 Live Caption 進(jìn)行電話(huà)通話(huà)。
得益于自監(jiān)督學(xué)習(xí)和嘈雜學(xué)生訓(xùn)練等技術(shù),語(yǔ)音識(shí)別的準(zhǔn)確性繼續(xù)提升,在重音、嘈雜條件或重疊語(yǔ)音的環(huán)境以及多語(yǔ)言任務(wù)中都有顯著改善。基于文本到語(yǔ)音合成的進(jìn)步,人們可以在越來(lái)越多的平臺(tái)上使用谷歌 Read Aloud 服務(wù)收聽(tīng)網(wǎng)頁(yè)和文章,從而使信息更容易跨越形態(tài)和語(yǔ)言的障礙。
最近一項(xiàng)研究表明,注視識(shí)別能力是精神疲勞的一個(gè)重要生物標(biāo)記。(https://www.nature.com/articles/s41746-021-00415-6)
鑒于這些新功能背后的數(shù)據(jù)具有潛在的敏感性,因此必須將它們默認(rèn)設(shè)計(jì)為私有的。它們中的許多都在安卓私有計(jì)算核心內(nèi)(Private Compute Core)運(yùn)行,這是一個(gè)與操作系統(tǒng)其余部分隔離的開(kāi)源安全環(huán)境。安卓確保私有計(jì)算核心中處理的數(shù)據(jù)不會(huì)在用戶(hù)未采取操作的情況下共享給任何應(yīng)用。
安卓還阻止私有計(jì)算核心內(nèi)的任何功能直接訪(fǎng)問(wèn)網(wǎng)絡(luò)。相反,功能通過(guò)一小組開(kāi)源 API 與私有計(jì)算服務(wù)(Private Compute Services)進(jìn)行通信,后者消除識(shí)別信息并利用聯(lián)邦學(xué)習(xí)、聯(lián)邦分析和私有信息檢索等隱私技術(shù),在確保隱私的同時(shí)實(shí)現(xiàn)學(xué)習(xí)。
聯(lián)邦重構(gòu)是一種全新的局部聯(lián)邦學(xué)習(xí)技術(shù),它將模型劃分為全局和局部參數(shù)
趨勢(shì) 4:機(jī)器學(xué)習(xí)對(duì)科學(xué)、健康和可持續(xù)發(fā)展的影響越來(lái)越大
近年來(lái),從物理學(xué)到生物學(xué),機(jī)器學(xué)習(xí)在基礎(chǔ)科學(xué)中的影響越來(lái)越大,并在相關(guān)領(lǐng)域(例如可再生能源和醫(yī)學(xué))實(shí)現(xiàn)了許多優(yōu)秀的實(shí)際應(yīng)用。例如,計(jì)算機(jī)視覺(jué)模型正在被用來(lái)解決個(gè)人和全球范圍內(nèi)的問(wèn)題,它們可以協(xié)助醫(yī)生展開(kāi)日常工作,擴(kuò)展人們對(duì)神經(jīng)生理學(xué)的理解,還可以提供更精準(zhǔn)的天氣預(yù)報(bào),可以簡(jiǎn)化救災(zāi)工作。通過(guò)發(fā)現(xiàn)減少排放和提高替代能源輸出的方法,其他類(lèi)型的機(jī)器學(xué)習(xí)模型被證明在應(yīng)對(duì)氣候變化方面至關(guān)重要。隨著 機(jī)器學(xué)習(xí)變得更加穩(wěn)健、成熟且可廣泛使用,這樣的模型甚至可以用作藝術(shù)家的創(chuàng)作工具。
計(jì)算機(jī)視覺(jué)的大規(guī)模應(yīng)用以獲得新的洞察力
過(guò)去十年計(jì)算機(jī)視覺(jué)的進(jìn)步使計(jì)算機(jī)能夠用于不同科學(xué)領(lǐng)域的各種任務(wù)。在神經(jīng)科學(xué)中,自動(dòng)重建技術(shù)可以從腦組織薄片的高分辨率電子顯微鏡圖像中恢復(fù)腦組織的神經(jīng)結(jié)締結(jié)構(gòu)。
前幾年,谷歌合作為果蠅、小鼠和鳴禽的大腦創(chuàng)建了此類(lèi)資源;去年,谷歌與哈佛大學(xué)的 Lichtman 實(shí)驗(yàn)室合作,分析了重建的最大腦組織樣本,以及任何物種中的這種細(xì)致程度成像,并生成了跨越皮層所有層的多種細(xì)胞類(lèi)型的人類(lèi)皮層突觸連接的第一次大規(guī)模研究。這項(xiàng)工作的目標(biāo)是生成一種新的資源,幫助神經(jīng)科學(xué)家研究人類(lèi)大腦的驚人復(fù)雜性。例如,下圖顯示了成人大腦中約 860 億個(gè)神經(jīng)元中的 6 個(gè)神經(jīng)元。
來(lái)自谷歌人類(lèi)皮層重建的單個(gè)人類(lèi)枝形吊燈神經(jīng)元,以及與該細(xì)胞連接的一些錐體神經(jīng)元。
計(jì)算機(jī)視覺(jué)技術(shù)還提供了強(qiáng)大的工具來(lái)應(yīng)對(duì)更大甚至全球范圍內(nèi)的挑戰(zhàn)。一種基于深度學(xué)習(xí)的天氣預(yù)報(bào)方法使用衛(wèi)星和雷達(dá)圖像作為輸入,并結(jié)合其他大氣數(shù)據(jù),在長(zhǎng)達(dá) 12 小時(shí)的預(yù)測(cè)時(shí)間內(nèi)產(chǎn)生比傳統(tǒng)的基于物理的模型更準(zhǔn)確的天氣和降水預(yù)測(cè)。與傳統(tǒng)方法相比,它們還可以更快地生成更新的預(yù)測(cè),這在極端天氣出現(xiàn)時(shí)非常重要。

這些案例的一個(gè)共同主題是,機(jī)器學(xué)習(xí)模型能夠基于對(duì)可用視覺(jué)數(shù)據(jù)的分析,高效、準(zhǔn)確地執(zhí)行專(zhuān)門(mén)的任務(wù),支持下游任務(wù)。
自動(dòng)化設(shè)計(jì)空間探索
另一種在許多領(lǐng)域產(chǎn)生出色結(jié)果的方法是允許機(jī)器學(xué)習(xí)算法以自動(dòng)化方式探索和評(píng)估問(wèn)題的設(shè)計(jì)空間,以尋找可能的解決方案。在一個(gè)應(yīng)用程序中,基于 Transformer 的變分自動(dòng)編碼器學(xué)習(xí)能夠創(chuàng)建美觀且有用的文檔布局,并且可以擴(kuò)展相同的方法來(lái)探索可能的空間布局。
另一種機(jī)器學(xué)習(xí)驅(qū)動(dòng)的方法能夠自動(dòng)探索計(jì)算機(jī)游戲規(guī)則調(diào)整的設(shè)計(jì)空間,提高游戲的可玩性和其他屬性,使人類(lèi)游戲設(shè)計(jì)師能夠更快地創(chuàng)建更好的游戲。
VTN 模型的可視化。它能夠提取布局元素(段落、表格、圖像等)之間的有意義的聯(lián)系,以生成逼真的合成文檔(例如,具有更好的對(duì)齊和邊距)。
還有其他機(jī)器學(xué)習(xí)算法已被用于評(píng)估機(jī)器學(xué)習(xí)加速器芯片本身的計(jì)算機(jī)架構(gòu)決策的設(shè)計(jì)空間。機(jī)器學(xué)習(xí)可用于為 ASIC 設(shè)計(jì)快速創(chuàng)建芯片布局,這些布局優(yōu)于人類(lèi)專(zhuān)家生成的布局,并且可以在幾小時(shí)而不是幾周內(nèi)生成。這降低了芯片的固定工程成本,并減少了為不同應(yīng)用快速創(chuàng)建專(zhuān)用硬件的阻礙。谷歌在即將推出的 TPU-v5 芯片的設(shè)計(jì)中成功地使用了這種方法。
這種探索性的機(jī)器學(xué)習(xí)方法也已應(yīng)用于材料發(fā)現(xiàn)。在谷歌研究院和加州理工學(xué)院的合作中,幾個(gè)機(jī)器學(xué)習(xí)模型與改進(jìn)后的噴墨打印機(jī)和定制顯微鏡相結(jié)合,能夠快速搜索數(shù)十萬(wàn)種可能的材料。
這些自動(dòng)化設(shè)計(jì)空間探索方法可以幫助加速許多科學(xué)領(lǐng)域,特別是當(dāng)生成實(shí)驗(yàn)和評(píng)估結(jié)果的整個(gè)實(shí)驗(yàn)循環(huán)都能以自動(dòng)化或大部分自動(dòng)化的方式完成時(shí)。這種方法也許會(huì)在未來(lái)幾年在更多領(lǐng)域中發(fā)揮良好的效果。
健康應(yīng)用
除了推進(jìn)基礎(chǔ)科學(xué),機(jī)器學(xué)習(xí)還可以更廣泛地推動(dòng)醫(yī)學(xué)和人類(lèi)健康的進(jìn)步。利用計(jì)算機(jī)科學(xué)在健康方面的進(jìn)步并不是什么新鮮事,但是機(jī)器學(xué)習(xí)打開(kāi)了新的大門(mén),帶來(lái)了新的機(jī)會(huì),也帶來(lái)了新的挑戰(zhàn)。
以基因組學(xué)領(lǐng)域?yàn)槔?。自基因組學(xué)問(wèn)世以來(lái),計(jì)算一直很重要,但機(jī)器學(xué)習(xí)增加了新功能并破壞了舊范式。當(dāng)谷歌的研究人員開(kāi)始在這一領(lǐng)域工作時(shí),許多專(zhuān)家認(rèn)為使用深度學(xué)習(xí)幫助從測(cè)序儀輸出推斷遺傳變異的想法是牽強(qiáng)附會(huì)的。而在今天,這種機(jī)器學(xué)習(xí)方法被認(rèn)為是最先進(jìn)的。
未來(lái)機(jī)器學(xué)習(xí)將扮演更重要的角色,基因組學(xué)公司正在開(kāi)發(fā)更準(zhǔn)確、更快的新測(cè)序儀器,但也帶來(lái)了新的推理挑戰(zhàn)。谷歌發(fā)布了開(kāi)源軟件 DeepConsensus,并與 UCSC 、PEPPER-DeepVariant 合作,支持這些前沿信息學(xué)的新儀器,希望更快速的測(cè)序能夠帶來(lái)對(duì)患者產(chǎn)生影響的適用性。
除了處理測(cè)序儀數(shù)據(jù)之外,還有其他機(jī)會(huì)使用機(jī)器學(xué)習(xí)來(lái)加速將基因組信息用于個(gè)性化健康的過(guò)程。廣泛表型和測(cè)序個(gè)體的大型生物庫(kù)可以徹底改變?nèi)祟?lèi)理解和管理疾病遺傳易感性的方式。谷歌基于機(jī)器學(xué)習(xí)的表型分析方法提高了將大型成像和文本數(shù)據(jù)集轉(zhuǎn)換為可用于遺傳關(guān)聯(lián)研究的表型的可擴(kuò)展性,DeepNull 方法更好地利用大型表型數(shù)據(jù)進(jìn)行遺傳發(fā)現(xiàn)。這兩種方法均已開(kāi)源。
生成解剖和疾病特征的大規(guī)模量化以與生物庫(kù)中的基因組數(shù)據(jù)相結(jié)合的過(guò)程。
正如機(jī)器學(xué)習(xí)幫助我們看到基因組數(shù)據(jù)的隱藏特征一樣,它也可以幫助我們發(fā)現(xiàn)新信息并從其他健康數(shù)據(jù)類(lèi)型中收集新見(jiàn)解。疾病診斷通常是關(guān)于識(shí)別模式、量化相關(guān)性或識(shí)別更大類(lèi)別的新實(shí)例,這些都是機(jī)器學(xué)習(xí)擅長(zhǎng)的任務(wù)。
谷歌研究人員已經(jīng)使用機(jī)器學(xué)習(xí)解決了廣泛的此類(lèi)問(wèn)題,但機(jī)器學(xué)習(xí)在醫(yī)學(xué)成像中的應(yīng)用更進(jìn)一步:谷歌 2016 年介紹深度學(xué)習(xí)在糖尿病性視網(wǎng)膜病變篩查中應(yīng)用的論文,被美國(guó)醫(yī)學(xué)會(huì)雜志 (JAMA) 的編輯選為十年來(lái)最具影響力的 10 篇論文之一。
另一個(gè)雄心勃勃的醫(yī)療保健計(jì)劃 Care Studio 使用最先進(jìn)的 ML 和先進(jìn)的 NLP 技術(shù)來(lái)分析結(jié)構(gòu)化數(shù)據(jù)和醫(yī)療記錄,在正確的時(shí)間向臨床醫(yī)生提供最相關(guān)的信息——最終幫助他們提供更積極、更準(zhǔn)確的護(hù)理。
盡管機(jī)器學(xué)習(xí)可能對(duì)擴(kuò)大臨床環(huán)境的可及性和提高準(zhǔn)確性很重要,但一個(gè)同樣重要的新趨勢(shì)正在出現(xiàn):機(jī)器學(xué)習(xí)應(yīng)用于幫助人們提高日常健康和福祉。人們?nèi)粘TO(shè)備逐漸擁有強(qiáng)大的傳感器,幫助健康指標(biāo)和信息民主化,人們可以就自己的健康做出更明智的決定。我們已經(jīng)看到了智能手機(jī)攝像頭已經(jīng)能評(píng)估心率和呼吸頻率以幫助用戶(hù),甚至無(wú)需額外硬件,以及支持非接觸式睡眠感應(yīng)的 Nest Hub 設(shè)備讓用戶(hù)更好地了解他們的夜間健康狀況。
我們已經(jīng)看到,一方面,我們?cè)谧约旱?ASR 系統(tǒng)中可以顯著提高無(wú)序語(yǔ)音的語(yǔ)音識(shí)別質(zhì)量,另一方面,使用 ML 幫助重建有語(yǔ)言障礙的人的聲音,使他們能夠用自己的聲音進(jìn)行交流。支持機(jī)器學(xué)習(xí)的智能手機(jī),將幫助人們更好地研究新出現(xiàn)的皮膚狀況或幫助視力有限的人慢跑。這些機(jī)會(huì)提供了一個(gè)光明的未來(lái),不容忽視。
用于非接觸式睡眠感應(yīng)的自定義 ML 模型有效地處理連續(xù)的 3D 雷達(dá)張量流(總結(jié)一系列距離、頻率和時(shí)間的活動(dòng)),以自動(dòng)計(jì)算用戶(hù)存在和清醒(清醒或睡著)的可能性的概率。
氣候危機(jī)的機(jī)器學(xué)習(xí)應(yīng)用
另一個(gè)最重要的領(lǐng)域是氣候變化,這對(duì)人類(lèi)來(lái)說(shuō)是一個(gè)極其緊迫的威脅。我們需要共同努力,扭轉(zhuǎn)有害排放的曲線(xiàn),確保一個(gè)安全和繁榮的未來(lái)。關(guān)于不同選擇對(duì)氣候影響的信息,可以幫助我們以多種不同方式應(yīng)對(duì)這一挑戰(zhàn)。
借助環(huán)保路線(xiàn),Google 地圖將顯示最快的路線(xiàn)和最省油的路線(xiàn),用戶(hù)可以選擇最適合的路線(xiàn)。
Google 地圖中的野火層可在緊急情況下為人們提供重要的最新信息。
趨勢(shì) 5:對(duì)機(jī)器學(xué)習(xí)更深入和更廣泛的理解
隨著 ML 在技術(shù)產(chǎn)品和社會(huì)中更廣泛地使用,我們必須繼續(xù)開(kāi)發(fā)新技術(shù)以確保公平公正地應(yīng)用它,造福于所有人,而不只是其中一部分。
一個(gè)重點(diǎn)領(lǐng)域是基于在線(xiàn)產(chǎn)品中用戶(hù)活動(dòng)的推薦系統(tǒng)。由于這些推薦系統(tǒng)通常由多個(gè)不同的組件組成,因此了解它們的公平性通常需要深入了解各個(gè)組件以及各個(gè)組件組合在一起時(shí)的行為方式。
與推薦系統(tǒng)一樣,上下文在機(jī)器翻譯中很重要。由于大多數(shù)機(jī)器翻譯系統(tǒng)都是孤立地翻譯單個(gè)句子,沒(méi)有額外的上下文,它們通常會(huì)加強(qiáng)與性別、年齡或其他領(lǐng)域相關(guān)的偏見(jiàn)。為了解決其中一些問(wèn)題,谷歌在減少翻譯系統(tǒng)中的性別偏見(jiàn)方面進(jìn)行了長(zhǎng)期的研究。
部署機(jī)器學(xué)習(xí)模型的另一個(gè)常見(jiàn)問(wèn)題是分布偏移:如果用于訓(xùn)練模型的數(shù)據(jù)的統(tǒng)計(jì)分布與作為輸入的模型的數(shù)據(jù)的統(tǒng)計(jì)分布不同,則模型的行為有時(shí)可能是不可預(yù)測(cè)的。
數(shù)據(jù)收集和數(shù)據(jù)集管理也是一個(gè)重要的領(lǐng)域,因?yàn)橛糜谟?xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)可能是下游應(yīng)用程序中偏見(jiàn)和公平問(wèn)題的潛在來(lái)源。分析機(jī)器學(xué)習(xí)中的此類(lèi)數(shù)據(jù)級(jí)聯(lián)有助于識(shí)別機(jī)器學(xué)習(xí)項(xiàng)目生命周期中可能對(duì)結(jié)果產(chǎn)生重大影響的許多地方。這項(xiàng)關(guān)于數(shù)據(jù)級(jí)聯(lián)的研究在針對(duì)機(jī)器學(xué)習(xí)開(kāi)發(fā)人員和設(shè)計(jì)人員的修訂版 PAIR Guidebook 中為數(shù)據(jù)收集和評(píng)估提供了證據(jù)支持的指南。
不同顏色的箭頭表示各種類(lèi)型的數(shù)據(jù)級(jí)聯(lián),每個(gè)級(jí)聯(lián)通常起源于上游,在機(jī)器學(xué)習(xí)開(kāi)發(fā)過(guò)程中復(fù)合,并在下游表現(xiàn)出來(lái)。
創(chuàng)建更具包容性和更少偏見(jiàn)的公共數(shù)據(jù)集是幫助改善每個(gè)人的機(jī)器學(xué)習(xí)領(lǐng)域的重要方法。
2016 年,谷歌發(fā)布了 Open Images 數(shù)據(jù)集,該數(shù)據(jù)集包含約 900 萬(wàn)張圖像,標(biāo)注了涵蓋數(shù)千個(gè)對(duì)象類(lèi)別的圖像標(biāo)簽和 600 個(gè)類(lèi)別的邊界框注釋。去年,谷歌在 Open Images Extended 集合中引入了更具包容性的人物注釋 (MIAP) 數(shù)據(jù)集。該集合包含更完整的針對(duì)人類(lèi)層次結(jié)構(gòu)的邊界框注釋?zhuān)⑶颐總€(gè)注釋都標(biāo)有與公平相關(guān)的屬性,包括感知的性別表示和感知的年齡范圍。
此外,隨著機(jī)器學(xué)習(xí)模型變得更有能力并在許多領(lǐng)域產(chǎn)生影響,保護(hù)機(jī)器學(xué)習(xí)中使用的私人信息仍然是研究的重點(diǎn)。沿著這些思路,我們最近的一些工作解決了大型模型中的隱私問(wèn)題,既能從大型模型中提取訓(xùn)練數(shù)據(jù),又指出如何在大型模型中包含隱私。除了聯(lián)邦學(xué)習(xí)和分析方面的工作之外,谷歌還一直在使用其他有原則和實(shí)用的機(jī)器學(xué)習(xí)技術(shù)來(lái)強(qiáng)化工具箱。
【本文是51CTO專(zhuān)欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】