從手工作業(yè)到工業(yè)革命!Nature文章:生物圖像分析被深度學(xué)習(xí)徹底改變的五個(gè)領(lǐng)域
一立方毫米,聽(tīng)起來(lái)不大,也就是一粒芝麻的大小,但在人類的大腦中,這點(diǎn)兒空間卻能夠容納由1.34億個(gè)突觸相連接的大約5萬(wàn)條神經(jīng)線(neural wires)。
為了生成原始數(shù)據(jù),生物科學(xué)家需要使用連續(xù)超薄切片電鏡的方法,在11個(gè)月內(nèi)對(duì)數(shù)以千計(jì)的組織碎片進(jìn)行成像。
而最終獲得的數(shù)據(jù)量也達(dá)到了驚人的1.4 PetaBytes(即1400TB,相當(dāng)于大約200萬(wàn)張CD-ROM的容量) ,對(duì)于研究人員來(lái)說(shuō)這簡(jiǎn)直就是個(gè)天文數(shù)字。
哈佛大學(xué)的分子和細(xì)胞生物學(xué)家Jeff Lichtman表示,如果用純手工作業(yè),人類根本不可能手動(dòng)追蹤所有的神經(jīng)線,地球上甚至都沒(méi)有足夠多的人能夠真正有效地完成這項(xiàng)工作。
顯微鏡技術(shù)的進(jìn)步帶來(lái)了大量的成像數(shù)據(jù),但數(shù)據(jù)量太大,人手不足,這也是連接組學(xué)(Connectomics,一門研究大腦結(jié)構(gòu)和功能連接的學(xué)科),以及其他生物領(lǐng)域?qū)W科中的常見(jiàn)現(xiàn)象。
但計(jì)算機(jī)科學(xué)的使命正是為解決這類人力資源不足的問(wèn)題,尤其是經(jīng)過(guò)優(yōu)化的深度學(xué)習(xí)算法,可以從大規(guī)模數(shù)據(jù)集中挖掘出數(shù)據(jù)模式。
麻省理工學(xué)院布羅德研究所和哈佛大學(xué)劍橋分校的計(jì)算生物學(xué)家Beth Cimini表示,過(guò)去幾年中,深度學(xué)習(xí)在生物學(xué)領(lǐng)域有著巨大的推動(dòng)作用,并開發(fā)了很多研究工具。
下面是Nature編輯總結(jié)深度學(xué)習(xí)帶來(lái)變革的五個(gè)生物學(xué)圖像分析領(lǐng)域。
大規(guī)模連接組學(xué)
深度學(xué)習(xí)使研究人員能夠從果蠅、老鼠甚至人類身上生成越來(lái)越復(fù)雜的連接體。
這些數(shù)據(jù)可以幫助神經(jīng)科學(xué)家理解大腦是如何工作的,以及大腦結(jié)構(gòu)在發(fā)育和疾病過(guò)程中是如何變化的,但神經(jīng)連接并不容易繪制。
2018年,Lichtman與谷歌在加州山景城的連接組學(xué)負(fù)責(zé)人Viren Jain聯(lián)手,為團(tuán)隊(duì)所需的人工智能算法尋找解決方案。
連接組學(xué)中的圖像分析任務(wù)實(shí)際上是非常困難的,你必須能夠追蹤這些細(xì)線、細(xì)胞的軸突和樹突,還要跨越很長(zhǎng)的距離,傳統(tǒng)的圖像處理方法在這項(xiàng)任務(wù)中會(huì)出現(xiàn)很多錯(cuò)誤,基本上對(duì)這項(xiàng)任務(wù)沒(méi)有用處。
這些神經(jīng)線可能比一微米還細(xì),延伸數(shù)百微米甚至跨越毫米級(jí)的組織。
而深度學(xué)習(xí)算法不僅能夠自動(dòng)化地分析連接組學(xué)數(shù)據(jù),同時(shí)還能保持很高的精度。
研究人員可以使用包含感興趣特征的標(biāo)注數(shù)據(jù)集來(lái)訓(xùn)練復(fù)雜的計(jì)算模型,以便能夠快速識(shí)別其他數(shù)據(jù)中的相同特征。
歐洲分子生物學(xué)實(shí)驗(yàn)室的計(jì)算機(jī)科學(xué)家Anna Kreshuk認(rèn)為,使用深度學(xué)習(xí)算法的過(guò)程類似于「舉個(gè)例子」,只要例子夠多,你就能把所有問(wèn)題都解決掉。
但即使是使用深度學(xué)習(xí),Lichtman和Jain團(tuán)隊(duì)還要完成一項(xiàng)艱巨的任務(wù):繪制人類大腦皮層的片段。
在收集數(shù)據(jù)階段,僅僅拍攝5000多個(gè)超薄的組織切片就花了326天。
兩名研究人員花了大約100個(gè)小時(shí)來(lái)手動(dòng)標(biāo)注圖像和追蹤神經(jīng)元,創(chuàng)建了一個(gè)ground truth數(shù)據(jù)集以訓(xùn)練算法。
使用標(biāo)準(zhǔn)數(shù)據(jù)訓(xùn)練后的算法就可以自動(dòng)將圖像拼接在一起,識(shí)別出神經(jīng)元和突觸,并生成最終的連接體。
Jain的團(tuán)隊(duì)為解決這個(gè)問(wèn)題也投入了大量的計(jì)算資源,包括數(shù)千個(gè)張量處理單元(TPU) ,還耗費(fèi)了幾個(gè)月時(shí)間來(lái)預(yù)處理100萬(wàn)TPU小時(shí)所需的數(shù)據(jù)。
雖然研究人員已經(jīng)獲取到當(dāng)下能收集到最大規(guī)模的數(shù)據(jù)集,能夠在非常精細(xì)的水平進(jìn)行重建,但這個(gè)數(shù)據(jù)量大約只占人類大腦的0.0001%
隨著算法和硬件的改進(jìn),研究人員應(yīng)該能夠繪制出更大的大腦區(qū)域,同時(shí)能夠分辨出更多的細(xì)胞特征,比如細(xì)胞器,甚至蛋白質(zhì)。
至少,深度學(xué)習(xí)提供了一種可行性。
虛擬組織學(xué)
組織學(xué)(histology)是醫(yī)學(xué)上的一個(gè)重要工具,用于在化學(xué)或分子染色的基礎(chǔ)上診斷疾病。
但是整個(gè)過(guò)程費(fèi)時(shí)費(fèi)力,通常需要幾天甚至幾周的時(shí)間才能完成。
先將活組織檢查切成薄片,染色顯示細(xì)胞和亞細(xì)胞特征,然后病理學(xué)家通過(guò)閱讀結(jié)果并對(duì)之進(jìn)行解釋。
加州大學(xué)洛杉磯分校的計(jì)算機(jī)工程師Aydogan Ozcan認(rèn)為可以通過(guò)深度學(xué)習(xí)的方式對(duì)整個(gè)過(guò)程進(jìn)行加速。
他訓(xùn)練了一個(gè)定制的深度學(xué)習(xí)模型,通過(guò)計(jì)算機(jī)模擬給一個(gè)組織切片上染色,將同一切片上數(shù)以萬(wàn)計(jì)的未染色和染色的樣本喂給模型,并讓模型計(jì)算出它們之間的差異。
虛擬染色除了有時(shí)間優(yōu)勢(shì)(瞬間就能完成)外,病理學(xué)家通過(guò)觀察發(fā)現(xiàn),虛擬染色和傳統(tǒng)染色幾乎毫無(wú)區(qū)別,專業(yè)人士也無(wú)法分辨。
實(shí)驗(yàn)結(jié)果表明,該算法可以在幾秒鐘內(nèi)復(fù)制乳腺癌生物標(biāo)志物HER2的分子染色,而該過(guò)程在組織學(xué)實(shí)驗(yàn)室通常需要至少24小時(shí)。
三位乳腺病理學(xué)家組成的專家小組對(duì)這些圖像進(jìn)行了評(píng)價(jià),認(rèn)為它們的質(zhì)量和準(zhǔn)確性與傳統(tǒng)的免疫組織化學(xué)染色相當(dāng)。
Ozcan看到了將虛擬染色商業(yè)化后在藥物研發(fā)中的應(yīng)用前景,但他更希望借此消除組織學(xué)對(duì)有毒染料和昂貴染色設(shè)備的需求。
尋找細(xì)胞
如果你想從細(xì)胞圖像中提取數(shù)據(jù),那你必須知道細(xì)胞在圖像中的實(shí)際位置,這一過(guò)程也稱為細(xì)胞分割(cell segmentation)。
研究人員需要在顯微鏡下觀察細(xì)胞,或者在軟件中一張一張地勾勒出細(xì)胞的輪廓。
加州理工學(xué)院的計(jì)算生物學(xué)家Morgan Schwartz正在尋求自動(dòng)化處理的方法,隨著成像數(shù)據(jù)集變得越來(lái)越大,傳統(tǒng)的手工方法也遇到了瓶頸,有些實(shí)驗(yàn)如果不自動(dòng)化就無(wú)法進(jìn)行分析。
Schwartz的研究生導(dǎo)師、生物工程師David Van Valen創(chuàng)建了一套人工智能模型,并發(fā)布在了deepcell.org網(wǎng)站上,可以用來(lái)計(jì)算和分析活細(xì)胞和保存組織圖像中的細(xì)胞和其他特征。
Van Valen與斯坦福大學(xué)癌癥生物學(xué)家Noah Greenwald等合作者一起還開發(fā)了一個(gè)深度學(xué)習(xí)模型Mesmer,可以快速、準(zhǔn)確地檢測(cè)不同組織類型的細(xì)胞和細(xì)胞核。
據(jù)Greenwald說(shuō),研究人員可以利用這些信息來(lái)區(qū)分癌癥組織和非癌組織,并尋找治療前后的差異,或者基于成像的變化來(lái)更好地了解為什么一些患者會(huì)有反應(yīng)或者沒(méi)有反應(yīng),以及確定腫瘤的亞型。
定位蛋白質(zhì)
人類蛋白質(zhì)圖譜項(xiàng)目利用了深度學(xué)習(xí)的另一個(gè)應(yīng)用:細(xì)胞內(nèi)定位。
斯坦福大學(xué)的生物工程師Emma Lundberg表示,在過(guò)去幾十年間,該項(xiàng)目生成了數(shù)百萬(wàn)張圖像,描繪了人體細(xì)胞和組織中的蛋白質(zhì)表達(dá)。
剛開始的時(shí)候,項(xiàng)目參與者需要手動(dòng)對(duì)這些圖像進(jìn)行標(biāo)注,但這種方法不可持續(xù),Lundberg開始尋求人工智能算法的幫助。
過(guò)去幾年,她開始在Kaggle挑戰(zhàn)賽中發(fā)起眾包解決方案,科學(xué)家和人工智能愛(ài)好者為了獎(jiǎng)金會(huì)完成各種計(jì)算任務(wù),兩個(gè)項(xiàng)目的獎(jiǎng)金分別為3.7萬(wàn)美元和2.5萬(wàn)美元。
參賽者會(huì)設(shè)計(jì)有監(jiān)督的機(jī)器學(xué)習(xí)模型,并對(duì)蛋白質(zhì)圖譜圖像進(jìn)行標(biāo)注。
Kaggle挑戰(zhàn)賽獲得的成果也讓項(xiàng)目成員大吃一驚,獲勝的模型性能比Lundberg先前在蛋白質(zhì)定位模式的多標(biāo)簽分類方面要高出約20% ,并且可以泛化到細(xì)胞系(cell line)中,還取得了新的行業(yè)突破,對(duì)存在于多個(gè)細(xì)胞位置的蛋白質(zhì)進(jìn)行準(zhǔn)確的分類。
有了模型,生物實(shí)驗(yàn)就可以繼續(xù)推進(jìn),人類蛋白質(zhì)的位置很重要,因?yàn)橄嗤牡鞍踪|(zhì)在不同的地方表現(xiàn)不同,知道一種蛋白質(zhì)是在細(xì)胞核還是在線粒體中,這有助于理解它的功能。
追蹤動(dòng)物行為
Mackenzie Mathis是瑞士洛桑聯(lián)邦理工學(xué)院校園生物技術(shù)中心的神經(jīng)科學(xué)家,長(zhǎng)期以來(lái)一直對(duì)大腦如何驅(qū)動(dòng)行為感興趣。
為此,她開發(fā)了一個(gè)名為DeepLabCut的程序,使神經(jīng)科學(xué)家能夠從視頻中追蹤動(dòng)物的姿勢(shì)和精細(xì)動(dòng)作,并將「貓咪視頻」和其他動(dòng)物的記錄轉(zhuǎn)化為數(shù)據(jù)。
DeepLabcut提供了一個(gè)圖形用戶界面,研究人員只需點(diǎn)擊一個(gè)按鈕,就可以上傳并標(biāo)注視頻并訓(xùn)練深度學(xué)習(xí)模型。
今年4月,Mathis的團(tuán)隊(duì)擴(kuò)展了該軟件,可以同時(shí)為多種動(dòng)物估計(jì)姿勢(shì),這對(duì)人類和人工智能來(lái)說(shuō)都是一個(gè)全新的挑戰(zhàn)。
將DeepLabCut訓(xùn)練后的模型應(yīng)用到狨猴身上,研究人員發(fā)現(xiàn),當(dāng)這些動(dòng)物靠得很近時(shí),它們的身體會(huì)排成一條直線,看向相似的方向,而當(dāng)它們分開時(shí),它們傾向于面對(duì)面。
生物學(xué)家通過(guò)識(shí)別動(dòng)物的姿勢(shì),來(lái)了解兩種動(dòng)物是如何交互、注視或觀察世界的。