Nature重磅研究:AlphaFold繪制病毒「族譜」,揭開身世之謎
今年7月,被Meta解散的ESMFold團隊成功另起爐灶,發(fā)布了他們最新的生命科學(xué)大模型ESM3,打出的slogan正是「用語言模型模擬5億年進化?!?/span>
圖片
論文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
這個用途,很快就被生物學(xué)家們敏銳地捕捉到了。
最近發(fā)表的很多工作中,科學(xué)家們正在用AlphaFold和ESMFold等模型,重新繪制病毒譜系,探索到了一些令人驚訝的「親緣關(guān)系」。
這些成果,不僅可以揭秘病毒家族的進化史,還能讓我們更好地應(yīng)對未來的生化風(fēng)險。
圖片
如果用傳統(tǒng)方法,科學(xué)家們需要根據(jù)基因組比較的結(jié)果來理解病毒進化。
但是和哺乳動物比起來,病毒的進化速度可以說是快如閃電,尤其是基因由RNA組成的病毒,需要比對的基因組數(shù)量和復(fù)雜度就會急遽增加。
此外,病毒的進化不僅來源于基因突變,它們還可以從其他生物體獲取遺傳物質(zhì),這就辨識病毒「親緣關(guān)系」的工作更加困難。看起來大不相同的基因序列,可能隱藏著病毒之間非常深層而遙遠的關(guān)系。
相比病毒的基因,它們編碼的蛋白質(zhì)的形狀或結(jié)構(gòu)變化往往比較緩慢,然而英國格拉斯哥大學(xué)的分子病毒學(xué)家Joe Grove表示,在AlphaFold等工具出現(xiàn)之前,即使是整個病毒家族的蛋白質(zhì)結(jié)構(gòu),也很難靠傳統(tǒng)方法完成研究和比較。
Grove和他的團隊最近在Nature上發(fā)表的一篇論文,正是借助了大模型的力量,通過糖蛋白的結(jié)構(gòu)揭示了黃病毒科的進化史。
圖片
論文地址:https://www.nature.com/articles/s41586-024-07899-8
黃病毒包括丙型肝炎病毒、登革熱病毒和寨卡病毒,以及一些主要的動物病原體,還有一些可能對人類健康構(gòu)成新威脅的物種。
病毒如何進入細胞
自從疫苗大范圍接種后,丙肝成為了我們不太熟悉的一種傳染病,但這個病毒每年依舊造成了數(shù)十萬人的死亡。
如果要開發(fā)更為有效的丙肝疫苗,我們就需要理解黃病毒是憑借哪個蛋白質(zhì)進入細胞的(其中就包含糖蛋白),這些蛋白質(zhì)也同樣決定了病毒能夠感染哪些宿主。
如果僅在序列層面研究、比對,你會發(fā)現(xiàn)各個病毒的蛋白質(zhì)差異如此之大,很難找到有意義的聯(lián)系。但如果借助生物大模型的蛋白質(zhì)結(jié)構(gòu)預(yù)測功能,這個難題將迎刃而解。
研究人員使用DeepMind的AlphaFold 2模型,和Meta開發(fā)的結(jié)構(gòu)預(yù)測工具ESMFold,為458種黃病毒的蛋白質(zhì)生成了超過3.3萬個預(yù)測結(jié)構(gòu)。
丙型肝炎病毒糖蛋白結(jié)構(gòu)預(yù)測
之所以同時使用AlphaFold和ESMFold兩種模型,是由于二者之間的一個本質(zhì)差異。
AlphaFold的輸入需要依賴于相似蛋白質(zhì)的多個序列,但ESMFold不同,它是在數(shù)千萬個蛋白質(zhì)序列上訓(xùn)練的「蛋白質(zhì)語言模型」,可以只接受耽擱序列作為輸入,因而非常適合深入分析那些最「神秘」的病毒。
這些結(jié)構(gòu)的預(yù)測結(jié)果讓研究人員們發(fā)現(xiàn)了一些意想不到的聯(lián)系,有些和黃病毒看似八竿子打不著的親戚,也能用類似蛋白作為「鑰匙」來進入細胞。
比如,丙肝使用的細胞感染系統(tǒng)和瘟病毒就非常類似,包括比較經(jīng)典的豬瘟,以及其他的動物病原體。
AI輔助工具還能告訴我們,丙肝和瘟病毒所用的「進入系統(tǒng)」和其他病毒非常不同。對此,Grove也很難做出解釋:「對于丙型肝炎和它的親戚們,我們不知道它們的進入系統(tǒng)來自哪里,可能是那些病毒很久以前發(fā)明的。」
從細菌中得到「盜版」蛋白
除了瘟病毒,預(yù)測的結(jié)構(gòu)還幫黃病毒找到了兩個「親戚」——寨卡病毒和登革熱病毒,它們的進入蛋白似乎有相同的起源;此外,黃病毒似乎還從細菌那里「竊取」了一種酶并據(jù)為己有。
使用ColabFold–AlpahFold2預(yù)測登革熱病毒蛋白的結(jié)構(gòu)
此前,悉尼大學(xué)病毒學(xué)家Mary Petrone的團隊也曾在一種奇怪的黃病毒中發(fā)現(xiàn)了類似的「盜竊」行為。
她表示,「在黃病毒的進化過程中,『基因盜取』可能發(fā)揮了比我們之前認為的更大的塑造作用。」
瑞士洛桑大學(xué)的計算生物學(xué)家David Moi還指出,考慮到AI輔助工具未被發(fā)掘的潛力,黃病毒研究只是冰山一角。
借助人工智能,其他病毒,甚至很多細胞生物的進化歷史都很可能被重寫。
「我們將用新一代工具重新講述它們的故事。既然我們現(xiàn)在能看得更遠,所有這些生物的進化歷史都需要更新?!?/span>
在生命科學(xué)的很多未解之謎中,AI所迸發(fā)出的巨大能量讓我們看到了答案的曙光,也讓我們期待著故事被改寫的那一天。