自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

幾何機器學(xué)習(xí):如何在基礎(chǔ)科學(xué)領(lǐng)域成為現(xiàn)實?

人工智能 機器學(xué)習(xí)
2020年,在幾何和圖形機器學(xué)習(xí)論文中表現(xiàn)突出的,當屬生物化學(xué)、藥物設(shè)計和結(jié)構(gòu)生物學(xué)。這可能是第一次,我們終于發(fā)現(xiàn)這些機器學(xué)習(xí)方法對基礎(chǔ)科學(xué)的影響。本文中,我將重點介紹三篇論文,這三篇論文是過去一年內(nèi)我感觸最深的論文(筆者是其中一篇論文的共同作者)。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)

[[389626]]

 2020年,在幾何和圖形機器學(xué)習(xí)論文中表現(xiàn)突出的,當屬生物化學(xué)、藥物設(shè)計和結(jié)構(gòu)生物學(xué)。這可能是第一次,我們終于發(fā)現(xiàn)這些機器學(xué)習(xí)方法對基礎(chǔ)科學(xué)的影響。本文中,我將重點介紹三篇論文,這三篇論文是過去一年內(nèi)我感觸最深的論文(筆者是其中一篇論文的共同作者)。

 

幾何機器學(xué)習(xí):如何在基礎(chǔ)科學(xué)領(lǐng)域成為現(xiàn)實?

 

幾何機器學(xué)習(xí)方法曾被刊登在《細胞》和《自然方法學(xué)》雜志2020年2月刊的封面上。

第一篇論文:

J. M. Stokes et al., A deep learning approach to antibiotic discovery (2020) Cell 180(4):688–702.

關(guān)于什么?基于圖形神經(jīng)網(wǎng)絡(luò)研發(fā)抗菌藥物的深度學(xué)習(xí)操作流程。

如何操作?經(jīng)訓(xùn)練的圖神經(jīng)網(wǎng)絡(luò)用于預(yù)測大腸桿菌在多于2000個已知抗菌活性分子(包括批準抗生素、動植物提取物)數(shù)據(jù)集上的生長抑制。這種預(yù)測只是基于分子圖,并不依賴于任何其他輔助信息,如藥物作用機制等。

訓(xùn)練模型被送到藥物再利用中心,經(jīng)調(diào)查研究,模型中含有約6000種藥物分子,前100種分子被選作試驗測試對象。令人吃驚的是,一種實驗抗糖尿藥物halicin(海利霉素)具備有效的抗菌效果,能夠消滅實驗小鼠體內(nèi)的多種抗藥病菌。

顯然,圖神經(jīng)網(wǎng)絡(luò)具備良好普適性,因為halicin分子不同于傳統(tǒng)抗生素。但是在這篇論文中,還并不清楚這種預(yù)測能力是否可以歸結(jié)為預(yù)測一種抗菌作用的簡單模式(細胞膜去極化)。

此外,研究人員還對ZINC15數(shù)據(jù)庫中超過1億個分子結(jié)構(gòu)進行實驗篩選,ZINC15數(shù)據(jù)庫是專門為虛擬篩選而準備的商業(yè)可用化合物數(shù)據(jù)庫,通常為藥物設(shè)計者所用。在挑選的化合物中,物理試驗鑒定出8種具有抗菌活性,其中2種對多種病原體均有較強的活性。

 

幾何機器學(xué)習(xí):如何在基礎(chǔ)科學(xué)領(lǐng)域成為現(xiàn)實?

 

研發(fā)藥物的一大挑戰(zhàn)是,搜索空間很大,但是只有少數(shù)分子能夠在實驗室中測試。應(yīng)用于分子圖的圖神經(jīng)網(wǎng)絡(luò)可用來預(yù)測分子屬性,從而對所選藥物進行虛擬篩查。

為何重要?巨大的搜索空間是研發(fā)藥物的一大挑戰(zhàn),據(jù)估計,其中至少包含1060個分子。只有很少一部分分子能夠在實驗室中測試,挑選較有可能性的分子至關(guān)重要。通過計算方法完成挑選的過程稱為“虛擬篩選”。

過去,機器學(xué)習(xí)方法經(jīng)常用于分子的虛擬篩選,更廣泛來說,協(xié)助不同階段的藥物研發(fā),這是第一次在完全沒有任何人類預(yù)假設(shè)的情況下,從零開始識別一種全新抗生素的過程。

大多數(shù)經(jīng)由電腦模擬的、基于機器學(xué)習(xí)的藥物研發(fā)論文結(jié)果都僅由計算機預(yù)測,但是斯托克斯等人的論文與之不同,他們的論文不僅鑒別有潛力的藥物分子,而且在實驗動物上廣泛驗證它們在活體內(nèi)的活性。

雖然在原則上這種方法只可以用于尋找治療癌癥等疾病的方法,但是對于抗生素的關(guān)注非常及時:濫用抗生素導(dǎo)致抗藥微生物形成,成為威脅全人類健康的夢魘,而且可能出現(xiàn)高傳染性的細菌感染,現(xiàn)有藥物無法治療,這個現(xiàn)象肯定會出現(xiàn),只是時間問題而已。

更多相關(guān)內(nèi)容:《量子雜志》熱搜文章和吉姆·柯林斯(Jim·Collins)2020年TED演講視頻(柯林斯實驗室是本年TED“無畏項目”之一,我們的CETI項目也屬于“無畏項目”)。

第二篇論文:

Jumper et al., High accuracy protein structure predictionusing deep learning (2020) a.k.a. AlphaFold 2.0 (尚未提供全文)

關(guān)于什么?根據(jù)氨基酸序列預(yù)測蛋白質(zhì)的3D結(jié)構(gòu),這是生物信息學(xué)領(lǐng)域眾所周知的一個難題。

如何操作?AlphaFold 2.0是一個“基于注意力的神經(jīng)網(wǎng)絡(luò)”(類似于變壓器結(jié)構(gòu)),對蛋白質(zhì)數(shù)據(jù)庫中17萬種蛋白質(zhì)結(jié)構(gòu)和未知結(jié)構(gòu)蛋白質(zhì)序列進行端對端訓(xùn)練。但是DeepMind尚未公布算法細節(jié),我們只能假設(shè)它是如何工作的。

在這篇文章中,蛋白質(zhì)被建模為空間聯(lián)系圖,神經(jīng)網(wǎng)絡(luò)“解釋該圖的結(jié)構(gòu),同時對正在構(gòu)建的隱圖進行推理”。這聽起來很像具備潛在圖學(xué)習(xí)功能的圖神經(jīng)網(wǎng)絡(luò),只不過其中可能包含更多附加細節(jié)和細微差異,因為這種方法也使用進化序列信息,所以我將其歸類為“幾何機器學(xué)習(xí)”。

據(jù)報道,訓(xùn)練的計算復(fù)雜度很高(相當于數(shù)年的GPU時間),而對結(jié)構(gòu)的預(yù)測不過是“幾天的事”。

 

[[389627]]

 

魔蛇玩具形象地展現(xiàn)了蛋白質(zhì)折疊,在蛋白質(zhì)折疊過程中氨基酸的一維序列折疊成復(fù)雜的3D形狀,賦予蛋白質(zhì)功能

為何重要?蛋白質(zhì)可以說是最重要的生物分子,經(jīng)常被稱為“生命分子”,我們還未見過任何不以蛋白質(zhì)為基礎(chǔ)的生命形式。蛋白質(zhì)在DNA內(nèi)編碼,在體內(nèi)具備各種功能,包括抵抗病原體(抗生素)、形成皮膚結(jié)構(gòu)(膠原蛋白)、輸送氧氣到細胞(血紅蛋白)、催化化學(xué)反應(yīng)(酶)及信號傳遞(許多激素是蛋白質(zhì))。

從化學(xué)角度來講,蛋白質(zhì)是生物聚合物或者由氨基酸組成的鏈,在靜電作用下折疊成復(fù)雜的3D結(jié)構(gòu)。正是這種結(jié)構(gòu)賦予蛋白質(zhì)功能,而且這種結(jié)構(gòu)對理解蛋白質(zhì)是如何工作以及做什么是非常必要的。蛋白質(zhì)一般是藥物治療的靶點(藥物是設(shè)計成與靶點相結(jié)合的小分子),所以制藥業(yè)極為關(guān)注該方面研究。

現(xiàn)代技術(shù)可以對蛋白質(zhì)進行排列(即形成氨基酸串),而且成本較低、技術(shù)可靠,不過獲取3D結(jié)構(gòu)主要還是依賴于傳統(tǒng)的結(jié)晶技術(shù),盡管結(jié)晶技術(shù)不穩(wěn)定、耗時長、成本高。目前,已知序列的蛋白質(zhì)大約有2億種,已知結(jié)構(gòu)的蛋白質(zhì)至少有20萬種蛋白質(zhì)。

一直以來,人們認為氨基酸序列中包含了足夠多預(yù)測蛋白質(zhì)結(jié)構(gòu)的信息,但是現(xiàn)在這個觀點站不住腳了。蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵技術(shù)分析大賽(CASP)是類似于ImageNet的競賽,自1994年開始舉辦,參賽者需要預(yù)測未知蛋白質(zhì)的3D結(jié)構(gòu),這個大賽已成為生物信息實驗室和制藥公司的經(jīng)典測試平臺。

2018年,DeepMind的新技術(shù)AlphaFold在CASP大賽中脫穎而出,獲得比賽勝利,震驚研究界。2020版AlphaFold 2.0效果更好,均方根誤差僅1.6埃,按照結(jié)構(gòu)生物學(xué)標準可以說是非常精確,遠遠超過其他競爭對手。這是蛋白質(zhì)科學(xué)領(lǐng)域里的“ImageNet時刻”。

盡管在關(guān)鍵問題上取得了驚人的進展,但是媒體大肆炒作、用詞隨意,歪曲了AlphaFold的功能。特別是在藥物設(shè)計應(yīng)用上,結(jié)合部位通常需要達到亞埃精確度,但是這項技術(shù)尚未實現(xiàn)該功能。

更多相關(guān)內(nèi)容:每個人都熱切期待解釋該算法的論文發(fā)表。萊克斯·弗里德曼(Lex Fridman)在YouTube視頻中進行了很好的概括,穆罕默德·艾爾庫雷希(Mohammed AlQuraishi)在博客中介紹了AlphaFold在2018年的影響。

第三篇論文:

P. Gainza et al., Deciphering interactionfingerprints from protein molecular surfaces using geometric deep learning (2020) Nature Methods 17(2):184–192.

關(guān)于什么?一個名為MaSIF的幾何深度學(xué)習(xí)方法從蛋白質(zhì)的3D結(jié)構(gòu)預(yù)測蛋白質(zhì)之間的相互作用。

如何操作?MaSIF將蛋白質(zhì)模擬為一個離散成網(wǎng)格的分子界面,研究人員認為此種方式在處理相互作用時是有利的,因為它可以提取出內(nèi)部的折疊結(jié)構(gòu)。這個架構(gòu)是基于MoNet發(fā)明的,MoNet是我的博士研究生費德里科·蒙奇發(fā)明的一個網(wǎng)狀卷積神經(jīng)網(wǎng)絡(luò),基于預(yù)先計算的小地測片中的化學(xué)和幾何特點。

該網(wǎng)絡(luò)使用蛋白質(zhì)數(shù)據(jù)庫中的幾千個共晶蛋白質(zhì)3D結(jié)構(gòu)來進行訓(xùn)練,從而解決界面預(yù)測、配基分類和對接等各種問題,展現(xiàn)現(xiàn)代化的性能。MaSIF與其他方法最大的差異是,它不依賴于蛋白質(zhì)的進化史。這在蛋白質(zhì)全新設(shè)計中至關(guān)重要,嘗試“從頭”創(chuàng)造前所未有的全新蛋白質(zhì)。

作為本篇論文的共同作者,我要強調(diào)的是預(yù)算分子界面和本地補丁的重要性,而且手工制作特性的依賴性是MaSIF的主要缺點之一。

在這一年里,我們徹底改造了結(jié)構(gòu),直接操作原子點云來輸入,飛速計算分子界面(表現(xiàn)為點云),學(xué)習(xí)幾何和化學(xué)特征,端到端可辨,運行速度快了幾個數(shù)量級(后者是通過使用快速幾何計算庫KeOps實現(xiàn)的,是我的博士后珍·菲迪(Jean Feydy)發(fā)明的)。

雖然《自然方法》論文主要關(guān)注計算方法,但是隨后EPFL的合作者獲得了MaSIF設(shè)計的幾種新型蛋白質(zhì)結(jié)合劑的晶體結(jié)構(gòu),其與所計算結(jié)構(gòu)高度吻合。

 

幾何機器學(xué)習(xí):如何在基礎(chǔ)科學(xué)領(lǐng)域成為現(xiàn)實?

 

使用MaSIF預(yù)測蛋白質(zhì)的結(jié)合位置。如圖所示設(shè)計蛋白質(zhì)(右)經(jīng)過修飾,以改善與自然產(chǎn)生的“野生型”(中)靶點相結(jié)合。即使結(jié)合部位結(jié)構(gòu)偏平,MaSIF也可以準確探測其位置。

為何重要?蛋白質(zhì)與其他生物分子之間的相互作用是大多數(shù)生物活動中蛋白質(zhì)發(fā)揮功能的基礎(chǔ)。更好地理解蛋白質(zhì)的作用原理對基礎(chǔ)生物學(xué)和藥物研發(fā)都非常重要,許多疾病與蛋白質(zhì)間相互作用(PPI)有關(guān),這種相互作用是理想的藥物靶點。然而,這種相互作用通常包含“不可藥物治療”的扁平界面,因為他們與傳統(tǒng)的小藥分子靶向的口袋型結(jié)構(gòu)大不相同。

MaSIF能夠成功識別靶點的結(jié)合劑,是理性蛋白質(zhì)設(shè)計的理想工具,開啟了生物藥物研究的各種應(yīng)用,比如免疫抑制檢查站癌癥治療,這種療法以負責(zé)程序性細胞死亡的PD-1/PD-L1蛋白質(zhì)復(fù)合體為靶體。

 

 

責(zé)任編輯:華軒 來源: 讀芯術(shù)
相關(guān)推薦

2023-01-05 13:12:53

Nature科學(xué)

2023-10-09 13:35:00

AI機器學(xué)習(xí)

2016-11-22 08:30:31

2018-05-24 10:45:30

戴爾

2018-03-26 09:11:09

數(shù)據(jù)機器學(xué)習(xí)崗位

2024-11-26 08:09:40

2013-05-14 09:08:37

網(wǎng)絡(luò)即服務(wù)云計算NaaS

2022-04-01 15:39:13

機器學(xué)習(xí)讓孩子們軟件交付

2009-10-26 21:14:37

PoE以太網(wǎng)供電

2021-01-10 15:28:23

數(shù)據(jù)科學(xué)機器學(xué)習(xí)AI

2020-05-27 11:16:49

數(shù)據(jù)科學(xué)機器學(xué)習(xí)Python

2022-03-02 09:11:09

機器學(xué)習(xí)網(wǎng)絡(luò)

2020-06-24 07:53:03

機器學(xué)習(xí)技術(shù)人工智能

2020-04-16 14:19:33

深度學(xué)習(xí)三體人工智能

2021-01-18 09:00:00

人工智能機器學(xué)習(xí)工程師

2024-03-29 10:39:56

ChatGPTGPTSAI

2017-09-15 09:34:51

R語言Python機器學(xué)習(xí)

2020-01-06 10:51:24

云計算IT混合云

2022-05-31 08:49:02

Flutter應(yīng)用程序前端
點贊
收藏

51CTO技術(shù)棧公眾號