自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺卷不動了,來看看分子領域?全球首個分子圖像自監(jiān)督學習框架ImageMol來了

人工智能 新聞
本文進一步將 ImageMol 的性能與三種最先進的分子表示模型進行了比較。

分子是維持物質化學穩(wěn)定性的最小單位。對分子的研究,是藥學、材料學、生物學、化學等眾多科學領域的基礎性問題。

圖片

分子的表征學習(Molecular Representation Learning)是近年來非常熱門的方向,目前可分為諸多門派:

  • 計算藥學家說:分子可以表示為一串指紋,或者描述符,如上海藥物所提出的 AttentiveFP,是這方面的杰出代表。
  • NLPer 說:分子可以表示為 SMILES(序列),然后當作自然語言處理,如百度的 X-Mol,是這方面的杰出代表。
  • 圖神經網絡研究者說:分子可以表示為一個圖(Graph),也就是鄰接矩陣,然后使用圖神經網絡處理,如騰訊的 GROVER, MIT 的 DMPNN,CMU 的 MOLCLR 等方法,都是這方面的杰出代表。

但是,目前的表征方法仍存在一些局限性。比如,序列表征缺乏分子的顯式結構信息,現有圖神經網絡的表達能力仍有諸多局限(中科院計算所沈華偉老師對此有論述,見沈老師報告“圖神經網絡的表達能力”)。

有趣的是,在高中化學學習分子的時候,我們看到的是分子的圖像,化學家在設計分子時,也是對照分子圖像進行觀察和思考。一個自然的想法油然而生:“為什么不直接用分子圖像來表征分子呢?”如果可以直接用圖像來表征分子,那 CV(計算機視覺)里面的十八般武藝,不都可以用來研究分子嗎?

圖片

說干就干,CV 里面的模型那么多,拿過來學習分子唄?打住,還有一個重要的問題——數據!特別是帶標簽的數據!在 CV 領域,數據標注這件事似乎并不困難。對于圖像識別或者情感分類這些 CV 和 NLP 的經典問題來說,一個人平均能標注 800 條數據。但是在分子領域,只能通過濕實驗和臨床實驗的方式評估分子性質,因此帶標簽的數據非常稀缺。

基于此,來自湖南大學的研究者們提出了全球首個分子圖像的無監(jiān)督學習框架 ImageMol,利用大規(guī)模無標簽分子圖像數據進行無監(jiān)督預訓練,為分子性質與藥物靶點理解提供了新范式,證明了分子圖像在智能藥物研發(fā)領域具有巨大的潛力。該成果以 “Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework” 為題發(fā)表于國際頂級期刊《Nature Machine Intelligence》。此次計算機視覺與分子領域交叉取得的成功展示了利用計算機視覺技術理解分子性質與藥物靶點機制的巨大潛力,并為分子領域的研究提供了新的機遇。

圖片

論文鏈接:https://www.nature.com/articles/s42256-022-00557-6.pdf

ImageMol 模型結構

ImageMol 的整體架構如下圖所示,總共分為三部分:

圖片


(1) 設計一個分子編碼器 ResNet18(淺藍色),能夠從約 1000 萬張分子圖像中提取潛在特征 (a) 。

(2)考慮分子圖像中的化學知識和結構信息,利用五個預訓練策略(MG3C、MRD、JPP、MCL、MIR)來優(yōu)化分子編碼器的潛在表示 (b) 。具體來說為:

① MG3C(Muti-granularity chemical clusters classification 多粒度化學簇分類):其中的結構分類器 Structure classifier(深藍色)用于預測分子圖像中的化學結構信息;

② MRD(Molecular rationality discrimination 分子合理性判別器):其中的合理性分類器 Rationality classifier(綠色),它用于區(qū)分合理與不合理的分子;

③ JPP(Jigsaw puzzle predicition 拼圖預測):其中的拼圖分類器 Jigsaw classifier(淺灰色)用于預測分子的合理排列;

④ MCL(MASK-based contrastive learning 基于 MASK 的對比學習):其中的對比分類器 Contrastive classifier(深灰色)用于最大化原始圖像和 mask 圖像之間的相似性;

⑤ MIR(Molecular image reconstruction 分子圖像重建):其中的生成器 Generator(黃色)用于將潛在特征恢復分子圖像,判別器 Discriminator(紫色)用于區(qū)分真實圖像和生成器生成的假的分子圖像。

(3)在下游任務中對預處理的分子編碼器進行微調,以進一步提高模型性能 (c) 。

圖片

基準評估

作者首先使用 8 種藥物發(fā)現的基準數據集來評估 ImageMol 的性能,并且使用兩種最流行的拆分策略(scaffold split 與 random scaffold split)來評估 ImageMol 在所有基準數據集上的性能。在分類任務中,利用受試者工作特性(Receiver Operating Characteristic, ROC)曲線以及曲線下的面積(Area Under Curve, AUC)來評估,從實驗結果可以看出,ImageMol 均能得到較高的 AUC 值 (圖 a) 。

圖片

ImageMol 與預測分子圖像的經典卷積神經網絡框架 Chemception 在 HIV 和 Tox21 的檢測結果對比 (圖 b) ,ImageMol 的 AUC 值更高。本文進一步評估了 ImageMol 在預測五種主要代謝酶(CYP1A2, CYP2C9, CYP2C19, CYP2D6 和 CYP3A4)藥物代謝方面的性能。圖 c 顯示,ImageMol 在五種主要藥物代謝酶的抑制劑與非抑制劑的預測中,與三種最先進的基于分子圖像的表示模型(Chemception46、ADMET-CNN12 和 QSAR-CNN47)相比,獲得了更高的 AUC 值(范圍從 0.799 到 0.893)。

圖片

圖片

本文進一步將 ImageMol 的性能與三種最先進的分子表示模型進行了比較,如圖 d、e 所示。ImageMol 與使用隨機骨架劃分的基于指紋的模型(如 AttentiveFP)、基于序列的模型(如 TF_Robust)和基于圖的模型(如 N-GRAM、GROVER 和 MPG)相比具有更好的性能。此外,與傳統的基于 MACCS 的方法和基于 FP4 的方法相比,ImageMol 在 CYP1A2,CYP2C9,CYP2C19,CYP2D6 和 CYP3A4 上實現了更高的 AUC 值(圖 f)。

圖片

ImageMol 與基于序列的模型(包括 RNN_LR、TRFM_LR、RNN_MLP、TRFM_MLP、RNN_RF、TRFM_RF 和 CHEM-BERT)和基于圖的模型(包括 MolCLRGIN、MolCLRGCN 和 GROVER)相比,如圖 g 所示,ImageMol 在 CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4 上實現了更好的 AUC 性能。

圖片

在以上 ImageMol 與其他先進的模型對比中,可以看出 ImageMol 的優(yōu)越性。

自新冠疫情爆發(fā)以來,我們迫切需要為新冠疫情制定有效的治療策略。因此,作者在該方面對 ImageMol 做了相應的評估。

對 13 個 SARS-CoV-2 靶點進行預測

ImageMol 對現如今關注的SARS-CoV-2 進行了預測實驗,在 13 個 SARS-CoV-2 生物測定數據集中,ImageMol 實現了 72.6% 至 83.7% 的高 AUC 值。圖 a 揭示了通過 ImageMol 鑒定的潛在特征,它在 13 個靶點(target)或終點(endpoints)活性和無活性的抗 SARS-CoV-2 上很好的聚集,且 AUC 值均比另一種模型 Jure’s GNN 要高 12% 以上  ,體現出該模型的高精度和很強的泛化性。

圖片

識別抗 SARS-CoV-2 抑制劑

對藥物分子研究關乎最直接的實驗來了,利用 ImageMol 直接識別抑制劑分子!通過 ImageMol 框架下 3CL 蛋白酶(已被證實是治療 COVID-19 的有希望的治療發(fā)展靶點)抑制劑與非抑制劑數據集的分子圖像表示,該研究發(fā)現 3CL 抑制劑和非抑制劑在 t-SNE 圖中很好地分離,如下圖 b 。

另外,ImageMol 鑒定出 16 種已知 3CL 蛋白酶抑制劑中的 10 種,并將這 10 種藥物可視化到圖中的包埋空間(成功率 62.5%),表明在抗 SARS-CoV-2 藥物發(fā)現中具有較高的泛化能力。使用 HEY293 測定來預測抗 SARS-CoV-2 可再利用藥物時,ImageMol 成功預測了 70 種藥物中的 42 種(成功率為 60%),這表明 ImageMol 在推斷 HEY293 測定中的潛在候選藥物方面也具有很高的推廣性。下圖 c 展示了 ImageMol 在 DrugBank 數據集上發(fā)現 3CL 潛在抑制劑的藥物。圖 d 展示了 ImageMol 發(fā)現的 3CL 抑制劑的分子結構。

圖片

注意力可視化

ImageMol 可以從分子圖像表示中獲取化學信息的先驗知識,包括 = O 鍵、-OH 鍵、-NH3 鍵和苯環(huán)。圖 b 和 c 為 ImageMol 的 Grad-CAM 可視化的 12 個示例分子。這表示 ImageMol 同時準確地對全局 (b) 和局部 (c) 結構信息進行注意捕獲,這些結果使研究人員能夠在視覺上直觀地理解分子結構是如何影響性質和靶點。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-11-29 15:38:01

學習框架編碼器數據

2024-06-13 11:44:43

2024-07-30 11:20:00

圖像視覺

2024-05-24 15:53:20

視覺圖像

2024-03-21 16:49:01

Java22版本開發(fā)

2021-11-08 22:42:51

機器學習監(jiān)督學習數據

2025-04-10 11:52:55

2022-01-21 15:33:56

架構模型AI

2023-11-23 15:54:01

人工智能監(jiān)督學習無監(jiān)督學習

2022-05-17 16:38:40

數據訓練

2021-09-01 16:05:19

數據挖掘模型人工智能

2021-03-18 09:28:20

人工智能機器學習技術

2020-04-28 17:26:04

監(jiān)督學習無監(jiān)督學習機器學習

2017-05-03 19:08:10

機器學習

2017-06-12 14:04:45

深度學習人工智能

2025-04-25 08:00:00

2022-01-28 10:34:01

手機AndroidRAM

2020-08-14 11:00:44

機器學習人工智能機器人

2020-08-16 11:34:43

人工智能機器學習技術

2022-10-10 12:07:49

造車新能源Web3
點贊
收藏

51CTO技術棧公眾號