彌合化學(xué)反應(yīng)預(yù)訓(xùn)練和條件分子生成之間的差距,北大&望石智慧提出「統(tǒng)一」模型
化學(xué)反應(yīng)是藥物設(shè)計(jì)和有機(jī)化學(xué)研究的基礎(chǔ)。研究界越來(lái)越需要一種能夠有效捕獲化學(xué)反應(yīng)基本規(guī)則的大規(guī)模深度學(xué)習(xí)框架。
近日,來(lái)自北京大學(xué)和望石智慧的研究團(tuán)隊(duì)提出了一種新方法來(lái)彌合基于反應(yīng)的分子預(yù)訓(xùn)練和生成任務(wù)之間的差距。
受有機(jī)化學(xué)機(jī)制的啟發(fā),研究人員開(kāi)發(fā)了一個(gè)新的預(yù)訓(xùn)練框架,使其能夠?qū)w納偏差納入模型中。所提框架在執(zhí)行具有挑戰(zhàn)性的下游任務(wù)中取得了最先進(jìn)的結(jié)果。通過(guò)掌握化學(xué)知識(shí),生成框架克服了當(dāng)前依賴少量反應(yīng)模板的分子生成模型的局限性。在大量的實(shí)驗(yàn)中,模型生成了高質(zhì)量的可合成藥物樣結(jié)構(gòu)。
總的來(lái)說(shuō),該研究向各種基于反應(yīng)的應(yīng)用程序的大規(guī)模深度學(xué)習(xí)框架邁出了重要一步。
該研究以《Bridging the gap between chemical reaction pretraining and conditional molecule generation with a unified model》為題,于 2023 年 12 月 5 日發(fā)布在《Nature Machine Intelligence》上。
論文鏈接:https://www.nature.com/articles/s42256-023-00764-9
深度學(xué)習(xí)模型已在眾多科學(xué)研究領(lǐng)域得到應(yīng)用。預(yù)訓(xùn)練框架有助于新任務(wù)的無(wú)縫集成,從而加快建模過(guò)程,特別是對(duì)于標(biāo)記數(shù)據(jù)有限的場(chǎng)景。
化學(xué)反應(yīng)是藥物設(shè)計(jì)和有機(jī)化學(xué)研究的基礎(chǔ)。目前,數(shù)據(jù)挖掘研究和應(yīng)用已經(jīng)使深度學(xué)習(xí)模型能夠應(yīng)用于化學(xué)反應(yīng)。基于這些數(shù)據(jù),已經(jīng)有許多數(shù)據(jù)驅(qū)動(dòng)的研究深入研究化學(xué)反應(yīng)的表征學(xué)習(xí)。
表征學(xué)習(xí)是指從數(shù)據(jù)中自動(dòng)學(xué)習(xí)有用的特征,然后將其用于各種下游任務(wù)?,F(xiàn)有方法忽略了有機(jī)化學(xué)的基本理論,限制了其性能。
基于化學(xué)反應(yīng)的分子生成
除了反應(yīng)分類任務(wù)之外,基于化學(xué)反應(yīng)的分子生成也是一個(gè)重要的應(yīng)用。早期的研究總是采用基于模板的逐步分子生成策略。
這些基于模板的方法在很大程度上依賴于預(yù)定義的構(gòu)建模塊和反應(yīng),這縮小了可訪問(wèn)的化學(xué)空間。在反應(yīng)產(chǎn)物預(yù)測(cè)領(lǐng)域也發(fā)現(xiàn)了類似的趨勢(shì),其中基于模板的方法不能外推到復(fù)雜的反應(yīng);這個(gè)問(wèn)題可以通過(guò)使用無(wú)模板方法來(lái)解決。
在基于反應(yīng)的分子生成任務(wù)中,無(wú)模板方法也表現(xiàn)出了優(yōu)于基于模板方法的泛化優(yōu)勢(shì)。然而,現(xiàn)有的無(wú)模板分子生成方法只能基于預(yù)定義的反應(yīng)物庫(kù)生成分子。除此之外,對(duì)于藥物設(shè)計(jì)中的先導(dǎo)化合物或先導(dǎo)化合物優(yōu)化階段,利用化學(xué)反應(yīng)作為編輯工具來(lái)修改給定的結(jié)構(gòu)是更有利的。生成的化學(xué)庫(kù)將重點(diǎn)關(guān)注可以用更少的反應(yīng)步驟合成的化學(xué)空間的子集。
一個(gè)新、全面的化學(xué)反應(yīng)深度學(xué)習(xí)框架
在此,研究人員提出了一個(gè)新的、全面的化學(xué)反應(yīng)深度學(xué)習(xí)框架,稱為 Uni-RXN。旨在解決兩個(gè)基本任務(wù):自監(jiān)督表征學(xué)習(xí)和條件生成建模。
圖示:Uni-RXN 的組成和方法。(來(lái)源:論文)
與現(xiàn)有方法不同,研究人員提出了一套專門針對(duì)化學(xué)反應(yīng)精心設(shè)計(jì)的自監(jiān)督任務(wù)。這些任務(wù)包括反應(yīng)中心預(yù)測(cè)、主反應(yīng)物與子反應(yīng)物配對(duì)以及反應(yīng)物-產(chǎn)物配對(duì)。在對(duì)具有挑戰(zhàn)性的反應(yīng)任務(wù)的廣泛評(píng)估中,Uni-RXN 方法超越了最先進(jìn)的水平,證明了其有效捕獲化學(xué)反應(yīng)領(lǐng)域知識(shí)的能力。所獲得的有希望的結(jié)果為廣泛的下游應(yīng)用鋪平了道路。
通過(guò)有效捕獲化學(xué)規(guī)則,Uni-RXN 非常適合生成任務(wù)。與依賴于從預(yù)定義反應(yīng)物庫(kù)中選擇片段的傳統(tǒng)方法不同,Uni-RXN 將分子結(jié)構(gòu)作為輸入條件并生成相應(yīng)反應(yīng)物的表示,同時(shí)保持反應(yīng)內(nèi)的排列不變性。利用密集向量相似性搜索包的強(qiáng)大功能,Uni-RXN 能夠從大型反應(yīng)物和試劑庫(kù)中高效檢索反應(yīng)物。隨后,采用反應(yīng)預(yù)測(cè)模型來(lái)生成產(chǎn)物輸出。
與僅探索化學(xué)空間的有限子集的基于模板的方法相比,Uni-RXN 在生成更廣泛的可合成藥物樣結(jié)構(gòu)方面表現(xiàn)出卓越的性能。這一特點(diǎn)使其特別適合虛擬 library 枚舉,并得到全面統(tǒng)計(jì)分析和案例研究的支持。
Uni-RXN 方法具有多種優(yōu)勢(shì),能夠?yàn)榫哂刑魬?zhàn)性的化學(xué)反應(yīng)分類任務(wù)派生豐富的表示。Uni-RXN 大幅優(yōu)于其他基線模型,在每類僅提供 4 個(gè)數(shù)據(jù)點(diǎn)的情況下實(shí)現(xiàn)了 58.7% 的準(zhǔn)確率。
表 1:化學(xué)反應(yīng)分類的準(zhǔn)確度。(來(lái)源:論文)
Transformer 模型還可以應(yīng)用于區(qū)分化學(xué)反應(yīng)數(shù)據(jù)中的優(yōu)化反應(yīng)和未優(yōu)化反應(yīng)。此外,編碼器可以毫不費(fèi)力地應(yīng)用于結(jié)構(gòu)條件生成。
圖示:Uni-RXN 的檢索性能和注意力權(quán)重。(來(lái)源:論文)
實(shí)驗(yàn)結(jié)果強(qiáng)調(diào)了所提模型生成的分子的有利特性,使它們非常適合藥物發(fā)現(xiàn)任務(wù)。該模型能夠生成具有更多類似藥物特性和可合成可及性的分子。
圖示:Uni-RXNGen 流程與性能。(來(lái)源:論文)
與分子對(duì)接等虛擬篩選方法相結(jié)合,該生成模型可以實(shí)現(xiàn)高效的構(gòu)效關(guān)系研究。該模型生成的巨大的可合成類藥物化學(xué)空間可以提高藥物再利用或命中分子搜索的真陽(yáng)性率。