藥物分子設(shè)計(jì)新策略,微軟條件擴(kuò)散模型DiffLinker登Nature子刊
藥理學(xué)領(lǐng)域的化學(xué)空間高達(dá) 10^60,在廣闊的化學(xué)空間中進(jìn)行搜索,給藥物設(shè)計(jì)帶來了巨大的挑戰(zhàn)。
基于片段的藥物發(fā)現(xiàn)一直是早期藥物開發(fā)的有效范例。然而,該領(lǐng)域面臨的一個(gè)挑戰(zhàn)是,如何設(shè)計(jì)斷開的感興趣分子片段之間的連接子(linker),生成化學(xué)上合理的候選藥物分子。
在此,來自微軟研究院科學(xué)智能中心(AI4Science)、洛桑聯(lián)邦理工學(xué)院、牛津大學(xué)和 MIT 的研究團(tuán)隊(duì),提出了一種用于分子 linker 設(shè)計(jì)的 E(3) 等變?nèi)S條件擴(kuò)散模型 DiffLinker。
與以前只能連接分子片段對(duì)的方法不同,新方法可以連接任意數(shù)量的片段。此外,模型會(huì)自動(dòng)確定 linker 中的原子數(shù)量及其與輸入片段的連接點(diǎn)。
DiffLinker 在標(biāo)準(zhǔn)數(shù)據(jù)集上優(yōu)于其他方法,可生成更多樣化且可合成的分子。在實(shí)際應(yīng)用中對(duì)其方法進(jìn)行實(shí)驗(yàn)測(cè)試,表明它可以成功生成以靶標(biāo)蛋白口袋為條件的有效 linker。
研究人員表示,術(shù)語「linker」泛指任何能夠連接起始分子片段的化學(xué)物質(zhì),并不特指與所討論任一領(lǐng)域相關(guān)術(shù)語的特定含義。
相關(guān)研究以《Equivariant 3D-conditional diffusion model for molecular linker design》為題,于 2024 年 4 月 11 日發(fā)布在《Nature Machine Intelligence》上。
論文鏈接:https://www.nature.com/articles/s42256-024-00815-9
據(jù)估計(jì),藥理學(xué)相關(guān)分子的空間超過 10^60 個(gè)結(jié)構(gòu)。減小該空間大小的一個(gè)成功方法是從「片段」開始,這些小分子化合物通常不超過 20 個(gè)重(非氫)原子。這種策略稱為基于片段的藥物設(shè)計(jì) (FBDD)。
給定蛋白質(zhì)口袋,通過計(jì)算確定與口袋相互作用的片段是比實(shí)驗(yàn)篩選方法更便宜、更有效的替代方法。一旦相關(guān)片段被識(shí)別并與靶標(biāo)蛋白對(duì)接,就需要將它們組合成單個(gè)連接的化合物。
機(jī)器學(xué)習(xí)方法方法可以超越可用數(shù)據(jù)并更有效地生成不同的 linkers。然而,這些方法在原子排列方面并不等變,并且只能組合片段對(duì)。迄今為止,還沒有考慮靶標(biāo)蛋白口袋的分子 linker 設(shè)計(jì)計(jì)算方法。
最先進(jìn)的生成方法:條件擴(kuò)散模型 DiffLinker
在此,研究人員解決了放置在三維 (3D) 環(huán)境中的片段連接起來的問題,并可以將設(shè)計(jì)過程調(diào)節(jié)到靶標(biāo)蛋白口袋。
DiffLinker 是一種條件擴(kuò)散模型,可以為一組表示為 3D 原子點(diǎn)云的輸入片段生成分子 linker。
首先,模型生成預(yù)期 linker 的大小,然后從正態(tài)分布中采樣初始 linker 原子類型和位置。接下來,使用以輸入片段為條件的神經(jīng)網(wǎng)絡(luò)迭代更新連接原子類型和坐標(biāo)。最終,去噪后的連接原子和輸入片段原子形成一個(gè) linker 的分子。
圖 1:分子 linker 生成過程概述。(來源:論文)
DiffLinker 有幾個(gè)理想的屬性:它與平移、旋轉(zhuǎn)、反射和排列等價(jià);它不受輸入片段數(shù)量的限制,不需要有關(guān)連接原子的信息,并且生成沒有預(yù)定義大小的 linker。
此外,研究人員提出了一種新的歐幾里得擴(kuò)散模型的 3D 調(diào)節(jié)機(jī)制,這使得 DiffLinker 成為一種多功能且最先進(jìn)的生成方法,適用于各種基于結(jié)構(gòu)的藥物設(shè)計(jì)任務(wù)。
表 1:ZINC、CASF 和 GEOM 測(cè)試集的性能指標(biāo)。(來源:論文)
研究表明,DiffLinker 在生成片段對(duì)之間的化學(xué)相關(guān) linker 方面的性能優(yōu)于以前的方法。
該方法在合成可及性和藥物相似性方面取得了最先進(jìn)的結(jié)果,這使得它在藥物設(shè)計(jì)管道中非常有用。
此外,DiffLinker 在生成的 linker 的化學(xué)多樣性方面明顯優(yōu)于其他方法。
圖 2:在口袋條件和非條件條件下使用 DiffLinker 生成配體。(來源:論文)
研究人員進(jìn)一步提出了一個(gè)更具挑戰(zhàn)性的基準(zhǔn),并表明該方法能夠成功 link 兩個(gè)以上的片段,這是其他方法無法做到的。
研究還證明了 DiffLinker 可以以靶標(biāo)蛋白口袋為條件;模型尊重周圍蛋白質(zhì)原子施加的幾何約束,并生成在結(jié)構(gòu)上與相應(yīng)口袋兼容的分子。
三個(gè)案例研究
為了證明 DiffLinker 在實(shí)際藥物設(shè)計(jì)應(yīng)用中的相關(guān)性,研究人員提供了三個(gè)案例研究:熱休克蛋白 90 (Hsp90) 和肌苷 5'-單磷酸脫氫酶 (IMPDH) 抑制劑的基于片段的設(shè)計(jì),以及用于提高 c-Jun 氨基末端激酶 (JNK) 選擇性的支架跳躍(scaffold hopping)。
Hsp90 是一種分子 chaperone,參與多種蛋白質(zhì)的折疊,包括那些參與致癌轉(zhuǎn)化的蛋白質(zhì)。DiffLinker 成功復(fù)現(xiàn)了參考文獻(xiàn)中報(bào)告的抑制劑。重現(xiàn)參考抑制劑分子的所有三個(gè) DiffLinker 樣品的對(duì)接分?jǐn)?shù)與參考分?jǐn)?shù)相當(dāng)。
圖 3:Hsp90 作為基于片段的配體生成的實(shí)際示例。(來源:論文)
IMPDH 是一個(gè)有吸引力的結(jié)核病藥物靶點(diǎn),在鳥嘌呤核苷酸的從頭合成中發(fā)揮著重要作用。DiffLinker 復(fù)現(xiàn)文獻(xiàn)報(bào)道的兩個(gè)最有效的抑制劑:化合物 30 和化合物 31。盡管 DiffLinker 沒有重現(xiàn)化合物 29,但它生成了 Tanimoto 距離相似的分子。
圖 4:基于片段的 IMPDH 抑制劑設(shè)計(jì)案例研究。(來源:論文)
JNK 是絲裂原激活蛋白激酶的一個(gè)重要蛋白家族,可調(diào)節(jié)多種細(xì)胞過程,包括細(xì)胞增殖、凋亡、自噬和炎癥。研究了 DiffLinker 生成一組不同支架的能力。
DiffLinker 復(fù)現(xiàn)了吲唑和氨基吡唑支架。此外,還確定了生成的支架的 238 個(gè)獨(dú)特拓?fù)?,這表明 DiffLinker 能夠通過 linker 區(qū)域的采樣來廣泛探索潛在相關(guān)支架的空間。
圖 5:探索化學(xué)多樣性以提高 JNK 抑制劑的選擇性。(來源:論文)
研究人員表示,「DiffLinker 是第一個(gè)不受輸入片段數(shù)量限制并考慮口袋信息的方法。我們的總體目標(biāo)是,為從業(yè)者提供在真實(shí)藥物設(shè)計(jì)中生成分子 linker 的有效工具?!?/span>