生成的分子幾乎 100% 有效,用于逆向分子設計的引導擴散模型
「從頭分子設計」是材料科學的「圣杯」。生成深度學習的引入極大地推進了這一方向,但分子發(fā)現(xiàn)仍然具有挑戰(zhàn)性,而且往往效率低下。
以色列理工學院(Technion-Israel Institute of Technology)和意大利威尼斯大學(University Ca’ Foscari of Venice)的研究團隊,提出一種用于逆向分子設計的引導擴散模型:GaUDI,它結合了用于屬性預測的等變圖神經網絡和生成擴散模型。
研究人員通過將單目標和多目標任務應用于生成的 475,000 個多環(huán)芳香族系統(tǒng)數(shù)據(jù)集,證明了 GaUDI 在設計有機電子應用分子方面的有效性。GaUDI 展示了改進的條件設計,生成具有最佳特性的分子,甚至超越原始分布,提出了比數(shù)據(jù)集中的分子更好的分子。除了逐點目標之外,GaUDI 還可以引導至開放式目標(例如最小值或最大值),并且在所有情況下,生成的分子的有效性都接近 100%。
該研究以「Guided diffusion for inverse molecular design」為題,于 2023 年 10 月 5 日發(fā)布在《Nature Computational Science》上。
分子設計已有方法及其挑戰(zhàn)
新技術的發(fā)展往往取決于獲取新功能分子的能力。然而,分子發(fā)現(xiàn)對于化學家和材料科學家來說仍然是一個開放的挑戰(zhàn),因為很難準確地模擬分子和材料的性質。這通常會因滿足多種需求而加劇,這些需求有時可能是矛盾的,甚至是相互排斥的,例如,需要催化劑既穩(wěn)定又活躍。因此,關鍵是找到多種分子特性之間的最佳權衡,以便給定的分子可以提供所需的功能。
找到這個最佳點,首先需要確定分子結構與其各種特性之間的關系。為此,傳統(tǒng)的分子設計方法依賴于手動構建的啟發(fā)式方法和化學直覺。除了緩慢和艱巨之外,這些通常僅限于在較小的化學空間內相關的相對簡單的結構-性質關系。
近年來,生成模型將這一化學挑戰(zhàn)表述為逆向設計問題,已作為替代方法被引入,并已成為識別各種應用的新候選結構的日益強大的工具。
擴散模型已成為許多生成任務的主要方法,例如圖像、視頻和文本生成。擴散模型在化學領域也顯示出了巨大的前景。然而,擴散模型的全部功能尚未得到充分利用,因為這仍然是一個探索最少的領域。此外,現(xiàn)有的也執(zhí)行條件生成的擴散模型使用所謂的標準方法,這很難學習條件分布。它們還僅限于逐點目標,必須重新訓練以添加新屬性,并且無法在不同數(shù)據(jù)集上訓練生成器和預測器。引導擴散模型從條件分布中采樣的能力尚未在化學環(huán)境中得到充分測試。
GaUDI 用于生成設計具有目標特性的分子
在此,研究人員通過設計和實現(xiàn)引導擴散模型 GaUDI 來彌補這一差距,用于生成設計具有目標特性的分子。
研究人員使用兩個預訓練模型來設計分子:第一個是經過訓練的生成擴散模型,用于根據(jù)給定的數(shù)據(jù)分布生成無條件樣本,第二個是經過訓練的預測模型,用于預測分子特性。
與標準擴散采樣一樣,擴散模型從一些易于處理的噪聲源中采樣,然后迭代地對信號進行去噪;然而,與標準無條件模型相比,在 GaUDI 中,生成模型的中間輸出被饋送到預測模型,該模型預測一組預定義的屬性。然后,通過在每次迭代中添加校正項,使用這些屬性的目標函數(shù)的梯度來指導采樣過程。通過這種方式,擴散生成偏向于具有低目標函數(shù)值(即最接近目標)的分子,這個過程相當于從具有幾乎任意復雜條件的條件分布中采樣。
圖 1:生成流程。(來源:論文)
研究展示了 GaUDI 在多環(huán)芳香族系統(tǒng) (PAS) 用例中的性能,PAS 是由不同大小和原子組成的多個芳香環(huán)構成的分子。多環(huán)芳香族體系占已知分子的三分之二,是有機電子學的基石,因為它們構成了絕大多數(shù)有機半導體。因此,具有特定性能的新型 PAS 對于有機發(fā)光二極管、場效應晶體管、光伏和其他光電子學等先進技術至關重要。
在新生成的 475,000 PAS 數(shù)據(jù)集上進行訓練后,GaUDI 在單目標生成任務和多目標生成任務中,無論是在有效性還是在平均誤差方面都優(yōu)于其他領先的擴散模型。GaUDI 提供了具有最佳特性的新型分子,甚至超出了原始數(shù)據(jù)集的分布。
圖 2:具有高 HOMO– LUMO(HLG)值的 PAS 的引導設計。(來源:論文)
此外,當與環(huán)圖 (Graph of Rings,GOR) 表示法一起使用時,GaUDI 生成的分子幾乎 100% 都是有效的、新穎的和獨特的。
表 1:無引導生成的性能。(來源:論文)
此外,與許多現(xiàn)有方法相反,GaUDI 提供了高目標函數(shù)多功能性,并且可以處理單個或多個屬性的任何可微目標函數(shù),包括開放式目標,例如,即使在先驗未知的情況下,也可以找到目標屬性的最小/最大值。
在該研究中,研究人員利用這一特征對通過廉價計算方法獲得的數(shù)據(jù)進行 GaUDI 訓練,盡管數(shù)值不同,但該方法捕獲相同的結構-性質趨勢。
圖 3:窄帶隙分子的引導設計。(來源:論文)
GaUDI 能夠提出具有所需特性的新分子,甚至超出初始訓練集中的特性,有助于加速許多感興趣領域的分子設計和發(fā)現(xiàn),包括但不限于有機電子學和光電子學。
未來的方向包括應用 GaUDI 設計功能化 PAS 和 peri-condensed PAS。與此同時,研究人員還在探索一種替代方法,其中 GaUDI 將給定的子結構完善為具有目標特性的最終分子。
論文鏈接:https://www.nature.com/articles/s43588-023-00532-0