自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成

發(fā)布于 2024-3-27 10:14
瀏覽
0收藏

引言

藥物發(fā)現(xiàn)的核心環(huán)節(jié)之一是合成和設(shè)計(jì)具有理想化學(xué)特性的分子。隨著語(yǔ)言模型展現(xiàn)出在解析復(fù)雜分子分布方面的潛力,研究人員開(kāi)始嘗試將分子的SMILES描述符與預(yù)訓(xùn)練語(yǔ)言模型相結(jié)合。然而,SMILES描述符的語(yǔ)法特質(zhì)并不總能保障所生成化學(xué)結(jié)構(gòu)的有效性,經(jīng)常導(dǎo)致生成化學(xué)上無(wú)意義的字符串。除此之外,雖然分子語(yǔ)言模型在預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)了大量的分子結(jié)構(gòu)信息,它們?nèi)噪y以準(zhǔn)確捕捉到現(xiàn)實(shí)世界中化學(xué)與生物特性的復(fù)雜關(guān)系。這使得它們常常陷入“分子幻覺(jué)”,生成在結(jié)構(gòu)上看似正確,但缺乏理想化學(xué)屬性的分子。為了應(yīng)對(duì)上述挑戰(zhàn),本文提出了新的分子生成框架MolGen。MolGen通過(guò)雙階段預(yù)訓(xùn)練深入學(xué)習(xí)分子的結(jié)構(gòu)與語(yǔ)法特征,并采用化學(xué)反饋機(jī)制優(yōu)化分子生成過(guò)程,使其產(chǎn)生的分子既化學(xué)有效又具備預(yù)期屬性。

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成-AI.x社區(qū)

MolGen的訓(xùn)練框架

MolGen的預(yù)訓(xùn)練包含兩個(gè)關(guān)鍵階段:

  • 首先,基于Seq2seq的模型架構(gòu),MolGen在超過(guò)一億的分子序列上執(zhí)行掩碼操作,通過(guò)重構(gòu)原始序列深度挖掘分子的結(jié)構(gòu)本質(zhì),同時(shí)采用SELFIES作為分子描述符,確保生成的分子序列的100%有效性。
  • 其次,引入一種通用的分子前綴策略,提升模型跨不同領(lǐng)域的適用性和靈活性。

在預(yù)訓(xùn)練階段之后,盡管模型已經(jīng)掌握了分子的基本語(yǔ)法規(guī)則,但它還需要學(xué)習(xí)如何根據(jù)實(shí)際化學(xué)需求優(yōu)化分子結(jié)構(gòu)。因此,MolGen引入了一種化學(xué)反饋機(jī)制,引導(dǎo)模型優(yōu)先考慮那些更優(yōu)候選分子,進(jìn)而學(xué)習(xí)評(píng)估并糾正自己的生成過(guò)程,以實(shí)現(xiàn)與優(yōu)化目標(biāo)的一致性。這種方法確保了MolGen不僅能生成化學(xué)上有效的分子,而且這些分子具備所需的預(yù)期特性,適應(yīng)實(shí)際的應(yīng)用場(chǎng)景。

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成-AI.x社區(qū)

實(shí)驗(yàn)分析

本文通過(guò)一系列實(shí)驗(yàn)分析驗(yàn)證了MolGen模型的有效性和實(shí)用性。實(shí)驗(yàn)結(jié)果表明,MolGen能夠生成反映現(xiàn)實(shí)世界分子分布的多樣化且真實(shí)的分子,適用于構(gòu)建虛擬分子庫(kù)。

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成-AI.x社區(qū)

通過(guò)優(yōu)化實(shí)驗(yàn),MolGen證明了其能夠有效地生成與特定目標(biāo)蛋白質(zhì)高度親和的分子。結(jié)合親和力量化了分子與目標(biāo)蛋白質(zhì)之間的相互作用力。如圖(a)所示,MolGen專(zhuān)門(mén)針對(duì)初始結(jié)合親和力較低的1000個(gè)分子進(jìn)行優(yōu)化,成功提升了這些分子的親和力。其中親和力通過(guò)解離常數(shù)(K_D)來(lái)體現(xiàn),K_D值越低表示親和力越強(qiáng)。圖(b)則進(jìn)一步展示了在兩種不同目標(biāo)蛋白質(zhì)上,通過(guò)MolGen優(yōu)化后分子結(jié)合親和力的顯著提高,從而突顯了MolGen在藥物設(shè)計(jì)和分子優(yōu)化領(lǐng)域的應(yīng)用潛力。

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成-AI.x社區(qū)

此外,MolGen也能夠優(yōu)化相對(duì)簡(jiǎn)單的化學(xué)性質(zhì),如p-logP和QED值。在天然產(chǎn)物與合成分子兩種設(shè)定下,不同配置的模型生成的分子化學(xué)性質(zhì)發(fā)生了明顯的變化。在未應(yīng)用化學(xué)反饋機(jī)制的情況下,預(yù)訓(xùn)練模型傾向于生成與輸入分子化學(xué)性質(zhì)相似的分子。然而,當(dāng)引入化學(xué)反饋后,化學(xué)性質(zhì)得分顯著提升,這表明通過(guò)化學(xué)反饋機(jī)制,模型能夠?qū)⑵渖蛇^(guò)程與化學(xué)上的實(shí)際偏好相對(duì)齊,從而有效地評(píng)估并調(diào)整其生成的分子,確保這些分子具備應(yīng)用中所需的化學(xué)特性。

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成-AI.x社區(qū)

本文將MolGen得到的分子表示空間與基于深度圖生成的模型、基于變分自編碼器的模型以及基于SMILES的語(yǔ)言模型進(jìn)行比較??傮w而言,預(yù)訓(xùn)練語(yǔ)言模型,尤其是MolGen,在維持生成分子多樣性的同時(shí),成功捕獲了訓(xùn)練集中分子的化學(xué)特性和結(jié)構(gòu)特征,展現(xiàn)了其在精確模擬分子化學(xué)空間方面的優(yōu)勢(shì)。

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成-AI.x社區(qū)

進(jìn)一步地,本文還探討了使用不同分子語(yǔ)言(SMILES和SELFIES)進(jìn)行預(yù)訓(xùn)練的模型在感知分子結(jié)構(gòu)方面的能力。下圖可視化了模型最后一個(gè)自注意力層的注意力權(quán)重。基于SMILES的預(yù)訓(xùn)練模型可能會(huì)將注意力分配給缺乏內(nèi)在化學(xué)意義的符號(hào)或數(shù)字,相比之下,MolGen在識(shí)別和理解具有化學(xué)意義的子結(jié)構(gòu)方面表現(xiàn)出更高的有效性。

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成-AI.x社區(qū)

總結(jié)

本文介紹了一種新的分子生成框架MolGen。實(shí)驗(yàn)分析表明,MolGen能夠有效生成符合化學(xué)偏好的分子,規(guī)避了“分子幻覺(jué)”問(wèn)題。未來(lái)的研究方向包括將MolGen應(yīng)用于逆合成、化學(xué)反應(yīng)預(yù)測(cè)等生成任務(wù),探索多模態(tài)預(yù)訓(xùn)練技術(shù),或融合更廣泛的知識(shí)資源。此外,為了進(jìn)一步滿(mǎn)足從頭分子設(shè)計(jì)的需求,作者推出了最新的MolGen-7B版本。該版本基于LLaMA架構(gòu),無(wú)需依賴(lài)現(xiàn)有分子結(jié)構(gòu)即可設(shè)計(jì)出多樣化的新分子,開(kāi)拓了更為廣闊的化學(xué)探索空間。

本文轉(zhuǎn)載自:??ZJUKG??

作者:方尹

已于2024-3-27 13:08:36修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦