基于Transformer的人工神經(jīng)網(wǎng)絡(luò),將有機結(jié)構(gòu)的圖像轉(zhuǎn)換為分子結(jié)構(gòu)
人類正在進入人工智能時代?;瘜W(xué)也將被現(xiàn)代的深度學(xué)習(xí)方法所改變,這需要大量定性數(shù)據(jù)來進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。好消息是,化學(xué)數(shù)據(jù)「很好保存」。即使某種化合物最初是在 100 年前合成的,關(guān)于其結(jié)構(gòu)、性質(zhì)和合成方式的信息仍然與今天相關(guān)。 壞消息是,沒有公認的標準方法來呈現(xiàn)化學(xué)公式。化學(xué)家通常使用許多技巧以簡寫符號的方式來表示熟悉的化學(xué)基團。但化學(xué)家的個人習(xí)慣不同,慣例也會改變。對于計算機算法來說,這項任務(wù)似乎是不可逾越的。來自 Skoltech 的初創(chuàng)公司 Syntelly 和莫斯科羅蒙諾索夫國立大學(xué)的研究人員開發(fā)了一種基于 Transformer 的人工神經(jīng)網(wǎng)絡(luò),可以將有機結(jié)構(gòu)的圖像轉(zhuǎn)換為分子結(jié)構(gòu)。為了訓(xùn)練這個網(wǎng)絡(luò),開發(fā)了一個綜合數(shù)據(jù)生成器,它可以隨機模擬各種繪圖樣式、官能團、官能團占位符(R 基)和視覺污染。該研究以「Image2SMILES: Transformer-Based Molecular Optical Recognition Engine」為題,于 2022 年 1 月 11 日發(fā)表在《Chemistry–Methods》上。
化學(xué)結(jié)構(gòu)識別面臨挑戰(zhàn)
多年來,文獻中發(fā)表了大量化學(xué)數(shù)據(jù)。不幸的是,在計算機時代之前,這些有價值的數(shù)據(jù)僅在紙質(zhì)資源中出現(xiàn)。當前的挑戰(zhàn)是從這些來源中提取和挖掘這些數(shù)據(jù)。深度神經(jīng)網(wǎng)絡(luò)的廣泛發(fā)展顯著提高了光學(xué)識別任務(wù)的性能。然而,圖形或弱結(jié)構(gòu)信息識別一直是一個具有挑戰(zhàn)性的問題。一個常見的例子是化學(xué)結(jié)構(gòu)的識別。首先,化學(xué)化合物的繪圖風(fēng)格(原子標簽字體、鍵描繪風(fēng)格等)在出版商之間沒有完全標準化。其次,化合物通常被繪制為馬庫什(Markush)結(jié)構(gòu):可以描述許多化合物的支架,馬庫什結(jié)構(gòu)沒有通用的指導(dǎo)方針,這導(dǎo)致了各種各樣的 Markush 表示。此外,在某些情況下,化學(xué)論文的作者使用使用藝術(shù)風(fēng)格來代表化學(xué)結(jié)構(gòu)。
以藝術(shù)風(fēng)格描繪的分子示例。
總而言之,識別化學(xué)結(jié)構(gòu)和分子模板是一個具有挑戰(zhàn)性的問題,我們相信只有基于人工智能的工具才能解決這個問題。研究思路&方法Transformer 是谷歌團隊最初提出的用于神經(jīng)翻譯的架構(gòu)。然而,該架構(gòu)及其修改在許多其他任務(wù)中表現(xiàn)出出色的性能,例如:在化學(xué)中,Transformer 被應(yīng)用于有機反應(yīng)結(jié)果的預(yù)測,SMILES 和 IUPAC 名稱之間的轉(zhuǎn)換??梢钥闯?,基于 Transformer 的架構(gòu)的性能通常高于基于 RNN 的方法。這一觀察促使研究人員實現(xiàn)了一個基于 Transformer 的引擎,用于光學(xué)識別化學(xué)結(jié)構(gòu)。數(shù)據(jù)是機器學(xué)習(xí)的關(guān)鍵。然而,據(jù)我們所知,在化學(xué)文章上沒有帶有注釋對象的開放訪問數(shù)據(jù)集。獲得大型數(shù)據(jù)集的唯一方法是構(gòu)建數(shù)據(jù)生成模型。該研究所提方法的新穎之處在于強烈關(guān)注數(shù)據(jù)生成方案,并且不僅可以處理有機結(jié)構(gòu),還可以處理分子模板,因此該方法可以用于實際數(shù)據(jù)。在這項工作中,為了訓(xùn)練這個網(wǎng)絡(luò),開發(fā)了一個綜合數(shù)據(jù)生成器,它可以隨機模擬各種繪圖樣式、官能團、官能團占位符(R 基)和視覺污染。PubChem 數(shù)據(jù)庫包含大約 1 億個分子。選擇 RDKit 作為自動繪圖工具。官能團和 R 基在大多數(shù)化學(xué)文獻中,作者繪制了帶有官能團和 R-基取代基的分子。為了生成具有此類取代基的分子,研究人員創(chuàng)建了 100 多個常見官能團的列表。將每個組描述為一個 SMARTS 模板。其增強算法隨機替換分子中的官能團以生成增強數(shù)據(jù)集。應(yīng)該注意一些官能團是嵌套的。典型例子是:甲基 (-Me) 和甲氧基 (-OMe) 基團。研究人員設(shè)計了一種解析方法,以防止嵌套組重疊。
生成的具有官能團和 R 基團的分子示例。
研究人員實現(xiàn)了一種方法來生成具有 R 基在環(huán)中可變位置的圖像。
可變位置的 R 基示例。
如果環(huán)的取代基不超過兩個,則 R 基團(R、R1、R2、R'、R'')以 20% 的概率繪制在可變位置,但該算法對一個環(huán)進行一次替換,一個分子最多替換兩個。添加了一個虛擬鍵,使 RDKit 將基團放在環(huán)鍵的前面,然后使用 SVG 后處理將兩個鍵替換為單行。下面的例子給出了直觀的解釋。
在可變位置呈現(xiàn) R 基。
官能團 SMILES在標準的 SMILES 中無法表示分子模板,在此設(shè)計了一種修改后的語法,將其命名為 FG-SMILES。這是標準 SMILES 的擴展,其中取代基或 R 基團可以寫成單個偽原子。如果取代基是官能團,F(xiàn)G-SMILES 可以通過替換相應(yīng)的假原子直接翻譯成 SMILES。一個例子:SMILES: Cc1cc(C)c(-c2ccccc2)c(-c2ccc([N+](=O)[O-])cc2)c1FG-SMILES: [Me]c1cc([Me])c(-[Ph])c(-c2ccc([NO2])cc2)c1此外,F(xiàn)G-SMILES 符號允許描述可變的 R 基位置。添加 v 符號來表示芳族系統(tǒng)內(nèi)的變量 R 基團。圖像增強當我們的模型在真實環(huán)境中運行時,它會從光學(xué)掃描中裁剪出一個區(qū)域作為輸入。然而,通常分子圖像會被其他細節(jié)污染,實驗表明,即使圖像中存在很小的污染也會破壞預(yù)測。為了解決這個問題,研究人員提出了一種模擬典型污染的污染增強算法。下圖給出了污染增強算法的一些結(jié)果示例。
污染增強算法生成的分子示例。
此外,研究人員還使用了在「albumentations」庫中實現(xiàn)的標準計算機視覺增強。模型架構(gòu)Img2SMILES 模型的輸入形狀為 384x384。研究人員使用 ResNet-50 作為 CNN 塊。ResNet 模塊的輸出形狀為 2048x12x12。Transformer 解碼器的其他參數(shù)取自經(jīng)典架構(gòu)。
Img2SMILES 模型架構(gòu)圖。
研究人員證明了基于 Transformer 的架構(gòu)可以從發(fā)生器中收集化學(xué)見解。這意味著,有了 Transformer,人們可以完全專注于數(shù)據(jù)模擬,來構(gòu)建一個好的識別模型。該光學(xué)識別引擎的網(wǎng)絡(luò)演示可在 Syntelly 平臺在線獲得,數(shù)據(jù)集生成的代碼可在 GitHub 上免費獲得。「我們的研究很好地證明了化學(xué)結(jié)構(gòu)光學(xué)識別正在進行的范式轉(zhuǎn)變。雖然先前的研究主要集中在分子結(jié)構(gòu)識別本身,但現(xiàn)在我們擁有 Transformer 和類似網(wǎng)絡(luò)的獨特能力,我們可以轉(zhuǎn)而致力于創(chuàng)建人工樣本生成器,模仿大多數(shù)現(xiàn)有類型的分子模板描述。我們的算法結(jié)合了分子、官能團、字體、樣式,甚至打印缺陷,它引入了一些額外的分子、抽象片段等。即使是化學(xué)家也有很難判斷該分子是直接來自真實的紙張還是來自發(fā)電機。」該研究的首席研究員,初創(chuàng)公司 Syntelly 的首席執(zhí)行官 Sergey Sosnin 說。該研究的作者希望他們的方法將構(gòu)成邁向人工智能系統(tǒng)的重要一步,該系統(tǒng)能夠「閱讀」和「理解」研究論文,達到高素質(zhì)化學(xué)家的程度。
數(shù)據(jù)生成器 GitHub 地址:https://github.com/syntelly/img2smiles
論文鏈接:https://chemistry-europe.onlinelibrary.wiley.com/doi/10.1002/cmtd.202100069