機(jī)器學(xué)習(xí)模型以出色的精度進(jìn)行有機(jī)反應(yīng)機(jī)理分類
化學(xué)反應(yīng)的發(fā)現(xiàn)不僅受到獲得實(shí)驗(yàn)數(shù)據(jù)的速度的影響,還受到化學(xué)家理解這些數(shù)據(jù)的難易程度的影響。揭示新的催化反應(yīng)的機(jī)理基礎(chǔ)是一個(gè)特別復(fù)雜的問題,通常需要計(jì)算和物理有機(jī)化學(xué)的專業(yè)知識。然而,研究催化反應(yīng)很重要,因?yàn)樗鼈兇砹俗钣行У幕瘜W(xué)過程。
近日,來自英國曼徹斯特大學(xué)(UoM)化學(xué)系的 Burés 和 Larrosa 報(bào)告了一種機(jī)器學(xué)習(xí)模型,展示了可以訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型來分析普通動(dòng)力學(xué)數(shù)據(jù)并自動(dòng)闡明相應(yīng)的機(jī)理類別,而無需任何額外的用戶輸入。該模型以出色的精度識別各種類型的機(jī)理。
研究結(jié)果表明,人工智能引導(dǎo)的機(jī)理分類是一種強(qiáng)大的新工具,可以簡化和自動(dòng)化機(jī)理闡明。預(yù)計(jì)這項(xiàng)工作將進(jìn)一步推動(dòng)全自動(dòng)有機(jī)反應(yīng)發(fā)現(xiàn)和開發(fā)的發(fā)展。
該研究以「Organic reaction mechanism classification using machine learning」為題,于 2023 年 1 月 25 日發(fā)布在《Nature》上。
論文鏈接:?https://www.nature.com/articles/s41586-022-05639-4?
化學(xué)反應(yīng)機(jī)理的傳統(tǒng)闡明方式
確定將底物轉(zhuǎn)化為產(chǎn)品所涉及的基本步驟的確切順序,對于合理改進(jìn)合成方法、設(shè)計(jì)新催化劑和安全擴(kuò)大工業(yè)過程至關(guān)重要。為了闡明反應(yīng)機(jī)理,需要收集多個(gè)動(dòng)力學(xué)曲線,人類專家必須對數(shù)據(jù)進(jìn)行動(dòng)力學(xué)分析。盡管反應(yīng)監(jiān)測技術(shù)在過去幾十年中有了顯著改進(jìn),以至于動(dòng)力學(xué)數(shù)據(jù)收集可以完全自動(dòng)化,但機(jī)理闡明的基礎(chǔ)理論框架并沒有以同樣的速度發(fā)展。
當(dāng)前的動(dòng)力學(xué)分析流程包括三個(gè)主要步驟:從實(shí)驗(yàn)數(shù)據(jù)中提取動(dòng)力學(xué)特性,預(yù)測所有可能機(jī)理的動(dòng)力學(xué)特性,以及將實(shí)驗(yàn)提取的特性與預(yù)測的特性進(jìn)行比較。
一個(gè)多世紀(jì)以來,化學(xué)家們一直在從反應(yīng)速率中提取機(jī)理信息。今天仍在使用的一種方法是評估反應(yīng)的初始速率,重點(diǎn)關(guān)注最初百分之幾的起始物質(zhì)的消耗。這種方法很受歡迎,因?yàn)樵诖蠖鄶?shù)情況下,反應(yīng)物濃度隨時(shí)間的變化在反應(yīng)開始時(shí)是線性的,因此分析起來很簡單。雖然很有見解,但這種技術(shù)忽略了在大部分時(shí)間過程中發(fā)生的反應(yīng)速率和濃度的變化。
在過去的幾十年里,已經(jīng)發(fā)展出了更先進(jìn)的方法來評估整個(gè)反應(yīng)過程中反應(yīng)組分的濃度。數(shù)學(xué)技術(shù)進(jìn)一步促進(jìn)了這些方法,這些技術(shù)從反應(yīng)動(dòng)力學(xué)圖中揭示了參與一個(gè)反應(yīng)步驟的組分的數(shù)量(也稱為反應(yīng)組分的順序)。這些技術(shù)肯定會(huì)繼續(xù)為化學(xué)反應(yīng)性提供深刻的見解,但它們局限于分析反應(yīng)組分的順序,而不是提供一個(gè)更全面的機(jī)理假設(shè)來描述催化系統(tǒng)的動(dòng)力學(xué)行為。
圖 1:動(dòng)力學(xué)分析的相關(guān)性和最新技術(shù)。(來源:論文)
AI 改變動(dòng)力學(xué)分析領(lǐng)域
機(jī)器學(xué)習(xí)正在徹底改變化學(xué)家解決問題的方式,從設(shè)計(jì)分子和路線到合成分子,再到理解反應(yīng)機(jī)理。Burés 和 Larrosa 現(xiàn)在通過機(jī)器學(xué)習(xí)模型,根據(jù)模擬的反應(yīng)動(dòng)力學(xué)特征對反應(yīng)進(jìn)行分類,為動(dòng)力學(xué)分析帶來了這場革命。
在這里,研究人員證明了一個(gè)基于模擬動(dòng)力學(xué)數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型能夠正確地闡明來自時(shí)間濃度分布的各種機(jī)理。機(jī)器學(xué)習(xí)模型消除了速率定律推導(dǎo)和動(dòng)力學(xué)性質(zhì)提取和預(yù)測的需要,從而簡化了動(dòng)力學(xué)分析,極大地促進(jìn)了所有合成實(shí)驗(yàn)室對反應(yīng)機(jī)理的闡明。
由于對所有可用動(dòng)力學(xué)數(shù)據(jù)進(jìn)行了整體分析,該方法提高了詢問反應(yīng)曲線的能力,消除了動(dòng)力學(xué)分析過程中潛在的人為錯(cuò)誤,并擴(kuò)大了可分析的動(dòng)力學(xué)范圍,包括非穩(wěn)態(tài)(包括活化和失活過程)和可逆反應(yīng)。這種方法將是對目前可用的動(dòng)力學(xué)分析方法的補(bǔ)充,并將在最具挑戰(zhàn)性的情況下特別有用。
具體研究
研究人員定義了 20 類反應(yīng)機(jī)理,并為每一類制定了速率定律。每種機(jī)理都由一組動(dòng)力學(xué)常數(shù)(k1, … kn) 和化學(xué)物質(zhì)濃度的常微分方程(ODE)函數(shù)進(jìn)行數(shù)學(xué)描述。然后,他們求解了這些方程式,生成了數(shù)百萬個(gè)描述反應(yīng)物衰變和產(chǎn)物生成的模擬。這些模擬動(dòng)力學(xué)數(shù)據(jù)用于訓(xùn)練學(xué)習(xí)算法以識別每個(gè)機(jī)理類別的特征簽名。生成的分類模型使用動(dòng)力學(xué)曲線作為輸入,包括初始和時(shí)間濃度數(shù)據(jù),并輸出反應(yīng)的機(jī)理類別。
圖 2:機(jī)理范圍和數(shù)據(jù)構(gòu)成。(來源:論文)
深度學(xué)習(xí)模型的訓(xùn)練通常需要大量數(shù)據(jù),當(dāng)必須通過實(shí)驗(yàn)收集這些數(shù)據(jù)時(shí),這可能會(huì)帶來相當(dāng)大的挑戰(zhàn)。
Burés 和 Larrosa 訓(xùn)練算法的方法避免了產(chǎn)生大量實(shí)驗(yàn)動(dòng)力學(xué)數(shù)據(jù)的瓶頸。在案例中,研究人員能夠通過數(shù)值求解 ODE 集來生成 500 萬個(gè)動(dòng)力學(xué)樣本用于模型的訓(xùn)練和驗(yàn)證,而無需使用穩(wěn)態(tài)近似。
模型包含 576,000 個(gè)可訓(xùn)練參數(shù),并結(jié)合使用兩種類型的神經(jīng)網(wǎng)絡(luò):(1) 長短期記憶神經(jīng)網(wǎng)絡(luò),一種用于處理時(shí)間數(shù)據(jù)序列(即時(shí)間濃度數(shù)據(jù))的循環(huán)神經(jīng)網(wǎng)絡(luò);(2) 全連接神經(jīng)網(wǎng)絡(luò),用于處理非時(shí)間數(shù)據(jù)(即每次動(dòng)力學(xué)運(yùn)行中催化劑的初始濃度和長短期記憶提取的特征)。該模型輸出每種機(jī)理的概率,概率總和等于 1。
研究人員使用模擬動(dòng)力學(xué)曲線的測試集評估了訓(xùn)練模型,并證明它正確地將這些曲線分配給機(jī)理類,準(zhǔn)確率為 92.6%。
圖 3:機(jī)器學(xué)習(xí)模型在測試集上的性能,每個(gè)動(dòng)力學(xué)曲線有六個(gè)時(shí)間點(diǎn)。(來源:論文)
即使有意引入「嘈雜」數(shù)據(jù),該模型也表現(xiàn)良好,這意味著它可用于對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類。
圖 4:誤差和數(shù)據(jù)點(diǎn)數(shù)量對機(jī)器學(xué)習(xí)模型性能的影響。(來源:論文)
最后,研究人員使用先前報(bào)道的幾個(gè)實(shí)驗(yàn)動(dòng)力學(xué)曲線對他們的模型進(jìn)行了基準(zhǔn)測試。預(yù)測的機(jī)理與早期動(dòng)力學(xué)研究的結(jié)論非常吻合。在某些情況下,該模型還識別了在原始工作中沒有檢測到的機(jī)理細(xì)節(jié)。對于一個(gè)具有挑戰(zhàn)性的反應(yīng),該模型提出了三個(gè)非常相似的機(jī)理類別。然而,作者正確地說,這個(gè)結(jié)果不是一個(gè)錯(cuò)誤,而是他們模型的一個(gè)特征,因?yàn)樗砻餍枰M(jìn)一步的具體實(shí)驗(yàn)來探索機(jī)理。
圖 5:具有實(shí)驗(yàn)動(dòng)力學(xué)數(shù)據(jù)的案例研究。(來源:論文)
總之,Burés 和 Larrosa 開發(fā)了一種方法,不僅可以自動(dòng)執(zhí)行從動(dòng)力學(xué)研究中推導(dǎo)出機(jī)理假設(shè)的漫長過程,還可以對具有挑戰(zhàn)性的反應(yīng)機(jī)理進(jìn)行動(dòng)力學(xué)分析。與數(shù)據(jù)分析中的任何技術(shù)進(jìn)步一樣,由此產(chǎn)生的機(jī)理分類應(yīng)被視為需要進(jìn)一步實(shí)驗(yàn)支持的假設(shè)。誤解動(dòng)力學(xué)數(shù)據(jù)的風(fēng)險(xiǎn)始終存在,但該算法能夠在少量實(shí)驗(yàn)的基礎(chǔ)上以高精度識別正確的反應(yīng)路徑,可以說服更多研究人員嘗試動(dòng)力學(xué)分析。
因此,這種方法可以普及和推動(dòng)動(dòng)力學(xué)分析納入反應(yīng)開發(fā)流程,尤其是當(dāng)化學(xué)家對機(jī)器學(xué)習(xí)算法越來越熟悉時(shí)。