整個元素周期表通用,AI 即時預(yù)測材料結(jié)構(gòu)與特性
材料的性質(zhì)由其原子排列決定。然而,現(xiàn)有的獲得這種排列的方法要么過于昂貴,要么對許多元素?zé)o效。
現(xiàn)在,加州大學(xué)圣地亞哥分校納米工程系的研究人員開發(fā)了一種人工智能算法,可以幾乎即時地預(yù)測任何材料(無論是現(xiàn)有材料還是新材料)的結(jié)構(gòu)和動態(tài)特性。該算法被稱為 M3GNet,用于開發(fā) matterverse.ai 數(shù)據(jù)庫,該數(shù)據(jù)庫包含超過 3100 萬種尚未合成的材料,其特性由機器學(xué)習(xí)算法預(yù)測。Matterverse.ai 促進(jìn)了具有卓越性能的新技術(shù)材料的發(fā)現(xiàn)。
該研究以「A universal graph deep learning interatomic potential for the periodic table」為題,于 2022 年 11 月 28 日發(fā)布在《Nature Computational Science》上。
論文鏈接:https://www.nature.com/articles/s43588-022-00349-3
對于大規(guī)模材料研究,需要根據(jù)原子之間的多體相互作用來描述勢能面 (PES) 的高效、線性標(biāo)度的原子間勢 (IAP)。然而,如今大多數(shù) IAP 都是為范圍很窄的化學(xué)物質(zhì)定制的:通常是單一元素或最多不超過四到五種元素。
最近,PES 的機器學(xué)習(xí)已成為一種特別有前途的 IAP 開發(fā)方法。然而,還沒有研究證明在元素周期表和所有類型的晶體中有一個普遍適用的 IAP。
在過去的十年中,高效、可靠的電子結(jié)構(gòu)代碼和高通量自動化框架的出現(xiàn),導(dǎo)致了計算材料數(shù)據(jù)的大型聯(lián)邦數(shù)據(jù)庫的發(fā)展。在進(jìn)行結(jié)構(gòu)松弛過程中積累了大量的 PES 數(shù)據(jù),即中間結(jié)構(gòu)及其相應(yīng)的能量、力和應(yīng)力,但人們對這些數(shù)據(jù)關(guān)注較少。
「與蛋白質(zhì)類似,我們需要了解材料的結(jié)構(gòu)才能預(yù)測其特性?!?該研究的主要作者 Shyue Ping Ong說。「我們需要的是用于材料的 AlphaFold。」
AlphaFold 是谷歌 DeepMind 開發(fā)的一種預(yù)測蛋白質(zhì)結(jié)構(gòu)的人工智能算法。為了構(gòu)建材料的等價物,Ong 和他的團(tuán)隊將圖神經(jīng)網(wǎng)絡(luò)與多體交互(many-body interactions)相結(jié)合,構(gòu)建了一個深度學(xué)習(xí)架構(gòu),該架構(gòu)可以在元素周期表的所有元素中通用、高精度地工作。
數(shù)學(xué)圖是晶體和分子的自然表示,節(jié)點和邊分別代表原子和它們之間的鍵。傳統(tǒng)的材料圖神經(jīng)網(wǎng)絡(luò)模型已被證明對一般材料特性預(yù)測非常有效,但由于缺乏物理約束,因此不適合用作 IAP。
研究人員開發(fā)了一個明確包含多體相互作用的材料圖架構(gòu)。模型開發(fā)的靈感來自傳統(tǒng)的 IAP,在這項工作中,將重點關(guān)注三體交互 (M3GNet) 的整合。
圖 1:多體圖勢和主要的計算塊示意圖。(來源:論文)
IAP 數(shù)據(jù)集的基準(zhǔn)測試
作為初始基準(zhǔn),研究人員擇了 Ong 和同事先前生成的元素能量和力的多樣化 DFT 數(shù)據(jù)集,用于面心立方(fcc)鎳、fcc 銅、體心立方(bcc)鋰、bcc 鉬、金剛石硅和金剛石鍺。
表 1:M3GNet 模型與現(xiàn)有模型 EAM、MEAM、NNP 和 MTP 在單元素數(shù)據(jù)集上的誤差比較。(來源:論文)
從表 1 可以看出,M3GNet IAP 大大優(yōu)于經(jīng)典的多體勢;它們的性能也與基于本地環(huán)境的 ML-IAP 相當(dāng)。應(yīng)該注意的是,盡管 ML-IAP 可以實現(xiàn)比 M3GNet IAP 略小的能量和力誤差,但它在處理多元素化學(xué)方面的靈活性會大大降低,因為在 ML-IAP 中加入多種元素通常會導(dǎo)致組合爆炸回歸系數(shù)的數(shù)量和相應(yīng)的數(shù)據(jù)要求。相比之下,M3GNet 架構(gòu)將每個原子(節(jié)點)的元素信息表示為可學(xué)習(xí)的嵌入向量。這樣的框架很容易擴展到多組分化學(xué)。
與其他 GNN 一樣,M3GNet 框架能夠捕獲長距離的相互作用,而無需增加鍵構(gòu)建的截止半徑。同時,與之前的 GNN 模型不同,M3GNet 架構(gòu)仍然隨著鍵數(shù)的變化保持能量、力和應(yīng)力的連續(xù)變化,這是 IAP 的關(guān)鍵要求。
元素周期表的通用 IAP
為了開發(fā)整個元素周期表的 IAP,該團(tuán)隊使用了世界上最大的 DFT 晶體結(jié)構(gòu)弛豫開放數(shù)據(jù)庫之一(Materials Project)。
圖 2:MPF.2021.2.8 數(shù)據(jù)集的分布。(來源:論文)
原則上,IAP 可以只訓(xùn)練能量,或者能量和力的組合。在實踐中,僅在能量上訓(xùn)練的 M3GNet IAP (M3GNet-E) 無法達(dá)到預(yù)測力或應(yīng)力的合理精度,平均絕對誤差 (MAE) 甚至大于數(shù)據(jù)的平均絕對偏差。能量+力(M3GNet- EF)和能量+力+應(yīng)力(M3GNet-EFS)訓(xùn)練的 M3GNet 模型獲得了相對相似的能量和力 MAE,但 M3GNet- EFS 的應(yīng)力 MAE 約為 M3GNet- EF 模型的一半。
對于涉及晶格變化的應(yīng)用,例如結(jié)構(gòu)松弛或 NpT 分子動力學(xué)模擬,準(zhǔn)確的應(yīng)力預(yù)測是必要的。研究結(jié)果表明,在模型訓(xùn)練中包含所有三個屬性(能量、力和壓力)對于獲得實用的 IAP 至關(guān)重要。最終的 M3GNet-EFS IAP(以下簡稱為 M3GNet 模型)實現(xiàn)了每個原子 0.035eV 的平均值,能量、力和壓力測試 MAE 的平均值分別為 0.072eV??1 和 0.41GPa。
圖 3:與 DFT 計算相比,測試數(shù)據(jù)集上的模型預(yù)測。
在測試數(shù)據(jù)上,模型預(yù)測和 DFT ground truth 匹配得很好,正如 DFT 和模型預(yù)測之間線性擬合的高線性度和 R2 值所揭示的那樣。模型誤差的累積分布表明,50% 的數(shù)據(jù)的能量、力和應(yīng)力誤差分別小于每個原子 0.01eV、0.033eV??1 和 0.042 GPa。M3GNet 計算的德拜溫度不太準(zhǔn)確,這可歸因于 M3GNet 對剪切模量的預(yù)測相對較差;然而,體積模量預(yù)測是合理的。
然后將 M3GNet IAP 應(yīng)用于模擬材料發(fā)現(xiàn)工作流程,其中最終的 DFT 結(jié)構(gòu)是先驗未知的。M3GNet 松弛是對來自 3,140 種材料的測試數(shù)據(jù)集的初始結(jié)構(gòu)進(jìn)行的。M3GNet 松弛結(jié)構(gòu)的能量計算產(chǎn)生每個原子 0.035 eV 的 MAE,并且 80% 的材料的誤差小于每個原子 0.028 eV。使用 M3GNet 松弛結(jié)構(gòu)的誤差分布接近于所知道 DFT 最終結(jié)構(gòu)的情況,這表明 M3GNet 潛力可以準(zhǔn)確地幫助獲得正確的結(jié)構(gòu)。一般來說,M3GNet 的松弛會迅速收斂。
圖 4:使用 M3GNet 弛豫晶體結(jié)構(gòu)。(來源:論文)
新材料發(fā)現(xiàn)
M3GNet 能準(zhǔn)確、快速地弛豫任意晶體結(jié)構(gòu),并預(yù)測它們的能量,使其成為大規(guī)模材料發(fā)現(xiàn)的理想選擇。研究人員生成了 31,664,858 個候選結(jié)構(gòu)作為起點,使用 M3GNet IAP 松弛結(jié)構(gòu)并計算到 Materials Project 凸包 (Ehull-m) 的符號能量距離;1,849,096 種材料的 Ehull-m 每個原子小于 0.01 eV。
作為對 M3GNet 在材料發(fā)現(xiàn)方面性能的進(jìn)一步評估,研究人員計算了發(fā)現(xiàn)率,即從約 180 萬 Ehull-m小于 0.001 eV /原子的材料中均勻采樣 1000 個結(jié)構(gòu)的 DFT 穩(wěn)定材料(Ehull?dft ≤ 0)的比例。發(fā)現(xiàn)率保持接近 1.0,達(dá)到每個原子約 0.5 eV 的 Ehull-m 閾值,并且在每個原子 0.001 eV 的最嚴(yán)格閾值下保持在 0.31 的合理高值。
圖 5:對于 1000 個結(jié)構(gòu)的均勻樣本,DFT 穩(wěn)定比作為 Ehull?m 閾值的函數(shù)。(來源:論文)
對于這個材料集,研究人員還比較了有無 M3GNet 預(yù)松弛的 DFT 松弛時間成本。結(jié)果表明,沒有M3GNe t預(yù)松弛時,DFT 松弛時間成本約為 M3GNet 預(yù)松弛時的 3 倍。
圖 6:使用 M3GNet 預(yù)松弛的 DFT 加速。(來源:論文)
在今天 matterverse.ai 的 3100 萬種材料中,預(yù)計有超過 100 萬種材料具有潛在的穩(wěn)定性。Ong 和他的團(tuán)隊不僅打算大大擴展材料的數(shù)量,還打算大幅擴展 ML 預(yù)測屬性的數(shù)量,包括使用他們之前開發(fā)的多保真度方法的小數(shù)據(jù)量的高價值屬性。
除了結(jié)構(gòu)松弛,M3GNet IAP 在材料動態(tài)模擬和性能預(yù)測方面也有廣泛的應(yīng)用。
「例如,我們通常對鋰離子在鋰離子電池電極或電解質(zhì)中的擴散速度很感興趣。擴散越快,電池充電或放電的速度就越快,」Ong 說?!肝覀円呀?jīng)證明,M3GNet IAP 可用于以高精度預(yù)測材料的鋰電導(dǎo)率。我們堅信 M3GNet 架構(gòu)是一種變革性工具,可以極大地擴展我們探索新材料化學(xué)和結(jié)構(gòu)的能力?!?/p>
為了推廣 M3GNet 的使用,該團(tuán)隊已將該框架作為開源 Python 代碼發(fā)布在 Github 上。并計劃將 M3GNet IAP 作為工具集成到商業(yè)材料模擬包中。