巧妙應(yīng)用機(jī)器學(xué)習(xí)引導(dǎo)科研理解
圖1:理解物理現(xiàn)象的途徑有很多,其中原因α產(chǎn)生結(jié)果β。(a) 不受控制的觀(guān)察會(huì)導(dǎo)致原因和結(jié)果之間的松散聯(lián)系。(b) 結(jié)合已知物理定律的精心設(shè)計(jì)的實(shí)驗(yàn)可以得到簡(jiǎn)單的因果關(guān)系,但為復(fù)雜現(xiàn)象設(shè)計(jì)這樣的實(shí)驗(yàn)可能極具挑戰(zhàn)性。(c) 通用的機(jī)器學(xué)習(xí)(ML)模型(神經(jīng)網(wǎng)絡(luò))通過(guò)優(yōu)化許多參數(shù)來(lái)擬合復(fù)雜數(shù)據(jù),但解析這些黑箱(例如,數(shù)百萬(wàn)個(gè))參數(shù)的意義是非常困難的。(d) 包含一些限制或簡(jiǎn)化操作(白色)的機(jī)器學(xué)習(xí)模型使得識(shí)別復(fù)雜現(xiàn)象的因果鏈的某些方面成為可能,從而指導(dǎo)模型構(gòu)建或進(jìn)一步實(shí)驗(yàn)。
物理理論和機(jī)器學(xué)習(xí)(ML)模型都依賴(lài)于其在未見(jiàn)情境下預(yù)測(cè)結(jié)果的能力。然而,對(duì)于前者的要求要高得多。要成為被接受的知識(shí),理論必須符合已知的物理定律——而且,至關(guān)重要的是,必須是可解釋的。
一個(gè)可解釋的理論能夠解釋現(xiàn)象為何發(fā)生,而不僅僅是預(yù)測(cè)其形式。擁有這樣的解釋可以指導(dǎo)新理論的范圍,使其能夠在新的背景下應(yīng)用,同時(shí)也將其與先前的知識(shí)聯(lián)系起來(lái)并納入其中。
迄今為止,研究人員在使ML模型(或任何自動(dòng)化優(yōu)化過(guò)程)產(chǎn)生符合這些標(biāo)準(zhǔn)的新理論方面仍然存在很大困難。
芝加哥大學(xué)的喬納森·科倫和文琴佐·維泰利及其同事現(xiàn)在展示了成功地利用ML的方式——不是作為研究人員的替代者,而是作為指導(dǎo)者,幫助構(gòu)建復(fù)雜系統(tǒng)的模型[1]。在他們方法的演示中,研究人員發(fā)現(xiàn)了一個(gè)先前被忽視的項(xiàng),推進(jìn)了對(duì)流體系統(tǒng)動(dòng)力學(xué)的更全面理解。
為了建立新模型,物理學(xué)家通常在受控實(shí)驗(yàn)中觀(guān)察現(xiàn)象(圖1a),并嘗試用方程將系統(tǒng)的參數(shù)相互關(guān)聯(lián)(圖1b)。然后,通過(guò)直覺(jué)和試錯(cuò)的組合,物理學(xué)家們修改實(shí)驗(yàn)、理論或兩者同時(shí)修改,直到找到一組描述數(shù)據(jù)的方程。
先前的知識(shí)——例如,系統(tǒng)應(yīng)該沒(méi)有歷史依賴(lài),溫度是均勻的,或忽略重力——大大縮小了可能的解決方案和所需實(shí)驗(yàn)探索的范圍。這種范圍的大幅度縮小通常是必要的,因?yàn)槲覀儼l(fā)現(xiàn)人類(lèi)很難處理超過(guò)屈指可數(shù)幾個(gè)維度的問(wèn)題。
相比之下,ML模型在給定(非常)高維空間進(jìn)行探索時(shí)能找到更準(zhǔn)確且更具普遍性的解決方案[2]。這些模型優(yōu)化大量可調(diào)參數(shù),直到其預(yù)測(cè)與數(shù)據(jù)匹配。不幸的是,通用ML模型找到的解決方案通常過(guò)于復(fù)雜且方法依賴(lài)性強(qiáng),難以提取“為什么”[3]。
因此,應(yīng)用這些方法的研究人員往往局限于不能令人滿(mǎn)意的說(shuō)法,即他們的數(shù)據(jù)包含預(yù)測(cè)信息[4]。然而,這些信息是什么以及為什么具有預(yù)測(cè)性,仍然隱藏在眾多雜亂變量的黑箱中(圖1c)。
識(shí)別數(shù)據(jù)中預(yù)測(cè)信息所在的技術(shù)正在出現(xiàn)[5],但在科學(xué)過(guò)程中很少使用。復(fù)雜ML模型的替代方案是使用算法直接搜索可能方程的庫(kù)來(lái)描述系統(tǒng)[6]。
然而,這種策略隨著系統(tǒng)復(fù)雜性的增加而效果不佳,使其在現(xiàn)在科研關(guān)注的現(xiàn)象中難以應(yīng)用。將ML融入一般發(fā)現(xiàn)過(guò)程中需要平衡:方法應(yīng)具有足夠的自由度以發(fā)揮其潛力,同時(shí)結(jié)果所在的領(lǐng)域也應(yīng)受到限制,以便結(jié)果可解釋。
科倫、維泰利及其同事正是通過(guò)一系列ML算法實(shí)現(xiàn)了這一點(diǎn)[1]。他們的工作集中在流體力學(xué)中的一個(gè)范例問(wèn)題上:微流體通道中水滴的單排隊(duì)列,懸浮在另一種流體中,這使它們相互作用并形成傳播的沖擊前沿。該系統(tǒng)以前通過(guò)一個(gè)描述流體密度變化的偏微分方程建模。
但這個(gè)方程(稱(chēng)為伯格斯方程),未能捕捉系統(tǒng)動(dòng)力學(xué)的關(guān)鍵方面。為了揭示缺失的物理學(xué),研究人員首先訓(xùn)練一個(gè)ML模型來(lái)預(yù)測(cè)一維水滴密度場(chǎng)ρ的時(shí)間演變——換句話(huà)說(shuō),他們讓算法找到一個(gè)函數(shù)M,使初始密度ρ0隨時(shí)間演進(jìn):M[t,ρ0]=ρ(t)。
為了使他們的模型具有可解釋性,研究人員將其構(gòu)建為三個(gè)連續(xù)操作的組合。
首先,一個(gè)神經(jīng)網(wǎng)絡(luò) N 將密度轉(zhuǎn)換為一個(gè)新的1D場(chǎng),他們稱(chēng)之為 φ0=N[ρ0]。雖然這個(gè)“潛在”場(chǎng)沒(méi)有容易解釋的物理意義,它僅包含有關(guān)初始密度場(chǎng)的信息。
其次,將這個(gè)場(chǎng)輸入到一個(gè)稱(chēng)為 F 的函數(shù)中,該函數(shù)使其隨時(shí)間推進(jìn)——換句話(huà)說(shuō),F(xiàn)(φ0,t)=φ(t)。研究人員將 F 的形式限制為一組線(xiàn)性操作。
最后,這個(gè)場(chǎng)通過(guò)另一個(gè)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換回密度,基本上是第一個(gè)步驟的逆過(guò)程。(從數(shù)學(xué)上講,整個(gè)過(guò)程可以描述為 M[t,ρ0]=N?1[F(t,N[ρ0])]=ρ(t) ,如圖1d上方所示)。通過(guò)同時(shí)優(yōu)化這三個(gè)步驟以匹配實(shí)驗(yàn)數(shù)據(jù),研究人員發(fā)現(xiàn)比伯格斯方程更好的預(yù)測(cè)結(jié)果。
隨后,研究人員利用一種算法來(lái)尋找數(shù)值函數(shù)的簡(jiǎn)化分析逼近[6]。對(duì)于一個(gè)在實(shí)驗(yàn)數(shù)據(jù)上訓(xùn)練的典型的神經(jīng)網(wǎng)絡(luò),這一步驟通常會(huì)失?。▓D1c)。
但值得注意的是,它產(chǎn)生了一個(gè)包含五個(gè)項(xiàng)的線(xiàn)性偏微分方程,作為 F 的良好替代。盡管這個(gè)方程作用于(不可解釋的)潛在變量 φ0,但 F 作為時(shí)間傳播者的角色使得每一項(xiàng)的意義在高層次上是可以理解的。
具體來(lái)說(shuō),研究人員將其中一個(gè)微分項(xiàng)與色散相關(guān)聯(lián)——即流體波速的頻率依賴(lài)性。這樣的色散項(xiàng)在伯格斯方程中并不存在,但團(tuán)隊(duì)發(fā)現(xiàn)其加入能更準(zhǔn)確地描述水滴密度場(chǎng)中出現(xiàn)的沖擊前沿動(dòng)力學(xué)。
最后,團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)相互作用水滴的模型,發(fā)現(xiàn)這個(gè)新增的色散項(xiàng)是非對(duì)稱(chēng)流體動(dòng)力學(xué)相互作用的直接結(jié)果。
這項(xiàng)工作提供了一個(gè)令人興奮的機(jī)器學(xué)習(xí)(ML)應(yīng)用,它在科學(xué)探索中充當(dāng)了羅盤(pán),這需要一種根本不同于標(biāo)準(zhǔn)ML實(shí)踐的方法,后者主要通過(guò)預(yù)測(cè)準(zhǔn)確性來(lái)評(píng)判模型。然而,對(duì)于科學(xué)探索來(lái)說(shuō),“最佳”模型是那些能夠提供物理洞察(即“為什么”)的模型,即使它們可能不是最準(zhǔn)確的。
事實(shí)上,團(tuán)隊(duì)發(fā)現(xiàn)添加關(guān)鍵的色散項(xiàng)實(shí)際使預(yù)測(cè)誤差略微增加,相比之下,其他ML模型在相同問(wèn)題上的應(yīng)用誤差較低;然而,這一色散項(xiàng)清楚地捕捉了沖擊前沿附近缺失的物理現(xiàn)象。正是通過(guò)連續(xù)模型的閉環(huán)并識(shí)別這一色散項(xiàng)的來(lái)源,科倫、維泰利及其同事才能鞏固他們的結(jié)論。
這一工作流程與賓夕法尼亞大學(xué)近期使用ML作為實(shí)驗(yàn)指南的工作相呼應(yīng)[7],在這些工作中,訓(xùn)練預(yù)測(cè)顆粒材料堵塞的最簡(jiǎn)單和“最弱”(最不具預(yù)測(cè)性)的模型提供了最深刻的見(jiàn)解,并提升實(shí)驗(yàn)驗(yàn)證了他們的解釋。
計(jì)算能力的提升極大地加快了科學(xué)數(shù)據(jù)分析,但我們對(duì)這些數(shù)據(jù)的探索通常仍完全由人類(lèi)驅(qū)動(dòng)。隨著物理學(xué)家研究日益復(fù)雜的涌現(xiàn)現(xiàn)象,潛在物理模型的維度、以及所需實(shí)驗(yàn)探索的復(fù)雜性迅速增長(zhǎng)。
雖然標(biāo)準(zhǔn)分析工具允許我們識(shí)別可靠的趨勢(shì),但在(必然)雜亂的數(shù)據(jù)中追蹤高度非線(xiàn)性、歷史依賴(lài)和多尺度效應(yīng)可能不切實(shí)際,除非有一個(gè)能夠同時(shí)處理100維數(shù)據(jù)的指南。研究這些現(xiàn)象,可能需要對(duì)學(xué)科內(nèi)容和ML工具的熟練掌握,這既可以作為實(shí)驗(yàn)指導(dǎo),也可以作為理論指導(dǎo)。
參考文獻(xiàn)
- J. Colen et al., “Interpreting neural operators: How nonlinear waves propagate in nonreciprocal solids,”Phys. Rev. Lett. 133, 107301 (2024).
- J. W. Rocks and P. Mehta, “Memorizing without overfitting: Bias, variance, and interpolation in overparameterized models,”Phys. Rev. Res. 4, 013201 (2022).
- C. Rudin et al., “Interpretable machine learning: Fundamental principles and 10 grand challenges,”Statist. Surv. 16, 1 (2022).
- S. Dillavou et al., “Beyond quality and quantity: Spatial distribution of contact encodes frictional strength,”Phys. Rev. E 106, 033001 (2022).
- K. A. Murphy and D. S. Bassett, “Information decomposition in complex systems via machine learning,”Proc. Natl. Acad. Sci. U.S.A. 121, 13 (2024).
- S. L. Brunton et al., “Discovering governing equations from data by sparse identification of nonlinear dynamical systems,”Proc. Natl. Acad. Sci. U.S.A. 113, 3932 (2016).
- J. M. Hanlan et al., “Cornerstones are the key stones: Using interpretable machine learning to probe the clogging process in 2D granular hoppers,”arXiv:2407.05491.
