方程就是二叉樹(shù)森林?從數(shù)據(jù)中直接發(fā)現(xiàn)未知控制方程和物理機(jī)理
研究者們希望通過(guò)機(jī)器學(xué)習(xí)方法,直接從高維非線(xiàn)性數(shù)據(jù)中自動(dòng)挖掘最有價(jià)值和最重要的內(nèi)在規(guī)律(即挖掘出問(wèn)題背后以 PDE 為主的控制方程),實(shí)現(xiàn)自動(dòng)知識(shí)發(fā)現(xiàn)。
近日,東方理工、華盛頓大學(xué)、瑞萊智慧和北京大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種基于符號(hào)數(shù)學(xué)的遺傳算法 SGA-PDE,構(gòu)建了開(kāi)放的候選集,可以從數(shù)據(jù)中直接挖掘任意形式的控制方程。
實(shí)驗(yàn)表明,SGA-PDE 不但可以從數(shù)據(jù)中挖掘到 Burgers 方程(具有交互項(xiàng)),Korteweg–de Vries 方程(KdV,具有高階導(dǎo)數(shù)項(xiàng)),和 Chafee-Infante 方程(具有指數(shù)項(xiàng)和導(dǎo)數(shù)項(xiàng)),而且還成功挖掘到粘性重力流問(wèn)題中的具有復(fù)合函數(shù)的控制方程,以及具有分式結(jié)構(gòu)的方程,而后兩者是此前方法難以發(fā)現(xiàn)的。SGA-PDE 不依賴(lài)關(guān)于方程形式的先驗(yàn)知識(shí),填補(bǔ)了復(fù)雜結(jié)構(gòu)控制方程挖掘問(wèn)題的空白。該模型無(wú)需提前給定方程候選集,利于自動(dòng)知識(shí)發(fā)現(xiàn)算法在未知科學(xué)問(wèn)題中的實(shí)際應(yīng)用。
該研究以《Symbolic genetic algorithm for discovering open-form partial differential equations (SGA-PDE)》為題,于 6 月 1 日發(fā)表在 Physical Review Research 上。
目前常見(jiàn)的知識(shí)發(fā)現(xiàn)思路是利用稀疏回歸,即預(yù)先給定一個(gè)封閉的候選集,然后從中選擇方程項(xiàng),并組合出控制方程,如 SINDy 和 PDE-FIND。但是此類(lèi)方法要求使用者預(yù)先確定方程的大致形式,再將所有對(duì)應(yīng)的微分算子作為候選集中的函數(shù)項(xiàng)提前給出,無(wú)法從數(shù)據(jù)中找到候選集中不存在的函數(shù)項(xiàng)。最新的一些研究嘗試?yán)眠z傳算法擴(kuò)充候選集,但是基因的重組和變異存在較大局限性,依然無(wú)法產(chǎn)生復(fù)雜結(jié)構(gòu)的函數(shù)項(xiàng)(如分式結(jié)構(gòu)和復(fù)合函數(shù))
從數(shù)據(jù)中直接挖掘開(kāi)放形式控制方程的關(guān)鍵在于以一種易于計(jì)算的方式生成并表示任意形式的控制方程,并通過(guò)衡量生成的方程與觀(guān)測(cè)數(shù)據(jù)的符合程度,來(lái)評(píng)估方程形式的準(zhǔn)確性,進(jìn)而對(duì)挖掘的方程進(jìn)行迭代優(yōu)化。因此,自動(dòng)知識(shí)發(fā)現(xiàn)的核心問(wèn)題是表示與優(yōu)化。
表 1. 自動(dòng)控制方程挖掘方法對(duì)比表
表示問(wèn)題的挑戰(zhàn)在于:1. 如何利用有限的基礎(chǔ)單元來(lái)表示無(wú)限的復(fù)雜結(jié)構(gòu)控制方程(即開(kāi)放候選集);2. 如何構(gòu)建易于計(jì)算的控制方程表示方法。為了能夠自由表示任意結(jié)構(gòu)的方程,研究人員將 SGA-PDE 的基本表示單元弱化到了運(yùn)算元和運(yùn)算符,并通過(guò)符號(hào)數(shù)學(xué)的方法,利用二叉樹(shù)構(gòu)建了開(kāi)放候選集。
優(yōu)化問(wèn)題的挑戰(zhàn)在于:1. 方程形式與方程評(píng)估指標(biāo)之間的梯度難以計(jì)算;2. 開(kāi)放候選集的可行域是無(wú)窮大的,優(yōu)化過(guò)程很難有效兼顧探索(exploration)與利用(exploitation)。為了能夠?qū)﹂_(kāi)放候選集問(wèn)題高效尋優(yōu),研究人員利用一種針對(duì)樹(shù)結(jié)構(gòu)特殊設(shè)計(jì)的遺傳算法實(shí)現(xiàn)方程形式的優(yōu)化。
圖 1:自動(dòng)知識(shí)發(fā)現(xiàn)問(wèn)題和 SGA-PDE 示意圖
研究人員首先通過(guò)細(xì)化算法中方程的基本表示單元來(lái)表示開(kāi)放形式的偏微分方程,將方程的表示尺度從獨(dú)立的函數(shù)項(xiàng)層面轉(zhuǎn)化為更基礎(chǔ)的運(yùn)算符和運(yùn)算元層面。
SGA-PDE 將控制方程中的運(yùn)算符分為雙運(yùn)算符(如 +、-)與單運(yùn)算符(如 sin、cos),然后將所有潛在變量定義為運(yùn)算元(如 x、t、u)。研究人員采用二叉樹(shù)的結(jié)構(gòu)將運(yùn)算符與運(yùn)算元組合起來(lái),對(duì)不同的方程進(jìn)行編碼。二叉樹(shù)中所有的終端節(jié)點(diǎn)(度為 0 的葉子節(jié)點(diǎn))對(duì)應(yīng)于運(yùn)算元,所有的非終端節(jié)點(diǎn)對(duì)應(yīng)于運(yùn)算符,其中雙運(yùn)算符對(duì)應(yīng)于度為 2 的節(jié)點(diǎn),單運(yùn)算符對(duì)應(yīng)度為 1 的節(jié)點(diǎn)。
如圖 2 所示,通過(guò)一種可計(jì)算字符串作為連接,任何一個(gè)函數(shù)項(xiàng)都可以轉(zhuǎn)化為一顆二叉樹(shù),同時(shí),滿(mǎn)足一定數(shù)學(xué)規(guī)則的二叉樹(shù)也可以轉(zhuǎn)化為函數(shù)項(xiàng)。進(jìn)而一個(gè)具有多個(gè)函數(shù)項(xiàng)的控制方程等價(jià)于一個(gè)由多棵二叉樹(shù)組成的森林。SGA-PDE 通過(guò)符號(hào)數(shù)學(xué)的方式,表示任何開(kāi)放形式的偏微分控制方程。此外,論文中也提出了一種隨機(jī)生成具有數(shù)學(xué)含義的二叉樹(shù)的方法,可以保證生成的二叉樹(shù)不違背數(shù)學(xué)原理。
圖 2:二叉樹(shù)與函數(shù)項(xiàng)之間的表示和轉(zhuǎn)化方法
由于圖 2 所示表示方法能夠?qū)⒑瘮?shù)空間中的樣本和二叉樹(shù)空間的樣本一一對(duì)應(yīng)。這意味著基于符號(hào)數(shù)學(xué)的表示方法是有效且非冗余的,可以作為遺傳算法中編碼過(guò)程。研究者提出了一種針對(duì)樹(shù)結(jié)構(gòu)的遺傳算法(圖 3),從實(shí)驗(yàn)數(shù)據(jù)中自動(dòng)挖掘符合觀(guān)測(cè)數(shù)據(jù)的控制方程。這種針對(duì)樹(shù)結(jié)構(gòu)的遺傳算法可以實(shí)現(xiàn)在不同層面的優(yōu)化。
重組環(huán)節(jié)是在森林(方程)層面優(yōu)化,以找到二叉樹(shù)(函數(shù)項(xiàng))的最優(yōu)組合方式。這一環(huán)節(jié)與當(dāng)前常見(jiàn)的稀疏回歸類(lèi)方法類(lèi)似,是在封閉候選集內(nèi)的尋優(yōu)。
變異環(huán)節(jié)是在二叉樹(shù)(函數(shù)項(xiàng))層面優(yōu)化,通過(guò)隨機(jī)產(chǎn)生不同的節(jié)點(diǎn)屬性,找到在給定的二叉樹(shù)結(jié)構(gòu)下,最優(yōu)的節(jié)點(diǎn)屬性組合,本質(zhì)上是對(duì)當(dāng)前結(jié)構(gòu)的利用(exploitation)。
替換環(huán)節(jié)同樣是在二叉樹(shù)(函數(shù)項(xiàng))層面優(yōu)化,但是會(huì)產(chǎn)生新的二叉樹(shù)結(jié)構(gòu),是對(duì)樹(shù)結(jié)構(gòu)的探索(exploration),實(shí)現(xiàn)了完全開(kāi)放候選集中的優(yōu)化。
SGA-PDE 通過(guò)多層級(jí)的優(yōu)化,可以兼顧二叉樹(shù)拓?fù)浣Y(jié)構(gòu)的利用與探索,有利于高效找到最優(yōu)的方程形式。
圖 3:針對(duì)樹(shù)結(jié)構(gòu)的遺傳算法
實(shí)驗(yàn)數(shù)據(jù)如圖 4 所示,其中第 2 列展示了物理場(chǎng)觀(guān)測(cè)值,是 SGA-PDE 的唯一輸入信息。第 3 列和第 4 列中的基礎(chǔ)一階導(dǎo)數(shù)可以通過(guò)對(duì)物理場(chǎng)觀(guān)測(cè)值差分獲得。第 1 列為正確的方程形式。實(shí)驗(yàn)中 SGA-PDE 采用了相同的預(yù)置運(yùn)算元和運(yùn)算符,不需要針對(duì)具體問(wèn)題進(jìn)行調(diào)整,以便驗(yàn)證算法的通用性。
最終,SGA-PDE 成功從數(shù)據(jù)中挖掘到 Burgers 方程,KdV 方程,Chafee-Infante 方程,具有復(fù)合函數(shù)求導(dǎo)的粘性重力流控制方程,以及具有分式結(jié)構(gòu)的方程。上述方程具有指數(shù)項(xiàng)、高階導(dǎo)數(shù)項(xiàng)、交互項(xiàng)、復(fù)合函數(shù)和嵌套結(jié)構(gòu)等多種復(fù)雜形式。
表 2 對(duì)比了多種已有算法在上述 5 種算例中的計(jì)算結(jié)果,可見(jiàn) SGA-PDE 填補(bǔ)了挖掘復(fù)雜結(jié)構(gòu)控制方程的空白
圖 4:實(shí)驗(yàn)數(shù)據(jù)圖
表 2 自動(dòng)知識(shí)發(fā)現(xiàn)算法在不同控制方程挖掘問(wèn)題中的實(shí)驗(yàn)結(jié)果
為了更充分地理解 SGA-PDE 的尋優(yōu)過(guò)程,圖 5 展示了挖掘 KdV 方程時(shí)的演化路徑??梢?jiàn)第 1 代產(chǎn)生的最優(yōu)方程與實(shí)際方程相差甚遠(yuǎn)。在此后演化過(guò)程中,隨著二叉樹(shù)的拓?fù)浣Y(jié)構(gòu)以及節(jié)點(diǎn)含義的變異,以及函數(shù)項(xiàng)之間的交叉重組,最終在第 31 代找到了正確的解,且此時(shí) AIC 指標(biāo)已達(dá)到文中給定的收斂標(biāo)準(zhǔn)。有意思的是,如果繼續(xù)優(yōu)化,則會(huì)在第 69 代找到 KdV 方程基于復(fù)合函數(shù)求導(dǎo)的更加簡(jiǎn)約的表達(dá)形式。圖 6 則展示了 SGA-PDE 尋找具有分式結(jié)構(gòu)控制方程的優(yōu)化過(guò)程。
圖 5:SGA-PDE 對(duì) KdV 方程的優(yōu)化過(guò)程
圖 6:SGA-PDE 對(duì)具有分式結(jié)構(gòu)的方程的優(yōu)化過(guò)程
控制方程是對(duì)領(lǐng)域知識(shí)的一種高效表示形式,然而許多現(xiàn)實(shí)問(wèn)題的方程參數(shù)甚至方程形式都不確定,很難寫(xiě)出準(zhǔn)確的控制方程,極大制約了領(lǐng)域知識(shí)在機(jī)器學(xué)習(xí)中的應(yīng)用。
SGA-PDE 通過(guò)符號(hào)數(shù)學(xué)的方法對(duì)方程進(jìn)行轉(zhuǎn)化,解決了任意形式的偏微分方程的表示問(wèn)題。此外,SGA-PDE 采用針對(duì)二叉樹(shù)設(shè)計(jì)的遺傳算法,通過(guò)對(duì)樹(shù)的拓?fù)浣Y(jié)構(gòu)以及節(jié)點(diǎn)屬性的迭代優(yōu)化,從開(kāi)放域中自動(dòng)挖掘符合觀(guān)測(cè)數(shù)據(jù)的控制方程。在優(yōu)化中,SGA-PDE 不依賴(lài)于方程形式的先驗(yàn)信息,也無(wú)需給定候選集,實(shí)現(xiàn)了對(duì)復(fù)雜結(jié)構(gòu)方程的自動(dòng)尋優(yōu)。同時(shí),SGA-PDE 也是無(wú)梯度算法,避免了方程結(jié)構(gòu)與損失值之間梯度難以計(jì)算的問(wèn)題。
未來(lái)研究將關(guān)注于:1. 嘗試結(jié)合強(qiáng)化學(xué)習(xí)或者組合優(yōu)化算法;2. 通過(guò)嵌入物理機(jī)理縮小求解空間;3. 評(píng)估并提升 SGA-PDE 對(duì)稀疏數(shù)據(jù)和有噪數(shù)據(jù)的適用性;4. 將知識(shí)嵌入方法與知識(shí)發(fā)現(xiàn)方法進(jìn)行融合。
論文鏈接(可免費(fèi)獲取):
https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.4.023174
代碼與算例數(shù)據(jù)鏈接:
https://github.com/YuntianChen/SGA-PDE