ML如何做科學(xué)發(fā)現(xiàn)?牛津大學(xué)268頁(yè)博士論文詳述科學(xué)機(jī)器學(xué)習(xí)內(nèi)涵
機(jī)器學(xué)習(xí)(ML)已經(jīng)使我們實(shí)踐科學(xué)的方式發(fā)生了根本性的轉(zhuǎn)變,許多人現(xiàn)在把從數(shù)據(jù)中學(xué)習(xí)作為他們研究的重點(diǎn)。隨著我們想要研究的科學(xué)問(wèn)題的復(fù)雜性的增加,以及當(dāng)今科學(xué)實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)量的增加,ML正在幫助自動(dòng)化、加速和增強(qiáng)傳統(tǒng)的工作流程。站在這場(chǎng)革命前沿的是一個(gè)被稱為科學(xué)機(jī)器學(xué)習(xí)(SciML)的領(lǐng)域。SciML的中心目標(biāo)是將現(xiàn)有的科學(xué)理解與ML更緊密地結(jié)合起來(lái),生成強(qiáng)大的ML算法,這些算法由我們的先驗(yàn)知識(shí)提供信息。
論文地址:https://ora.ox.ac.uk/objects/uuid:b790477c-771f-4926-99c6-d2f9d248cb23
目前存在大量將科學(xué)原理納入ML的方法,人們對(duì)SciML解決科學(xué)中一些最大挑戰(zhàn)的期望越來(lái)越高。然而,該領(lǐng)域正在蓬勃發(fā)展,許多問(wèn)題仍在出現(xiàn)。一個(gè)主要的問(wèn)題是SciML方法是否可以擴(kuò)展到更復(fù)雜的現(xiàn)實(shí)問(wèn)題。許多SciML研究正處于概念驗(yàn)證階段,在這個(gè)階段,技術(shù)將在簡(jiǎn)化的、簡(jiǎn)單的問(wèn)題上進(jìn)行驗(yàn)證。然而,了解它們?cè)诟鼜?fù)雜的問(wèn)題上的可擴(kuò)展性對(duì)于它們的廣泛應(yīng)用至關(guān)重要。這個(gè)問(wèn)題是本文的中心問(wèn)題。
首先,針對(duì)月球科學(xué)和地球物理領(lǐng)域的三個(gè)復(fù)雜的、真實(shí)的、特定領(lǐng)域的案例研究設(shè)計(jì)了多種不同的物理知識(shí)機(jī)器學(xué)習(xí)方法,并評(píng)估了它們的性能和可擴(kuò)展性。其次,評(píng)估和改進(jìn)了物理信息神經(jīng)網(wǎng)絡(luò)(一種流行的通用SciML方法)求解具有大區(qū)域和高頻解的微分方程的可擴(kuò)展性。討論了這些研究的共同觀察結(jié)果,并確定了顯著的優(yōu)勢(shì)和潛在的限制,突出了設(shè)計(jì)可擴(kuò)展的SciML技術(shù)的重要性。
導(dǎo)論
機(jī)器學(xué)習(xí)(ML)在科學(xué)領(lǐng)域引起了一場(chǎng)革命。傳統(tǒng)上,科學(xué)研究圍繞著理論和實(shí)驗(yàn):一個(gè)人提出一個(gè)手工制作的和定義良好的理論,然后使用實(shí)驗(yàn)數(shù)據(jù)不斷完善它,并分析它以做出新的預(yù)測(cè)。但今天,許多人都把從數(shù)據(jù)中學(xué)習(xí)作為他們研究的重點(diǎn)。在這里,世界的模型是通過(guò)ML算法從數(shù)據(jù)中學(xué)習(xí)的,現(xiàn)有的理論是不需要的。這種轉(zhuǎn)變的發(fā)生有多種原因。
首先,ML領(lǐng)域在過(guò)去十年中經(jīng)歷了指數(shù)級(jí)增長(zhǎng),這一激增背后的主要驅(qū)動(dòng)因素通常被歸因于深度學(xué)習(xí)的突破[Goodfellow et al.,2016]。一些重要的發(fā)現(xiàn),如使用更深層次的網(wǎng)絡(luò)設(shè)計(jì)和更好的訓(xùn)練算法,以及更強(qiáng)大的計(jì)算架構(gòu)的可用性,已經(jīng)導(dǎo)致深度學(xué)習(xí)技術(shù)在廣泛?jiǎn)栴}上的性能迅速提高[Dally et al.,2021年]?,F(xiàn)代ML算法現(xiàn)在能夠?qū)W習(xí)和解決難以置信的復(fù)雜任務(wù),從自動(dòng)駕駛汽車[Schwarting et al.,2018年]到擊敗世界級(jí)圍棋選手[Silver et al.,2018年]。
伴隨著這些進(jìn)步,今天的科學(xué)實(shí)驗(yàn)產(chǎn)生了越來(lái)越多的數(shù)據(jù),研究越來(lái)越復(fù)雜的現(xiàn)象[Baker et al., 2019, Hey et al., 2020]。人類和我們的傳統(tǒng)工作流程對(duì)所有這些數(shù)據(jù)進(jìn)行分析和理論化正在迅速變得不可能,不久之后,科學(xué)實(shí)驗(yàn)很可能會(huì)受到他們從已有數(shù)據(jù)中提取見(jiàn)解的能力的限制,而不是他們可以收集什么數(shù)據(jù)[Baker et al., 2019]。鑒于ML可以提供強(qiáng)大的工具,許多研究人員正在轉(zhuǎn)向ML來(lái)幫助自動(dòng)化、加速和增強(qiáng)傳統(tǒng)的工作流程。在過(guò)去十年中,新的ML算法和數(shù)據(jù)可用性的結(jié)合導(dǎo)致了一些重大的科學(xué)進(jìn)步。例如,ML已經(jīng)被用于比以往任何時(shí)候都更準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)[Jumper et al., 2021],從神經(jīng)活動(dòng)合成語(yǔ)音[anummanchipalli et al., 2019],以及改進(jìn)量子多體系統(tǒng)的模擬[Carleo和Troyer, 2017]。事實(shí)上,現(xiàn)代的ML算法現(xiàn)在已經(jīng)被應(yīng)用到科學(xué)的幾乎每一個(gè)方面,這個(gè)時(shí)代的一個(gè)決定性研究問(wèn)題已經(jīng)變成:「解決問(wèn)題X,并將ML應(yīng)用到它上面」,隨之而來(lái)的是有趣且常常令人興奮的結(jié)果。
然而,盡管有這些進(jìn)步,但ML,特別是深度學(xué)習(xí)算法的各種缺點(diǎn)在ML領(lǐng)域已經(jīng)具體化。例如,盡管它們能夠?qū)W習(xí)高度復(fù)雜的現(xiàn)象,但深度神經(jīng)網(wǎng)絡(luò)通常被視為「黑箱」,人們?nèi)狈?duì)它們?nèi)绾伪硎竞屯评硎澜绲睦斫狻_@種不可解釋性是一個(gè)關(guān)鍵問(wèn)題,特別是對(duì)于需要對(duì)網(wǎng)絡(luò)預(yù)測(cè)進(jìn)行論證的安全關(guān)鍵應(yīng)用[Gilpin et al.,2019,Castelvecchi, 2016]。此外,關(guān)于如何設(shè)計(jì)適合特定任務(wù)的深度學(xué)習(xí)算法,幾乎沒(méi)有理論指導(dǎo)。深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的選擇主要是根據(jù)經(jīng)驗(yàn)進(jìn)行的,盡管元學(xué)習(xí)和神經(jīng)架構(gòu)搜索領(lǐng)域開(kāi)始提供更多自動(dòng)化的方法[Elsken et al.,2019年,Hospedales et al.,2021年]。最后,盡管深度神經(jīng)網(wǎng)絡(luò)表達(dá)能力很強(qiáng),但它們受到訓(xùn)練數(shù)據(jù)的限制,在訓(xùn)練分布之外通常表現(xiàn)不佳。學(xué)習(xí)在新任務(wù)中表現(xiàn)良好的世界可泛化模型是更通用人工智能(AI)系統(tǒng)的一個(gè)關(guān)鍵特征,也是ML領(lǐng)域的一個(gè)關(guān)鍵突出挑戰(zhàn)[Bengio et al.,2021]。
當(dāng)在科學(xué)問(wèn)題中使用ML時(shí),研究人員開(kāi)始遇到這些限制[Ourmazd, 2020, Forde和Paganini, 2019]。鑒于深度神經(jīng)網(wǎng)絡(luò)的泛化能力較差,一個(gè)關(guān)鍵問(wèn)題是它們是否真正「學(xué)習(xí)」了科學(xué)原理。一個(gè)好的科學(xué)理論被期望能在實(shí)驗(yàn)數(shù)據(jù)之外做出新穎而準(zhǔn)確的預(yù)測(cè),然而深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)之外很難做出準(zhǔn)確的預(yù)測(cè)。即使一個(gè)網(wǎng)絡(luò)可以做出可靠的預(yù)測(cè),考慮到它們的不可解釋性,從它們中提取任何有意義的科學(xué)見(jiàn)解可能是具有挑戰(zhàn)性的。
另一個(gè)主要問(wèn)題是,許多當(dāng)前的機(jī)器學(xué)習(xí)工作流完全用學(xué)習(xí)的模型取代了傳統(tǒng)的科學(xué)模型。雖然這可能很有用,但這些純數(shù)據(jù)驅(qū)動(dòng)的方法「拋棄」了我們大量的先驗(yàn)科學(xué)知識(shí)。
重要的一點(diǎn)是,對(duì)于許多問(wèn)題,有一個(gè)現(xiàn)有的理論可以建立,而不是從頭開(kāi)始。在一個(gè)傳統(tǒng)上基于明確的理論和實(shí)驗(yàn)之間緊密相互作用的領(lǐng)域,一些人認(rèn)為上述限制使當(dāng)前的ML方法不可接受。這些擔(dān)憂促使形成了一個(gè)快速發(fā)展的新領(lǐng)域,稱為科學(xué)機(jī)器學(xué)習(xí)(SciML) [Baker et al., 2019, Karniadakis et al., 2021, Willard et al., 2020, Cuomo et al., 2022, Arridge et al., 2019, Karpatne et al., 2017a]。SciML的目標(biāo)是將現(xiàn)有的科學(xué)知識(shí)和ML融合在一起,生成更細(xì)微的ML算法,這些算法由我們的先驗(yàn)知識(shí)提供信息,如圖1.1所示。這一領(lǐng)域的關(guān)鍵論點(diǎn)是,通過(guò)這樣做,我們將最終獲得更強(qiáng)大的科學(xué)研究方法。傳統(tǒng)方法和ML方法各有優(yōu)缺點(diǎn),兩者的結(jié)合可能比其中一種更有效。例如,在進(jìn)行數(shù)據(jù)同化時(shí)(例如在氣候模型中),可以使用傳統(tǒng)物理模型提供先驗(yàn)知識(shí),而ML可用于解釋數(shù)據(jù)依賴性和其他未知物理。
圖1.1:科學(xué)機(jī)器學(xué)習(xí)(SciML)概述。SciML旨在將ML與科學(xué)知識(shí)緊密結(jié)合,以便為科學(xué)研究生成更強(qiáng)大、魯棒和可解釋的ML方法。
人們對(duì)這一領(lǐng)域的期望正在迅速增長(zhǎng),目前正在提出和研究大量的方法和許多創(chuàng)新策略,以將科學(xué)知識(shí)融入ML。這些方法的范圍從預(yù)期的科學(xué)任務(wù)(例如模擬、反演和控制方程發(fā)現(xiàn)),到不同的方法來(lái)合并科學(xué)原理(例如通過(guò)深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)、其損失函數(shù)和混合模型的使用),以及科學(xué)原理被強(qiáng)加的程度(例如通過(guò)硬約束或軟約束)。我們將在第2章中詳細(xì)回顧這些方法。許多方法使用來(lái)自物理學(xué)的思想來(lái)通知其在SciML的子領(lǐng)域稱為物理信息機(jī)器學(xué)習(xí)(PIML)的ML算法[Karniadakis等人,2021]。
到目前為止,SciML 取得了一些初步的成功。它幫助我們進(jìn)行了強(qiáng)大的模擬[Raissi al.,2019],發(fā)現(xiàn)了復(fù)雜物理系統(tǒng)的控制方程[Kutz和Brunton, 2022],在反演問(wèn)題中精確地反演基礎(chǔ)參數(shù)[Arridge等人,2019],并在廣泛的領(lǐng)域中無(wú)縫地將傳統(tǒng)工作流與學(xué)習(xí)過(guò)的組件[Rackauckas等人,2020,Thuerey等人,2021]。盡管有早期的希望,但SciML領(lǐng)域仍處于起步階段,出現(xiàn)了許多重要的問(wèn)題,例如;我們應(yīng)該如何實(shí)施科學(xué)原則?我們應(yīng)該如何平衡數(shù)據(jù)驅(qū)動(dòng)模型的可解釋性的缺乏和現(xiàn)有理論的清晰性?是否存在可以跨科學(xué)學(xué)科應(yīng)用的總括的SciML技術(shù)?SciML能否為ML領(lǐng)域提供新的視角和思路?對(duì)于復(fù)雜的現(xiàn)實(shí)世界問(wèn)題,SciML技術(shù)的擴(kuò)展性有多好?本文主要研究最后一個(gè)問(wèn)題,具體討論如下。
在本文中,我們主要采用兩種方法來(lái)研究上述子問(wèn)題。首先,針對(duì)前3個(gè)子問(wèn)題,使用復(fù)雜的、真實(shí)的、特定領(lǐng)域的案例研究來(lái)考察多種不同的PIML方法的性能和可擴(kuò)展性。對(duì)于每個(gè)子問(wèn)題,我們提出了一個(gè)案例研究,提出了一種PIML技術(shù)(或各種PIML技術(shù))來(lái)解決它,并評(píng)估該技術(shù)如何擴(kuò)展到這種設(shè)置。其次,針對(duì)最后一個(gè)子問(wèn)題,我們專注于單一的通用PIML技術(shù),并評(píng)估和改進(jìn)其可擴(kuò)展性。前三個(gè)子問(wèn)題分別在本論文的單獨(dú)一章(分別為第3 ~ 5章)中進(jìn)行研究,其案例研究均來(lái)自月球科學(xué)和地球物理學(xué)領(lǐng)域。最后一個(gè)子問(wèn)題將在第6章進(jìn)行研究。最后,我們?cè)诘谄哒轮杏懻摵涂偨Y(jié)了每一章對(duì)我們主要研究問(wèn)題的影響。
SciML方法譜系。這張圖顯示了本章中介紹的不同類型的SciML方法對(duì)科學(xué)知識(shí)的「強(qiáng)」程度。注意,科學(xué)約束的強(qiáng)度是一個(gè)相當(dāng)模糊的概念;在這個(gè)圖中,我們將其定義為SciML方法與傳統(tǒng)工作流的接近程度。中間的方法同樣將ML與傳統(tǒng)工作流的某些方面結(jié)合起來(lái),例如在循環(huán)方法中,將傳統(tǒng)迭代求解器與ML模型交織在一起。此外,我們的作業(yè)有些主觀,所以這個(gè)數(shù)字只是為了表達(dá)總體趨勢(shì)。