神經(jīng)符號(hào)回歸:從數(shù)據(jù)中提取科學(xué)
譯文譯者 | 李睿
審校 | 孫淑娟
宇宙是嘈雜而混亂的,復(fù)雜到讓人們的預(yù)測(cè)變得困難。人類的智慧和直覺有助于對(duì)周圍世界的一些活動(dòng)有著基本的了解,并且足以從個(gè)人和小團(tuán)體的有限視角在宏觀空間和時(shí)間尺度上對(duì)各個(gè)事件有一些基本的理解。
人類史前和古代的自然哲學(xué)家大多局限于常識(shí)合理化和猜測(cè)檢驗(yàn)。這些方法具有很大的局限性,特別是對(duì)于太大或太復(fù)雜的事情,因此導(dǎo)致迷信或魔法思維的盛行。
這并不是貶低猜測(cè)和檢查(這是現(xiàn)代科學(xué)方法的基礎(chǔ)),而是要看到人類調(diào)查和理解能力的變化是由將物理現(xiàn)象提煉成數(shù)學(xué)表達(dá)式的愿望和工具所引發(fā)的。
這在牛頓和其他科學(xué)家領(lǐng)導(dǎo)啟蒙運(yùn)動(dòng)之后尤其明顯,盡管在古代也有分析還原論的痕跡。從觀察到數(shù)學(xué)方程(以及這些方程做出的預(yù)測(cè))的能力是科學(xué)探索和進(jìn)步不可或缺的一部分。
深度學(xué)習(xí)從根本上講也是關(guān)于學(xué)習(xí)與輸入-輸出觀察相關(guān)的轉(zhuǎn)換,就像人類科學(xué)家試圖以數(shù)學(xué)表達(dá)式的形式學(xué)習(xí)輸入和輸出之間的函數(shù)關(guān)系一樣。
當(dāng)然,不同之處在于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的輸入-輸出關(guān)系(通用逼近定理的結(jié)果)由一個(gè)不可解釋的數(shù)值參數(shù)“黑盒”組成,主要是權(quán)重、偏差和它們連接的節(jié)點(diǎn)。
通用逼近定理指出,滿足非常寬松標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠非常接近任何表現(xiàn)良好的函數(shù)。在實(shí)踐中,神經(jīng)網(wǎng)絡(luò)是一個(gè)脆弱而有漏洞的抽象概念,它代表了由簡(jiǎn)單而精確的基礎(chǔ)方程產(chǎn)生的輸入輸出關(guān)系。
除非特別注意訓(xùn)練模型(或模型集成)以預(yù)測(cè)不確定性,否則神經(jīng)網(wǎng)絡(luò)在其訓(xùn)練的分布之外進(jìn)行預(yù)測(cè)時(shí)往往表現(xiàn)非常差。
深度學(xué)習(xí)預(yù)測(cè)在做出可證偽的預(yù)測(cè)方面也表現(xiàn)不佳,即開箱即用的構(gòu)成科學(xué)方法基礎(chǔ)的假設(shè)。因此,雖然深度學(xué)習(xí)是一種經(jīng)過充分驗(yàn)證的工具,擅長(zhǎng)擬合數(shù)據(jù),但它在人類最重要的追求之一的實(shí)用性受到限制,這個(gè)追求就是通過科學(xué)方法探索人們周圍的宇宙。
盡管深度學(xué)習(xí)在人類的科學(xué)努力中存在著各種的缺點(diǎn),但不能忽視深度學(xué)習(xí)在科學(xué)學(xué)科中的巨大擬合能力和眾多成功之處。
現(xiàn)代科學(xué)產(chǎn)生了大量的數(shù)據(jù),個(gè)人(甚至是團(tuán)隊(duì))無法觀察這些數(shù)據(jù)的輸出,也無法從嘈雜的數(shù)據(jù)直觀地轉(zhuǎn)換為清晰的數(shù)學(xué)方程。
為此,可以求助于符號(hào)回歸,這是一種將數(shù)據(jù)簡(jiǎn)化為方程的自動(dòng)化或半自動(dòng)化方法。
當(dāng)前的黃金標(biāo)準(zhǔn):進(jìn)化方法
在進(jìn)入將現(xiàn)代深度學(xué)習(xí)應(yīng)用于符號(hào)回歸的一些令人興奮的最新研究之前,必須首先了解將數(shù)據(jù)集轉(zhuǎn)化為方程的進(jìn)化方法的當(dāng)前狀態(tài)。最常提到的符號(hào)回歸軟件包是基于遺傳算法的Eureqa。
Eureqa最初是作為康奈爾大學(xué)HodLipson團(tuán)隊(duì)的一個(gè)研究項(xiàng)目開發(fā)的,并作為Nutonian的專有軟件提供,后來被DataRobot公司收購。Eureqa已經(jīng)集成到Datarobot平臺(tái)中,由Eureqa的合著者兼Datarobot Michael Schmidt公司的首席技術(shù)官負(fù)責(zé)。
Eureqa和類似的符號(hào)回歸工具使用遺傳算法同時(shí)優(yōu)化方程組,以實(shí)現(xiàn)準(zhǔn)確性和簡(jiǎn)單性。
TuringBot是一個(gè)基于模擬退火的替代符號(hào)回歸包。模擬退火是一種優(yōu)化算法,類似于用于改變金屬物理性質(zhì)的冶金退火。
在模擬退火中,選擇優(yōu)化問題的候選解決方案時(shí)會(huì)降低“溫度”,其中較高的溫度對(duì)應(yīng)于接受較差的解決方案,并用于促進(jìn)早期探索,從而能夠搜索全局最優(yōu)值,并提供能量來逃避局部最優(yōu)值。
TuringBot是基于模擬退火的另一種符號(hào)回歸包。模擬退火是一種優(yōu)化算法,類似于用于改變金屬物理性質(zhì)的冶金退火。
在模擬退火中,選擇優(yōu)化問題的候選解決方案時(shí)會(huì)降低“溫度”,其中較高的溫度對(duì)應(yīng)于接受較差的解決方案,并用于促進(jìn)早期探索,從而能夠搜索全局最優(yōu)值,并提供能量來逃避局部最優(yōu)值。
TuringBot是一個(gè)免費(fèi)版本,但在數(shù)據(jù)集大小和復(fù)雜性方面有很大的限制,并且代碼不允許修改。
雖然商業(yè)符號(hào)回歸軟件(尤其是Eureqa)在開發(fā)符號(hào)回歸的新工具時(shí)提供了重要的比較基準(zhǔn),但閉源程序的作用是有限的。
另一個(gè)名為PySR的開源替代方案在Apache 2.0許可下發(fā)布,由普林斯頓大學(xué)博士生Miles Cranmer領(lǐng)導(dǎo),并分享了準(zhǔn)確性和簡(jiǎn)約性(簡(jiǎn)單性)的優(yōu)化目標(biāo),以及Eureqa和TuringBot使用的組合方法。
除了提供用于執(zhí)行符號(hào)回歸的免費(fèi)且可自由修改的軟件庫之外,PySR從軟件的角度來看也很有趣:它是用Python編寫的,但使用Julia編程語言作為快速后端。
雖然遺傳算法通常被認(rèn)為是符號(hào)回歸的當(dāng)前最先進(jìn)技術(shù),但在過去幾年中,新的符號(hào)回歸策略出現(xiàn)了令人興奮的爆炸式增長(zhǎng)。
其中許多新的發(fā)展利用了現(xiàn)代深度學(xué)習(xí)模型,或者作為多步驟過程中的函數(shù)近似組件,或者以基于大型Transformer模型的端到端方式,最初是為自然語言處理開發(fā)的,以及介于兩者之間的任何內(nèi)容。
除了基于深度學(xué)習(xí)的新符號(hào)回歸工具之外,概率和統(tǒng)計(jì)方法也在復(fù)蘇,尤其是貝葉斯統(tǒng)計(jì)方法。
結(jié)合現(xiàn)代計(jì)算能力,新一代符號(hào)回歸軟件不僅本身是一項(xiàng)有趣的研究,而且為包括大數(shù)據(jù)集和綜合實(shí)驗(yàn)在內(nèi)的科學(xué)學(xué)科提供了真正的實(shí)用性和貢獻(xiàn)。
以深度神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器的符號(hào)回歸
由于Cybenko和Hornik在上世紀(jì)80年代末/90年代初描述和研究的通用逼近定理,可以預(yù)期具有至少一個(gè)非線性激活隱藏層的神經(jīng)網(wǎng)絡(luò)能夠逼近任何表現(xiàn)良好的數(shù)學(xué)函數(shù)。
在實(shí)踐中,傾向于在更復(fù)雜的問題上使用更深層次的神經(jīng)網(wǎng)絡(luò)獲得更好的性能。然而,原則上,需要一個(gè)隱藏層來逼近各種函數(shù)。
受物理學(xué)啟發(fā)的AI Feynman算法將通用逼近定理作為一個(gè)更復(fù)雜難題的一部分。
AI Feynman(及其繼任者AI Feynman 2.0)是由物理學(xué)家Silviu-Marian Udrescu和Max Tegmark(以及一些同事)開發(fā)的。AI Feynman利用了許多物理方程中的函數(shù)特性,例如平滑度、對(duì)稱性和組合性以及其他一些特性。
神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器發(fā)揮作用,學(xué)習(xí)數(shù)據(jù)集中表示的輸入-輸出變換對(duì),并通過在相同的函數(shù)變換下生成合成數(shù)據(jù)來促進(jìn)對(duì)這些特性的研究。
AI Feynman用來解決問題的函數(shù)特性在物理學(xué)方程中很常見,但并不能任意應(yīng)用于所有可能的數(shù)學(xué)函數(shù)的空間。但是,它們?nèi)匀皇窃谂c現(xiàn)實(shí)世界相對(duì)應(yīng)的各種函數(shù)中尋找的合理假設(shè)。
與前面描述的遺傳算法和模擬退火方法一樣,AI Feynman從頭開始擬合每個(gè)新數(shù)據(jù)集。不涉及泛化或預(yù)訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)僅構(gòu)成一個(gè)更大的、物理信息豐富的系統(tǒng)中精心編排的一部分。
AI Feynman符號(hào)回歸在破譯Feynman物理學(xué)講座中的100個(gè)方程(或謎團(tuán))方面表現(xiàn)出色,但缺乏泛化意味著每個(gè)新數(shù)據(jù)集(對(duì)應(yīng)于一個(gè)新方程)都需要大量的計(jì)算預(yù)算。
用于符號(hào)回歸的一組新的深度學(xué)習(xí)策略利用了非常成功的Transformer模型系列,最初由Vaswani等人作為自然語言模型引入。這些新方法并不完美,但使用預(yù)訓(xùn)練可以在推理時(shí)節(jié)省大量計(jì)算時(shí)間。
基于自然語言模型的第一代符號(hào)回歸
鑒于基于注意力的超大型Transformer模型在計(jì)算機(jī)視覺、音頻、強(qiáng)化學(xué)習(xí)、推薦系統(tǒng)和許多其他領(lǐng)域(除了基于文本的自然語言處理的原始角色)的各種任務(wù)上取得了巨大成功,因此Transformer模型最終也將應(yīng)用于符號(hào)回歸也就不足為奇了。
雖然數(shù)字輸入-輸出對(duì)到符號(hào)序列的領(lǐng)域需要一些仔細(xì)的工程,但數(shù)學(xué)表達(dá)式基于序列的性質(zhì)自然適用于Transformer方法。
至關(guān)重要的是,使用Transformer生成數(shù)學(xué)表達(dá)式使他們能夠利用對(duì)數(shù)百萬個(gè)自動(dòng)生成的方程的結(jié)構(gòu)和數(shù)值含義進(jìn)行預(yù)訓(xùn)練。
這也為通過擴(kuò)大規(guī)模來改進(jìn)模型奠定了基礎(chǔ)??s放是深度學(xué)習(xí)的主要優(yōu)勢(shì)之一,其中更大的模型和更多的數(shù)據(jù)繼續(xù)提高模型性能,遠(yuǎn)遠(yuǎn)超出過擬合的經(jīng)典統(tǒng)計(jì)學(xué)習(xí)限制。
縮放是Biggio等人在主題為“可縮放的神經(jīng)符號(hào)回歸”的論文中提及的主要優(yōu)勢(shì),其名稱為NSRTS。NSRTS Transformer模型使用專用編碼器將每個(gè)輸入輸出對(duì)數(shù)據(jù)集轉(zhuǎn)換為一個(gè)潛在空間。編碼的潛在空間具有固定大小,而與編碼器的輸入大小無關(guān)。
NSRTS解碼器構(gòu)建一個(gè)令牌序列來表示一個(gè)方程,其條件是編碼的潛在空間和到目前為止生成的符號(hào)。至關(guān)重要的是,解碼器僅輸出數(shù)字常量的占位符,但在其他方面使用與預(yù)訓(xùn)練方程數(shù)據(jù)集相同的詞匯表。
NSRTS使用PyTorch和PyTorch Lightning,并擁有許可的開放源碼MIT許可證。
在生成無常數(shù)方程(稱為方程骨架)之后,NSRTS使用梯度下降來優(yōu)化常數(shù)。這種方法在序列生成之上分層了一個(gè)通用優(yōu)化算法,由Valipour等人同時(shí)開發(fā)的所謂的“SymbolicGPT”共享。
Valipour等人沒有像NSRTS方法中那樣使用基于注意力的編碼器。而是使用基于斯坦福點(diǎn)云模型PointNet的模型來生成一個(gè)固定維特征集,供Transformer解碼器用于生成方程。與NSRT一樣,Symbolic GPT使用BFGS來查找Transformer解碼器生成的方程骨架的數(shù)值常數(shù)。
基于自然語言模型的第二代符號(hào)回歸
雖然最近的一些文章描述了使用自然語言處理(NLP)Transformer來實(shí)現(xiàn)符號(hào)回歸的泛化和可擴(kuò)展性,但上述模型并不是真正的端到端,因?yàn)樗鼈儾还烙?jì)數(shù)值常數(shù)。
這可能是一個(gè)嚴(yán)重的缺陷:想象一個(gè)模型可以生成具有1000個(gè)不同頻率的正弦基的方程。使用BFGS優(yōu)化每個(gè)項(xiàng)的系數(shù)可能會(huì)非常適合大多數(shù)輸入數(shù)據(jù)集,但實(shí)際上,它只是執(zhí)行傅里葉分析的一種緩慢而迂回的方式。
就在2022年春季,第二代基于Transformer的符號(hào)回歸模型已在ArXiv上由Vastl等人在SymFormer上發(fā)布,而另一個(gè)端到端Transformer由Kamienny及其同事發(fā)布。
這些和以前基于Transformer的符號(hào)回歸模型之間的重要區(qū)別在于它們預(yù)測(cè)數(shù)字常數(shù)以及符號(hào)數(shù)學(xué)序列。
SymFormer利用雙頭Transformer解碼器來完成端到端的符號(hào)回歸。一個(gè)頭產(chǎn)生數(shù)學(xué)符號(hào),第二個(gè)頭學(xué)習(xí)數(shù)值回歸任務(wù),即估計(jì)方程中出現(xiàn)的數(shù)值常數(shù)。
Kamienny和Vastl的端到端模型在細(xì)節(jié)上有所不同,例如數(shù)值估計(jì)的精度,但兩組的解決方案仍然依賴于后續(xù)的優(yōu)化步驟進(jìn)行細(xì)化。
即便如此,根據(jù)作者的說法,它們比以前的方法具有更快的推理時(shí)間,并產(chǎn)生更準(zhǔn)確的結(jié)果,產(chǎn)生更好的方程骨架,并為優(yōu)化步驟提供了良好的起點(diǎn)和估計(jì)常數(shù)。
象征性回歸的時(shí)代來臨
在大多數(shù)情況下,符號(hào)回歸一直是一種精巧且計(jì)算密集型的機(jī)器學(xué)習(xí)方法,在過去十年的時(shí)間里,它得到的關(guān)注遠(yuǎn)遠(yuǎn)低于一般的深度學(xué)習(xí)。
這在一定程度上是由于遺傳或概率方法的“即用即失”方法,對(duì)于每個(gè)新數(shù)據(jù)集,它們必須從頭開始,這一特征與深度學(xué)習(xí)到符號(hào)回歸的中間應(yīng)用(如AI Feynman)是相同的。
在符號(hào)回歸中使用Transformer作為整體組件,使得最近的模型能夠利用大規(guī)模的預(yù)訓(xùn)練,從而減少推理時(shí)的能量、時(shí)間和計(jì)算硬件需求。
這一趨勢(shì)得到了進(jìn)一步的擴(kuò)展,新的模型可以估計(jì)數(shù)值常數(shù)和預(yù)測(cè)數(shù)學(xué)符號(hào),從而實(shí)現(xiàn)更快的推理和更高的準(zhǔn)確性。
生成符號(hào)表達(dá)式的任務(wù)反過來可以用來生成可測(cè)試的假設(shè),這是一項(xiàng)非常人性化的任務(wù),并且是科學(xué)的核心。在過去的二十年中,符號(hào)回歸的自動(dòng)化方法繼續(xù)取得令人感興趣的技術(shù)進(jìn)步,但真正的考驗(yàn)是它們是否對(duì)從事真正科學(xué)的研究人員有用。
符號(hào)回歸開始在技術(shù)演示之外產(chǎn)生越來越多的可發(fā)表的科學(xué)結(jié)果。貝葉斯符號(hào)回歸方法產(chǎn)生了一個(gè)新的預(yù)測(cè)細(xì)胞分裂的數(shù)學(xué)模型。
另一個(gè)研究小組使用稀疏回歸模型生成了海洋湍流的合理方程,為改進(jìn)多尺度氣候模型鋪平了道路。
一個(gè)將圖神經(jīng)網(wǎng)絡(luò)和符號(hào)回歸與Eureqa的遺傳算法相結(jié)合的項(xiàng)目概括了描述多體引力的表達(dá)式,并從傳統(tǒng)的模擬器中推導(dǎo)出了一個(gè)描述暗物質(zhì)分布的新方程。
符號(hào)回歸算法的未來發(fā)展
符號(hào)回歸正在成為科學(xué)家工具箱中的一個(gè)強(qiáng)大工具?;赥ransformer方法的泛化、可擴(kuò)展性仍然是熱門話題,還沒有滲透到一般的科學(xué)實(shí)踐中。隨著越來越多的研究人員適應(yīng)和改進(jìn)模型,它有望進(jìn)一步推動(dòng)科學(xué)發(fā)現(xiàn)。
這些項(xiàng)目中有許多是在開放源碼許可下進(jìn)行的,因此可以預(yù)期它們將在幾年內(nèi)產(chǎn)生影響,而且它們的應(yīng)用可能比Eureqa和TuringBot等專有軟件更廣泛。
符號(hào)回歸是對(duì)深度學(xué)習(xí)模型輸出的一種自然補(bǔ)充,深度學(xué)習(xí)模型的輸出往往神秘且難以解釋,而數(shù)學(xué)語言中更易于理解的輸出可以幫助產(chǎn)生新的可驗(yàn)證假設(shè),并推動(dòng)直觀的飛躍。
這些特征和最新一代符號(hào)回歸算法的直接能力有望為獲得重大發(fā)現(xiàn)的時(shí)刻提供更多的機(jī)會(huì)。