Nature評論:機(jī)器學(xué)習(xí)的物理啟示錄——隔壁的另一條機(jī)遇之道
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
神經(jīng)網(wǎng)絡(luò),對于這個熟悉的名詞,我們一聽之下便知它深受生物學(xué)的影響,尤其是腦神經(jīng)科學(xué)。雖然神經(jīng)網(wǎng)絡(luò)的靈感最初源于生物學(xué),但是隨著人們研究的深入,生物學(xué)這個母體學(xué)科中可用資源日漸枯竭。但是與生物一墻之隔的物理學(xué)還是處于一片藍(lán)海,這片科研的處女地中的很多經(jīng)驗(yàn)和研究方法論有望幫助神經(jīng)網(wǎng)絡(luò)的研究變得更加優(yōu)秀,找到更多的真理。因此,近些年不少工作開始琢磨如何在機(jī)器學(xué)習(xí)和物理學(xué)之間建立更強(qiáng)的紐帶,設(shè)計(jì)出更加強(qiáng)大的計(jì)算方法。
自誕生之初,機(jī)器學(xué)習(xí)和物理學(xué)便有著十分緊密的關(guān)聯(lián)。早在1982年,John Hopfield就進(jìn)行了第一步嘗試,他在神經(jīng)網(wǎng)絡(luò)和物理學(xué)之間建立了第一座互通有無橋梁。Hopfield發(fā)現(xiàn),在物理學(xué)中,一個由相互作用的粒子組成的粒子群物理系統(tǒng)中,粒子間通常會產(chǎn)生一些形似磁性力的作用現(xiàn)象。
Hopfield于是將這種相互作用的現(xiàn)象借鑒到了神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)當(dāng)中,尤其是網(wǎng)絡(luò)中的那些具有自發(fā)計(jì)算特性的神經(jīng)元結(jié)構(gòu)。因此,Hopfield發(fā)明出了“Hopfield network”,而它則是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的前身。
時至今日,RNN的廣泛應(yīng)用無需贅述,它大量的應(yīng)用在時序分析、自然語言處理等領(lǐng)域。只要數(shù)據(jù)之間具有時間依賴性、時序動態(tài)特征,那么RNN就是一個十分優(yōu)秀的備選方案。
換個角度來看,理論物理學(xué)有望幫助人們從基礎(chǔ)上重新認(rèn)識機(jī)器學(xué)習(xí)領(lǐng)域。早在1984年,L. G. Valiant就發(fā)表了一篇經(jīng)典論文《A theory of the learnable》,在其中,他便對此定下了基調(diào)。
論文地址:https://dl.acm.org/doi/10.1145/1968.1972
這篇論文介紹了一個嚴(yán)格的學(xué)習(xí)統(tǒng)計(jì)理論,可以看作是一切可學(xué)習(xí)的基礎(chǔ)。它突破了現(xiàn)在深度學(xué)習(xí)、機(jī)器學(xué)習(xí)中以數(shù)學(xué)為根基的可學(xué)習(xí)或?qū)W習(xí)算法的范疇,而以更高、更宏觀的角度來討論模型、人類、或各種事件的“可學(xué)習(xí)性”。
概括來說,作者將學(xué)習(xí)行為定義為一種“在沒有顯示程序化的情況下獲取知識的現(xiàn)象”,文章從計(jì)算的角度給出了研究學(xué)習(xí)現(xiàn)象的具體方法,包括選擇正確的信息收集方法、學(xué)習(xí)方法、以及搜索選擇合理的描述計(jì)算方法、計(jì)算步驟的數(shù)學(xué)概念類型。
1. 深度學(xué)習(xí)應(yīng)該從物理中學(xué)點(diǎn)什么?
但當(dāng)時間來到2010年代,經(jīng)歷了漫長蟄伏的深度學(xué)習(xí)異軍突起,在諸多領(lǐng)域中以迅雷不及掩耳之勢大肆霸榜,刷新各種記錄并吊打其他傳統(tǒng)算法。深度學(xué)習(xí)憑借其彪悍強(qiáng)大的泛化能力,以及不可理喻的非線性學(xué)習(xí)能力贏得了世人的驚嘆和承認(rèn)。但是隨之而來的,也有質(zhì)疑和困惑,這個黑箱家伙的背后,究竟隱藏著什么未解之謎?
在最近發(fā)表在《Nature Physics》雜志上的一篇評論論文中,Lenka Zdeborová研究員呼吁科研人員嘗試重新使用“物理學(xué)啟發(fā)的方法(Physics-inspired approaches)”來解決實(shí)際生活中那些復(fù)雜而毫無頭緒的建模問題。
在這篇名為《Understanding deep learning is also a job for physicists》的文章中,作者首先贊揚(yáng)了深度學(xué)習(xí)的廣泛應(yīng)用,以及在諸多領(lǐng)域中的卓越表現(xiàn)。
文章地址:https://www.nature.com/articles/s41567-020-0929-2
但是也一針見血的指出這種“無腦”訓(xùn)練的方法在某種意義上不夠“優(yōu)雅”,它浪費(fèi)了大量了計(jì)算資源和泛化能力,可能費(fèi)勁千辛萬苦訓(xùn)練出一個龐大復(fù)雜的模型結(jié)果只是解決了一個y=kx+b的問題。
換句話說,深度學(xué)習(xí)的研究很多情況下沒有剖析到問題的本質(zhì),他們沒有深入的分析數(shù)據(jù),沒有細(xì)致的觀察數(shù)據(jù)之間的關(guān)聯(lián)和變化,因而也沒有對其背后的規(guī)律和真正的核心模型進(jìn)行理解和探究。極有可能的是,我們訓(xùn)練出了一把舉世無雙的屠龍寶刀,目的是給裝修公司刮大白——雖然好使,但是物理學(xué)家們還是覺得膩?zhàn)隅P好使……當(dāng)然,作者也有呼吁物理學(xué)家借鑒深度學(xué)習(xí)這個工具加速各自理論研究和模型研究的初衷。
具體來說,Lenka指出:物理學(xué)家擅長于歸納總結(jié),總能夠透過數(shù)據(jù)看到其后的本質(zhì)。物理學(xué)家們擁有豐富的經(jīng)驗(yàn),他們可以輕松的處理數(shù)量龐大、異構(gòu)、多模態(tài)且量級各異的實(shí)驗(yàn)數(shù)據(jù),并且從中抽絲剝繭,像福爾摩斯一樣找到問題背后的規(guī)律。
因此,物理學(xué)家們總能找到問題背后的本質(zhì),并且對其中重要的那部分合理建模。而對于數(shù)據(jù)中那些無關(guān)緊要的噪聲和細(xì)節(jié),物理學(xué)家們也能夠把它們準(zhǔn)確的剔除出來并且忽略。可怕的是,物理學(xué)家甚至還總能通過分析和調(diào)查來測試這些猜想和模型。
一個典型的例子是物理學(xué)中十分成功的磁學(xué)模型-Ising模型。Ising沒有使用任何關(guān)于磁相互作用或材料特性的量子力學(xué)先驗(yàn)細(xì)節(jié),但它卻可以準(zhǔn)確的模擬出自然界中的若干種類型的實(shí)驗(yàn)現(xiàn)象。
事實(shí)上,計(jì)算科學(xué)家們在之后也嘗試對同樣的問題基于數(shù)據(jù)建立了機(jī)器學(xué)習(xí)方法。他們曾經(jīng)設(shè)計(jì)了一個Hopfield網(wǎng)絡(luò),喂給它超大規(guī)模的數(shù)據(jù)后,訓(xùn)練出來的模型居然和Ising別無二致,二者結(jié)果完全相同。
可以說,這就是一個機(jī)器學(xué)習(xí)版本的Ising網(wǎng)絡(luò)。這也從側(cè)面說明了Ising模型的成功。所以說,如果我們想對深度學(xué)習(xí)的理論有進(jìn)一步的理解、如果我們想揭開深度學(xué)習(xí)黑盒背后的神秘面紗,那物理學(xué)所啟發(fā)的歸納思路可能是個不錯的突破口。
我們可以稍微展開來講,為什么說物理學(xué)有望成為深度學(xué)習(xí)理論的突破口呢?我們知道,深度學(xué)習(xí)的可解釋性研究或合理性理論研究一直是一個熱門的領(lǐng)域。由于深度學(xué)習(xí)黑盒不可解釋的特性,它被例如醫(yī)療等領(lǐng)域嚴(yán)格限制著。如果一個產(chǎn)品想通過CFDA、CE的認(rèn)證,那么你需要將算法的理論講的一清二楚,畢竟人命關(guān)天。
因此,如果我們可以從物理學(xué)的角度對深度學(xué)習(xí)的可解釋性進(jìn)行系統(tǒng)的闡述和研究,甚至哪怕是一點(diǎn)點(diǎn)微小的進(jìn)步,也將會被業(yè)界和學(xué)界當(dāng)作救命稻草一樣牢牢抓住并異常珍惜。
那么針對深度學(xué)習(xí)可以計(jì)算什么?我們?nèi)绾斡?xùn)練它們?信息是如何通過它們傳播的?為什么它們可以泛化?我們?nèi)绾谓趟鼈兿胂?hellip;…等等的靈魂拷問,都將是研究的重點(diǎn)。目前,有些工作比如《Statistical Mechanics of Deep Learning》從統(tǒng)計(jì)力學(xué)的物理分析角度來為這些問題提供根源概念上的解釋。
論文地址:https://www.annualreviews.org/doi/10.1146/annurev-conmatphys-031119-050745
這些解釋方法將深度學(xué)習(xí)與各種物理和數(shù)學(xué)主題聯(lián)系起來,包括隨機(jī)景觀、自旋玻璃、干擾、動態(tài)相變、混沌、黎曼幾何、隨機(jī)矩陣?yán)碚摗⒆杂筛怕屎头瞧胶饨y(tǒng)計(jì)力學(xué)。
事實(shí)上,統(tǒng)計(jì)力學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域,自古以來就有著很強(qiáng)的耦合性,以及豐富的互動歷史,而統(tǒng)計(jì)力學(xué)和深度學(xué)習(xí)交叉點(diǎn)的最新進(jìn)展表明,這些互動有望會進(jìn)一步繁衍生息,并最終為我們深度學(xué)習(xí)的理論研究和可解釋性,提供振奮人心突破的可能!
2. 大家都是如何結(jié)合物理學(xué)的
從實(shí)際應(yīng)用的角度來看,深度學(xué)習(xí)有著“大力出奇跡”的屬性。只要有足夠多的數(shù)據(jù)和足夠復(fù)雜的神經(jīng)元結(jié)構(gòu),很多實(shí)際生活中和物理學(xué)中的“百年未解之謎”都能迎刃而解。比如流體力學(xué)、高能物理學(xué)或天氣預(yù)報(bào)。
例如在Christian等人發(fā)表在Nature的工作《Deep recurrent optical flow learning for particle image velocimetry data》中,他們就提出了一種用來學(xué)習(xí)物理位移場( displacement fields)的端到端深度學(xué)習(xí)模型。其重點(diǎn)關(guān)注了粒子圖像測速(PIV)的物理性質(zhì)和動態(tài)特點(diǎn)。
論文地址:https://www.nature.com/articles/s42256-021-00369-0
PIV是實(shí)驗(yàn)流體動力學(xué)中的一種核心的關(guān)鍵技術(shù),它在汽車、航空航天和生物醫(yī)學(xué)工程等多種應(yīng)用中具有至關(guān)重要的意義。目前的PIV數(shù)據(jù)處理方法都是純手工設(shè)計(jì)的,其泛化能力和估計(jì)的因素受到了開發(fā)人員的限制,其中也有不少需要手動設(shè)置的參數(shù),其適用范圍和大規(guī)模應(yīng)用受到極大的挑戰(zhàn)。
相比之下,作者所提出的基于深度學(xué)習(xí)的PIV方法則基于了最近的光流學(xué)習(xí)體系結(jié)構(gòu)(稱為遞歸全對場變換),這個模型的應(yīng)用范圍更加廣泛,具有通用的使用屬性。其中的大部分參數(shù)設(shè)定、計(jì)算泛化和結(jié)構(gòu)調(diào)整也都是自動化的,還能提供極高的空間分辨率。
現(xiàn)在學(xué)界一個活躍的方向,便是使用機(jī)器學(xué)習(xí)模型來估計(jì)出偏微分方程形式的數(shù)學(xué)公式解,這些數(shù)學(xué)公式解的規(guī)則是紊流(turbulence)等復(fù)雜動態(tài)現(xiàn)象的理論基礎(chǔ)。在《Nature Reviews Physics》最近的一篇評論文章中,George Karniadakis及其同事便對其進(jìn)行了相當(dāng)細(xì)致的討論。他們認(rèn)為,物理學(xué)可以結(jié)合深度學(xué)習(xí)方法來解決復(fù)雜的動態(tài)問題,并給出了多個結(jié)合的思路,也闡述了一些具體的例子,包括地震預(yù)測和分子動力學(xué)等。
另一個很有前途的研究方向是用深度學(xué)習(xí)來解決優(yōu)化問題,特別是組合優(yōu)化(combinatorial optimization)問題。在該類問題中,算法必須在一個非常大的有限可能配置空間中找到最優(yōu)解。這個配置空間的大小會隨著問題的輸入規(guī)模呈指數(shù)級增長。因此,基于窮舉搜索的解決策略是不可行的,這會導(dǎo)致維度災(zāi)難。
具體來說,為了解決組合優(yōu)化問題,Yoshua Bengio的很多工作開始逐漸從研究統(tǒng)籌學(xué)解過渡到利用深度學(xué)習(xí)求解的領(lǐng)域。
論文地址:https://arxiv.org/pdf/1811.06128v2.pdf
這些組合優(yōu)化的求解問題通常十分困難,其數(shù)學(xué)難度較大。但是目前主流的算法都是靠手工設(shè)計(jì)的啟發(fā)式算法,它們的可解釋性和靈活性較高,但是其設(shè)計(jì)代價(jià)較大,而且其決策結(jié)果在某種程度上具有計(jì)算或數(shù)學(xué)定義不明確的問題。
因此,很多人轉(zhuǎn)投到機(jī)器學(xué)習(xí)的陣營。相對而言,機(jī)器學(xué)習(xí)方法具有更好的決策原則可追溯性和優(yōu)化方式的優(yōu)越性。當(dāng)然,也有一些工作主張進(jìn)一步加強(qiáng)機(jī)器學(xué)習(xí)和組合優(yōu)化的集成。簡要來說,它們主要是將一般優(yōu)化問題視為數(shù)據(jù)點(diǎn),并詢問在給定任務(wù)中用于學(xué)習(xí)的問題的相關(guān)分布情況。
其實(shí),為了避免維度災(zāi)難而使用機(jī)器學(xué)習(xí)求解的例子有很多,舉幾個典型的:Rubik’s Cube魔方問題、旅行商問題和尋找蛋白質(zhì)的三維結(jié)構(gòu)問題。
Rubik's cube其實(shí)就是我們常說的魔方,Magic Cube,是因?yàn)?974年Rubik教授發(fā)明了它因此得名。在2019年Nature上發(fā)表的一篇文章中,作者就提出使用深度學(xué)習(xí)方法DeepCubeA來解決魔方問題。DeepCubeA可以學(xué)習(xí)如何在沒有任何特定領(lǐng)域知識的情況下,從目標(biāo)狀態(tài)反向解決越來越困難的魔方問題。
論文地址:https://www.nature.com/articles/s42256-019-0070-z
而在更難的蛋白質(zhì)序列預(yù)測、蛋白質(zhì)三維結(jié)構(gòu)的工作中,Brain等人綜述了學(xué)術(shù)界目前已經(jīng)使用的深度學(xué)習(xí)方法。
文章地址:https://www.nature.com/articles/s41580-019-0163-x
這些方法都是用來解決蛋白質(zhì)領(lǐng)域中的一個難題——設(shè)計(jì)折疊成特定三維結(jié)構(gòu)的氨基酸序列。在過去的十年中,蛋白質(zhì)結(jié)構(gòu)的預(yù)測和設(shè)計(jì)方法進(jìn)步神速。而計(jì)算能力的提高以及蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)庫的快速增長也同步推動了新的數(shù)據(jù)密集型和計(jì)算要求高的結(jié)構(gòu)預(yù)測方法的發(fā)展。
因此很多算法可以經(jīng)過計(jì)算來設(shè)計(jì)“蛋白質(zhì)折疊”和“蛋白質(zhì)-蛋白質(zhì)界面”,并也被應(yīng)用于新的高階蛋白質(zhì)組裝體的設(shè)計(jì),以及從0設(shè)計(jì)具有新穎或增強(qiáng)性質(zhì)的熒光蛋白質(zhì),以及具有治療潛力的信號蛋白質(zhì)。
其中,比較具有代表性的是Mohammed Hibat-Allah等人提出的一種融合了經(jīng)典和量子物理學(xué)以及深度學(xué)習(xí)的設(shè)計(jì),這種方法可以用來尋找無序Ising系統(tǒng)的基態(tài)(Ground State)。
論文地址:https://www.nature.com/articles/s42256-021-00401-3
在統(tǒng)計(jì)物理學(xué)中,優(yōu)化問題可以用一種叫做模擬退火的計(jì)算方法來解決。這是一個受到冶金學(xué)中的退火過程的啟發(fā)而被提出來的啟發(fā)式算法過程。
在冶金工業(yè)的退火工藝過程中,固體加溫至充分高,再讓其徐徐冷卻,加溫時,固體內(nèi)部粒子隨溫升變?yōu)闊o序狀,內(nèi)能增大,而徐徐冷卻時粒子漸趨有序,在每個溫度都達(dá)到平衡態(tài),最后在常溫時達(dá)到基態(tài),內(nèi)能減為最小。簡單來說材料被快速加熱,隨后緩慢冷卻。在冷卻的過程中,材料在微觀上重新排列成具有所需特性的最佳配置。
而受到這個現(xiàn)象的啟發(fā),科學(xué)家總結(jié)出了傳統(tǒng)的模擬退火算法。簡而言之,它是基于Monte-Carlo迭代求解策略的一種隨機(jī)尋優(yōu)算法,其出發(fā)點(diǎn)是基于物理中固體物質(zhì)的退火過程與一般組合優(yōu)化問題之間的相似性。
模擬退火算法從某一較高初溫出發(fā),伴隨溫度參數(shù)的不斷下降,結(jié)合概率突跳特性在解空間中隨機(jī)尋找目標(biāo)函數(shù)的全局最優(yōu)解,即在局部最優(yōu)解能概率性地跳出,并最終趨于全局最優(yōu)。
模擬退火算法是一種通用的優(yōu)化算法,理論上算法具有概率的全局優(yōu)化性能,目前已在工程中得到了廣泛應(yīng)用,諸如VLSI、生產(chǎn)調(diào)度、控制工程、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、信號處理等領(lǐng)域。
模擬退火算法通過逐漸減少 "熱波動 "來探索在能量的角度中的全局損失最小值(見圖中一個具有明顯全局最小值的粗糙能量視角的例子)。
一個簡化的、非常粗糙的能量可視化圖,它展示了蛋白質(zhì)的折疊分析。圖源:Kuhlman & Bradley. Nat. Rev. Mol. Cell Biol. 20, 681-697 (2019). Springer Nature Ltd
無論是經(jīng)典還是量子版本的模擬退火算法,對優(yōu)化問題都是很有用的。但其通過"冷卻"(減少熱波動)來探索優(yōu)化的算法部分通常是一個緩慢的過程。Hibat-Allah等人將模擬退火與所謂的變異方法相結(jié)合,通過一個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來對系統(tǒng)狀態(tài)的聯(lián)合分布進(jìn)行參數(shù)化。這種方法被稱為“變異神經(jīng)退火”方法。這種新方法大大加快了模擬退火的算法執(zhí)行過程。
有必要補(bǔ)充的是,前文所說的經(jīng)典模擬退火算法便是1974年Kirkpatrick大神提出的傳統(tǒng)模擬退火算法。
論文地址:https://www.science.org/doi/10.1126/science.220.4598.671
而量子版本則是Santoro等人在2002年的后續(xù)研究,他們通過比較二維隨機(jī)Ising模型(自旋玻璃原型/a prototype spin glass)上的經(jīng)典和量子Monte Carlo退火算法,證實(shí)了量子退火相對于經(jīng)典退火的優(yōu)越性。
論文地址:https://www.science.org/doi/10.1126/science.1068774
他們還提出了一種基于Landau-Zener隧道級聯(lián)事件的量子退火理論,證明了復(fù)雜系統(tǒng)的最低能量組態(tài)比經(jīng)典的熱對應(yīng)物更有效。
3. 物理+機(jī)器學(xué)習(xí)=未來可期
可以預(yù)計(jì),物理學(xué)和機(jī)器學(xué)習(xí)之間還有許多富有成效的互動。圍繞著將機(jī)器學(xué)習(xí)與量子信息方法合并的美好期許,人們一定會非常興奮和鼓舞。
其中一個值得重點(diǎn)關(guān)注的方向則是用量子計(jì)算機(jī)加速機(jī)器學(xué)習(xí)——這種方法將關(guān)注的重心投注于可靠的量子硬件,具體來說,他們假設(shè)并且討論了量子計(jì)算機(jī)相對于經(jīng)典計(jì)算在機(jī)器學(xué)習(xí)任務(wù)上的好處。
相關(guān)論文:https://www.nature.com/articles/nature23474
促進(jìn)其實(shí)是相互的,機(jī)器學(xué)習(xí)的概念也在推動量子計(jì)算的進(jìn)步。例如Juan等人便提出了一種基于神經(jīng)網(wǎng)絡(luò)生成模型的密度矩陣重構(gòu)方法,來對可擴(kuò)展多體量子技術(shù)中狀態(tài)準(zhǔn)備的基準(zhǔn)測試進(jìn)行描述。
論文地址:https://www.nature.com/articles/s42256-019-0028-1
感興趣的讀者可以在Giuseppe Carleo等人的綜述文章中找到進(jìn)一步的論述。
論文地址:https://www.nature.com/articles/s42256-019-0028-1
或者參加即將到來的NeurIPS機(jī)器學(xué)習(xí)和物理科學(xué)研討會。