量子糾纏:從量子物質(zhì)態(tài)到深度學(xué)習(xí)
1. 引言
經(jīng)典物理學(xué)的主角是物質(zhì)和能量。20 世紀初,愛因斯坦寫下E =mc2 ,將質(zhì)量和能量統(tǒng)一在了一起。而從那之后,一個新角色——信息(Information)——逐漸走向了物理學(xué)舞臺的中央。信息是關(guān)于不確定程度的度量。Shannon 創(chuàng)立信息論的初衷是為了定量化地描述信息的存儲和傳輸。Jaynes 從信息論的角度研究多粒子體系,重新闡釋了統(tǒng)計力學(xué)。原來,物理學(xué)家所熟知的熱力學(xué)熵與Shannon 用來衡量信息量的信息熵(Information Entropy)系出同源。Landauer 指出擦除信息會增加熱力學(xué)熵,從而產(chǎn)生熱量。因此,對于信息的一切處理(比如計算)都受到熱力學(xué)基本定律的約束。這些工作使人們逐漸意識到,信息不是一個單純的數(shù)學(xué)概念,而是與物質(zhì)和能量一樣基本的物理概念。
量子力學(xué)給物理世界帶來了固有的不確定性,從而促生了量子信息理論。量子信息論中最核心的概念是量子糾纏。如果兩個微觀粒子的整體波函數(shù)不能夠被寫成各部分的直積,那么它們之間就存在糾纏。對于存在量子糾纏的體系,觀察其中的一部分能夠告訴我們關(guān)于另外一部分的信息。類比于經(jīng)典信息熵, 我們使用糾纏熵(Entanglement Entropy)來度量量子糾纏的大小。量子信息論的視角,特別是量子糾纏的概念在現(xiàn)代物理學(xué)的研究中扮演著日趨重要的角色。
凝聚態(tài)物理學(xué)家用量子糾纏來刻畫量子物質(zhì)態(tài)。傳統(tǒng)上,他們使用對稱性和宏觀序參量來區(qū)分不同的物質(zhì)狀態(tài)。這成功地解釋了超流體、超導(dǎo)體、磁性等豐富多彩的自然現(xiàn)象。然而,近些年來人們發(fā)現(xiàn)了越來越多僅用對稱性難以區(qū)分的物質(zhì)態(tài),比如不同種類的自旋液體態(tài)、分數(shù)量子霍爾態(tài)等等。量子糾纏可以給這些新的物質(zhì)態(tài)一個恰當?shù)臉擞洝1热?,糾纏熵隨著體系尺寸的標度行為反映了量子物質(zhì)態(tài)的基本特性。而對于標度行為的修正也可能包含著關(guān)于物質(zhì)態(tài)的普適信息。研究量子物質(zhì)態(tài)中糾纏的大小和模式成為現(xiàn)代凝聚態(tài)物理的一個核心問題。此外,量子糾纏還指引計算物理學(xué)家發(fā)展高效的數(shù)值算法精確地模擬量子多體現(xiàn)象。本次專題的另外幾篇文章介紹了使用張量網(wǎng)絡(luò)態(tài)(Tensor Network State)方法研究量子多體問題的進展。張量網(wǎng)絡(luò)算法的成功很大程度上來源于量子物質(zhì)態(tài)典型的糾纏結(jié)構(gòu):面積定律。很多人們關(guān)心的量子體系的兩部分之間的糾纏熵僅僅正比于其邊界的大小,這使得利用經(jīng)典計算機高效而精確地研究這些量子多體問題成為可能。有意思的是,量子態(tài)所遵循的面積定律還和黑洞的熵有著深刻的聯(lián)系。從量子信息的視角審視引力、蟲洞以及量子混沌等現(xiàn)象,甚至有可能加深我們關(guān)于時空的本源的理解。國際上關(guān)于這方面的研究開展得如火如荼。美國的Simons 基金會支持了一項專注于此的合作研究項目。
量子糾纏的深遠影響并沒有就此止步,一些***的研究進展表明,它對機器學(xué)習(xí)(Machine Learning)中的一些問題也可能有啟發(fā)和指導(dǎo)意義。機器學(xué)習(xí)的研究目標是讓計算機獲得一定程度的智能,不需要過多的人為干預(yù)就可以高效地解決實際問題。通常,這種看似神奇的能力是從大量樣本的學(xué)習(xí)中獲得的。由于近年來算法和硬件的快速發(fā)展以及大量的數(shù)據(jù)積累,機器學(xué)習(xí)取得了一系列令人振奮的成果。特別是2016 年3 月Google DeepMind 所制造的AlphaGo 程序戰(zhàn)勝了世界圍棋冠軍李世乭,使得以深度學(xué)習(xí)(Deep Learning)為代表的新一代機器學(xué)習(xí)技術(shù)走進了大眾的視野。如今,機器學(xué)習(xí)在圖像和語音識別、機器翻譯、計算廣告、推薦系統(tǒng)等人類生活的方方面面都扮演著日趨重要的角色。而它的應(yīng)用也在逐漸向天文、物理、化學(xué)、材料、生物、醫(yī)藥等眾多科學(xué)研究領(lǐng)域滲透。具體到本文作者所工作的領(lǐng)域:將機器學(xué)習(xí)方法應(yīng)用于量子多體問題,可以從高維空間紛雜的微觀構(gòu)型數(shù)據(jù)中提取出關(guān)鍵的物理信息。而將機器學(xué)習(xí)的思想與傳統(tǒng)計算途徑相結(jié)合,為解決凝聚態(tài)和統(tǒng)計物理中的疑難問題提供了新思路。最近的一些嘗試包括使用機器學(xué)習(xí)方法探測相變和分類物質(zhì)相,探索使用人工神經(jīng)網(wǎng)絡(luò)作為量子體系的試探波函數(shù)等等。這些嘗試讓物理學(xué)家們有機會仔細審視機器學(xué)習(xí)領(lǐng)域的核心思想和技術(shù)。本文介紹的就是這一方向上新涌現(xiàn)出的一個研究思路:從量子糾纏的視角審視深度學(xué)習(xí),從而反饋機器學(xué)習(xí)的發(fā)展。
2. 深度學(xué)習(xí)和量子多體物理中的函數(shù)近似
深度學(xué)習(xí)究竟在做什么?用最簡短的話概括,就是函數(shù)近似(Function Approximation)。函數(shù)近似的目的是用高效經(jīng)濟的方式盡可能精確地描述復(fù)雜的函數(shù)映射。實際問題中的目標函數(shù)可能是圖像識別應(yīng)用中從微觀像素到圖片類別的映射,可能是AlphaGo 中圍棋的局面到最終勝率的估計,也可能是Atari 視頻游戲中的畫面到***控制策略的映射等等。讀者也許已經(jīng)看出來了,以上這幾個函數(shù)恐怕都很難用一個簡潔的方式表達。即使考慮一個極端簡化的情形:怎樣描述有N 個二進制自變量的多元函數(shù)?原則上,我們當然可以存儲一個2N 行的表格來精確表達這樣一個函數(shù)。這個表格的每一行對應(yīng)了一種可能的輸入和輸出,函數(shù)的計算也就等價于查表??墒侵灰狽 ≳ 70 ,即使用上全世界所有的存儲介質(zhì),我們也沒有能力存下這張表格,更不要說對它進行高效的查找了。
機器學(xué)習(xí)中的連接主義學(xué)派(Connectionism)提倡使用人工神經(jīng)網(wǎng)絡(luò)(Artifical Neural Network)來解決這類函數(shù)近似問題。連接主義強調(diào)復(fù)雜的現(xiàn)象(比如智能)不來自于相對簡單的組成單元,而來自于這些單元之間的連接。圖1(a),(b)展示了兩種常見的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。圖1(a)是前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network)。圖中的每一個藍色圓圈代表一個人工神經(jīng)元,它接受上一層結(jié)果作為輸入,加權(quán)求和之后通過一個非線性的激活函數(shù)傳遞給下一層??梢?,前饋神經(jīng)網(wǎng)絡(luò)是通過多層非線性函數(shù)的嵌套來表達復(fù)雜的多元函數(shù)的。而圖1(b)顯示了另外一種函數(shù)參數(shù)化方式:限制玻爾茲曼機(Restricted Boltzmann Machine)。從名字就可以看出,玻爾茲曼機和統(tǒng)計物理有著十分密切的關(guān)聯(lián)。我們可以將它理解成一個統(tǒng)計力學(xué)系統(tǒng),其中包含了兩組相互作用的隨機變量:顯變量(紅色)和隱變量(藍色)。“玻爾茲曼機”的名字來源于這些隨機變量的聯(lián)合概率分布遵循統(tǒng)計物理中的玻爾茲曼分布。而“限制”這個詞來源于圖1(b)中所示的特殊網(wǎng)絡(luò)結(jié)構(gòu):所有連接都僅在顯層和隱層之間。和全連接的玻爾茲曼機相比,這樣的結(jié)構(gòu)可以極大地提高計算效率。而對于一個只關(guān)心顯變量的觀察者來說,即便顯層內(nèi)部沒有直接的相互作用,隱層神經(jīng)元所誘導(dǎo)的有效相互作用還是可以將它們關(guān)聯(lián)起來。
圖1 幾種參數(shù)化多元函數(shù)的方式(a)前饋神經(jīng)網(wǎng)絡(luò);(b)限制玻爾茲曼機;(c)矩陣乘積態(tài)
與使用一個2N 行的表格相比,圖1(a),(b)中所示的兩類網(wǎng)絡(luò)結(jié)構(gòu)都可以用少得多的參數(shù)近似表達復(fù)雜的多元函數(shù)。在實際應(yīng)用中,我們可以通過調(diào)節(jié)前饋神經(jīng)網(wǎng)絡(luò)中的權(quán)重參數(shù),使得它學(xué)會從圖片像素信息中分辨其中物體的種類。或者,我們也可以調(diào)節(jié)限制玻爾茲曼機中隨機變量之間的相互作用強度,使得顯變量的概率分布盡可能重現(xiàn)目標數(shù)據(jù)集的分布。訓(xùn)練好的玻爾茲曼機可以生成更多遵循目標概率分布的新樣本。以上兩類任務(wù)分別對應(yīng)了判別型學(xué)習(xí)(Discriminative Learning) 和生成型學(xué)習(xí)(Generative Learning)。打個比方,判別型學(xué)習(xí)相當于學(xué)會認字,而生成型學(xué)習(xí)的目標是學(xué)會寫字。正如費曼在他的黑板上留下的那句名言“What I can not create,I do not understand”,學(xué)會寫可比學(xué)會讀困難得多,也要求更深層次的理解。判別型學(xué)習(xí)支撐著大量當下成功的商業(yè)應(yīng)用,而探索生成型學(xué)習(xí)的模型和算法則代表了深度學(xué)習(xí)研究的前沿和未來。
在實際應(yīng)用中,人們希望使用通用的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)表達盡可能復(fù)雜多變的函數(shù)形式。這自然引出一個問題:圖1(a),(b)所示的網(wǎng)絡(luò)都能夠表達什么樣的函數(shù)形式?為此,人們證明了所謂的“普適表示定理”:隨著網(wǎng)絡(luò)中隱層神經(jīng)元個數(shù)的增加,圖1(a)中所示的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(即使只有單個隱層)可以任意逼近任何的連續(xù)函數(shù)。類似地,通過增加圖1(b)中限制玻爾茲曼機的隱層神經(jīng)元數(shù)目,它也可以表達關(guān)于顯變量任意復(fù)雜的概率分布函數(shù)。然而遺憾的是,針對一個具體的函數(shù)近似問題,以上這些普適表示定理沒辦法告訴我們至少需要多少隱層神經(jīng)元,也沒辦法告訴我們究竟如何確定這些神經(jīng)元之間的連接權(quán)重。而現(xiàn)實中我們關(guān)心的首要問題就是:給定有限的計算時間和存儲資源,應(yīng)該如何***地分配它們呢?
經(jīng)過多年的摸索實踐,人們有一個關(guān)鍵的發(fā)現(xiàn):在參數(shù)個數(shù)一樣的情況下,深層的神經(jīng)網(wǎng)絡(luò)比淺層的網(wǎng)絡(luò)具有更強的表達能力。訓(xùn)練越來越深的神經(jīng)網(wǎng)絡(luò)來近似表達復(fù)雜的函數(shù)形式,是深度學(xué)習(xí)這個名詞中“深度”的來源。當然,神經(jīng)網(wǎng)絡(luò)的表達能力也并不是越強越好。過于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)不僅增加了計算量,還可能造成神經(jīng)網(wǎng)絡(luò)過擬合(Over-fitting),這就是典型的“過猶不及”。神經(jīng)網(wǎng)絡(luò)的表達能力***是與需要描述的函數(shù)的復(fù)雜程度相匹配。為此,人們設(shè)計出了種類繁多的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。很多這些結(jié)構(gòu)設(shè)計主要由工程實踐經(jīng)驗驅(qū)動,這使得深度學(xué)習(xí)得到了“經(jīng)驗主義”的名聲。利用人工神經(jīng)網(wǎng)絡(luò)作函數(shù)近似的初衷是利用它們的通用性,不需要太多的人為介入就可以自動尋找到數(shù)據(jù)中的關(guān)鍵特征(Feature)。可當神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得越來越多樣之后,面臨網(wǎng)絡(luò)的人為選擇問題,我們又回到了起點。
因此,人們迫切需要一些更具指導(dǎo)意義的判別標準,來幫助我們定量化地界定神經(jīng)網(wǎng)絡(luò)的表達能力和數(shù)據(jù)集的復(fù)雜程度,以便在不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)之間作出比較和取舍。為此我們需要對于神經(jīng)網(wǎng)絡(luò)所表達的對象——現(xiàn)實世界中的多元函數(shù)——有更深刻的理解。在我們前面的例子中,雖然所有可能的輸入原則上有2N 種,但典型的輸入其實通常遵循某一特定分布。關(guān)于目標數(shù)據(jù)分布和函數(shù)性質(zhì)的先驗知識(Prior Knowledge)有助于指導(dǎo)我們設(shè)計合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。一個最明顯的先驗知識就是函數(shù)的對稱性。比如,在圖像識別的例子中,圖片的種類與其中物體的具體位置無關(guān)。類似地,對于圍棋局面的估值對盤面構(gòu)型也應(yīng)該具有反演和旋轉(zhuǎn)不變性。在圖1(a)的網(wǎng)絡(luò)中實現(xiàn)這些限制,我們就得到了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)。它使用局域感知區(qū)(Local Receptive Fields)掃描整張圖片尋找特征,通過不同感知區(qū)共享權(quán)重來保證函數(shù)的不變性。如何發(fā)掘和利用更多類似的“先驗知識”是深度學(xué)習(xí)成功的關(guān)鍵。
與上述例子類似,量子物理的研究中也常常使用到函數(shù)近似。比如,一個量子自旋體系的波函數(shù)無非是一個關(guān)于自旋構(gòu)型的多元函數(shù)。和深度學(xué)習(xí)中的目標一樣,我們也希望使用盡量簡單的參數(shù)化方式和盡量少的參數(shù)描述盡可能復(fù)雜的波函數(shù)??偨Y(jié)一句話,那就是“天網(wǎng)恢恢,疏而不漏”。圖1(c)顯示量子多體物理研究中常用的一種參數(shù)化波函數(shù)的方法:矩陣乘積態(tài)(Matrix Product State)。它的基本組成單元是紅色方塊所示的三階張量。豎線代表物理指標,而方塊之間的橫線則稱為“虛擬鍵”(Vitual Bond)。橫線之間的連接代表對于虛擬鍵指標的求和。不難猜測,隨著虛擬鍵維數(shù)(Vitual Bond Dimension)的增大,矩陣乘積態(tài)可以表達關(guān)于物理指標愈加復(fù)雜的函數(shù)。除了增加虛擬鍵維數(shù),另一種增加矩陣乘積態(tài)表達能力的方法是將圖1(c)中所示的方塊推廣成為更高階的張量,也就是增加虛擬鍵的個數(shù)。將所有虛擬鍵連接起來,求和完所有的內(nèi)部張量指標,就得到了前文提到的張量網(wǎng)絡(luò)態(tài)。和深度學(xué)習(xí)中種類繁多的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一樣,物理學(xué)家也發(fā)明了很多不同結(jié)構(gòu)的張量網(wǎng)絡(luò)態(tài)以及相對應(yīng)的算法。然而,和深度學(xué)習(xí)不同的是,物理學(xué)家們對于張量網(wǎng)絡(luò)的表達能力有著更為定量化的理解:關(guān)鍵在于量子糾纏!切割一個張量網(wǎng)絡(luò)態(tài)所斷開的虛擬鍵的個數(shù)和維數(shù)與這個網(wǎng)絡(luò)能夠描述的糾纏熵直接相關(guān)。而另一方面,雖然量子多體問題的希爾伯特空間非常大,但幸運的是大多數(shù)人們感興趣的量子態(tài)只是其中的一個很小的子集。這些態(tài)的量子糾纏熵并不是任意的,而是遵循前文提到的面積定律。張量網(wǎng)絡(luò)態(tài)恰好抓住了物理問題的這個重要特性,因而獲得成功。在實際研究中,物理學(xué)家們通常針對具體物理問題的糾纏大小和模式來靈活選擇設(shè)計張量網(wǎng)絡(luò)態(tài)結(jié)構(gòu)。在這個意義下,量子糾纏其實就是指引物理學(xué)家們應(yīng)用張量網(wǎng)絡(luò)研究量子多體問題的“先驗知識”。
3. 深度學(xué)習(xí)助力量子物理
從函數(shù)近似的觀點看,深度學(xué)習(xí)和量子物理之間的聯(lián)系非常顯然。即便在上一次連結(jié)主義學(xué)派研究的低潮期,也曾有過一些使用人工神經(jīng)網(wǎng)絡(luò)作為量子體系的變分波函數(shù)的嘗試。最近,Carleo 和Troyer嘗試使用限制玻爾茲曼機作為量子自旋體系的多體變分波函數(shù),得到了非常精確的基態(tài)能量和非平衡動力學(xué)的結(jié)果。值得注意的是,傳統(tǒng)的限制玻爾茲曼機只能表達取值為正的概率分布函數(shù),為了讓它們適合于描述帶有相位信息的波函數(shù),Carleo 等將限制玻爾茲曼機的參數(shù)推廣到復(fù)數(shù)域。另外,實際計算中Carleo 等采用的函數(shù)形式其實是多個共享權(quán)重的限制玻爾茲曼機的乘積。這樣的結(jié)構(gòu)等價于一個單隱層的卷積神經(jīng)網(wǎng)絡(luò),從而在結(jié)構(gòu)上保證了物理體系的空間平移不變性。Carleo 和Troyer 的結(jié)果激起了人們極大的興趣,沿著這個思路往下:類似的人工神經(jīng)網(wǎng)絡(luò)還能夠描述其他豐富多彩的物質(zhì)態(tài)嗎?
對于這個問題, 鄧東靈、李曉鵬和Das Sarma給出了一個構(gòu)造性的回答。他們舉例說明限制玻爾茲曼機的函數(shù)形式可以表達幾種受到普遍關(guān)注的拓撲態(tài)。而蔡子直接訓(xùn)練圖1(a)所示的前饋神經(jīng)網(wǎng)絡(luò)以測試它們能否學(xué)會表達一些典型的玻色子、費米子、阻挫磁性態(tài)的波函數(shù)。這些嘗試進一步展示了人工神經(jīng)網(wǎng)絡(luò)作為量子多體波函數(shù)的潛力??墒?,是否有更一般的理論定量地描述這類人工神經(jīng)網(wǎng)絡(luò)變分波函數(shù)的優(yōu)勢和局限性呢?為了回答這些問題,鄧東靈等人 研究了限制玻爾茲曼機的糾纏表達能力。他們發(fā)現(xiàn)稠密連接的限制玻爾茲曼機原則上能夠承載超越面積定律的量子糾纏。本文作者與謝海東、向濤利用等價變換的思路,在玻爾茲曼機和張量網(wǎng)絡(luò)態(tài)之間建立起了一座橋梁。這樣就可以通過分析對應(yīng)的張量網(wǎng)絡(luò)態(tài)來回答前面關(guān)于玻爾茲曼機的種種問題。我們發(fā)現(xiàn)恢復(fù)平移不變的波函數(shù)構(gòu)造是Carleo 等計算成功的一個關(guān)鍵點,這樣的構(gòu)造在不增加變分參數(shù)的情況下巧妙地增加了變分波函數(shù)表達能力的上限。郜勛和段路明則從計算復(fù)雜性理論的角度分析論證了限制玻爾茲曼機的局限性,并指出深層的玻爾茲曼機可以高效地描述幾乎所有已知的量子態(tài)。他們的工作表明糾纏熵并非刻畫表達能力的唯一標準。還需要注意的是,更強的表達能力并不意味著在實際計算中能夠找得到更好的函數(shù)近似。另外,黃溢辰和Moore也研究了玻爾茲曼機在量子多體問題中的表達能力。以上這些理論發(fā)現(xiàn),為設(shè)計更經(jīng)濟高效的量子多體試探波函數(shù)提供了方向性指引。深度學(xué)習(xí)的領(lǐng)軍人物Yann LeCun也注意到了這一系列來自物理學(xué)領(lǐng)域的工作。他在Facebook 上分享了自己對于量子糾纏、黑洞熵以及張量網(wǎng)絡(luò)態(tài)的理解,并在***總結(jié)道:“迷人的聯(lián)系”。
4. 量子糾纏指引深度學(xué)習(xí)
上述這些工作的研究思路是使用神經(jīng)網(wǎng)絡(luò)近似量子多體波函數(shù)。有趣的是,使用逆向思維,量子多體物理也能夠幫助回答一些關(guān)于深度學(xué)習(xí)的問題。比如,我們可以從量子糾纏的視角來說明深度學(xué)習(xí)中的深度為什么重要??紤]圖2 中所示的兩個玻爾茲曼機,它們的隱層神經(jīng)元個數(shù)和權(quán)重參數(shù)個數(shù)都完全相等。不同之處在于圖2(a)的隱層神經(jīng)元呈淺層扁平化排列,而在圖2(b)中隱層神經(jīng)元沿縱深方向排列成了層級結(jié)構(gòu)。
圖2
圖2兩個不同架構(gòu),但參數(shù)個數(shù)相等的玻爾茲曼機(a)限制玻爾茲曼機;(b)深層玻爾茲曼機。紅色虛線框中的神經(jīng)元承載了網(wǎng)絡(luò)左右部分的糾纏。一旦去除它們,網(wǎng)絡(luò)就分成了獨立的兩部分
為了分析比較圖2 中兩種網(wǎng)絡(luò)表達能力的優(yōu)劣,我們按照文獻的思路將它們分別轉(zhuǎn)化成矩陣乘積態(tài)。由于是等價轉(zhuǎn)換,相應(yīng)的矩陣乘積態(tài)的虛擬鍵維數(shù)限定了原來的玻爾茲曼機承載糾纏能力的上限。而根據(jù)文獻,要估計對應(yīng)的虛擬鍵維數(shù),只需要檢查在玻爾茲曼機中去除多少個神經(jīng)元就可以將網(wǎng)絡(luò)從兩側(cè)斷開。如圖2 中虛線方框所示,深層玻爾茲曼機所對應(yīng)的虛擬鍵維數(shù)更大,從而能夠比淺層的玻爾茲曼機負載更大的糾纏。以上的分析僅依賴于玻爾茲曼機的結(jié)構(gòu)而不涉及到任何權(quán)重的數(shù)值信息。通過這樣的分析,我們從量子糾纏的角度說明了深層結(jié)構(gòu)的重要性:深層玻爾茲曼機在擁有同樣參數(shù)個數(shù)的情況下具有相對更強的表達能力上限。這里,張量網(wǎng)絡(luò)態(tài)不僅僅是一個分析手段。作為一個副產(chǎn)品,我們也理解了它與玻爾茲曼機在函數(shù)近似上的各自優(yōu)缺點。比如,為了表達同樣的量子態(tài),玻爾茲曼機所用的參數(shù)個數(shù)可以比張量網(wǎng)絡(luò)態(tài)少得多。然而,對于某些特定狀態(tài)使用限制玻爾茲曼機表達卻不如張量網(wǎng)絡(luò)態(tài)方便。
除了幫助分析神經(jīng)網(wǎng)絡(luò)的表達能力,量子糾纏也可以作為深度學(xué)習(xí)應(yīng)用的“先驗知識”:它定量地描述數(shù)據(jù)集的復(fù)雜度,并相應(yīng)地指導(dǎo)設(shè)計人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。作為一個例子,讓我們考慮機器學(xué)習(xí)里的一個典型數(shù)據(jù)集:MNIST。如圖3 所示,MNIST中包含六萬張形態(tài)各異的手寫數(shù)字圖片。每一張都是28 × 28 的黑白圖像,其像素灰度取值0~255 。所有可能圖像的數(shù)目是一個天文數(shù)字: 25628×28 。然而,可以想象,真正有意義的手寫數(shù)字圖片只占據(jù)著這個巨大無比的“像素空間”中的一個小角落。聯(lián)想到前文所述,大多數(shù)物理上有興趣的量子態(tài)同樣僅僅占據(jù)希爾伯特空間的一個小角落。我們可以將MNIST中的圖片看作是對于某一量子波函數(shù)測量所得的構(gòu)型快照。類比于對量子體系的分析,我們可以將每張圖片切成兩半,然后研究兩部分之間的量子糾纏。注意,如此定義的糾纏熵是對于整個數(shù)據(jù)集的分布而言的,并非對于單張圖片。數(shù)據(jù)集的糾纏特征指導(dǎo)我們在學(xué)習(xí)的過程中合理地分配資源。比如,注意到MNIST 數(shù)據(jù)集中每一張圖片的邊緣都是黑色的。這意味著圖片邊緣像素的取值不依賴于任何其他像素,從而不與它們形成糾纏。假如使用玻爾茲曼機來學(xué)習(xí)這樣的概率分布,就完全不需要使用隱變量來傳導(dǎo)它們之間的關(guān)聯(lián)。而另一方面,遮住MNIST圖片的一半,還能夠猜測出另一半大致的模樣。這就意味著圖片的這兩部分之間存在糾纏。糾纏熵的具體數(shù)值定量地告訴我們至少需要多少隱層神經(jīng)元,以及怎樣的連接結(jié)構(gòu)才能描述好這樣的數(shù)據(jù)集。
圖3 MNIST數(shù)據(jù)集中的一些樣本
曾獲得英特爾國際科學(xué)與工程大獎的少年Henry W. Lin 和MIT 的宇宙學(xué)家Max Tegmark 等合作指出,深度學(xué)習(xí)成功的關(guān)鍵不僅僅依賴于數(shù)學(xué),更依賴于物理學(xué)規(guī)律。任何我們關(guān)心的實際數(shù)據(jù)集——無論是自然圖像還是語音信號——都是現(xiàn)實世界的反映。這也意味著它們通常表現(xiàn)出局域關(guān)聯(lián)、存在對稱性、呈現(xiàn)層級結(jié)構(gòu)等特征。在本文作者看來,量子糾纏正可以定量化地挖掘和利用這些來自于物理定律的先驗知識。雖然,自然數(shù)據(jù)集的糾纏熵未必遵循面積定律,但它們離***糾纏的飽和值還應(yīng)該差得遠。這啟發(fā)我們借用處理量子多體問題的思路,針對數(shù)據(jù)集的特點相應(yīng)地設(shè)計合適的函數(shù)近似手段。讀者也許會感到奇怪,絕大多數(shù)現(xiàn)實應(yīng)用中遇到的數(shù)據(jù)不都是經(jīng)典的嗎?為什么非要引入量子糾纏的概念呢?經(jīng)典信息論難道不夠用嗎?這里我們援引美國計算機科學(xué)家和量子信息學(xué)家Scott Aaronson 的觀點:將量子力學(xué)看作是經(jīng)典概率論的數(shù)學(xué)推廣,而量子糾纏就是一個描述多參數(shù)函數(shù)性質(zhì)的實用數(shù)學(xué)工具。文獻就是采用類似的研究思路使用量子糾纏來分析刻畫現(xiàn)實世界中的復(fù)雜網(wǎng)絡(luò)的。
以上的討論都是針對生成型學(xué)習(xí)而言的,那么,量子糾纏對于理解判別型的學(xué)習(xí)是否也有類似的幫助呢?考慮到深層的前饋神經(jīng)網(wǎng)絡(luò)在現(xiàn)實世界中的廣泛應(yīng)用,這是目前深度學(xué)習(xí)研究的一個熱點問題。這方面一個很有啟發(fā)的工作來自計算物理學(xué)家Stoudenmire和生物物理學(xué)家Schwab,他們成功訓(xùn)練了一個矩陣乘積態(tài)來識別MNIST 數(shù)據(jù)集中的數(shù)字。他們的成功說明,從MNIST的像素到數(shù)字標記的函數(shù)映射的糾纏熵看起來并不大,完全可以被矩陣乘積態(tài)有效描述。無獨有偶,耶路撒冷希伯來大學(xué)的計算機科學(xué)家Amnon Shashua 所領(lǐng)導(dǎo)的團隊一直致力于使用張量分析的手段研究人工神經(jīng)網(wǎng)絡(luò)。經(jīng)過一系列前期工作的鋪墊,他們的注意力最近也被吸引到量子糾纏這個概念上。2017 年4 月初,Shashua 等人在arXiv 上貼出一篇題為“Deep Learning and Quantum Entanglement: Fundamental Connections with Implications to Network Design”的長文。這篇論文的***作者Yoav Levine 碩士期間在以色列的魏茨曼科學(xué)院(Weizmann Institute of Science)學(xué)習(xí)理論凝聚態(tài)物理,現(xiàn)在則是Shashua的博士生。在這篇文章中,Levine 等人采用與文獻類似的策略,將一類特殊的卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為張量網(wǎng)絡(luò)態(tài)。這樣就可以通過對于張量網(wǎng)絡(luò)的最小切割(Min-Cut)分析來確定原來的人工神經(jīng)網(wǎng)絡(luò)的糾纏表達能力了。作為一個具體的例子,他們考慮了“上寬下窄”和“上窄下寬”兩種結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),并從理論上證明其性能的優(yōu)劣取決于目標數(shù)據(jù)集的糾纏特性。他們在MNIST數(shù)據(jù)集上設(shè)計數(shù)值實驗,也的確驗證了這些理論預(yù)言。
可見,在深度學(xué)習(xí)與量子多體物理的交界處正在形成一個新興研究方向,量子糾纏正是連接它們的橋梁。一些嗅覺敏銳的研究者已經(jīng)意識到了對方的思想、方法和技術(shù)對于本領(lǐng)域的幫助,正在積極地相互學(xué)習(xí)。預(yù)計隨著更多思維活躍的研究者的加入,深度學(xué)習(xí)和量子多體物理的研究會碰撞出更加燦爛的火花。
5. 結(jié)語
量子多體物理和深度學(xué)習(xí)的相遇也許本不應(yīng)使人驚訝,畢竟,這兩個領(lǐng)域都關(guān)心大量微觀自由度組成的復(fù)雜體系中涌現(xiàn)出來的宏觀現(xiàn)象。人們?yōu)榱苏J識自然界豐富多彩的量子物態(tài)所形成的工具,也許可以幫助我們設(shè)計出更智能的人工神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)算法。“量子機器學(xué)習(xí)”(Quantum Machine Learning)是一個正在蓬勃發(fā)展的領(lǐng)域,本文僅介紹了其中的冰山一角。感興趣的讀者可參閱《物理》雜志上的介紹文章和最近的綜述。
愛因斯坦有一句名言:“自然是微妙的,可她沒有惡意”。隱藏在這個紛繁復(fù)雜的世界背后的結(jié)構(gòu)算得上是微妙吧??梢坏┳プ≡E竅,居然可以用幾行簡潔美妙的公式理解。深度學(xué)習(xí)是不是能幫我們捕捉自然的善意呢?我們把這個問題放在這里,期待量子物理和機器學(xué)習(xí)的邂逅可以幫助我們發(fā)現(xiàn)更多自然的微妙!