將哈密頓力學(xué)泛化到神經(jīng)算子,何愷明團(tuán)隊(duì)又發(fā)新作,實(shí)現(xiàn)更高級物理推理
繼上月末連發(fā)兩篇論文(擴(kuò)散模型不一定需要噪聲條件和分形生成模型)之后,大神何愷明又出新作了!這次的主題是「用于物理推理的去噪哈密頓網(wǎng)絡(luò)」。
物理推理包含推斷、預(yù)測和解釋動態(tài)系統(tǒng)行為的能力,這些是科學(xué)研究的基礎(chǔ)。應(yīng)對此類挑戰(zhàn)的機(jī)器學(xué)習(xí)框架通常被期望超越僅僅記憶數(shù)據(jù)分布的做法,從而維護(hù)物理定律,解釋能量和力的關(guān)系,并納入超越純數(shù)據(jù)驅(qū)動模型的結(jié)構(gòu)化歸納偏差??茖W(xué)的機(jī)器學(xué)習(xí)通過將物理約束直接嵌入神經(jīng)網(wǎng)絡(luò)架構(gòu)(通常通過顯式構(gòu)建物理算子)來解決這一挑戰(zhàn)。
不過,這些方法面臨兩個關(guān)鍵限制。其一,這些方法主要學(xué)習(xí)局部時(shí)序更新(預(yù)測從一個時(shí)間步驟到下一個時(shí)間步驟的狀態(tài)轉(zhuǎn)換),而不捕獲遠(yuǎn)程依賴或抽象的系統(tǒng)級交互。其二,這些方法主要關(guān)注前向模擬,從初始條件預(yù)測系統(tǒng)的演變,而在很大程度上忽略了超分辨率、軌跡修復(fù)或從稀疏觀測中進(jìn)行參數(shù)估計(jì)等互補(bǔ)任務(wù)。
為了解決這些限制,何愷明等來自 MIT、斯坦福大學(xué)等機(jī)構(gòu)的研究者提出了去噪哈密頓網(wǎng)絡(luò)(Denoising Hamiltonian Network,DHN),這是一個將哈密頓力學(xué)泛化到神經(jīng)算子的框架。
- 論文標(biāo)題:Denoising Hamiltonian Network for Physical Reasoning
- 論文地址:https://arxiv.org/pdf/2503.07596
下圖 1 為去噪哈密頓網(wǎng)絡(luò)(DHN)概覽。
研究者表示,DHN 在利用神經(jīng)網(wǎng)絡(luò)靈活性的同時(shí)實(shí)施物理約束,帶來以下三項(xiàng)關(guān)鍵創(chuàng)新。
首先,DHN 通過將系統(tǒng)狀態(tài)組合視為 token 來擴(kuò)展哈密頓神經(jīng)算子以捕獲非局部時(shí)間關(guān)系,從而能夠從整體上對系統(tǒng)動態(tài)進(jìn)行推理,而不是分步推理。
其次,DHN 集成了一個去噪目標(biāo),其靈感來自去噪擴(kuò)散模型,用于減輕數(shù)值積分誤差。通過迭代地將其預(yù)測細(xì)化為物理上有效的軌跡,DHN 提高了長期預(yù)測的穩(wěn)定性,同時(shí)保持了在不同噪聲條件下的適應(yīng)性。此外,通過利用不同的噪聲模式,DHN 支持在各種任務(wù)場景中進(jìn)行靈活的訓(xùn)練和推理。
最后,研究者引入了全局條件以促進(jìn)多系統(tǒng)建模。一個共享的全局潛在代碼被用來對系統(tǒng)特定屬性(例如質(zhì)量、擺長)進(jìn)行編碼,使 DHN 能夠在統(tǒng)一框架下對異構(gòu)物理系統(tǒng)進(jìn)行建模,同時(shí)保持底層動態(tài)的解耦表示。
在實(shí)驗(yàn)部分,為了評估 DHN 的通用性,研究者通過三個不同的推理任務(wù)對其進(jìn)行了測試,包括軌跡預(yù)測和完成、從部分觀察中推斷物理參數(shù),以及通過漸進(jìn)式超分辨率插入稀疏軌跡。
總之,這項(xiàng)工作推動了在局部時(shí)序關(guān)系之外嵌入物理約束的更通用架構(gòu)的發(fā)展,為更廣泛的物理推理應(yīng)用開辟了道路,超越了傳統(tǒng)的前向模擬和下一狀態(tài)預(yù)測。
論文一作 Congyue Deng 發(fā)推表示,過去通過擴(kuò)展卷積算子使其從低級圖像處理上升到高級視覺推理,如今 DHN 可以通過擴(kuò)展物理算子來實(shí)現(xiàn)更高級的物理推理。
同時(shí),她也提出了三個開放性問題,包括「如何定義深度學(xué)習(xí)中的物理推理」、「什么是物理模擬」、「神經(jīng)網(wǎng)絡(luò)應(yīng)該具備哪些物理屬性」。她說到,DHN 不是最終的解決方案,只是一個開始。
方法概覽
本文的目標(biāo)是設(shè)計(jì)更通用的神經(jīng)算子,既遵循物理約束,又釋放神經(jīng)網(wǎng)絡(luò)作為可優(yōu)化黑盒函數(shù)的靈活性和表現(xiàn)力。研究者首先問了一個問題:除了下一狀態(tài)預(yù)測之外,我們還能建模哪些「物理關(guān)系」?
下圖 2 比較了三種不使用機(jī)器學(xué)習(xí)來建模物理系統(tǒng)的經(jīng)典方法,包括如下:
- 全局解析解決方案。對于具有規(guī)則結(jié)構(gòu)的簡單系統(tǒng),人們通常直接得出閉式解。
- PDE + 數(shù)值積分,在更復(fù)雜的環(huán)境中,如果沒有閉式解,標(biāo)準(zhǔn)做法是將系統(tǒng)的動態(tài)過程表示為 PDE,然后通過數(shù)值方法逐步求解。
- 直接全局關(guān)系。在某些復(fù)雜系統(tǒng)中(例如沒有耗散力的純保守系統(tǒng)),時(shí)間上相距較遠(yuǎn)的狀態(tài)可以直接使用全局守恒定律(例如能量守恒定律)來關(guān)聯(lián)。
圖 3 展示了一個離散的哈密頓網(wǎng)絡(luò)(右),用于計(jì)算時(shí)間步長 t_0 和 t_1 之間的狀態(tài)關(guān)系。研究者主要使用哈密頓 H^+(右)來描述他們的網(wǎng)絡(luò)設(shè)計(jì)。
去噪哈密頓網(wǎng)絡(luò)
掩碼建模和去噪。研究者希望哈密頓塊不僅能對跨時(shí)間步的狀態(tài)關(guān)系進(jìn)行建模,還能學(xué)習(xí)每個時(shí)間步的狀態(tài)優(yōu)化,以便進(jìn)行推理。為此,他們采用了掩碼建模策略,在訓(xùn)練網(wǎng)絡(luò)時(shí)屏蔽掉部分輸入狀態(tài)(圖 5)。
這里不是簡單地屏蔽輸入狀態(tài),而是用不同幅度的噪聲采樣對輸入狀態(tài)進(jìn)行擾動(圖 5)。這種策略可確保模型學(xué)會迭代改進(jìn)預(yù)測,使其能夠從損壞或不完整的觀測結(jié)果中恢復(fù)有物理意義的狀態(tài)。
具體來說,研究者定義了一個噪聲水平遞增的序列
以阻塞輸入狀態(tài)為例,研究者隨機(jī)采樣高斯噪聲
和每個狀態(tài)的噪聲規(guī)模
。
在實(shí)驗(yàn)中,去噪步數(shù)設(shè)置為 10。在推理時(shí),研究者用一連串同步于所有未知狀態(tài)的遞減噪聲尺度對未知狀態(tài)進(jìn)行逐步去噪。他們同時(shí)應(yīng)用和
來迭代更新
和
。
不同的掩碼模式通過在訓(xùn)練過程中設(shè)計(jì)不同的掩碼模式,可以根據(jù)不同的任務(wù)制定靈活的推理策略。圖 6 展示了三種不同的掩碼模式:通過屏蔽一個數(shù)據(jù)塊的最后幾個狀態(tài)來實(shí)現(xiàn)自回歸,這類似于利用前向建模進(jìn)行下一狀態(tài)預(yù)測的物理模擬;通過掩碼一個數(shù)據(jù)塊中間的狀態(tài)來實(shí)現(xiàn)超分辨率,這可應(yīng)用于數(shù)據(jù)插值;更廣泛地說,包括隨機(jī)掩碼在內(nèi)的任意順序掩碼,掩碼模式根據(jù)任務(wù)要求進(jìn)行自適應(yīng)設(shè)計(jì)。
網(wǎng)絡(luò)架構(gòu)
純解碼器 Transformer。對于每個哈密頓塊,網(wǎng)絡(luò)輸入是不同時(shí)間步的棧、
棧,研究者還引入了整個軌跡的全局潛碼 z 作為條件。如圖 7 所示,研究者采用了一種純解碼器 Transformer,它類似于類似于 GPT 的純解碼器架構(gòu),但沒有因果注意力掩碼。
研究者將所有輸入 token作為長度為 2b + 1 的序列應(yīng)用了自注意力。全局潛碼 z 作為查詢 token,用于輸出哈密頓值 H。還通過在位置嵌入中添加每個狀態(tài)的噪聲標(biāo)度,將其編碼到網(wǎng)絡(luò)中。在實(shí)驗(yàn)中,研究者實(shí)現(xiàn)了一個適合單 GPU 的簡單雙層 Transformer。
自解碼。研究者沒有依賴編碼器網(wǎng)絡(luò)從軌跡數(shù)據(jù)中推斷全局潛碼,而是采用了自解碼器框架,為每條軌跡維護(hù)一個可學(xué)習(xí)的潛碼 z(圖 8)。這種方法允許模型高效地存儲和完善特定系統(tǒng)的嵌入,而不需要單獨(dú)的編碼過程。在訓(xùn)練過程中,研究者會聯(lián)合優(yōu)化網(wǎng)絡(luò)權(quán)重和代碼庫。訓(xùn)練結(jié)束后,給定一個新軌跡,凍結(jié)網(wǎng)絡(luò)權(quán)重,只優(yōu)化新軌跡的潛碼。
實(shí)驗(yàn)
研究者用兩種設(shè)置來評估模型:單擺和雙擺。兩種設(shè)置都包含一個模擬軌跡數(shù)據(jù)集。單擺是一個周期性系統(tǒng),每個狀態(tài)下的總能量都可以通過(q, p)直接計(jì)算出來,因此此處用它來評估模型的能量守恒能力。雙擺是一個混沌系統(tǒng),微小的擾動會導(dǎo)致未來狀態(tài)的偏離。
他們用與圖 6 中三種不同掩碼模式相對應(yīng)的三種不同任務(wù)來測試模型。它們分別是:(i) 用于前向模擬的下一狀態(tài)預(yù)測(自回歸);(ii) 用于物理參數(shù)推斷的隨機(jī)掩蔽表示學(xué)習(xí);以及 (iii) 用于軌跡插值的漸進(jìn)式超分辨率。這些任務(wù)突出了 DHN 對各種物理推理挑戰(zhàn)的適應(yīng)性,測試了它在不同觀測限制條件下生成、推斷和插值系統(tǒng)動態(tài)的能力。
前向模擬
- 擬合已知軌跡
圖 9 顯示了采用不同塊大小的模型與采用不同數(shù)值積分器的 HNN 的比較結(jié)果。左圖和右圖分別是單擺和雙擺系統(tǒng)在每個時(shí)間步的 q 預(yù)測值的均方誤差(MSE)。中間的圖顯示了一個示例軌跡上的平均總能量誤差和總能量的演變。對于 DHN,每個時(shí)間步的狀態(tài)優(yōu)化由去噪機(jī)制建模,無需變分積分器。當(dāng)塊大小為 2 時(shí),本文的模型可以穩(wěn)定地保存總能量。增加塊大小會在較長的時(shí)間范圍內(nèi)引起能量波動,但這種波動并沒有表現(xiàn)出明顯的能量漂移傾向。
- 以新穎的軌跡完成
圖 10 顯示了與 HNN(上行)和各種無物理約束基線模型(下行)的比較結(jié)果。本文的 DHN 采用較小的塊大小,狀態(tài)預(yù)測更準(zhǔn)確,節(jié)能效果更好。
表征學(xué)習(xí)
圖 11 展示了與 HNN 和常規(guī)網(wǎng)絡(luò)相比,DHN 在不同塊大小(s = b/2)下的線性探測結(jié)果。與基線網(wǎng)絡(luò)相比,本文的模型實(shí)現(xiàn)了更低的 MSE。如圖 4 所示,HNN 可以看作是哈密頓塊的特例,其核大小和步長均為 1,具有最強(qiáng)的局部性。研究者引入的塊大小和跨度允許模型在不同尺度上觀察系統(tǒng)。在這個雙擺系統(tǒng)中,塊大小為 4 是推斷其參數(shù)的最佳時(shí)間尺度。
圖 12 展示了不同塊大小和步長的 DHN 結(jié)果。如圖 12b 所示,哈密頓塊的輸入和輸出狀態(tài)有一個 b-s 時(shí)間步長的重疊區(qū)域。哈密頓塊的廣義能量守恒依賴于重疊區(qū)域具有相同的輸入和輸出。在訓(xùn)練過程中,這一約束作為狀態(tài)預(yù)測損失的一部分強(qiáng)加給網(wǎng)絡(luò)。較大的重疊會對網(wǎng)絡(luò)施加更強(qiáng)的正則化,但會鼓勵網(wǎng)絡(luò)執(zhí)行更多的自一致性約束,而不是更多的狀態(tài)間關(guān)系。相反,減少重疊度的同時(shí)增加跨度,可以鼓勵模型吸收更多時(shí)間上較遠(yuǎn)的狀態(tài)信息,但代價(jià)是削弱自洽性約束,從而影響穩(wěn)定性。在重疊等于塊大小 b 且跨度為零的極端情況下,DHN 塊的輸入和輸出完全相同,訓(xùn)練損失退化為自相干約束。HNN 是另一種重疊為零的特殊情況(因?yàn)閴K大小為 1,重疊只能為零)。如 12b 所示,對于簡單雙層 transformer,最佳的塊大小和跨度約為 s≈ b/2,重疊量適中。
軌跡插值
研究者通過重復(fù)應(yīng)用 2 倍超分辨率來實(shí)現(xiàn) 4 倍超分辨率。如圖 13 左所示,為每個階段構(gòu)建一個 b = 2、s = 1 的 DHN 塊。不同稀疏度的軌跡塊如圖 13 右所示。掩碼應(yīng)用于中間狀態(tài),邊上的兩個狀態(tài)是已知的。
在所有三個超分辨率階段中,每個軌跡都與共享的全局潛碼相關(guān)聯(lián),從而為訓(xùn)練集形成一個結(jié)構(gòu)化代碼集。在訓(xùn)練過程中,網(wǎng)絡(luò)權(quán)重和這些潛碼會在逐步細(xì)化階段(0、1、2)中共同優(yōu)化。在推理時(shí),給定一個僅在最稀疏水平(第 0 階段)已知狀態(tài)的新軌跡,研究者凍結(jié)了 DHN 塊中的所有網(wǎng)絡(luò)權(quán)重,并優(yōu)化第 0 階段的全局潛碼。
最后,研究者將本文模型與用于超分辨率的 CNN 進(jìn)行了比較,結(jié)果如圖 14 所示。對于與訓(xùn)練數(shù)據(jù)具有相同初始狀態(tài)的軌跡,兩個模型都顯示出較好的插值結(jié)果,MSE 也較低?;€ CNN 的結(jié)果稍好,因?yàn)樗旧頉]有正則化,很容易過擬合訓(xùn)練軌跡。對于具有未知初始狀態(tài)的測試軌跡,CNN 難以實(shí)現(xiàn)泛化,因?yàn)槠洳逯翟诤艽蟪潭壬弦蕾囉谟?xùn)練分布。相比之下,DHN 具有很強(qiáng)的泛化能力,因?yàn)槠湮锢砑s束表征使其即使在分布變化的情況下也能推斷出可信的中間狀態(tài)。
更多研究細(xì)節(jié),可參考原論文。