馴服AI,更懂物理!何愷明團(tuán)隊(duì)提出全新DHN「去噪哈密頓網(wǎng)絡(luò)」
近日,何愷明團(tuán)隊(duì)提出了去噪哈密頓網(wǎng)絡(luò)(Denoising Hamiltonian Network,DHN),就像給物理知識開了掛。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法雖然能處理一些簡單的物理關(guān)系,但面對復(fù)雜的物理系統(tǒng)時(shí),卻顯得力不從心。
來自MIT、斯坦福、西北大學(xué)等的研究者將哈密頓力學(xué)算子推廣到神經(jīng)網(wǎng)絡(luò)中,不僅能捕捉非局部時(shí)間關(guān)系,還能通過去噪機(jī)制減輕數(shù)值積分誤差。
論文鏈接:https://arxiv.org/abs/2503.07596
現(xiàn)有的方法對相鄰時(shí)間步之間的局部關(guān)系進(jìn)行建模,這就像是只看到了樹木,卻忽略了整個(gè)森林。
這種局限性使模型在處理復(fù)雜物理系統(tǒng)時(shí),難以把握系統(tǒng)的全局特征和高級別的相互作用。
另一方面,它們專注于正向模擬,而忽視了更廣泛的物理推理任務(wù)。
實(shí)際應(yīng)用中,往往還需要解決許多其他問題,比如從稀疏的觀測數(shù)據(jù)中推斷物理參數(shù),對不完整的軌跡進(jìn)行修復(fù),或者提高軌跡數(shù)據(jù)的分辨率等。
DHN:物理推理的創(chuàng)新引擎
DHN的出現(xiàn)突破了傳統(tǒng)機(jī)器學(xué)習(xí)在物理推理中的局限,它將哈密頓力學(xué)巧妙地推廣到神經(jīng)網(wǎng)絡(luò)。
哈密頓力學(xué)是經(jīng)典力學(xué)的一種重要表述形式,它通過哈密頓量來描述系統(tǒng)的能量和狀態(tài)變化。
DHN引入了塊式離散哈密頓的概念。它把系統(tǒng)狀態(tài)按照時(shí)間維度劃分為一個(gè)個(gè)狀態(tài)塊,每個(gè)狀態(tài)塊包含多個(gè)時(shí)間步的狀態(tài)信息。
通過這種方式,DHN可以捕捉到更長時(shí)間范圍內(nèi)的狀態(tài)關(guān)系,突破了傳統(tǒng)方法只能關(guān)注局部時(shí)間步的限制。
就像看一段舞蹈表演,不再是只關(guān)注每一個(gè)瞬間的動作,而是能夠連貫地看到舞者在一段時(shí)間內(nèi)的整體動作變化和節(jié)奏韻律。
塊式離散哈密頓
將狀態(tài)塊定義為沿時(shí)間維度連接的(p,q)狀態(tài)堆疊,即
其中b為塊大小。引入步長s作為一個(gè)可定義的超參數(shù),取代固定的時(shí)間間隔Δt。
這種方法使網(wǎng)絡(luò)能夠捕捉更廣泛的時(shí)間相關(guān)性,同時(shí)保持哈密頓結(jié)構(gòu)的不變性。
通過關(guān)聯(lián)兩個(gè)重疊的狀態(tài)塊(每個(gè)塊大小為b,偏移步長為s)來定義分塊離散哈密頓量:
下圖展示了一個(gè)塊大小b=4且步長s=2的分塊離散哈密頓量。經(jīng)典HNN可被視為塊大小b=1且步長s=1的特例。
類似于HNN,分塊離散哈密頓網(wǎng)絡(luò)可通過以下?lián)p失函數(shù)訓(xùn)練:
去噪機(jī)制
DHN的去噪機(jī)制是其一大亮點(diǎn)。
受到去噪擴(kuò)散模型的啟發(fā),DHN在訓(xùn)練過程中會對輸入狀態(tài)添加不同程度的噪聲,然后通過網(wǎng)絡(luò)自身的學(xué)習(xí)能力,逐步去除這些噪聲,恢復(fù)出真實(shí)的物理狀態(tài)。
通過這種方式,DHN能有效減輕數(shù)值積分誤差,提高模型在長期預(yù)測中的穩(wěn)定性。不同的噪聲模式能讓DHN在各種噪聲條件下保持良好的適應(yīng)性。
不同掩碼模式
通過在訓(xùn)練過程中設(shè)計(jì)不同的掩碼模式,研究團(tuán)隊(duì)實(shí)現(xiàn)了靈活的推理策略,以適應(yīng)不同的任務(wù)。
圖中展示了三種不同的掩碼模式:
- 自回歸(autoregression):對塊的最后幾個(gè)狀態(tài)進(jìn)行掩碼,這類似于物理模擬中的前向建模,用于下一狀態(tài)預(yù)測。
- 超分辨率(super-resolution):對塊中間的狀態(tài)進(jìn)行掩碼,可用于數(shù)據(jù)插值。
- 任意階(arbitrary-order):包括隨機(jī)掩碼,掩碼模式可根據(jù)任務(wù)需求自適應(yīng)設(shè)計(jì)。
DHN網(wǎng)絡(luò)架構(gòu)
僅解碼Transformer架構(gòu)
對于每個(gè)哈密頓塊,網(wǎng)絡(luò)的輸入由不同時(shí)刻的堆疊以及
堆疊組成,同時(shí)引入一個(gè)全局潛在編碼z,用于對整個(gè)軌跡進(jìn)行條件控制。
僅解碼Transformer采用類似于GPT的僅解碼架構(gòu),但不包含因果注意力掩碼。
對所有輸入token應(yīng)用自注意力機(jī)制,將其作為長度為2b+1的序列處理。
其中,全局潛在編碼z作為查詢token,用于輸出哈密頓值。
DHN還將每個(gè)狀態(tài)的噪聲尺度編碼到位置嵌入中,讓網(wǎng)絡(luò)更好地感知噪聲對狀態(tài)的影響。
研究者實(shí)現(xiàn)了一個(gè)簡單的兩層Transformer,在單個(gè)GPU上就能高效運(yùn)行。
自動解碼
為了高效地存儲和優(yōu)化系統(tǒng)特定的嵌入,DHN采用了自動解碼架構(gòu)。
與傳統(tǒng)的依賴編碼器網(wǎng)絡(luò)來推斷潛在編碼的方法不同,DHN為每個(gè)軌跡維護(hù)一個(gè)可學(xué)習(xí)的潛在編碼z。
這就好比為每個(gè)軌跡建立了一個(gè)專屬的「記憶庫」,在訓(xùn)練過程中,網(wǎng)絡(luò)權(quán)重和潛在編碼會聯(lián)合優(yōu)化,不斷地調(diào)整和完善這個(gè)「記憶庫」。
訓(xùn)練完成后,當(dāng)遇到新的軌跡時(shí),只需凍結(jié)網(wǎng)絡(luò)權(quán)重,對新軌跡的潛在編碼進(jìn)行優(yōu)化,就能快速適應(yīng)新的情況。
實(shí)驗(yàn)中的卓越表現(xiàn)
為驗(yàn)證DHN的有效性,研究人員進(jìn)行了一系列實(shí)驗(yàn),涵蓋了多個(gè)不同的物理推理任務(wù)。
正向模擬
在正向模擬任務(wù)中,DHN需根據(jù)初始條件,逐步預(yù)測物理系統(tǒng)的未來狀態(tài)。
在單擺和雙擺系統(tǒng)中,通過在DHN塊內(nèi)應(yīng)用掩碼策略,讓模型學(xué)習(xí)預(yù)測未來狀態(tài)。
在擬合已知軌跡的實(shí)驗(yàn)中,與傳統(tǒng)的HNN相比,DHN在預(yù)測單擺和雙擺的狀態(tài)時(shí),誤差更小。
當(dāng)塊大小為2時(shí),DHN能穩(wěn)定地守恒總能量,而HNN雖然是一個(gè)保證能量守恒的網(wǎng)絡(luò),但由于數(shù)值積分器的影響,仍然會出現(xiàn)不可控的能量漂移。
在對新軌跡進(jìn)行補(bǔ)全的實(shí)驗(yàn)中,DHN同樣表現(xiàn)優(yōu)異。它能從稀疏的初始觀測中準(zhǔn)確地推斷系統(tǒng)動力學(xué),并預(yù)測未來狀態(tài)。
相比之下,HNN和其他沒有物理約束的基線模型在處理新軌跡時(shí),誤差較大,難以準(zhǔn)確預(yù)測未來狀態(tài)。
表示學(xué)習(xí)
表示學(xué)習(xí)是評估模型對物理系統(tǒng)參數(shù)編碼和區(qū)分能力的重要任務(wù)。
DHN用隨機(jī)掩碼模式,利用去噪和隨機(jī)掩碼這兩種自監(jiān)督學(xué)習(xí)技術(shù),來增強(qiáng)在動態(tài)物理系統(tǒng)中的表示學(xué)習(xí)能力。
研究人員在雙擺系統(tǒng)上進(jìn)行實(shí)驗(yàn),預(yù)測擺長比。
通過對自動解碼器和代碼進(jìn)行預(yù)訓(xùn)練,然后用線性回歸層對潛在代碼進(jìn)行線性探測,結(jié)果顯示,DHN在學(xué)習(xí)表示物理屬性方面很出色。
與HNN和普通網(wǎng)絡(luò)相比,DHN的均方誤差更低,能夠更準(zhǔn)確地捕捉到物理系統(tǒng)的潛在特征。
研究還發(fā)現(xiàn),在雙擺系統(tǒng)中,塊大小為4是推斷其參數(shù)的最佳時(shí)間尺度。
下圖展示了不同塊大小和步長的DHN的結(jié)果。對于簡單的雙層Transformer,最佳的塊大小和步長約為,具有適度的重疊。
軌跡插值
軌跡插值是DHN展示靈活性的另一個(gè)重要任務(wù)。DHN用漸進(jìn)式超分辨率技術(shù),通過重復(fù)應(yīng)用2倍超分辨率來實(shí)現(xiàn)4倍超分辨率。
研究人員構(gòu)建了塊大小b=2、步長s=1的DHN塊,對不同稀疏度的軌跡進(jìn)行插值。
實(shí)驗(yàn)結(jié)果表明,在處理與訓(xùn)練集初始狀態(tài)相同的軌跡時(shí),DHN和基于CNN的方法都能取得較好的插值效果。
但在處理具有未見過初始狀態(tài)的軌跡時(shí),CNN由于嚴(yán)重依賴訓(xùn)練分布,難以泛化,而DHN憑借其受物理約束的表示,能夠推斷出合理的中間狀態(tài),展現(xiàn)出了強(qiáng)大的泛化能力。
盡管DHN在物理推理領(lǐng)域取得了顯著的成果,但它也面臨著一些挑戰(zhàn)。
其中一個(gè)主要挑戰(zhàn)是計(jì)算成本較高,相比傳統(tǒng)Transformer,DHN需要更密集的梯度計(jì)算,這也限制了它的應(yīng)用范圍。
參考資料: