物理視頻真實生成!大連理工&莫納什大學(xué)團隊提出物理合理的視頻生成框架
最近,來自大連理工和莫納什大學(xué)的團隊提出了物理真實的視頻生成框架 VLIPP。通過利用視覺語言模型來將物理規(guī)律注入到視頻擴散模型的方法來提升視頻生成中的物理真實性。
- 論文主頁: https://madaoer.github.io/projects/physically_plausible_video_generation/
- 論文鏈接: https://arxiv.org/abs/2503.23368
視頻擴散模型近年來取得了顯著進展,能夠生成高度逼真的視頻內(nèi)容,其作為世界模擬器的潛力已引起學(xué)界廣泛關(guān)注。然而,盡管功能強大,這類模型由于內(nèi)在物理理解的缺失,相信大家在使用 VDMs 的時候一定會發(fā)現(xiàn)問題:VDMs 生成的視頻并不符合物理規(guī)律。即使是商用的閉源模型,在物理場景上的表現(xiàn)也不夠理想。
本文認(rèn)為這樣的局限有兩個原因,首先是視頻擴散模型的訓(xùn)練數(shù)據(jù)一般是文本 - 視頻對,其中包含物理現(xiàn)象的數(shù)據(jù)占比很少,且物理現(xiàn)象在視頻中表現(xiàn)存在高度的抽象性和多樣性,很難去獲取合適的數(shù)據(jù)來進行訓(xùn)練。其次,擴散模型更多依賴記憶和案例模仿,無法抽象出一般的物理規(guī)則,無法真正理解物理。
為突破這一局限,本文提出了一種新穎的符合物理規(guī)律的視頻生成框架,通過顯式引入物理約束來解決該問題。作者發(fā)現(xiàn)語言模型對于物理有一定的理解能力,如果告訴語言模型兩個正在發(fā)生碰撞的小球的位置,它能夠大概地預(yù)測出這兩個小球在發(fā)生碰撞之后的后續(xù)位置。受此啟發(fā),本文提出的生成框架包含兩個階段,第一階段將視覺語言模型作為粗粒度的運動規(guī)劃器,使其提供一個粗略的物理可能的運動路徑,第二階段將視頻擴散模型作為一個細(xì)粒度的運動合成器,根據(jù)上一階段預(yù)測的物理可能的路徑來生成細(xì)粒度的運動。
實驗結(jié)果表明,本文提出的框架能生成符合物理規(guī)律的運動序列,對比評估顯示了該方法相較于現(xiàn)有技術(shù)在物理視頻生成上的顯著優(yōu)越性。這一成果證明了將語言模型的物理知識先驗引入擴散模型的可能性,并為擴散模型作為世界模擬器帶來了更大的可能性。
方法
在這項工作中,研究者們提出了一種針對物理場景的視頻生成框架,如上圖所示,利用視覺語言模型理解物理定律和規(guī)劃可能的運動路徑,根據(jù)預(yù)測的路徑在運動可控的擴散模型中生成視頻。
具體來說,在第一階段中,作者將視頻中常見的物理現(xiàn)象分為六類:重力、動量守恒、光學(xué)、熱力學(xué)、磁學(xué)和流體力學(xué),語言模型根據(jù)視頻的場景描述提取符合該場景的物理定律,結(jié)合物理定律和圖像信息進行思維鏈?zhǔn)酵评恚鸩椒治鑫锢矶蓭淼挠绊?,以及其在視覺空間上的對應(yīng),最終預(yù)測出圖像空間內(nèi)對象的未來邊界框位置。
第二階段中,擴散模型需要根據(jù)預(yù)測的運動路徑進行視頻生成。作者認(rèn)為在上一階段中視覺語言模型可能存在幻覺和規(guī)劃錯誤的情況,因此規(guī)劃的路徑只能作為粗粒度的運動引導(dǎo)。在本階段通過規(guī)劃的運動路徑合成運動序列,并根據(jù)光流計算得到結(jié)構(gòu)化噪聲,結(jié)合視頻擴散模型的生成先驗來細(xì)化粗略的生成先驗,以生成與真實世界動態(tài)一致的物理上合理的運動。
實驗結(jié)果
在實驗環(huán)節(jié),本文在兩個評估物理場景視頻真實性的指標(biāo)上與現(xiàn)有的方法進行了定性和定量的對比。如圖和表所示,本文的方法在兩個評估指標(biāo) Physical-IQ 和 PhyGenBench 上都取得了最佳的表現(xiàn)效果,并在機械運動、流體運動、熱力學(xué)和材料學(xué)等方面表現(xiàn)突出。
下面展示更多的實驗結(jié)果。
結(jié)論
雖然 VDMs 現(xiàn)在能夠生成視覺真實程度非常高的視頻,但由于它本身缺乏對于物理定律的理解從而無法生成物理可能的視頻。本論文提出了新穎的視頻生成框架,通過將物理定律注入到 VDMs 中來提升對物理的理解。實驗結(jié)果驗證了我們的視頻生成框架要明顯優(yōu)于現(xiàn)在的方法。這一成果證明了將語言模型的物理知識先驗引入擴散模型的可能性,并為擴散模型作為世界模擬器帶來了更大的可能性。