LeCun贊轉!類Sora模型能否理解物理規(guī)律?字節(jié)豆包大模型團隊系統(tǒng)性研究揭秘
視頻生成模型雖然可以生成一些看似符合常識的視頻,但被證實目前還無法理解物理規(guī)律!
自從 Sora 橫空出世,業(yè)界便掀起了一場「視頻生成模型到底懂不懂物理規(guī)律」的爭論。圖靈獎得主 Yann LeCun 明確表示,基于文本提示生成的逼真視頻并不代表模型真正理解了物理世界。之后更是直言,像 Sora 這樣通過生成像素來建模世界的方式注定要失敗。
Keras 之父 Fran?ois Chollet 則認為,Sora 這樣的視頻生成模型確實嵌入了「物理模型」,但問題是:這個物理模型是否準確?它能否泛化到新的情況,即那些不僅僅是訓練數據插值的情形?這些問題至關重要,決定了生成圖像的應用范圍 —— 是僅限于媒體生產,還是可以用作現(xiàn)實世界的可靠模擬。最后他指出,不能簡單地通過擬合大量數據來期望得到一個能夠泛化到現(xiàn)實世界所有可能情況的模型。
此后,關于視頻生成模型到底有沒有在學習、理解物理規(guī)律,業(yè)界始終沒有一個定論。直到近日,字節(jié)豆包大模型團隊公布的一項系統(tǒng)性研究,為兩者之間的關系「劃上了不等號」。
該團隊通過大規(guī)模實驗發(fā)現(xiàn) —— 即便依照 Scaling Law 擴大模型參數與訓練數據量,模型依然無法抽象出一般物理規(guī)則,甚至連牛頓第一定律、拋物線運動都無法領會。
「視頻生成模型目前就像一個只會『抄作業(yè)』的學生,可以記憶案例,但還無法真正理解物理規(guī)律,做到『舉一反三』。因此,模型遇到未學習過的場景就會『犯迷糊』,生成結果與物理規(guī)則不符。」研究作者表示。
相關推文在 X 發(fā)布后,獲得 Yann LeCun 點贊轉發(fā),還評價道 —— 結果雖不意外,但有人嘗試研究確實是一件好事。
此外,CV 大牛謝賽寧和常年活躍的 Gary Marcus 等人也紛紛跟進關注。
- 論文標題:How Far is Video Generation from World Model: A Physical Law Perspective
- 論文鏈接:https://arxiv.org/abs/2411.02385
- 展示頁面:https://phyworld.github.io
Sora 的世界里,物理學存在么?
此前 Sora 發(fā)布時,OpenAI 就在其宣傳頁面寫道:我們的成果揭示了 —— 提升視頻生成模型參數與數據量,為構建物理世界通用模擬器,提供了一條可行之路。
給人希望的同時,業(yè)內質疑聲紛至沓來,很多人并不認為基于 DiT 架構的視頻生成模型能夠真正理解物理規(guī)律。其中尤以 LeCun 為代表,一直以來,這位人工智能巨頭一直堅稱,基于概率的大語言模型無法理解常識,其中包括現(xiàn)實物理規(guī)律。
盡管大家眾說紛紜,但市面上,系統(tǒng)性針對該問題的研究一直寥寥。出于對這一課題的好奇,字節(jié)豆包大模型相關團隊于 2024 年初啟動了這一研究立項,并歷經 8 個月終于完成系統(tǒng)性實驗。
原理與實驗設計
在本次工作中,如何定量分析視頻生成模型對于物理規(guī)律的理解,是一大挑戰(zhàn)。
豆包大模型團隊通過專門開發(fā)的物理引擎合成了勻速直接運動、小球碰撞、拋物線運動等經典物理場景的運動視頻,用于訓練基于主流 DiT 架構的視頻生成模型。然后,通過檢驗模型后續(xù)生成的視頻在運動和碰撞方面是否符合力學定律,判斷模型是否真正理解了物理規(guī)律,并具有「世界模型」的潛力。
針對視頻生成模型在學習物理定律時的泛化能力,團隊探討了下面三種場景的表現(xiàn):
- 分布內泛化 (In-Distribution, ID):指訓練數據和測試數據來自同一分布。
- 分布外泛化 (Out-of-Distribution, OOD) :分布外泛化指的是模型在面對從未見過的新場景時,是否能夠將已學過的物理定律應用到未知的情境。
- 組合泛化 (Combinatorial Generalization):組合泛化介于 ID 和 OOD 之間,此種情況下,訓練數據已包含了所有「概念」或物體,但這些概念、物體并未以所有可能的組合或更復雜的形式出現(xiàn)。
在基于視頻的觀察中,每一幀代表一個時間點,物理定律的預測則對應于根據過去和現(xiàn)在的幀生成未來的幀。因此,團隊在每個實驗中都訓練一個基于幀條件的視頻生成模型,來模擬和預測物理現(xiàn)象的演變。
通過測量生成視頻每個幀(時間點)中物體位置變化,可判斷其運動狀態(tài),進而與真實模擬的視頻數據比對,判斷生成內容是否符合經典物理學的方程表達。
實驗設計方面,團隊聚焦于由基本運動學方程支配的確定性任務。這些任務能清晰定義分布內 (ID) 和分布外 (OOD) 泛化,并且能夠進行直觀的誤差量化評估。
團隊選擇了以下三種物理場景進行評估,每種運動由其初始幀決定:
- 勻速直線運動:一個球水平移動,速度保持恒定,用于說明慣性定律。
- 完美彈性碰撞:兩個具有不同大小和速度的球水平相向運動并發(fā)生碰撞,體現(xiàn)了能量與動量守恒定律。
- 拋物線運動:一個帶有初始水平速度的球因重力作用下落,符合牛頓第二定律。
針對組合泛化場景,團隊使用 PHYRE 模擬器評估模型的組合泛化能力。PHYRE 是一個二維模擬環(huán)境,其中包括球、罐子、桿子和墻壁等多個對象,它們可以是固定或動態(tài)的,且能進行碰撞、拋物線軌跡、旋轉等復雜物理交互,但環(huán)境中的底層物理規(guī)律是確定性的。
視頻數據構造方面,每一個視頻考慮了八種物體,包括兩個動態(tài)灰色球、一組固定的黑色球、一個固定的黑色條形、一個動態(tài)條形、一組動態(tài)立式條形、一個動態(tài)罐子和一個動態(tài)立式棍子。
每個任務包含一個紅色球和從這八種類型中隨機選擇的四個物體,總共形成種獨特的模板。數據示例如下:
對于每個訓練模板,團隊保留了一小部分視頻用于創(chuàng)建模板內測試集(in-template evaluation set),再保留 10 個未使用的模板,用于模板外測試集(out-of-template evaluation set),以評估模型對訓練時未見過的新組合的泛化能力。
實驗結果與分析
豆包大模型團隊的實驗發(fā)現(xiàn),即使遵循「Scaling Law」增大模型參數規(guī)模和數據量,模型依然無法抽象出一般物理規(guī)則,做到真正「理解」。
以最簡單的勻速直線運動為例,當模型學習了不同速度下小球保持勻速直線運動的訓練數據后,給定初始幾幀,要求模型生成小球在訓練集速度區(qū)間內勻速直線運動的視頻,隨著模型參數和訓練數據量的增加,生成的視頻逐漸更符合物理規(guī)律。
然而,當要求模型生成未曾見過的速度區(qū)間(即超出訓練數據范圍)的運動視頻時,模型突然不再遵循物理規(guī)律,并且無論如何增加模型參數或訓練數據,生成的結果都沒有顯著改進。這表明,視頻生成模型無法真正理解物理規(guī)律,也無法將這些規(guī)律泛化應用到全新的場景中。
不過,研究中也有一個好消息:如果訓練視頻中所有概念和物體都是模型已熟悉的,此時加大訓練視頻的復雜度,比如組合增加物體間的物理交互,通過加大訓練數據,模型對物理規(guī)律的遵循將越來越好。這一結果可為視頻生成模型繼續(xù)提升表現(xiàn)提供啟發(fā)。
具體而言,在分布內泛化(ID)的測試中,團隊觀察到,隨著模型規(guī)模增大(從 DiT-S 到 DiT-L)或訓練數據量的增加(從 30K 到 3M),模型在所有三種物理任務中的速度誤差都降低。這表明,模型規(guī)模和數據量的增加對分布內泛化至關重要。
然而,分布外泛化(OOD)與分布內泛化(ID)結果形成鮮明對比:
- 更高的誤差:在所有設置中,OOD 速度誤差比 ID 高出一個數量級 (~0.02 v.s. ~0.3)。
- 擴展數據和模型規(guī)模的影響有限:與分布內泛化不同,擴展訓練數據和模型規(guī)模對降低 OOD 誤差幾乎沒有影響。這表明,簡單的數據量和模型規(guī)模的增加無法有效提升模型在 OOD 場景中的推理能力。
至于組合泛化場景,從下表可看到,當模板數量從 6 個增加到 60 個時,所有度量指標(FVD、SSIM、PSNR、LPIPS)在模版外測試集上均顯著的提升。尤其是異常率(生成視頻違背物理定律的比例),從 67% 大幅下降至 10%。這表明,當訓練集覆蓋了更多組合場景時,模型能夠在未見過的組合中展現(xiàn)出更強的泛化能力。
然而,對于模板內測試集,模型在 6 個模板的訓練集上的 SSIM、PSNR 和 LPIPS 等指標上表現(xiàn)最佳,因為每個訓練示例被反復展示。
這些結果表明,模型容量和組合空間的覆蓋范圍對組合泛化至關重要。這意味著,視頻生成的 Scaling Law 應當側重于增加組合多樣性,而不僅僅是擴大數據量。
圖注:在模版外測試集上生成的樣本視頻。第一行:真實視頻。第二行:使用 60 個模板訓練的模型生成的視頻。第三行:使用 30 個模板訓練的模型生成的視頻。第四行:使用 6 個模板訓練的模型生成的視頻。
機理探究:模型如何依賴記憶和案例模仿
前文提及,視頻生成模型對于分布外泛化表現(xiàn)不佳,但在組合場景下,數據和模型 Scaling 可帶來一定提升,這究竟來自于案例學習,還是對底層規(guī)律的抽象理解?團隊著手進行了相關實驗。
- 模型似乎更多依賴記憶和案例模仿
使用勻速運動視頻進行訓練,速度范圍為 v∈[2.5, 4.0],并使用前 3 幀作為輸入條件。我們使用兩個數據集訓練,再對照結果,Set-1 只包含從左到右移動的球,而 Set-2 則包含從左到右移動的球和從右到左移動的球。
如下圖所示,給定進行低速正向(從左到右)運動的幀條件,Set-1 模型生成視頻只有正速度,且偏向高速范圍。相比之下,Set-2 模型偶爾會生成負速度的視頻,正如圖中綠色圓圈所示。
面對兩者之間的區(qū)別,團隊猜測,這可能是由于模型認為,與低速度球更接近的是訓練數據中反方向運動的小球,導致模型受到訓練數據中「誤導性」示例影響。換而言之,模型似乎更多依賴于記憶和案例模仿,而非抽象出普遍的物理規(guī)則,實現(xiàn)分布外泛化(OOD)。
- 模型更多靠顏色尋找模仿對象
在前文,我們已探索獲知 —— 模型更多依賴記憶和相似案例進行模仿并生成視頻,更進一步,則須分析哪些屬性對其模仿影響較大。
在比對顏色、形狀、大小和速度四個屬性后,團隊發(fā)現(xiàn),基于擴散技術的的視頻生成模型天生更偏向其他屬性而非形狀,這也可能解釋了為什么當前的開放集視頻生成模型通常在形狀保持上存在困難。
如下圖,第一行是真實視頻,第二行是視頻模型生成的內容,顏色很好的保持了一致,但其形狀難以保持。
兩兩對比后,團隊發(fā)現(xiàn)視頻生成模型更習慣于通過「顏色」尋找相似參考生成物體運動狀態(tài),其次是大小,再次是速度,最后才是形狀。顏色 / 大小 / 速度對形狀的影響情況如下圖:
- 復雜組合泛化情況
最后,對于復雜的組合泛化為何能夠發(fā)生,團隊提出視頻模型具有三種基本的組合模式,分別為:屬性組合、空間組合(多個物體不同運動狀態(tài))、時間組合(不同的時間點多個物體的不同狀態(tài))。
實驗結果發(fā)現(xiàn),對于速度與大小或顏色與大小等屬性對,模型展現(xiàn)出一定程度的組合泛化能力。同時,如下圖所示,模型能夠通過對訓練數據的局部片段進行時間 / 空間維度的再組合。
然而值得注意的是,并不是所有的情況下都能通過組合泛化生成遵循物理規(guī)律的視頻。模型對案例匹配的依賴限制了其效果。在不了解底層規(guī)則的情況下,模型檢索并組合片段,可能會生成不符合現(xiàn)實的結果。
- 視頻表征的局限性
最后,團隊探索了在視頻表征空間進行生成是否足以作為世界模型,結果發(fā)現(xiàn),視覺模糊性會導致在細粒度物理建模方面出現(xiàn)顯著的誤差。
例如下圖,當物體尺寸差異僅在像素級別時,單純通過視覺判斷一個球是否能通過間隙變得十分困難,這可能導致看似合理但實際上錯誤的結果。
5圖注:第一行是真實視頻,第二行為模型生成的視頻。
這些發(fā)現(xiàn)表明,單純依賴視頻表示不足以進行精確的物理建模。
團隊介紹
該論文核心作者有兩位,其中之一為豆包大模型團隊 95 后研究員 Bingyi Kang,此前他負責的研究項目 Depth Anything 同樣取得了業(yè)界的廣泛關注,并被收入蘋果 CoreML 庫中。
據 Bingyi 分享,世界模型概念早已被提出,自 AlphaGo 誕生時,「世界模型」 一詞已在業(yè)內傳開,Sora 爆火后,他決定先從視頻生成模型能否真正理解物理規(guī)律入手,一步步揭開世界模型機理。
這當中有三四周時間,項目毫無進展,直到一次實驗,大家注意到一個很隱蔽的反常規(guī)現(xiàn)象,借此設計對比試驗后,他們確認了「模型其實不是在總結規(guī)律,而是在匹配跟他最接近的樣本」。
「做 research 往往不是說,你突然有個很好的 idea,然后你一試它就 work 了,很多時候你都是在排錯。但經過一段時間的試錯,你很可能突然發(fā)現(xiàn)某一個方向有解了?!笲ingyi 表示。
盡管研究耗時 8 個月,每天對著視頻中的虛擬小球做定量實驗,但大家更多感受到的不是枯燥,而是「好玩」和「燒腦」,回憶這段,他感慨:「團隊對基礎研究給了充分的探索空間。」
另一位 00 后同學也是核心參與者之一,據他分享,本次研究是他經歷過的最具挑戰(zhàn)性、最耗時的項目,涉及對物理引擎、評測系統(tǒng)、實驗方法的構建,非常繁瑣,當中還有好幾次項目「卡頓」住。不過,團隊負責人和 Mentor 都給予了耐心和鼓勵,「沒人催趕緊把項目做完」。