在2025年初,淺淺聊一聊世界模型 World Models
Update 1月10日:
感謝評論區(qū)補充world model在RL中的定義!感覺在RL中的定義,world model是針對一個具體子任務的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多從:Language Generation Model (ChatGPT)->Image Generation Model(StableDiffusion)->Video/3D Geneartion Model (二者各有側重因此平級)->World Generation Model(同時具備時序和空間序建模)這么一個趨勢。當然這個World似乎想要包容一切,于是也并不清晰到底是什么樣的表征:是否是video sequence? 是否是3d representation? 如何表征物理? 輸入的關系如何? 這些都是 open research question.
不過隱約認為,一個真正的World Model應該建模下列性質:
- 空間序列(X,Y,Z): 建模幾何
- 時間序列(t): 建模動態(tài)
- 稠密表征: 紋理,光照,渲染過程,物理含義
- 語義實例: 環(huán)境并非一個整體,而是分解成各個具體物體,從而實現物體級的控制和重組
- 生成式模型: 建模一個概率分布而非一個樣本
- 可微分: 梯度可以從前往后,也可以從后往前傳遞,于是能作為模塊被plug-in一個更大的復雜模型中
在上述基礎上最后實現高逼真可微分渲染,并附帶空間、時序的一致性。目前市面上一切模型都是上述最終版本的子集。
由于其復雜性,感覺可以明確的是:訓練它需要的數據和運算資源是空前的,人類互聯網上擁有的一切數據(text, image, video一切模態(tài))可能都不夠訓這么一個模型,只能訓練它在特定場景下的子模型。
原文回答:
World Model 最近是一個比較火的概念,最近有不少公司接二連三提出這個概念并推出相關Demo。在國內外都引發(fā)了一些討論。國內的公司關注點主要在大語言模型、人形機器人、Embodied AI,尚未有公司直接跟進。在此淺淺點評一下這幾家公司的技術,就當圖一樂。
首先World Model尚未被明確定義,因此我們可以先看看別的公司以及其Demo怎么說的:
李飛飛 World Labs
www.worldlabs.ai/blog
這是最早舉起旗幟的公司。從放出的Demo來看,X上也有人提到非常像Cat3D。走的路線是先生成2D圖像,然后通過2D圖像優(yōu)化3D表征。更早期的朋友肯定也會想到DreamFusion系列。
當然具體細節(jié)未公布,如果基于這套方案,優(yōu)勢和缺點很顯然:
優(yōu)勢在于可以用上基于大規(guī)模圖像數據訓練的圖像生成器(比如StableDiffusion),得益于大規(guī)模二維圖像數據容易獲得,可以生成非常廣闊(Diverse)、可控(Text-driven)的圖像類別,從而實現Diverse的三維結構生成。
缺點 (1)三維一致性。從給出的Demo來看,人物移動的范圍有限,這是因為從本質上,該方案恢復的三維結構并未、而且理論并不可能,完全收斂。于是,在被約束的視角之外,必然能明顯看到幾何結構的缺失和不一致。(2) 由于需要優(yōu)化,速度很慢。一個場景甚至需要幾小時。
未來預測。該方案在短期內能得到明顯改善,如通過微調訓練StableDiffusion進行更精確可控的二維圖像生成,然而,個人對這個路線比較悲觀,因為它希望從大量低維度的信息分布去恢復高維結構信息,理論上決定了這是Local Minimum。當然很可能有秘密武器在里面,期待公司的下一輪Update。
Google Gemini-2
deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
Google 緊隨其后推出了一個Demo。這套方案與李飛飛的World Labs方案完全不一樣。它是Next-frame Prediction。簡單來說,這個模型只根據馬爾可夫假設,只根據前幾幀的信息預測下一幀(的Token),可以理解為ChatGPT的圖像版本。因此:
(1)這個模型并不顯示建模三維信息。該模型并不具有一個3D表征,如NeRF或GS,相反,它只根據復雜的映射關系(比如一群MLP或者當然Transformers結構)去推測下一幀。我們能看到似乎有一定的幾何一致性,完全是大量數據暴力擬合的結果。當然,這非常神奇!
(2)因此,該模型將非常靈活,由于不明顯建模幾何,意味著它能突破幾何限制建模更復雜的東西:如動態(tài),物理,紋理,甚至交互關系如對輸入控制信號的condition。當然,一切都有代價,無限的輸出空間意味著非常難以訓練。因此個人仍然對該路線悲觀——視頻信號并不如文本/圖像信號一般易得,具有維度詛咒。我們無法得到如此大的數據去訓練一個有效的模型。這意味著最終效果很可能局限于低分辨率,高延遲,以及簡單的世界交互復雜度。
不過考慮到Google的技術水平顯然可以繼續(xù)狠狠期待,最近Deepmind還挖走了OpenAI Sora的負責人來做World Model,肯定不久還有大更新。諾獎得主哈薩比斯加持的Deepmind,是這一波浪潮妥妥的頂級選手。
視頻生成模型,如OpenAI Sora等
sora.com/
Video Generation 模型個人一直不認為是世界模型。當然學術界有討論說Sora是不是World Simulators. OpenAI自然樂得大家把它看成一個World Simulators,但個人淺薄地認為:視頻生成模型,正如Gemini-2,缺乏高維結構的顯示建模。盡管猛地一看,都在輸出連續(xù)sequence圖像,但一個世界模型應該具備更清晰的高維結構,而圖像輸出只是它在某一個時刻、某一個位置的投影罷了。舉例而言,一個3D NeRF/GS是可以被以任意軌跡、相機模型和分辨率要求去渲染輸出一致的視頻的。這只是一個幾何層面的例子,世界模型的高維結構理應比簡單的幾何結構復雜,甚至具備物體語義以及物理模型的理解。當然具體如何表征,仍然是open question。
Nvidia Cosmos
www.nvidia.com/en-us/ai/cosmos/
非常應景,Nvidia在昨天CES推出了Cosmos模型。說實話粗一看并不知道這是什么東西,這到底是一個仿真器,還是一個Video生成器,還是一個更復雜的模型?暫時沒有時間閱讀出的報告,但從一個表格里的比較來看,作者在和Video Generation模型比較,暫且歸納為text-conditioned視頻生成模型吧。
Niantics Labs
nianticlabs.com/news/largegeospatialmodel?hl=en
Niantics對比前面幾家公司沒那么出名。它的前身是Google Map,獨立出來之后做三維建圖和增強現實,它的產品Pokemon GO更有名氣一些。由于公司特性,它具有大量現實世界路標、景點的掃描數據,都來自眾包的游戲玩家掃描。最近也推出了Large Geospatial Model。然而并不認為這是世界模型,因為它只輸出相機定位參數,或者獲得一個三維地圖結構,同樣缺乏復雜的交互能力。不過因為坐擁大規(guī)模三維數據(地圖),如果能直接學習三維結構或許比基于二維圖像恢復三維更有優(yōu)勢。
總結
盡管每個公司對于World Model定義不一樣,我們大概能看出這樣一個趨勢:
- Data-driven: 當然了,大量的數據,結合生成式模型的學習,希望用上Scaling Law大力出奇跡。
- 3D: 強3D,包括世界的表征具有三維一致性,結合NeRF/Gaussian Splattings進行逼真的渲染。
- 可微分性,Differentiable:一個可微分的模型具有強悍的靈活性,能被任何更大的可微分系統(tǒng)作為模塊使用:如,感知-控制-決策-執(zhí)行的復雜機器人系統(tǒng),想象一個世界模型與機器人控制器結合能產生什么樣的功能。
在2025年必然有更多公司邁入這個領域,而且也確實期待它在大量領域的潛在應用,我們可以拭目以待。也歡迎補充文章缺失的World Model。