從直觀物理學(xué)談到認(rèn)知科學(xué),Sora不是傳統(tǒng)物理模擬器蓋棺定論了?
本文篇幅很長,主題很多,但循序漸進(jìn),對(duì)「Sora 究竟是不是世界模擬器」這一說法給出了非常詳實(shí)的解讀。
最近,OpenAI 的文生視頻模型 Sora 爆火。除了能夠輸出高質(zhì)量的視頻之外,OpenAI 更是將 Sora 定義為一個(gè)「世界模擬器」(world simulators)。
當(dāng)然,這一說法遭到了包括圖靈獎(jiǎng)得主 Yann LeCun 在內(nèi)很多學(xué)者的反駁。LeCun 的觀點(diǎn)是:僅僅根據(jù) prompt 生成逼真視頻并不能代表一個(gè)模型理解了物理世界,生成視頻的過程與基于世界模型的因果預(yù)測(cè)完全不同。
近日,澳大利亞麥考瑞大學(xué)的哲學(xué)助理教授 Rapha?l Millière 撰寫了一篇長文,深入探討了 Sora 究竟是不是「世界模擬器」。
作者回顧了 Sora 的功能、工作原理以及它模擬 3D 場(chǎng)景屬性的意義,討論了認(rèn)知科學(xué)中直觀物理學(xué)文獻(xiàn)、機(jī)器學(xué)習(xí)中「世界模型」的多義(多種解釋)概念以及圖像生成模型的可解釋性研究。
結(jié)論是:Sora 并沒有運(yùn)行傳統(tǒng)意義上的模擬,盡管它可能在更有限的意義上表現(xiàn)出了視覺場(chǎng)景的物理屬性。但是,行為證據(jù)不足以充分評(píng)估 Sora 是世界模擬器這一說法。最后,作者對(duì)視頻生成模型在未來 AI 和機(jī)器人學(xué)中的地位,以及它們與認(rèn)知科學(xué)中正在進(jìn)行的辯論之間的潛在相關(guān)性進(jìn)行了預(yù)測(cè)。
本文主要內(nèi)容包括如下:
- 引言
- 視頻生成進(jìn)展
- Sora(可能的)工作原理
- 模擬假設(shè)
- 直觀物理學(xué)
- 世界模型
- 再看 Sora
- 結(jié)論
機(jī)器之心對(duì)原文做了不改變?cè)獾恼砭幾g(以第一人稱 zhankai)。
引言
今年 2 月 15 日,OpenAI 推出了 Sora,輸入文本 prompts 來生成視頻和圖像。Sora 最長生成了 60 秒的短視頻,不過該模型至今沒有開放使用。在 Sora 技術(shù)報(bào)告中,OpenAI 將它稱為「世界模擬器」,并解釋了訓(xùn)練 Sora 的動(dòng)機(jī):
我們教 AI 理解和模擬運(yùn)動(dòng)中的物理世界,希望達(dá)成的目標(biāo)是訓(xùn)練模型并讓它們幫助人們解決需要真實(shí)世界交互的問題。
此外,OpenAI 對(duì) Sora 理論意義的理解是這樣的,「我們的結(jié)果表明,擴(kuò)展視頻生成模型對(duì)于構(gòu)建物理世界的通用模擬器而言,是一條很有希望的發(fā)展路徑?!?/span>
這些取自 OpenAI 博客和技術(shù)報(bào)告中的大膽言論,僅僅可以被看做是 PR 宣傳,而不是學(xué)術(shù)論文,更不用說經(jīng)過同行評(píng)議的研究了。當(dāng)然,這不是我們第一次看到視頻生成公司這樣說了。比如視頻生成領(lǐng)域頂級(jí)初創(chuàng)公司 Runway,它也有這樣的聲明:
所謂世界模型,即能夠構(gòu)建環(huán)境的內(nèi)在表示并用它來模擬未來環(huán)境事件的 AI 系統(tǒng)。你可以將 Gen-2 等視頻生成系統(tǒng)看作是非常早期和有限形式的通用世界模型。
除了 PR 之外,OpenAI、Runway 的這些言論提及了關(guān)于 SOTA 視頻生成模型內(nèi)在結(jié)構(gòu)的真正有趣的問題。不過,像「世界模擬器」和「通用世界模型」這樣的描述對(duì)于定義上述問題沒有多大幫助。
因此,接下來,我將試圖闡明這些神經(jīng)網(wǎng)絡(luò)擁有了模擬物理世界的內(nèi)在模型到底意味著什么,以及我們是否有任何證據(jù)證明像 Sora 這類 AI 系統(tǒng)做到了如此。
視頻生成領(lǐng)域進(jìn)展
此前,視頻生成技術(shù)實(shí)現(xiàn)了如下圖所示的效果。這些短視頻由名為 MoCoGAN-HD 的模型生成,出自 ICLR 2021 論文《A Good Image Generator Is What You Need for High-Resolution Video Synthesis》。作者將視頻合成問題描述為在靜態(tài)圖像生成模型的潛在空間中發(fā)現(xiàn)軌跡,從而利用生成對(duì)抗網(wǎng)絡(luò)中的解耦表示。
論文地址:https://arxiv.org/abs/2104.15069
然而,不到三年的時(shí)間,Sora 問世了,為視頻生成領(lǐng)域樹立了新的標(biāo)準(zhǔn)。Sora 的效果是這樣的:
Sora 生成的視頻首先看起來非常逼真,與真實(shí)視頻幾乎沒有區(qū)別。如果從靜幀的視角來看,高分辨率、紋理細(xì)節(jié)和構(gòu)圖都有助于實(shí)現(xiàn)這種前所未有的真實(shí)感。
此外,Sora 最令人印象深刻的是它的時(shí)間一致性。生成視頻比生成靜態(tài)圖像的難點(diǎn)在于前者必須隨時(shí)間推移保持連貫性,需要從一幀到下一幀地描述非常廣泛的細(xì)節(jié)。這包括隨時(shí)間推移連貫地匹配或修改場(chǎng)景元素(物體和角色)的屬性,其中形狀和紋理等靜態(tài)屬性通常保持不變,而運(yùn)動(dòng)和交互等動(dòng)態(tài)屬性根據(jù)物理定律變化。
同時(shí)相機(jī)運(yùn)動(dòng)帶來了額外的挑戰(zhàn),場(chǎng)景及元素的 3D 幾何和照明必須在旋轉(zhuǎn)、傾斜、平移、縮放等情況下保持一致。這同樣適用于場(chǎng)景過渡,如空間跳切。Sora 生成的視頻滿足了這些需求。
從以上動(dòng)圖,我們可以看到,盡管相機(jī)快速移動(dòng),但場(chǎng)景中的幾何形狀和主要元素保持一致。當(dāng)然 Sora 遠(yuǎn)未達(dá)到完美, 視頻背景中會(huì)出現(xiàn)怪異的畫面。盡管如此,Sora 已經(jīng)比競爭對(duì)手好得多了。自 MoCoGAN-HD 推出以來,我們?cè)诙潭處啄陜?nèi)確實(shí)取得了長足的進(jìn)步。
Sora(可能的)工作原理
Sora 背后的技術(shù)原理是怎樣的呢?Sora 研發(fā)負(fù)責(zé)人之一 Bill Peebles 與紐約大學(xué)助理教授謝賽寧撰寫的 DiT(擴(kuò)散 Transformer)論文《Scalable Diffusion Models with Transformers》被認(rèn)為是此次 Sora 背后的重要技術(shù)基礎(chǔ)之一。
- 論文地址:https://arxiv.org/pdf/2212.09748v2.pdf
- GitHub 地址:https://github.com/facebookresearch/DiT
這篇論文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。當(dāng)時(shí),擴(kuò)散模型在圖像生成方面取得了驚人的成果,幾乎所有這些模型都使用卷積 U-Net 作為主干。
因此,論文的目的是探究擴(kuò)散模型中架構(gòu)選擇的意義,并為未來的生成模型研究提供經(jīng)驗(yàn)基線。該研究表明,U-Net 歸納偏置對(duì)擴(kuò)散模型的性能不是至關(guān)重要的,并且可以很容易地用標(biāo)準(zhǔn)設(shè)計(jì)(如 transformer)取代。
具體來說,研究者提出了一種基于 transformer 架構(gòu)的新型擴(kuò)散模型 DiT,并訓(xùn)練了潛在擴(kuò)散模型,用對(duì)潛在 patch 進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過以 Gflops 衡量的前向傳遞復(fù)雜度來分析擴(kuò)散 Transformer (DiT) 的可擴(kuò)展性。
在 Sora 出現(xiàn)之前,DiT 架構(gòu)已用于文本條件式圖像和視頻生成。OpenAI 自己的解決方案是「視頻壓縮網(wǎng)絡(luò)」,這可能是一個(gè)適用于視頻的 VAE?;舅枷肱c原始 DiT 相同:
- 視頻壓縮網(wǎng)絡(luò)將原始視頻輸入壓縮為潛在的時(shí)空表示;
- 壓縮后的視頻變?yōu)椤笗r(shí)空 patch」,并作為輸入 token 饋入到擴(kuò)散 Transformer 中;
- 在最后一個(gè) Transformer 塊之后,解碼器模型(與視頻壓縮網(wǎng)絡(luò)聯(lián)合訓(xùn)練)將生成的潛在表示映射回像素空間。
據(jù)我所知,這就是 Sora 背后的技術(shù)要點(diǎn)。因此,很多人認(rèn)為 Sora 的架構(gòu)沒有什么真正的突破之處,本質(zhì)上可能是一個(gè)視頻 DiT 模型。Sora 很大程度上是一項(xiàng)工程壯舉,也是縮放能力的另一個(gè)證明。隨著訓(xùn)練算力的增加,樣本質(zhì)量隨之提高。正如大語言模型一樣,某些功能會(huì)隨著規(guī)模的擴(kuò)展而出現(xiàn)。
當(dāng)然,Sora 受益于其他一些技巧,比如 DALL-E 3 首創(chuàng)的重字幕技術(shù)。OpenAI 訓(xùn)練了一個(gè)高度描述性的字幕生成器模型,并用它為 Sora 訓(xùn)練集中的所有視頻添加字幕。這增加了生成的視頻對(duì)復(fù)雜文本的遵循性。此外,Sora 模型的所有用戶提示也通過 GPT 模型進(jìn)行增強(qiáng)。
與其他 OpenAI 的模型一樣,Sora 的一大未知是它的訓(xùn)練數(shù)據(jù)。事實(shí)上,很多人猜測(cè) Sora 部分根據(jù)合成數(shù)據(jù)(尤其是虛擬引擎 5 等視頻游戲引擎的輸出)進(jìn)行訓(xùn)練,這將有意義地促使該模型學(xué)習(xí)不同的配置(不同角度、場(chǎng)景構(gòu)圖、相機(jī)運(yùn)動(dòng)路徑等)。這或許可以部分解釋為什么 Sora 的輸出如此一致。
我們需要記住的最后一件事是:與標(biāo)準(zhǔn)潛在擴(kuò)散模型一樣,視頻壓縮網(wǎng)絡(luò)編碼器和解碼器之間的擴(kuò)散過程完全發(fā)生在潛在空間中,而不是像素空間。
模擬假設(shè)
每個(gè)人都同意 Sora 是一個(gè)令人印象深刻的模型。但除了生成逼真視頻之外,Sora 還有更深層的屬性嗎?OpenAI 團(tuán)隊(duì)似乎這樣認(rèn)為,他們?cè)诩夹g(shù)報(bào)告中稱,Sora 獲得了規(guī)?;摹改M能力」,并通過動(dòng)態(tài)相機(jī)運(yùn)動(dòng)、遮擋、物體存繼性和視頻游戲模擬來實(shí)現(xiàn)場(chǎng)景一致性。
OpenAI 得出結(jié)論,這些功能表明了,視頻模型的繼續(xù)擴(kuò)展是開發(fā)物理和數(shù)字世界,以及生活在其中的物體、動(dòng)物和人的高性能模擬器的一條有希望的路徑。
我們可以將這一說法稱為模擬假設(shè),但該假設(shè)的問題在于它太模糊了。對(duì)于視頻生成模型而言,模擬物理世界實(shí)際意味著什么?哪些證據(jù)可以支持這一說法?讓我們一一來解答。
Sora 發(fā)布后,AI 領(lǐng)域的知名學(xué)者紛紛發(fā)表對(duì)模擬假設(shè)的看法。其中英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 將 Sora 描述為「數(shù)據(jù)驅(qū)動(dòng)的物理引擎」,他的解釋為 Sora 通過大量視頻的梯度下降在神經(jīng)參數(shù)中隱式地學(xué)習(xí)物理引擎。Sora 是一個(gè)可學(xué)習(xí)的模擬器或「世界模型」。
來源:https://twitter.com/DrJimFan/status/1758210245799920123
Sora 必須學(xué)習(xí)一些隱式的文本到 3D、3D 轉(zhuǎn)換、光線追蹤渲染和物理規(guī)則,以便盡可能準(zhǔn)確地對(duì)視頻像素進(jìn)行建模。Sora 還必須學(xué)習(xí)游戲引擎的概念才能滿足目標(biāo)。
物理引擎術(shù)語有些令人困惑,尤其考慮到 Sora 可能是在虛擬引擎 5 的場(chǎng)景中接受訓(xùn)練的。我們首先需要澄清一點(diǎn),即沒有人(包括 Jim Fan)認(rèn)真地暗示 Sora 在推理時(shí)確實(shí)有一個(gè)循環(huán)的物理引擎。換句話說,Sora 不會(huì)利用虛擬引擎的函數(shù)調(diào)用來生成視頻。
這不僅僅因?yàn)槲覀兺耆磺宄侨绾喂ぷ鞯模ㄙY產(chǎn)、動(dòng)畫從哪里來),還因?yàn)?Sora 是一個(gè) DiT 模型,而這些根本不是 DiT 的工作方式。
這里需要提一下,讓神經(jīng)網(wǎng)絡(luò)調(diào)用物理引擎是以前嘗試過的事情,但不是為了視頻生成,而是為了物理推理。
此前,Ruibo Liu 等人(谷歌大腦團(tuán)隊(duì)、達(dá)特茅斯學(xué)院)在 2023 年發(fā)表的一篇論文《Mind's Eye: Grounded Language Model Reasoning through Simulation》中增強(qiáng)了一種語言模型,通過使用物理引擎(DeepMind 的 MuJoCo)模擬可能的結(jié)果,來提高在物理推理問題上的性能,并使用這些模擬的結(jié)果作為 prompt 中的提示。
論文地址:https://openreview.net/forum?id=4rXMRuoJlai
此外,MIT 的 Josh Tenenbaum 實(shí)驗(yàn)室對(duì)這一工作進(jìn)行了探索,使用語言模型將自然語言查詢轉(zhuǎn)換成概率編程語言中的代碼表達(dá)式。為了能夠?qū)φZ言中描述的物理現(xiàn)象進(jìn)行推理,Lionel Wong 及其同事將一個(gè)物理模擬引擎集成到了這個(gè)框架中。
他們?cè)诟怕噬沙绦蛑刑砑恿艘粋€(gè) Simulate_physicals 函數(shù),該函數(shù)采用指定對(duì)象屬性(如位置和速度)的初始符號(hào)場(chǎng)景狀態(tài),并返回場(chǎng)景屬性,這些屬性在物理、建模運(yùn)動(dòng)和碰撞情況的基礎(chǔ)上隨時(shí)間更新。此外通過將物理模擬添加為函數(shù)調(diào)用,語言描述可以轉(zhuǎn)換為查詢,并對(duì)描述的物理情況如何隨時(shí)間推移發(fā)揮作用進(jìn)行推理。
論文地址:https://arxiv.org/pdf/2306.12672.pdf
這顯然與 Sora 的做法相差甚遠(yuǎn),Sora 是一個(gè)端到端的神經(jīng)網(wǎng)絡(luò),而不是一個(gè)神經(jīng)符號(hào)系統(tǒng)。那么,我們?cè)撊绾卫斫?Sora 類似于模擬物理世界的「數(shù)據(jù)驅(qū)動(dòng)的物理引擎」這一說法,來自谷歌 DeepMind 的高級(jí) AI 總監(jiān) Nando de Freitas 表示,有限大小的神經(jīng)網(wǎng)絡(luò)在任何情況下可以預(yù)測(cè)接下來會(huì)發(fā)生什么的唯一方法是:學(xué)習(xí)促進(jìn)此類預(yù)測(cè)的內(nèi)部模型,包括直觀的物理定律。
看來我們?cè)絹碓浇咏M假設(shè)的明確定義了:在擁有有限參數(shù)集的端到端神經(jīng)網(wǎng)絡(luò)架構(gòu)之上的足夠好的視頻生成模型,在訓(xùn)練中應(yīng)該能夠獲得物理世界的內(nèi)部模型。這是這類神經(jīng)網(wǎng)絡(luò)生成任意場(chǎng)景中的一致和逼真視頻的最有效方法,也可能是唯一方法。
那么,Sora 是否真的從 2D 視頻中歸納出物理定律呢?如前所述,這看起來可能就很荒謬。比如 Sora 會(huì)以某種方式獲得熱力學(xué)定律的內(nèi)部模型,這似乎令人難以置信。游戲引擎通常也不模擬這些法則, 它們可能會(huì)模擬熱效應(yīng)(火災(zāi)、爆炸)和功(如物體克服摩擦移動(dòng)),但這些模擬通常是高度抽象的,并不嚴(yán)格遵守?zé)崃W(xué)方程。并且游戲引擎也根本不需要這樣做,它們的重點(diǎn)是渲染場(chǎng)景的視覺和交互可信度,而不是嚴(yán)格的物理準(zhǔn)確性。
Sora 會(huì)做類似的事情嗎?在回答這個(gè)問題之前,我們需要談一談直觀物理學(xué)。
直觀物理學(xué)
什么是直觀物理學(xué)呢?對(duì)于人類而言,不僅僅是受過訓(xùn)練的物理學(xué)家,還包括外行甚至是嬰兒,這些人都對(duì)物理世界有直觀的理解。這就是認(rèn)知科學(xué)家稱為直觀物理學(xué)的東西:一種快速、自動(dòng)的日常推理,讓人們知道各種物體相互作用時(shí)會(huì)發(fā)生什么,不需要有意識(shí)地思考物理計(jì)算。
研究表明,嬰兒已經(jīng)對(duì)物理世界的各個(gè)方面產(chǎn)生了穩(wěn)定預(yù)期認(rèn)知,包括物體持久性(即使看不見也知道物體的存在)、堅(jiān)固性(物體不會(huì)相互洞穿)以及內(nèi)聚力(物體是一起移動(dòng)的連接整體)。即使在很小的時(shí)候,嬰兒似乎也期待物體遵守某些物理原則,并將這些期望推廣到新的物體,而不是必須單獨(dú)學(xué)習(xí)每個(gè)特定物體的獨(dú)特性。這是我們與生俱來的「核心知識(shí)」的一部分,而不是發(fā)展過程中學(xué)到的東西。
總之,人類很小的時(shí)候就非常善于理解物理世界及規(guī)則,無論與生俱來、還是后天習(xí)得,或者二者兼而有之。
如何做到的呢?認(rèn)知科學(xué)中有一個(gè)重要假設(shè):人們使用直觀物理引擎(intuitive physics engine,IPE)在心理上模擬物理事件。該引擎近似現(xiàn)實(shí)中的物理動(dòng)力學(xué),并類似于計(jì)算機(jī)游戲中的物理引擎。
當(dāng)我們觀察物理場(chǎng)景時(shí),可以根據(jù)嘈雜的感知證據(jù)來構(gòu)建對(duì)物體、屬性和作用力的心理表征,然后運(yùn)行內(nèi)部模擬來預(yù)測(cè)接下來發(fā)生什么。
圖源:https://cicl.stanford.edu/papers/smith2023probabilistic.pdf
更準(zhǔn)確的說,IPE 是一種生成因果模型,通過對(duì)不精確但大致準(zhǔn)確的物理原理的隨機(jī)模擬,將不可觀測(cè)的物理變量和不確定性映射成可觀測(cè)的物理現(xiàn)象。IPE 表示物理場(chǎng)景中物體的潛在物理變量(如質(zhì)量、摩擦力、彈性)。這些變量不能直接觀察到,但控制了物體在場(chǎng)景中的行為方式。
這里只關(guān)注對(duì) IPE 假說的一個(gè)反對(duì)意見,它與視頻生成模型的爭論尤其相關(guān)。一些研究人員認(rèn)為,人們對(duì)物理場(chǎng)景的判斷有時(shí)僅取決于表面的視覺特征,而不是底層的物理特征。比如僅在靜態(tài)圖像上訓(xùn)練的 ResNet-50 等深度神經(jīng)網(wǎng)絡(luò)可以判斷積木塔的穩(wěn)定性,其表現(xiàn)可與成年人媲美。此外,人們被發(fā)現(xiàn)依賴積木塔的外觀,而不是摩擦等物理約束,兒童則完全忽視形狀。
IPE 假說支持者的普遍反應(yīng)是,依賴啟發(fā)式的證據(jù)可以簡單地解釋為限制 IPE 模擬的邊界條件和機(jī)制。沒有任何模型會(huì)聲稱自己可以無限制地使用物理模擬來處理所有抽象推理,近似是不可避免的。
因此我認(rèn)為底線是:至少對(duì)于人類而言,人們很容易通過假設(shè) IPE 的存在來解釋直觀的物理推理,而該 IPE 使用近似原理對(duì)物理場(chǎng)景進(jìn)行概率心理模擬。這一假設(shè)仍然存在爭議,并且有支持和反對(duì)的證據(jù)。但是,模擬假設(shè)至少有一個(gè)相對(duì)合理且經(jīng)過深思熟慮的案例,還有豐富的實(shí)驗(yàn)文獻(xiàn)支持。有了這些背景,接下來我們談?wù)勈澜缒P汀?/span>
世界模型
「世界模型」一詞是技術(shù)術(shù)語之一,其含義已被逐漸淡化,以致在實(shí)踐中變得難以描述。
2018 年,Ha David、Schmidhuber Jürgen 合作撰寫了一篇名為《World Models》的論文,在這篇文章中,世界模型包含一個(gè)感知組件,用于處理原始觀察并將其壓縮為緊湊編碼。
Ha 和 Schmidhuber 關(guān)于世界模型的研究影響了后來許多作品。
我們以最近的研究來舉例,幾天前,Google DeepMind 推出了參數(shù)為 110 億的基礎(chǔ)世界模型 Genie,可以通過單張圖像提示生成可玩的交互式環(huán)境。在如下動(dòng)圖中,谷歌先使用 Imagen2 生成圖像,再使用 Genie 將它們變?yōu)閯?dòng)態(tài)方式:
另一位推崇世界模型的是 Yann LeCun,曾經(jīng)提出了一種名為 JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))的框架,在這一框架下,世界模型是一個(gè)內(nèi)部預(yù)測(cè)模型,描述世界如何運(yùn)作:
除此以外,在 Sora 模型發(fā)布的當(dāng)天,Meta 推出了一個(gè)全新的無監(jiān)督「視頻預(yù)測(cè)模型」——V-JEPA,與 JEPA 一脈相承。
V-JEPA 和 Sora 之間的主要區(qū)別之一是它們各自的學(xué)習(xí)目標(biāo),以及這些目標(biāo)可能對(duì)其潛在表示產(chǎn)生的下游影響。Sora 接受了像素空間中幀重建的訓(xùn)練,而 V-JEPA 接受了潛在空間中特征預(yù)測(cè)的訓(xùn)練。在 LeCun 看來,像素級(jí)生成目標(biāo)不足以引發(fā)對(duì)世界中的規(guī)劃和行動(dòng)有用的抽象表示。
綜合來看,人們對(duì)世界模型的理解略有不同。在強(qiáng)化學(xué)習(xí)(RL)中,世界模型主要關(guān)注以智能體為中心的預(yù)測(cè),以及基于智能體行為對(duì)環(huán)境狀態(tài)的模擬。在 Yann LeCun 對(duì)自主機(jī)器智能的構(gòu)想中,世界模型同樣關(guān)注以智能體為中心的預(yù)測(cè),不過這里的預(yù)測(cè)是通過自監(jiān)督在潛在空間中學(xué)習(xí)得到的。無論是生成模型、RL 模型還是 JEPA 模型,它們都沒有達(dá)到因果推理文獻(xiàn)中對(duì)世界模型強(qiáng)大因果概念的高標(biāo)準(zhǔn)。至于像 Sora 這樣的視頻生成模型,我們可以通過觀察圖像生成模型來尋找線索。
再看 Sora
與用于圖像生成的潛在擴(kuò)散模型一樣,Sora 是根據(jù)視覺輸入進(jìn)行端到端訓(xùn)練的。訓(xùn)練和生成都不是明確地以物理變量為條件的。Sora 從根本上不同于使用物理引擎來運(yùn)行模擬的復(fù)合模型。此外,Sora 在感知、預(yù)測(cè)和決策模塊之間沒有內(nèi)置分離。
除此以外,Sora 與 Ha & Schmidhuber 的世界模型也有很大不同,它不會(huì)基于離散行為、觀察和獎(jiǎng)勵(lì)信號(hào)的歷史來運(yùn)行模擬。在這方面,OpenAI 的技術(shù)報(bào)告在討論通過提示生成視頻示例時(shí)提到了《我的世界》(Minecraft),這有點(diǎn)誤導(dǎo)。
Sora 可能模擬了離線強(qiáng)化學(xué)習(xí)中的智能體策略,但與 Genie 不同,Sora 沒有接受過從視頻中誘發(fā)潛在動(dòng)作的訓(xùn)練,并且輸出也不以此類動(dòng)作為條件。
通過提示 Sora 生成的視頻
然而,我們不能排除這樣一個(gè)假設(shè),Sora 是一個(gè)世界模擬器 —— 或者,稍微不那么夸張,在較弱意義上,它是一個(gè)世界模型。
然而這種觀點(diǎn)受到了包括 LeCun、Gary Marcus 等在內(nèi)的多位 AI 大佬的反對(duì),這些批評(píng)者指出,Sora 生成的視頻中公然違反了物理原理。不過 OpenAI 承認(rèn)了這些局限,并提供了一些失敗示例。例如,在下面示例中,人們可以看到明顯的時(shí)空不一致,包括生成的視頻違反重力、碰撞動(dòng)力學(xué)、堅(jiān)固性和物體持久性。
Sora 生成的視頻違反重力和碰撞物理學(xué)
Sora 生成的視頻中椅子自己飄起來了
這種視頻的不一致性讓我們感到不可思議,確實(shí),示例中發(fā)生了一些奇怪的事情,如液體流過玻璃,椅子變成奇怪的形狀,人在被遮擋時(shí)突然消失。
事實(shí)上,Sora 輸出的結(jié)果很明顯會(huì)在直觀物理上出錯(cuò)。如果非要說 Sora 是一個(gè)較弱意義上的世界模型,那么它肯定不是一個(gè)完美的模型,甚至在各個(gè)方面都不完整。
與用于生成圖像的潛在擴(kuò)散模型一樣,Sora 生成視頻的過程并不發(fā)生在像素空間中,而是發(fā)生在潛在空間中 —— 時(shí)空 patch 潛在表示被編碼的空間。
這一信息很重要,因?yàn)楹芏嘌芯空哒J(rèn)為 Sora 只是學(xué)習(xí)在逐幀像素變化中插入常見模式。Sora 架構(gòu)中編碼器和解碼器之間發(fā)生的所有事情都發(fā)生在潛在空間中。對(duì)于 Sora 來說,直觀物理相關(guān)的屬性的潛在表示對(duì)于早期的生成過程(甚至在早期的擴(kuò)散時(shí)間步長)具有因果效力,這并非難以置信。
結(jié)論
視頻生成模型如 Sora 到底是不是世界模擬器,也許在某種意義上答案是肯定的。其視頻生成過程不以直觀物理的前向模擬為條件,而直觀物理引擎可以做到這一點(diǎn),但 Sora 有可能是由 3D 幾何和動(dòng)力學(xué)潛在表征塑造出來的。在后一種意義上,認(rèn)為 Sora 是有限的世界模型是相當(dāng)合理的。但這些都不能確定,我們需要用更多的方式探索 Sora。
在猜測(cè)的同時(shí),我對(duì)視頻生成模型的未來進(jìn)行了一些預(yù)測(cè)。
我認(rèn)為 Sora 不是一個(gè)特定意義上的模擬器,也許是一個(gè)功能更強(qiáng)大的視頻生成模型??梢韵胂笪磥頇C(jī)器人系統(tǒng)會(huì)使用三個(gè)主要組件:(1)大規(guī)模視覺 - 語言模型,用于解析語言指令、翻譯成規(guī)劃并對(duì)視覺輸入進(jìn)行推理;(2)大規(guī)模視頻生成模型,用于模擬未來可能的觀察結(jié)果,以進(jìn)行低級(jí)規(guī)劃;(3) 通用可逆動(dòng)力學(xué)模型,用于從這些模擬中提取合適的動(dòng)作并相應(yīng)地執(zhí)行規(guī)劃。也許(2)和(3)可以合并成一個(gè)通用的 Genie 風(fēng)格的生成模型,或者三個(gè)模型都可以合并成一個(gè)巨大的 Gato 式多模態(tài)模型。
不管怎樣,無論人們?nèi)绾慰创?Sora 和 OpenAI,思考視頻生成背后的魔法都是令人興奮 。
參考鏈接:https://artificialcognition.net/posts/video-generation-world-simulators/。