真·降維打擊,Sora與Runway、Pika的對(duì)比來了,震撼效果背后是物理引擎模擬現(xiàn)實(shí)世界
昨天,OpenAI 發(fā)布的首個(gè)文本生成視頻模型 Sora 引爆了社區(qū),其生成的長(zhǎng)達(dá) 1 分鐘的高清、流暢視頻令人們驚嘆不已,直呼「好萊塢的時(shí)代結(jié)束了」。
僅僅一年時(shí)間,文本生成視頻的效果迎來了質(zhì)的飛躍。
當(dāng)然,隨著 Sora 加入這場(chǎng)視頻生成領(lǐng)域的戰(zhàn)爭(zhēng),受到?jīng)_擊最大的是同類競(jìng)品模型,比如 Runway、Pika、SDV、谷歌和 Meta。
看到 Sora 的生成效果之后,很多人認(rèn)為,Sora 對(duì)這些「前輩」來了一波降維打擊。事實(shí)真的如此嗎?有推特博主已經(jīng)做了對(duì)比。
這位博主給 Sora、Pika、Runway、Stable Video 四個(gè)模型輸入了相同的 prompt:
美麗、白雪皚皚的東京熙熙攘攘,鏡頭穿過熙熙攘攘的城市街道,跟隨幾個(gè)人享受美麗的雪天,在附近的攤位購(gòu)物,絢麗的櫻花花瓣隨著雪花隨風(fēng)飄揚(yáng)。
可以看到,相比于其他三個(gè)視頻生成模型,Sora 在生成時(shí)長(zhǎng)、連貫性等方面都有顯著的優(yōu)勢(shì)。
圖源:https://twitter.com/gabor/status/1758282791547232482
這樣的對(duì)比還有很多,比如輸入相同的 prompt「一窩金毛幼犬在雪地里玩耍,它們的頭從雪中探出來,被雪覆蓋?!?/span>
圖源:https://twitter.com/DailyUpdatesNet/status/1758646902751670355
再比如輸入相同的 prompt「幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走來,長(zhǎng)長(zhǎng)的毛毛在風(fēng)中輕輕飄動(dòng),遠(yuǎn)處覆蓋著積雪的樹木和雄偉的雪山,午后的陽光、縷縷云彩和遠(yuǎn)處高高的太陽營(yíng)造出溫暖的光芒,低相機(jī)視野令人驚嘆地捕捉到了大型毛茸茸的哺乳動(dòng)物與美麗的攝影,景深?!?/span>
雖然 Runway 和 Pika 表現(xiàn)都不錯(cuò),但 Sora 的生成質(zhì)量具有壓倒性的優(yōu)勢(shì)。
圖源:https://twitter.com/keitowebai/status/1758384152670577136
還有人對(duì)比了 Pika 1.0(去年四月)與 Sora,感嘆不到 1 年的時(shí)間,AI 生成視頻已經(jīng)發(fā)生了翻天覆地的變化。
原視頻:https://twitter.com/QuintinAu/status/1758536835595124910
與此同時(shí),更多創(chuàng)作者也曬出了他們使用 Sora 生成的視頻,進(jìn)一步驗(yàn)證了 Sora 的超強(qiáng)視頻生成能力。
比如輸入 prompt「一座巨大的大教堂里全是貓。放眼望去,到處都是貓。一個(gè)男人走進(jìn)大教堂,向坐在王座上的巨型貓王鞠躬?!?/span>
圖源:https://twitter.com/billpeeb/status/1758650919430848991
比如輸入 prompt「一座幽靈般的鬼屋,有友好的杰克燈籠和鬼魂人物,歡迎搗蛋鬼來到入口,傾斜移位攝影?!?/span>
圖源:https://twitter.com/billpeeb/status/1758658884582142310
比如輸入 prompt「一個(gè)由水制成的人行走著,參觀了一個(gè)美術(shù)館,里面有許多不同風(fēng)格的美麗藝術(shù)品?!?/span>
圖源:https://twitter.com/_tim_brooks/status/1758666264032280683
比如輸入 prompt「人們?cè)诤┓潘傻恼鎸?shí)視頻,一條鯊魚從水中冒了出來,讓所有人大吃一驚?!?/span>
圖源:https://twitter.com/_tim_brooks/status/1758655323576164830
在 Sora 震撼效果的背后,OpenAI 也于昨日公布了詳細(xì)的技術(shù)報(bào)告。
技術(shù)報(bào)告地址 https://openai.com/research/video-generation-models-as-world-simulators
Sora 背后的技術(shù)
OpenAI 在技術(shù)報(bào)告中重點(diǎn)展示了:(1)將所有類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示,從而能夠大規(guī)模訓(xùn)練生成模型的方法;以及(2)對(duì) Sora 的能力和局限性進(jìn)行定性評(píng)估。
令人遺憾的是,OpenAI 的報(bào)告不包含模型和訓(xùn)練的細(xì)節(jié)。
最近一段時(shí)間,視頻生成是 AI 領(lǐng)域的重要方向,先前的許多工作研究了視頻數(shù)據(jù)的生成建模方向,包括循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸 transformer 和擴(kuò)散模型。這些工作通常關(guān)注一小類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。
與之不同的是,OpenAI 的 Sora 是視覺數(shù)據(jù)的通用模型,它可以生成不同時(shí)長(zhǎng)、長(zhǎng)寬比和分辨率的視頻和圖像,而且最多可以輸出長(zhǎng)達(dá)一分鐘的高清視頻。
視覺數(shù)據(jù)轉(zhuǎn)為 Patches
大型語言模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練,獲得了出色的通用能力中,OpenAI 從這一點(diǎn)汲取了靈感。LLM 得以確立新范式,部分得益于創(chuàng)新了 token 使用的方法。研究人員們巧妙地將文本的多種模態(tài) —— 代碼、數(shù)學(xué)和各種自然語言統(tǒng)一了起來。
在這項(xiàng)工作中,OpenAI 考慮了生成視覺數(shù)據(jù)的模型如何繼承這種方法的好處。大型語言模型有文本 token,而 Sora 有視覺 patches。此前的研究已經(jīng)證明 patches 是視覺數(shù)據(jù)模型的有效表示。OpenAI 發(fā)現(xiàn) patches 是訓(xùn)練生成各種類型視頻和圖像的模型的可擴(kuò)展且有效的表示。
在更高層面上,OpenAI 首先將視頻壓縮到較低維的潛在空間,然后將表示分解為時(shí)空 patches,從而將視頻轉(zhuǎn)換為 patches。
視頻壓縮網(wǎng)絡(luò)
OpenAI 訓(xùn)練了一個(gè)降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)將原始視頻作為輸入,并輸出在時(shí)間和空間上壓縮的潛在表示。Sora 在這個(gè)壓縮的潛在空間中接受訓(xùn)練,而后生成視頻。OpenAI 還訓(xùn)練了相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間。
時(shí)空潛在 patches
給定一個(gè)壓縮的輸入視頻,OpenAI 提取一系列時(shí)空 patches,充當(dāng) Transformer 的 tokens。該方案也適用于圖像,因?yàn)閳D像可視為單幀視頻。OpenAI 基于 patches 的表示使 Sora 能夠?qū)Σ煌直媛?、持續(xù)時(shí)間和長(zhǎng)寬比的視頻和圖像進(jìn)行訓(xùn)練。在推理時(shí),OpenAI 可以通過在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的 patches 來控制生成視頻的大小。
用于視頻生成的縮放 Transformer
Sora 是個(gè)擴(kuò)散模型;給定輸入噪聲 patches(以及文本提示等調(diào)節(jié)信息),訓(xùn)練出的模型來預(yù)測(cè)原始的「干凈」patches。重要的是,Sora 是一個(gè)擴(kuò)散 Transformer。Transformer 在各個(gè)領(lǐng)域都表現(xiàn)出了卓越的縮放特性,包括語言建模、計(jì)算機(jī)視覺、和圖像生成。
在這項(xiàng)工作中,OpenAI 發(fā)現(xiàn)擴(kuò)散 Transformers 也可以有效地縮放為視頻模型。下面,OpenAI 展示了訓(xùn)練過程中具有固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計(jì)算的增加,樣本質(zhì)量顯著提高。
可變的持續(xù)時(shí)間,分辨率,寬高比
過去的圖像和視頻生成方法通常需要調(diào)整大小、進(jìn)行裁剪或者是將視頻剪切到標(biāo)準(zhǔn)尺寸,例如 4 秒的視頻分辨率為 256x256。相反,該研究發(fā)現(xiàn)在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練,可以提供以下好處:
首先是采樣的靈活性:Sora 可以采樣寬屏視頻 1920x1080p,垂直視頻 1920x1080p 以及兩者之間的視頻。這使 Sora 可以直接以其天然縱橫比為不同設(shè)備創(chuàng)建內(nèi)容。Sora 還允許在生成全分辨率的內(nèi)容之前,以較小的尺寸快速創(chuàng)建內(nèi)容原型 —— 所有內(nèi)容都使用相同的模型。
其次是改進(jìn)幀和內(nèi)容組成:研究者通過實(shí)證發(fā)現(xiàn),使用視頻的原始長(zhǎng)寬比進(jìn)行訓(xùn)練可以提升內(nèi)容組成和幀的質(zhì)量。將 Sora 在與其他模型的比較中,后者將所有訓(xùn)練視頻裁剪成正方形,這是訓(xùn)練生成模型時(shí)的常見做法。經(jīng)過正方形裁剪訓(xùn)練的模型(左側(cè))生成的視頻,其中的視頻主題只是部分可見。相比之下,Sora 生成的視頻(右側(cè))具有改進(jìn)的幀內(nèi)容。
語言理解
訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本字幕的視頻。研究團(tuán)隊(duì)將 DALL?E 3 中的重字幕(re-captioning)技術(shù)應(yīng)用于視頻。
具體來說,研究團(tuán)隊(duì)首先訓(xùn)練一個(gè)高度描述性的字幕生成器模型,然后使用它為訓(xùn)練集中所有視頻生成文本字幕。研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)高度描述性視頻字幕進(jìn)行訓(xùn)練可以提高文本保真度以及視頻的整體質(zhì)量。
與 DALL?E 3 類似,研究團(tuán)隊(duì)還利用 GPT 將簡(jiǎn)短的用戶 prompt 轉(zhuǎn)換為較長(zhǎng)的詳細(xì)字幕,然后發(fā)送到視頻模型。這使得 Sora 能夠生成準(zhǔn)確遵循用戶 prompt 的高質(zhì)量視頻。
以圖像和視頻作為提示
我們已經(jīng)看到了文本到視頻的諸多生成示例。實(shí)際上,Sora 還可以使用其他輸入,如已有的圖像或視頻。這使 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù) — 創(chuàng)建完美的循環(huán)視頻、靜態(tài)圖像動(dòng)畫、向前或向后延長(zhǎng)視頻時(shí)間等。
為 DALL-E 圖像制作動(dòng)畫
只要輸入圖像和提示,Sora 就能生成視頻。下面展示了根據(jù) DALL-E 2 和 DALL-E 3 圖像生成的視頻示例:
狗戴著貝雷帽、穿著黑色高領(lǐng)毛衣
帶有 Sora 的云圖像
視頻內(nèi)容拓展
Sora 還能夠在開頭或結(jié)尾擴(kuò)展視頻內(nèi)容。以下是 Sora 從一段生成的視頻向后拓展出的三個(gè)新視頻。新視頻的開頭各不相同,擁有相同的結(jié)尾。
不妨使用這種方法無限延長(zhǎng)視頻的內(nèi)容,實(shí)現(xiàn)「視頻制作永動(dòng)機(jī)」。
視頻到視頻編輯
擴(kuò)散模型激發(fā)了多種根據(jù)文本 prompt 編輯圖像和視頻的方法。OpenAI 的研究團(tuán)隊(duì)將其中一種方法 ——SDEdit 應(yīng)用于 Sora,使得 Sora 能夠在零樣本(zero-shot)條件下改變輸入視頻的風(fēng)格和環(huán)境。
輸入視頻如下:
輸出結(jié)果:
連接視頻
我們還可以使用 Sora 在兩個(gè)輸入視頻之間逐漸進(jìn)行轉(zhuǎn)場(chǎng),從而在具有完全不同主題和場(chǎng)景構(gòu)成的視頻之間創(chuàng)建無縫過渡。
圖像生成能力
Sora 還能生成圖像。為此,OpenAI 將高斯噪聲 patch 排列在空間網(wǎng)格中,時(shí)間范圍為一幀。該模型可生成不同大小的圖像,最高分辨率可達(dá) 2048x2048。
涌現(xiàn)模擬能力
OpenAI 發(fā)現(xiàn),視頻模型在經(jīng)過大規(guī)模訓(xùn)練后,會(huì)表現(xiàn)出許多有趣的新能力。這些能力使 Sora 能夠模擬物理世界中的人、動(dòng)物和環(huán)境的某些方面。這些特性的出現(xiàn)沒有任何明確的三維、物體等歸納偏差 — 它們純粹是規(guī)模現(xiàn)象。
三維一致性。Sora 可以生成動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中的移動(dòng)是一致的。
長(zhǎng)序列連貫性和目標(biāo)持久性。視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在對(duì)長(zhǎng)視頻進(jìn)行采樣時(shí)保持時(shí)間一致性。OpenAI 發(fā)現(xiàn),雖然 Sora 并不總是能有效地模擬短距離和長(zhǎng)距離的依賴關(guān)系,但它在很多時(shí)候仍然能做到這一點(diǎn)。例如,即使人、動(dòng)物和物體被遮擋或離開畫面,Sora 模型也能保持它們的存在。同樣,它還能在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,并在整個(gè)視頻中保持其外觀。
與世界互動(dòng)。Sora 有時(shí)可以模擬以簡(jiǎn)單方式影響世界狀態(tài)的動(dòng)作。例如,畫家可以在畫布上留下新的筆觸,這些筆觸會(huì)隨著時(shí)間的推移而持續(xù),或者一個(gè)人可以吃漢堡并留下咬痕。
模擬數(shù)字世界。Sora 還能模擬人工進(jìn)程,視頻游戲就是一個(gè)例子。Sora 可以通過基本策略同時(shí)控制 Minecraft 中的玩家,同時(shí)高保真地呈現(xiàn)世界及其動(dòng)態(tài)。只需在 Sora 的提示字幕中提及 「Minecraft」,就能零樣本激發(fā)這些功能。
這些功能表明,視頻模型的持續(xù)擴(kuò)展是開發(fā)物理和數(shù)字世界以及其中的物體、動(dòng)物和人的高能力模擬器的一條大有可為的道路。
局限性討論
作為一款模擬器,Sora 目前還存在許多局限性。例如,它不能準(zhǔn)確模擬許多基本交互的物理現(xiàn)象,如玻璃碎裂。其他交互,如吃食物,并不總能產(chǎn)生正確的物體狀態(tài)變化。官方主頁列舉了該模型的其他常見失效模式,例如長(zhǎng)時(shí)間樣本中出現(xiàn)的不一致性或物體的自發(fā)出現(xiàn)。
不過,Sora 目前所展現(xiàn)的能力證明了持續(xù)擴(kuò)大視頻模型的規(guī)模是一個(gè)充滿希望的方向,這也將助力物理和數(shù)字世界及其中的物體、動(dòng)物和人類能夠有更加精確的模擬。
更多詳細(xì)內(nèi)容,請(qǐng)參閱 Sora 原始技術(shù)報(bào)告。