今日arXiv最熱NLP大模型論文:逆向解析Sora背后的秘密,談AI視頻的機(jī)遇與挑戰(zhàn)
引言:Sora——AI在視頻生成領(lǐng)域的新篇章
隨著AI技術(shù)的飛速發(fā)展,人工智能已在視頻生成領(lǐng)域翻開(kāi)新的篇章。自2022年11月ChatGPT問(wèn)世以來(lái),AI技術(shù)已在我們的日常生活和工業(yè)應(yīng)用中發(fā)揮著舉足輕重的作用。繼此之后,OpenAI在2024年2月推出了Sora——這款革命性的文本到視頻生成模型,能夠依據(jù)用戶提供的文本提示,生成栩栩如生、充滿想象力的視頻畫(huà)面。與以往的視頻生成模型相比,Sora的獨(dú)特之處在于它能夠生成長(zhǎng)達(dá)一分鐘的高質(zhì)量視頻,并且嚴(yán)格遵循用戶的文本指令。
相較于傳統(tǒng)的視頻生成模型,Sora的亮點(diǎn)在于其能夠創(chuàng)作出長(zhǎng)達(dá)一分鐘的高品質(zhì)視頻,并且嚴(yán)格遵循用戶的文本指令。不僅如此,Sora還能理解場(chǎng)景中各個(gè)元素之間復(fù)雜的相互作用,從而生成具有時(shí)間進(jìn)程感和視覺(jué)連貫性的長(zhǎng)視頻。這一突破性的能力,是之前只能生成短視頻片段的模型所無(wú)法比擬的。
此外,Sora對(duì)動(dòng)作和互動(dòng)的精細(xì)刻畫(huà),也打破了以往模型在簡(jiǎn)單視覺(jué)渲染方面的局限。這些顯著的進(jìn)步不僅彰顯了Sora作為世界模擬器的巨大潛力,還讓我們能夠深刻洞察所描繪場(chǎng)景的物理特性和上下文動(dòng)態(tài)。
論文標(biāo)題:
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
論文鏈接:
???https://arxiv.org/pdf/2402.17177.pdf??
Sora模型概述:技術(shù)背景與創(chuàng)新點(diǎn)
1. Sora的發(fā)展歷程與技術(shù)演進(jìn)
在過(guò)去十年中,生成式計(jì)算機(jī)視覺(jué)(CV)模型經(jīng)歷了重大發(fā)展(下圖),特別是在深度學(xué)習(xí)技術(shù)如GANs[1]和VAEs[2]的推動(dòng)下。這些模型在圖像生成方面取得了顯著進(jìn)步,同時(shí)多模態(tài)模型如CLIP[3]和Stable Diffusion[4]在理解和生成圖像方面展現(xiàn)了強(qiáng)大的能力。盡管視頻生成面臨挑戰(zhàn),但Sora模型的出現(xiàn)標(biāo)志著在生成長(zhǎng)達(dá)一分鐘視頻方面取得了突破。
Sora模型與之前的視頻生成模型相比,其獨(dú)特之處在于能夠生成長(zhǎng)達(dá)1分鐘的高質(zhì)量視頻,并嚴(yán)格遵循用戶的文本指令。如下圖,OpenAI Sora模型根據(jù)提供的文本指令,分別生成三個(gè)視頻。
Sora的發(fā)展體現(xiàn)了AI研究長(zhǎng)期以來(lái)的使命,即賦予AI系統(tǒng)理解和與運(yùn)動(dòng)中的物理世界互動(dòng)的能力。這涉及到開(kāi)發(fā)能夠不僅解釋復(fù)雜用戶指令,還能將這種理解應(yīng)用于通過(guò)動(dòng)態(tài)和富有上下文的模擬來(lái)解決現(xiàn)實(shí)世界問(wèn)題的AI模型。
2. 從文本到視頻:Sora的核心技術(shù)揭秘
Sora的核心技術(shù)基于擴(kuò)散變換器(diffusion transformer)[5],這是一種預(yù)訓(xùn)練的Transformer模型,已在許多自然語(yǔ)言任務(wù)中證明了其可擴(kuò)展性和有效性。Sora采用了類似于強(qiáng)大的大語(yǔ)言模型(如GPT-4[6])的技術(shù),能夠解析文本并理解復(fù)雜的用戶指令。為了使視頻生成在計(jì)算上高效,Sora使用了時(shí)空潛在補(bǔ)丁作為其構(gòu)建塊。具體來(lái)說(shuō)(下圖),Sora將原始輸入視頻壓縮成潛在的時(shí)空表示,然后從壓縮視頻中提取一系列潛在的時(shí)空補(bǔ)丁,以封裝短時(shí)間間隔內(nèi)的視覺(jué)外觀和運(yùn)動(dòng)動(dòng)態(tài)。這些補(bǔ)丁類似于語(yǔ)言模型中的單詞標(biāo)記,為Sora提供了用于構(gòu)建視頻的詳細(xì)視覺(jué)短語(yǔ)。
數(shù)據(jù)預(yù)處理與模型訓(xùn)練:Sora如何理解與處理視頻數(shù)據(jù)
1. 視頻數(shù)據(jù)的多樣性處理
Sora能夠處理、理解和生成各種原生大小的視頻和圖像(下圖)。與傳統(tǒng)方法不同,Sora不會(huì)調(diào)整視頻的大小、裁剪或更改寬高比,而是保留了視頻的原始尺寸。
運(yùn)用原生視頻和圖像訓(xùn)練能顯著提高生成視頻的構(gòu)圖和框架質(zhì)量(下圖)。通過(guò)保持原始寬高比,Sora實(shí)現(xiàn)了更自然和連貫的視覺(jué)敘事,與經(jīng)過(guò)統(tǒng)一裁剪的方形視頻相比,Sora生成的視頻展示了更好的構(gòu)圖,確保了場(chǎng)景中的主體完整捕捉,而不是有時(shí)因方形裁剪而導(dǎo)致的視圖被截?cái)唷?/p>
2. 統(tǒng)一視覺(jué)表示的構(gòu)建
為了有效地處理包括不同持續(xù)時(shí)間、分辨率和寬高比在內(nèi)的多樣化視覺(jué)輸入,Sora采用了將所有形式的視覺(jué)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示的方法。如下圖,Sora通過(guò)首先將視頻壓縮到低維潛在空間,然后將表示分解為時(shí)空補(bǔ)丁來(lái)實(shí)現(xiàn)這一點(diǎn)。然而,Sora的技術(shù)報(bào)告[7]僅提供了一個(gè)高層次的想法,使得研究社區(qū)難以復(fù)制。
3. 視頻壓縮網(wǎng)絡(luò)的作用與挑戰(zhàn)
Sora的視頻壓縮網(wǎng)絡(luò)(或視覺(jué)編碼器)旨在減少輸入數(shù)據(jù)的維度,尤其是將原始視頻輸出為壓縮的時(shí)空潛在表示(下圖)。
根據(jù)技術(shù)報(bào)告中的引用,壓縮網(wǎng)絡(luò)建立在VAE或向量量化-VAE(VQ-VAE)[8]之上。但是,如果不使用調(diào)整大小和裁剪,VAE很難將任何大小的視覺(jué)數(shù)據(jù)映射到統(tǒng)一和固定大小的潛在空間。我們總結(jié)了兩種不同的實(shí)現(xiàn)方式來(lái)解決這個(gè)問(wèn)題:空間補(bǔ)丁壓縮和時(shí)空補(bǔ)丁壓縮(下圖)。這兩種技術(shù)都是基于VAE或其變體,因?yàn)閷?duì)補(bǔ)丁的操作更加靈活,更適合處理不同類型的視頻。
由于Sora旨在生成高保真視頻,因此使用了較大的補(bǔ)丁大小或內(nèi)核大小來(lái)進(jìn)行有效壓縮。在這里,我們預(yù)計(jì)使用固定大小的補(bǔ)丁,因?yàn)樗?jiǎn)單、可擴(kuò)展并且訓(xùn)練穩(wěn)定(下圖)。但是,也可以使用不同大小的補(bǔ)丁來(lái)使?jié)撛诳臻g中的整個(gè)幀或視頻的維度保持一致。然而,這可能導(dǎo)致位置編碼無(wú)效,并給解碼器生成不同大小潛在補(bǔ)丁的視頻帶來(lái)挑戰(zhàn)。
模型架構(gòu)與生成流程:Sora如何生成高質(zhì)量視頻
1. 融合Transformer與Diffusion的模型架構(gòu)
Sora采用了一種結(jié)合了Transformer和Diffusion模型的架構(gòu)。這種架構(gòu)首先將原始視頻壓縮成低維的時(shí)空表示,然后提取出一系列時(shí)空潛在的補(bǔ)丁(patches),這些補(bǔ)丁類似于語(yǔ)言模型中的單詞token,為Sora提供了詳細(xì)的視覺(jué)短語(yǔ)來(lái)構(gòu)建視頻。如圖,Sora的文本到視頻生成是通過(guò)一個(gè)擴(kuò)散變換器模型完成的,該模型從充滿視覺(jué)噪聲的幀開(kāi)始,迭代地去除噪聲并根據(jù)提供的文本提示引入特定細(xì)節(jié)。生成的視頻通過(guò)多步精煉過(guò)程逐漸顯現(xiàn),每一步都使視頻更加符合期望的內(nèi)容和質(zhì)量。
2. 語(yǔ)言指令跟隨與Prompt工程的重要性
Sora能夠準(zhǔn)確解釋和執(zhí)行復(fù)雜的人類指令,這得益于其對(duì)用戶生成的文本提示的處理能力,以及對(duì)場(chǎng)景內(nèi)元素復(fù)雜相互作用的洞察。Sora的進(jìn)步體現(xiàn)在其能夠生成長(zhǎng)達(dá)一分鐘的視頻序列,這些視頻不僅在視覺(jué)質(zhì)量上保持高水準(zhǔn),而且在視覺(jué)連貫性上也非常引人注目。
Sora的成功也歸功于Prompt工程,即精心設(shè)計(jì)輸入提示以指導(dǎo)模型生成符合用戶意圖的輸出。這包括文本提示、圖像提示和視頻提示(依次與下面三圖的案例對(duì)應(yīng)),這些提示確保了生成內(nèi)容的準(zhǔn)確性和相關(guān)性。
應(yīng)用場(chǎng)景探討:Sora在不同行業(yè)的潛在影響
Sora等視頻擴(kuò)散模型作為前沿技術(shù),正在加速應(yīng)用于多個(gè)研究領(lǐng)域和行業(yè)(下圖),其影響不僅限于視頻創(chuàng)作,還為自動(dòng)內(nèi)容生成和復(fù)雜決策等任務(wù)帶來(lái)變革。
1. 電影制作:簡(jiǎn)化流程與提升創(chuàng)意
Sora的視頻生成能力為電影制作行業(yè)帶來(lái)了革命性的變化。它簡(jiǎn)化了傳統(tǒng)的電影制作流程,降低了制作成本,并為創(chuàng)作者提供了一個(gè)快速將文本故事轉(zhuǎn)化為視覺(jué)內(nèi)容的工具。這使得電影制作更加民主化,任何人都可以成為電影制作者,無(wú)需昂貴的設(shè)備和專業(yè)技能。
2. 教育領(lǐng)域:動(dòng)態(tài)化學(xué)習(xí)材料的制作
在教育領(lǐng)域,Sora能夠?qū)⒄n程大綱或文本描述轉(zhuǎn)換為動(dòng)態(tài)視頻內(nèi)容,使得學(xué)習(xí)材料更加生動(dòng)有趣。這種動(dòng)態(tài)化的學(xué)習(xí)材料可以提高學(xué)生的參與度和理解力,尤其是在復(fù)雜概念的教學(xué)中。
3. 游戲開(kāi)發(fā):實(shí)時(shí)環(huán)境生成與交互體驗(yàn)
Sora為游戲開(kāi)發(fā)帶來(lái)了新的可能性,它可以實(shí)時(shí)生成動(dòng)態(tài)的游戲環(huán)境和角色互動(dòng),提升了游戲的沉浸感和真實(shí)感。開(kāi)發(fā)者可以利用Sora創(chuàng)造出反應(yīng)玩家行為和游戲事件的有機(jī)變化的游戲世界。
4. 醫(yī)療健康:精準(zhǔn)醫(yī)學(xué)影像分析與診斷
在醫(yī)療健康領(lǐng)域,Sora的視頻理解和生成能力使其在動(dòng)態(tài)異常檢測(cè)、疾病早期發(fā)現(xiàn)和干預(yù)策略中發(fā)揮著重要作用。Sora可以幫助醫(yī)生更精確地分析醫(yī)學(xué)影像,為患者提供個(gè)性化的治療方案。
5. 機(jī)器人技術(shù):提升感知與決策能力
Sora在機(jī)器人技術(shù)中的應(yīng)用,為機(jī)器人提供了理解和解釋復(fù)雜視頻序列的能力,這增強(qiáng)了機(jī)器人的感知和決策能力。機(jī)器人可以利用Sora生成的視頻預(yù)測(cè)行動(dòng)結(jié)果,從而更好地與環(huán)境互動(dòng)并執(zhí)行任務(wù)。
挑戰(zhàn)與機(jī)遇:Sora面臨的問(wèn)題與未來(lái)發(fā)展方向
1. 物理真實(shí)性與時(shí)空復(fù)雜性的挑戰(zhàn)
Sora作為一種文本到視頻的生成模型,盡管在模擬物理世界方面展現(xiàn)出了潛力,但在處理復(fù)雜場(chǎng)景中的物理原則時(shí)仍存在局限性。例如,它在模擬特定的因果關(guān)系時(shí)可能會(huì)出現(xiàn)不一致性,如吃掉餅干的部分可能不會(huì)在視頻中留下相應(yīng)的痕跡。此外,Sora在模擬運(yùn)動(dòng)時(shí)也可能產(chǎn)生違反物理規(guī)律的情況,如物體的不自然變形或?qū)傮w結(jié)構(gòu)的錯(cuò)誤模擬。這些問(wèn)題在模擬對(duì)象和角色之間的復(fù)雜互動(dòng)時(shí)尤為突出,有時(shí)會(huì)產(chǎn)生偏離現(xiàn)實(shí)的結(jié)果。
2. 人機(jī)交互的限制與優(yōu)化空間
Sora在人機(jī)交互方面也面臨著挑戰(zhàn),特別是在用戶進(jìn)行詳細(xì)修改或優(yōu)化生成內(nèi)容時(shí),交互的連貫性和效率可能不盡如人意。用戶可能難以精確指定或調(diào)整視頻中特定元素的呈現(xiàn),如動(dòng)作細(xì)節(jié)和場(chǎng)景過(guò)渡。此外,Sora在理解復(fù)雜的語(yǔ)言指令或捕捉微妙的語(yǔ)義差異方面可能存在限制,這可能導(dǎo)致生成的視頻內(nèi)容無(wú)法完全滿足用戶的期望或需求。
3. 使用限制與社會(huì)影響的考量
目前,Sora尚未對(duì)公眾開(kāi)放使用,OpenAI采取謹(jǐn)慎的態(tài)度,強(qiáng)調(diào)在廣泛部署之前確保安全性和準(zhǔn)備就緒。這表明Sora可能還需要在安全性、隱私保護(hù)和內(nèi)容審查等方面進(jìn)行進(jìn)一步的改進(jìn)和測(cè)試。此外,Sora目前只能生成長(zhǎng)達(dá)一分鐘的視頻,這限制了它在需要更長(zhǎng)內(nèi)容展示的應(yīng)用場(chǎng)景中的使用,如詳細(xì)的教學(xué)視頻或深入的故事敘述。
結(jié)論與展望:Sora技術(shù)的意義與社會(huì)價(jià)值
Sora作為OpenAI推出的文本到視頻生成模型,不僅在視頻生成領(lǐng)域展現(xiàn)出了巨大的潛力,而且在教育、游戲、醫(yī)療和機(jī)器人等多個(gè)行業(yè)中都有著廣泛的應(yīng)用前景。Sora的出現(xiàn)預(yù)示著內(nèi)容創(chuàng)作方式的變革,使得從簡(jiǎn)單的文本輸入到自動(dòng)生成電影內(nèi)容成為可能。它為電影制作、教育內(nèi)容創(chuàng)作、游戲開(kāi)發(fā)和臨床實(shí)踐等領(lǐng)域提供了新的工具和方法,有望極大地提高工作效率、促進(jìn)技術(shù)進(jìn)步,并為社會(huì)帶來(lái)更多的創(chuàng)新和包容性。
盡管Sora在物理真實(shí)性、時(shí)空復(fù)雜性、人機(jī)交互和使用限制方面面臨挑戰(zhàn),但它在學(xué)術(shù)界、工業(yè)界和社會(huì)上的潛在影響是巨大的。隨著技術(shù)的不斷進(jìn)步和優(yōu)化,Sora有望在未來(lái)成為一個(gè)強(qiáng)大的工具,不僅能夠提高內(nèi)容創(chuàng)作的質(zhì)量和效率,還能夠推動(dòng)多個(gè)領(lǐng)域的創(chuàng)新和發(fā)展。
本文轉(zhuǎn)載自夕小瑤科技說(shuō),作者:Tscom
原文鏈接:??https://mp.weixin.qq.com/s/e7FU1t1ax6f7SiEVuRMGQg??
