微軟37頁論文逆向工程Sora,得到了哪些結(jié)論?
追趕 Sora,成為了很多科技公司當(dāng)下階段的新目標(biāo)。研究者們好奇的是:Sora 是如何被 OpenAI 發(fā)掘出來的?未來又有哪些演進和應(yīng)用方向?
Sora 的技術(shù)報告披露了一些技術(shù)細節(jié),但遠遠不足以窺其全貌。
在最近的一篇文章中,微軟研究院和理海大學(xué)的研究者根據(jù)已發(fā)表的技術(shù)報告和逆向工程,首次全面回顧了 Sora 的背景、相關(guān)技術(shù)、新興應(yīng)用、當(dāng)前局限和未來機遇。
- 論文標(biāo)題:Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
- 論文鏈接:https://arxiv.org/pdf/2402.17177.pdf
背景
在分析 Sora 之前,研究者首先盤點了視覺內(nèi)容生成技術(shù)的沿襲。
在深度學(xué)習(xí)革命之前,傳統(tǒng)的圖像生成技術(shù)依賴于基于手工創(chuàng)建特征的紋理合成和紋理映射等方法。這些方法在生成復(fù)雜而生動的圖像方面能力有限。
如圖 3 所示,在過去十年中,視覺類的生成模型經(jīng)歷了多樣化的發(fā)展路線。
生成對抗網(wǎng)絡(luò)(GAN)和變分自動編碼器(VAE)的引入標(biāo)志著一個重要的轉(zhuǎn)折點,因為它在各種應(yīng)用中都具有非凡的能力。隨后的發(fā)展,如流模型和擴散模型,進一步增強了圖像生成的細節(jié)和質(zhì)量。人工智能生成內(nèi)容(AIGC)技術(shù)的最新進展實現(xiàn)了內(nèi)容創(chuàng)建的民主化,使用戶能夠通過簡單的文本指令生成所需的內(nèi)容。
在 BERT 和 GPT 成功將 Transformer 架構(gòu)應(yīng)用于 NLP 之后,研究人員嘗試將其遷移到 CV 領(lǐng)域,比如 Transformer 架構(gòu)與視覺組件相結(jié)合,使其能夠應(yīng)用于下游 CV 任務(wù),包括 Vision Transformer (ViT) 和 Swin Transformer ,從而進一步發(fā)展了這一概念。在 Transformer 取得成功的同時,擴散模型也在圖像和視頻生成領(lǐng)域取得了長足進步。擴散模型為利用 U-Nets 將噪聲轉(zhuǎn)換成圖像提供了一個數(shù)學(xué)上合理的框架,U-Nets 通過學(xué)習(xí)在每一步預(yù)測和減輕噪聲來促進這一過程。
自 2021 年以來,能夠解釋人類指令的生成語言和視覺模型,即所謂的多模態(tài)模型,成為了人工智能領(lǐng)域的熱門議題。
CLIP 是一種開創(chuàng)性的視覺語言模型,它將 Transformer 架構(gòu)與視覺元素相結(jié)合,便于在大量文本和圖像數(shù)據(jù)集上進行訓(xùn)練。通過從一開始就整合視覺和語言知識,CLIP 可以在多模態(tài)生成框架內(nèi)充當(dāng)圖像編碼器。
另一個值得注意的例子是 Stable Diffusion,它是一種多用途文本到圖像人工智能模型,以其適應(yīng)性和易用性而著稱。它采用 Transformer 架構(gòu)和潛在擴散技術(shù)來解碼文本輸入并生成各種風(fēng)格的圖像,進一步說明了多模態(tài)人工智能的進步。
ChatGPT 2022 年 11 月發(fā)布之后,2023 年出現(xiàn)了大量文本到圖像的商業(yè)化產(chǎn)品,如 Stable Diffusion、Midjourney、DALL-E 3。這些工具能讓用戶通過簡單的文字提示生成高分辨率和高質(zhì)量的新圖像,展示了人工智能在創(chuàng)意圖像生成方面的潛力。
然而,由于視頻的時間復(fù)雜性,從文本到圖像到文本到視頻的過渡具有挑戰(zhàn)性。盡管工業(yè)界和學(xué)術(shù)界做出了許多努力,但大多數(shù)現(xiàn)有的視頻生成工具,如 Pika 和 Gen-2 ,都僅限于生成幾秒鐘的短視頻片段。
在這種情況下,Sora 是一項重大突破,類似于 ChatGPT 在 NLP 領(lǐng)域的影響。Sora 是第一個能夠根據(jù)人類指令生成長達一分鐘視頻的模型,同時保持較高的視覺質(zhì)量和引人注目的視覺連貫性,從第一幀到最后一幀都具有漸進感和視覺連貫性。
這是一個里程碑,對生成式 AI 的研究和發(fā)展產(chǎn)生了深遠影響。
如圖 2 所示,Sora 在準(zhǔn)確解讀和執(zhí)行復(fù)雜的人類指令方面表現(xiàn)出非凡的能力。該模型可以生成包含多個角色的詳細場景,這些角色在錯綜復(fù)雜的背景下執(zhí)行特定的動作。研究人員認(rèn)為,Sora 不僅能熟練處理用戶生成的文本提示,還能辨別場景中各種元素之間復(fù)雜的相互作用。
此外,Sora 的進步還體現(xiàn)在它能夠生成具有細微運動和交互描繪的擴展視頻序列,克服了早期視頻生成模型所特有的短片段和簡單視覺渲染的限制。這種能力代表了人工智能驅(qū)動的創(chuàng)意工具的飛躍,使用戶能夠?qū)⑽淖謹(jǐn)⑹鲛D(zhuǎn)換成豐富的視覺故事。
總之,這些進步顯示了 Sora 作為世界模擬器的潛力,它可以提供對所描繪場景的物理和背景動態(tài)的細微洞察。
為了方便讀者查閱視覺生成模型的最新進展,研究者在論文附錄匯編了近期的代表性工作成果。
技術(shù)推演
Sora 的核心是一個預(yù)訓(xùn)練的擴散 Transformer。事實證明,Transformer 模型在許多自然語言任務(wù)中都具有可擴展性和有效性。與 GPT-4 等強大的大型語言模型(LLM)類似,Sora 可以解析文本并理解復(fù)雜的用戶指令。為了提高視頻生成的計算效率,Sora 采用了時空潛在 patch 作為其構(gòu)建模塊。
具體來說,Sora 會將原始輸入視頻壓縮為潛在時空表示。然后,從壓縮視頻中提取一系列潛在時空 patch,以囊括短暫時間間隔內(nèi)的視覺外觀和運動動態(tài)。這些片段類似于語言模型中的詞 token,為 Sora 提供了詳細的視覺短語,可用于構(gòu)建視頻。Sora 的文本到視頻生成由擴散 Transformer 模型完成。從充滿視覺噪音的幀開始,該模型會對圖像進行迭代去噪,并根據(jù)提供的文本提示引入特定細節(jié)。本質(zhì)上講,生成的視頻是通過多步完善過程產(chǎn)生的,每一步都會對視頻進行完善,使其更加符合所需的內(nèi)容和質(zhì)量。
如圖 4 所示,Sora 的核心本質(zhì)是一個具有靈活采樣維度的擴散 Transformer。它由三部分組成:(1)時空壓縮器首先將原始視頻映射到潛在空間。(2) 然后,ViT 處理 token 化的潛在表示,并輸出去噪潛在表示。(3) 類似 CLIP 的調(diào)節(jié)機制接收 LLM 增強的用戶指令和潛在的視覺提示,引導(dǎo)擴散模型生成風(fēng)格化或主題化的視頻。經(jīng)過許多去噪步驟后,生成視頻的潛在表示被獲取,然后通過相應(yīng)的解碼器映射回像素空間。
在本節(jié)中,研究者對 Sora 所使用的技術(shù)進行了逆向工程,并討論了一系列相關(guān)工作。
數(shù)據(jù)預(yù)處理
Sora 的一個顯著特征是它能夠訓(xùn)練、理解和生成原始尺寸的視頻和圖像,如圖 5 所示。而傳統(tǒng)方法通常會調(diào)整視頻大小、裁剪或調(diào)整視頻的長寬比以適應(yīng)統(tǒng)一的視頻和圖像。利用擴散 Transformer 架構(gòu),Sora 是第一個擁抱視覺數(shù)據(jù)多樣性的模型,可以以多種視頻和圖像格式進行采樣,范圍從寬屏 1920x1080p 視頻到垂直 1080x1920p 視頻以及介于兩者之間的視頻,而不影響其原始尺寸。
如圖 6 所示,Sora 生成的視頻能夠更好的展現(xiàn)主題,從而確保在場景中完全捕捉到拍攝對象,而其他視頻有時會導(dǎo)致視圖被截斷或裁剪,導(dǎo)致拍攝對象脫離畫面。
統(tǒng)一視覺表示。為了有效處理不同持續(xù)時間、分辨率和高寬比的圖像和視頻,關(guān)鍵在于將所有形式的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示。
Sora 處理的過程是這樣的:首先將視頻壓縮到低維潛在空間,然后將表示分解為時空 patch 來對視頻進行 patch 化(patchifies)。但是回看 Sora 技術(shù)報告,他們僅僅提出了一個高層次的想法,這給研究界的復(fù)現(xiàn)帶來了挑戰(zhàn)。在接下來的章節(jié)中,本文嘗試對 Sora 的技術(shù)路徑進行逆向工程,并且借鑒現(xiàn)有文獻,討論可以復(fù)現(xiàn) Sora 的可行替代方案。
首先是視頻壓縮網(wǎng)絡(luò)。Sora 的視頻壓縮網(wǎng)絡(luò)(或視覺編碼器)旨在降低輸入數(shù)據(jù)(尤其是原始視頻)的維度,并輸出在時間和空間上壓縮過的潛在表示,如圖 7 所示。根據(jù)技術(shù)報告中的參考文獻, Sora 壓縮網(wǎng)絡(luò)是基于 VAE 或 VQ-VAE 技術(shù)的。
然而,如果不像技術(shù)報告中對視頻和圖像調(diào)整大小和裁剪,那么 VAE 將任何大小的視覺數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間挑戰(zhàn)巨大。本文總結(jié)了兩種不同的實現(xiàn)來解決這個問題:
空間 patch 壓縮:涉及將視頻幀轉(zhuǎn)換為固定大小的 patch,類似于 ViT 和 MAE 中使用的方法(見圖 8),然后將其編碼到潛在空間中,這種方法對于適應(yīng)不同分辨率和寬高比的視頻特別有效。隨后,將這些空間 token 按時間序列組織在一起,以創(chuàng)建時間 - 空間潛在表征。
時間 - 空間 patch 壓縮:該技術(shù)旨在封裝視頻數(shù)據(jù)的空間和時間維度,從而提供全面的表示。該技術(shù)不僅僅分析靜態(tài)幀,還考慮幀間的運動和變化,從而捕獲視頻的動態(tài)信息。3D 卷積的利用成為實現(xiàn)這種集成的一種簡單而有效的方法。
圖 9 描繪了不同視頻壓縮方式的比較。與空間 patch 壓縮類似,使用具有預(yù)定卷積核參數(shù)(例如固定內(nèi)核大小、步幅和輸出通道)的時間 - 空間 patch 壓縮會導(dǎo)致潛在空間維度也不同。為了緩解這一挑戰(zhàn),空間修補(spatial patchification)所采用的方法在這種情況下同樣適用和有效。
總的來說,本文基于 VAE 或其變體如 VQ-VQE 逆向工程了兩種 patch 級壓縮方法,因為 patch 對處理不同類型的視頻更加靈活。由于 Sora 旨在生成高保真視頻,因此使用了較大尺寸的 patch 或內(nèi)核尺寸以實現(xiàn)高效壓縮。這里,本文期望使用固定大小的 patch,以簡化操作、擴展性和訓(xùn)練穩(wěn)定性。但也可以使用不同大小的 patch,以使整個幀或視頻在潛在空間中的尺寸保持一致。然而,這可能導(dǎo)致位置編碼無效,并且給解碼器生成具有不同大小潛在 patch 的視頻帶來挑戰(zhàn)。
壓縮網(wǎng)絡(luò)部分還有一個關(guān)鍵問題:在將 patch 送入擴散 Transformer 的輸入層之前,如何處理潛在空間維度的變化(即不同視頻類型的潛在特征塊或 patch 的數(shù)量)。這里討論了幾種解決方案:
根據(jù) Sora 的技術(shù)報告和相應(yīng)的參考文獻,patch n' pack(PNP)很可能是一種解決方案。如圖 10 所示,PNP 將來自不同圖像的多個 patch 打包在一個序列中。這種方法的靈感來源于自然語言處理中使用的樣本打包,它通過丟棄 token 來實現(xiàn)對不同長度輸入的高效訓(xùn)練。在這里,patch 化和 token 嵌入步驟需要在壓縮網(wǎng)絡(luò)中完成,但 Sora 可能會像 Diffusion Transformer(擴散 Transformer)那樣,為 Transformer token 進一步 patch 化。
無論是否有第二輪修補,都需要解決兩個問題:如何以緊湊的方式打包這些 token,以及如何控制哪些 token 應(yīng)該被丟棄。
對于第一個問題,研究者采用了簡單的「貪心」算法,即在第一個序列中添加足夠剩余空間的樣本。一旦沒有樣本可以容納,序列就會被填充 token 填滿,從而產(chǎn)生批處理操作所需的固定序列長度。這種簡單的打包算法可能會導(dǎo)致大量填充,這取決于輸入長度的分布情況。另一方面,可以控制采樣的分辨率和幀數(shù),通過調(diào)整序列長度和限制填充來確保高效打包。
對于第二個問題,直觀的方法是丟棄相似的 token,或者像 PNP 一樣,使用丟棄率調(diào)度器。不過,值得注意的是,三維一致性是 Sora 的優(yōu)良特性之一。在訓(xùn)練過程中,丟棄 token 可能會忽略細粒度的細節(jié)。因此,研究者認(rèn)為 OpenAI 很可能會使用超長的上下文窗口并打包視頻中的所有 token,盡管這樣做的計算成本很高,例如,多頭注意力算子在序列長度上表現(xiàn)出二次成本。具體來說,一個長時間視頻中的時空潛在 patch 可以打包到一個序列中,而多個短時間視頻中的時空潛在 patch 則會串聯(lián)到另一個序列中。
建模
- 圖像 DiT
傳統(tǒng)的擴散模型主要利用包含下采樣和上采樣塊的卷積 U-Net 作為去噪網(wǎng)絡(luò)骨干。然而,最近的研究表明,U-Net 架構(gòu)對擴散模型的良好性能并非至關(guān)重要。
通過采用更靈活的 Transformer 架構(gòu),基于 Transformer 的擴散模型可以使用更多的訓(xùn)練數(shù)據(jù)和更大的模型參數(shù)。沿著這一思路,DiT 和 U-ViT 是第一批將視覺 Transformer 用于潛在擴散模型的作品。
與 ViT 一樣,DiT 也采用了多頭自注意力層和層范數(shù)和縮放層交錯的逐點前饋網(wǎng)絡(luò)。如圖 11 所示,DiT 還通過 AdaLN 進行調(diào)節(jié),并增加了一個用于零初始化的 MLP 層,將每個殘差塊初始化為一個恒等函數(shù),從而大大穩(wěn)定了訓(xùn)練過程。DiT 的可擴展性和靈活性得到了經(jīng)驗驗證。
在 U-ViT 中,如圖 11 所示,將包括時間、條件和噪聲圖像片段在內(nèi)的所有輸入都視為 token,并在淺層和深層 Transformer 層之間提出了長跳躍連接。結(jié)果表明,基于 CNN 的 U-Net 中的下采樣和升采樣算子并非總是必要的,U-ViT 在圖像和文本到圖像生成方面取得了破紀(jì)錄的 FID 分?jǐn)?shù)。
與掩蔽自編碼器(MAE)一樣,掩蔽擴散 Transformer(MDT)也在擴散過程中加入了掩碼潛在模型,以明確增強圖像合成中對象語義部分之間的上下文關(guān)系學(xué)習(xí)。
具體來說,如圖 12 所示,MDT 在訓(xùn)練過程中使用邊緣插值(side-interpolated)進行額外的掩蔽 token 重建任務(wù),以提高訓(xùn)練效率,并學(xué)習(xí)強大的上下文感知位置嵌入進行推理。與 DiT 相比,MDT 實現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。Hatamizadeh et al. 沒有使用 AdaLN(即移位和縮放)進行時間條件建模,而是引入了 Diffusion Vision Transformers (DiffiT),它使用與時間相關(guān)的自注意力(TMSA)模塊對采樣時間步長內(nèi)的動態(tài)去噪行為進行建模。此外,DiffiT 采用兩種混合分層架構(gòu),分別在像素空間和潛在空間進行高效去噪,并在各種生成任務(wù)中取得了新的先進成果??傊?,這些研究表明,利用視覺 Transformer 進行圖像潛在擴散取得了可喜的成果,為面向其他模態(tài)的研究鋪平了道路。
- 視頻 DiT
在文本到圖像(T2I)擴散模型的基礎(chǔ)上,一些近期研究專注于發(fā)揮擴散 Transformer 在文本到視頻(T2V)生成任務(wù)中的潛力。由于視頻的時空特性,在視頻領(lǐng)域應(yīng)用 DiT 所面臨的主要挑戰(zhàn)是:i) 如何將視頻從空間和時間上壓縮到潛在空間,以實現(xiàn)高效去噪;ii) 如何將壓縮潛在空間轉(zhuǎn)換為 patch,并將其輸入 Transformer ;iii) 如何處理長序列時空依賴性,并確保內(nèi)容一致性。
這里將討論基于 Transformer 的去噪網(wǎng)絡(luò)架構(gòu)(該架構(gòu)旨在時空壓縮的潛在空間中運行)下文詳細回顧了 OpenAI Sora 技術(shù)報告參考文獻列表中介紹的兩項重要工作(Imagen Video 和 Video LDM)。
Imagen Video 是谷歌研究院開發(fā)的文本到視頻生成系統(tǒng),它利用級聯(lián)擴散模型(由 7 個子模型組成,分別執(zhí)行文本條件視頻生成、空間超分辨率和時間超分辨率)將文本提示轉(zhuǎn)化為高清視頻。
如圖 13 所示,首先,凍結(jié)的 T5 文本編碼器會根據(jù)輸入的文本提示生成上下文嵌入。這些嵌入對于將生成的視頻與文本提示對齊至關(guān)重要,除了基礎(chǔ)模型外,它們還被注入級聯(lián)中的所有模型。隨后,嵌入信息被注入基礎(chǔ)模型,用于生成低分辨率視頻,然后由級聯(lián)擴散模型對其進行細化以提高分辨率?;A(chǔ)視頻和超分辨率模型采用時空可分離的 3D U-Net 架構(gòu)。該架構(gòu)將時間注意力層和卷積層與空間對應(yīng)層結(jié)合在一起,以有效捕捉幀間依賴關(guān)系。它采用 v 預(yù)測參數(shù)化來實現(xiàn)數(shù)值穩(wěn)定性和條件增強,以促進跨模型的并行訓(xùn)練。
這一過程包括對圖像和視頻進行聯(lián)合訓(xùn)練,將每幅圖像視為一幀,以利用更大的數(shù)據(jù)集,并使用無分類器引導(dǎo)來提高提示保真度。漸進式蒸餾法用于簡化采樣過程,在保持感知質(zhì)量的同時大大減少了計算負荷。將這些方法和技術(shù)相結(jié)合,Imagen Video 不僅能生成高保真視頻,而且還具有出色的可控性,這體現(xiàn)在它能生成多樣化的視頻、文本動畫和各種藝術(shù)風(fēng)格的內(nèi)容。
Blattmann et al. 建議將二維潛在擴散模型轉(zhuǎn)化為視頻潛在擴散模型(Video LDM)。為此,他們在 U-Net 主干網(wǎng)和 VAE 解碼器的現(xiàn)有空間層中添加了一些臨時時間層,以學(xué)習(xí)如何對齊單個幀。這些時間層在編碼視頻數(shù)據(jù)上進行訓(xùn)練,而空間層則保持固定,從而使模型能夠利用大型圖像數(shù)據(jù)集進行預(yù)訓(xùn)練。LDM 的解碼器可進行微調(diào),以實現(xiàn)像素空間的時間一致性和時間對齊擴散模型上采樣器,從而提高空間分辨率。
為了生成超長視頻,作者對模型進行了訓(xùn)練,以預(yù)測未來幀的上下文幀數(shù),從而在采樣過程中實現(xiàn)無分類器引導(dǎo)。為實現(xiàn)高時間分辨率,作者將視頻合成過程分為關(guān)鍵幀生成和這些關(guān)鍵幀之間的插值。在級聯(lián) LDM 之后,使用 DM 將視頻 LDM 輸出進一步放大 4 倍,確保高空間分辨率的同時保持時間一致性。這種方法能以高效的計算方式生成全局一致的長視頻。此外,作者還展示了將預(yù)先訓(xùn)練好的圖像 LDM(如穩(wěn)定擴散)轉(zhuǎn)化為文本到視頻模型的能力,只需訓(xùn)練時間對齊層,即可實現(xiàn)分辨率高達 1280 × 2048 的視頻合成。
語言指令跟隨
為了提高文本到視頻模型遵循文本指令的能力,Sora 采用了與 DALL?E 3 類似的方法。
DALL?E 3 中的指令跟隨是通過一種描述改進方法來解決的,其假設(shè)是模型所訓(xùn)練的文本 - 圖像對的質(zhì)量決定了最終文本 - 圖像模型的性能。數(shù)據(jù)質(zhì)量差,尤其是普遍存在的噪聲數(shù)據(jù)和省略了大量視覺信息的簡短標(biāo)題,會導(dǎo)致許多問題,如忽略關(guān)鍵詞和詞序,以及誤解用戶意圖等。描述改進方法通過為現(xiàn)有圖像重新添加詳細的描述性描述來解決這些問題。該方法首先訓(xùn)練圖像描述器(視覺語言模型),以生成精確的描述性圖像描述。然后,描述器生成的描述性圖像描述將用于微調(diào)文本到圖像模型。
具體來說,DALL?E 3 采用對比式描述器(CoCa),聯(lián)合訓(xùn)練具有 CLIP 架構(gòu)和語言模型目標(biāo)的圖像描述器。該圖像描述器包含一個圖像編碼器、一個用于提取語言信息的單模態(tài)文本編碼器和一個多模態(tài)文本解碼器。它首先在單模態(tài)圖像和文本嵌入之間采用對比損失,然后對多模態(tài)解碼器的輸出采用描述損失。由此產(chǎn)生的圖像描述器將根據(jù)對圖像的高度詳細描述進行進一步微調(diào),其中包括主要對象、周圍環(huán)境、背景、文本、風(fēng)格和色彩。通過這一步驟,圖像描述器就能為圖像生成詳細的描述性描述。文本到圖像模型的訓(xùn)練數(shù)據(jù)集由圖像描述生成器生成的重新描述數(shù)據(jù)集和真實人工編寫數(shù)據(jù)混合而成,以確保模型捕捉到用戶輸入。
這種圖像描述改進方法帶來了一個潛在問題:實際用戶提示與訓(xùn)練數(shù)據(jù)中的描述性圖像描述不匹配。DALL?E 3 通過上采樣解決了這一問題,即使用 LLM 將簡短的用戶提示改寫成詳細而冗長的說明。這確保了模型在推理時接收到的文本輸入與模型訓(xùn)練時的文本輸入保持一致。
為了提高指令跟蹤能力,Sora 采用了類似的描述改進方法。這種方法是通過首先訓(xùn)練一個能夠為視頻制作詳細說明的視頻描述器來實現(xiàn)的。然后,將該視頻描述器應(yīng)用于訓(xùn)練數(shù)據(jù)中的所有視頻,生成高質(zhì)量的(視頻、描述性描述)對,用于微調(diào) Sora,以提高其指令跟隨能力。
Sora 的技術(shù)報告沒有透露視頻描述器是如何訓(xùn)練的細節(jié)。鑒于視頻描述器是一個視頻到文本的模型,因此有很多方法來構(gòu)建它:
一種直接的方法是利用 CoCa 架構(gòu)來制作視頻描述,方法是獲取視頻的多個幀,并將每個幀輸入圖像編碼器,即 VideoCoCa。VideoCoCa 以 CoCa 為基礎(chǔ),重新使用圖像編碼器預(yù)訓(xùn)練的權(quán)重,并將其獨立應(yīng)用于采樣視頻幀。由此產(chǎn)生的幀 token 嵌入會被扁平化,并連接成一長串視頻表示。然后,生成式池化層和對比池化層會對這些扁平化的幀 token 進行處理,二者是用對比損失和描述損失聯(lián)合訓(xùn)練的。
其他可用于構(gòu)建視頻描述的方法包括 mPLUG-2、GIT、FrozenBiLM 等。
最后,為確保用戶提示與訓(xùn)練數(shù)據(jù)中的描述性描述格式一致,Sora 還執(zhí)行了額外的提示擴展步驟,即使用 GPT-4V 將用戶輸入擴展為詳細的描述性提示。
然而,Sora 訓(xùn)練描述器的數(shù)據(jù)收集過程尚不清楚,而且很可能需要大量人力,因為這可能需要對視頻進行詳細描述。此外,描述性視頻描述可能會對視頻的重要細節(jié)產(chǎn)生幻覺。本文作者認(rèn)為,如何改進視頻描述器值得進一步研究,這對提高文本到圖像模型的指令跟蹤能力至關(guān)重要。
提示工程
- 文本提示
文本提示工程對于指導(dǎo)文本視頻模型制作出既具有視覺沖擊力又能精確滿足用戶規(guī)格的視頻至關(guān)重要。這就需要制作詳細的描述來指導(dǎo)模型,以有效彌合人類創(chuàng)造力與人工智能執(zhí)行能力之間的差距。
Sora 的提示涵蓋了廣泛的場景。近期的作品(如 VoP、Make-A-Video 和 Tune-A-Video)展示了提示工程如何利用模型的自然語言理解能力來解碼復(fù)雜指令,并將其呈現(xiàn)為連貫、生動和高質(zhì)量的視頻敘事。
如圖 15 所示,「一個時髦的女人走在霓虹燈閃爍的東京街頭...... 」就是這樣一個精心制作的文本提示,它確保 Sora 生成的視頻與預(yù)期的視覺效果非常吻合。提示工程的質(zhì)量取決于對詞語的精心選擇、所提供細節(jié)的具體性以及對其對模型輸出影響的理解。例如,圖 15 中的提示詳細說明了動作、設(shè)置、角色出場,甚至是所期望的場景情緒和氛圍。
- 圖像提示
圖像提示為即將生成的視頻內(nèi)容和其他元素(如人物、場景和情緒)提供了視覺錨點。此外,文字提示還可以指示模型將這些元素動畫化,例如,添加動作、互動和敘事進展等層次,使靜態(tài)圖像栩栩如生。通過使用圖像提示,Sora 可以利用視覺和文本信息將靜態(tài)圖像轉(zhuǎn)換成動態(tài)的、由敘事驅(qū)動的視頻。
圖 16 展示了人工智能生成的視頻:「一只頭戴貝雷帽、身穿高領(lǐng)毛衣的柴犬」、「一個獨特的怪物家族」、「一朵云組成了 SORA 一詞」以及「沖浪者在一座歷史悠久的大廳內(nèi)駕馭潮汐」。這些例子展示了通過 DALL?E 生成的圖像提示 Sora 可以實現(xiàn)哪些功能。
- 視頻提示
視頻提示也可用于視頻生成。最近的研究(如 Moonshot 和 Fast-Vid2Vid)表明,好的視頻提示需要「具體」而「靈活」。這樣既能確保模型在特定目標(biāo)(如特定物體和視覺主題的描繪)上獲得明確的指導(dǎo),又能在最終輸出中允許富有想象力的變化。
例如,在視頻擴展任務(wù)中,提示可以指定擴展的方向(時間向前或向后)和背景或主題。在圖 17 (a) 中,視頻提示指示 Sora 向后延伸一段視頻,以探索導(dǎo)致原始起點的事件。如圖 17(b)所示,在通過視頻提示執(zhí)行視頻到視頻的編輯時,模型需要清楚地了解所需的轉(zhuǎn)換,例如改變視頻的風(fēng)格、場景或氛圍,或改變燈光或情緒等微妙的方面。在圖 17 (c) 中,提示指示 Sora 連接視頻,同時確保視頻中不同場景中的物體之間平滑過渡。
雖然以前關(guān)于提示工程的研究主要集中在 LLM 和 LVM 的文本和圖像提示上,但預(yù)計研究者們對視頻生成模型的視頻提示的興趣會越來越大。
應(yīng)用
隨著以 Sora 為代表的視頻擴散模型技術(shù)取得突破,其在不同研究領(lǐng)域和行業(yè)的應(yīng)用正在迅速加速。
本文作者指出,這項技術(shù)的影響遠遠超出了單純的視頻創(chuàng)作,為從自動內(nèi)容生成到復(fù)雜決策過程的各種任務(wù)提供了變革潛力。
在論文的第四章中,全面探討了視頻擴散模型的當(dāng)前應(yīng)用,希望為實際部署方案提供一個廣闊的視角(圖 18):
- 提高模擬能力:對 Sora 進行大規(guī)模訓(xùn)練,是因為它能夠出色地模擬物理世界的各個方面。盡管沒有明確的三維建模,但 Sora 通過動態(tài)攝像機運動和遠距離連貫性表現(xiàn)出三維一致性,包括物體持久性和模擬與世界的簡單交互。此外,Sora 還能模擬類似 Minecraft 的數(shù)字環(huán)境,在保持視覺保真度的同時由基本策略控制,這一點非常有趣。這些新出現(xiàn)的能力表明,可擴展視頻模型可以有效地創(chuàng)建人工智能模型,以模擬物理和數(shù)字世界的復(fù)雜性。
- 提高創(chuàng)造力:想象一下,通過文字勾勒出一個概念,無論是一個簡單的物體還是一個完整的場景,都能在幾秒鐘內(nèi)呈現(xiàn)出逼真或高度風(fēng)格化的視頻。Sora 可以加速設(shè)計過程,更快地探索和完善創(chuàng)意,從而大大提高藝術(shù)家、電影制作人和設(shè)計師的創(chuàng)造力。
- 推動教育創(chuàng)新:長期以來,視覺輔助工具一直是教育領(lǐng)域理解重要概念不可或缺的工具。有了 Sora,教育工作者可以輕松地將課堂計劃從文字變成視頻,吸引學(xué)生的注意力,提高學(xué)習(xí)效率。從科學(xué)模擬到歷史劇,可能性是無限的。
- 增強可訪問性:提高視覺領(lǐng)域的可訪問性至關(guān)重要。Sora 通過將文字描述轉(zhuǎn)換為可視內(nèi)容,提供了一種創(chuàng)新的解決方案。這種功能使包括視覺障礙者在內(nèi)的所有人都能積極參與內(nèi)容創(chuàng)建,并以更有效的方式與他人互動。因此,它可以創(chuàng)造一個更具包容性的環(huán)境,讓每個人都有機會通過視頻表達自己的想法。
- 促進新興應(yīng)用:Sora 的應(yīng)用領(lǐng)域非常廣泛。例如,營銷人員可以用它來制作針對特定受眾描述的動態(tài)廣告。游戲開發(fā)商可以利用它根據(jù)玩家的敘述生成定制的視覺效果甚至角色動作。
具體而言,以下幾個行業(yè)將面臨變革:
影視
傳統(tǒng)上,創(chuàng)作電影是一個艱巨而昂貴的過程,往往需要數(shù)十年的努力、尖端的設(shè)備和大量的資金投入。先進視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作進入了一個新時代,從簡單的文本輸入中自主生成電影的夢想正在成為現(xiàn)實。事實上,研究人員已經(jīng)涉足電影生成領(lǐng)域,將視頻生成模型擴展到電影創(chuàng)作中。
MovieFactory 應(yīng)用擴散模型從 ChatGPT 制作的精心腳本中生成電影風(fēng)格的視頻,這是一個重大飛躍。在后續(xù)研究中,MobileVidFactory 只需用戶提供簡單的文本,就能自動生成垂直移動視頻。Vlogger 則讓用戶可以制作長達一分鐘的 Vlog。
Sora 能夠毫不費力地生成引人入勝的電影內(nèi)容,這是這些發(fā)展的縮影,標(biāo)志著電影制作民主化的關(guān)鍵時刻。它們讓人們看到了一個人人都能成為電影制作人的未來,大大降低了電影行業(yè)的準(zhǔn)入門檻,并為電影制作引入了一個新的維度,將傳統(tǒng)的故事講述方式與人工智能驅(qū)動的創(chuàng)造力融為一體。這些技術(shù)的影響不僅僅是簡單化。它們有望重塑電影制作的格局,使其在面對不斷變化的觀眾喜好和發(fā)行渠道時,變得更加容易獲得,用途更加廣泛。
游戲
游戲產(chǎn)業(yè)一直在尋求突破逼真度和沉浸感界限的方法,但傳統(tǒng)游戲開發(fā)往往受到預(yù)先渲染的環(huán)境和腳本事件的限制。通過擴散模型效果實時生成動態(tài)、高保真視頻內(nèi)容和逼真音效,有望克服現(xiàn)有的限制,為開發(fā)人員提供工具來創(chuàng)建不斷變化的游戲環(huán)境,對玩家的行為和游戲事件做出有機的反應(yīng)。這可能包括生成不斷變化的天氣條件、改變地貌,甚至即時創(chuàng)建全新的設(shè)置,從而使游戲世界更加身臨其境、反應(yīng)更加靈敏。一些方法還能從視頻輸入中合成逼真的沖擊聲,增強游戲音頻體驗。
將 Sora 集成到游戲領(lǐng)域后,就能創(chuàng)造出無與倫比的身臨其境的體驗,吸引并吸引玩家。游戲的開發(fā)、玩耍和體驗方式都將得到創(chuàng)新,并為講故事、互動和沉浸式體驗帶來新的可能性。
醫(yī)療
盡管具有生成能力,但視頻擴散模型在理解和生成復(fù)雜視頻序列方面表現(xiàn)出色,因此特別適用于識別人體內(nèi)的動態(tài)異常,如早期細胞凋亡、皮膚病變進展和不規(guī)則人體運動,這對早期疾病檢測和干預(yù)策略至關(guān)重要。此外,MedSegDiffV2 等模型利用 Transformer 的強大功能,以前所未有的精度分割醫(yī)學(xué)影像,使臨床醫(yī)生能夠在各種成像模式中精確定位感興趣的區(qū)域,提高準(zhǔn)確性。
將 Sora 集成到臨床實踐中,不僅有望完善診斷流程,還能根據(jù)精確的醫(yī)學(xué)影像分析提供量身定制的治療方案,實現(xiàn)患者護理的個性化。然而,這種技術(shù)整合也帶來了一系列挑戰(zhàn),包括需要采取強有力的數(shù)據(jù)隱私措施和解決醫(yī)療保健中的倫理問題。
機器人
視頻擴散模型目前在機器人技術(shù)中發(fā)揮著重要作用,它展示了一個新時代:機器人可以生成和解釋復(fù)雜的視頻序列,以增強感知和決策。這些模型釋放了機器人的新能力,使它們能夠與環(huán)境互動,以前所未有的復(fù)雜度和精確度執(zhí)行任務(wù)。將網(wǎng)絡(luò)規(guī)模擴散模型引入機器人學(xué),展示了利用大規(guī)模模型增強機器人視覺和理解能力的潛力。潛在擴散模型被用于語言指導(dǎo)的視頻預(yù)測,使機器人能夠通過預(yù)測視頻格式的行動結(jié)果來理解和執(zhí)行任務(wù)。此外,視頻擴散模型能夠創(chuàng)建高度逼真的視頻序列,創(chuàng)新性地解決了機器人研究依賴模擬環(huán)境的問題。這樣就能為機器人生成多樣化的訓(xùn)練場景,緩解真實世界數(shù)據(jù)匱乏所帶來的限制。
將 Sora 等技術(shù)整合到機器人領(lǐng)域有望取得突破性發(fā)展。通過利用 Sora 的強大功能,未來的機器人技術(shù)將取得前所未有的進步,機器人可以無縫導(dǎo)航并與周圍環(huán)境互動。
局限性
最后,研究者指出了 Sora 這項新技術(shù)存在的風(fēng)險問題和局限性。
隨著 ChatGPT 、GPT4-V 和 Sora 等復(fù)雜模型的快速發(fā)展,這些模型的能力得到了顯著提高。這些發(fā)展為提高工作效率和推動技術(shù)進步做出了重大貢獻。然而,這些進步也引發(fā)了人們對這些技術(shù)可能被濫用的擔(dān)憂,包括假新聞的產(chǎn)生、隱私泄露和道德困境。因此,大模型的可信度問題引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,成為當(dāng)下研究討論的焦點。
雖然 Sora 的成就凸顯了人工智能的重大進步,但挑戰(zhàn)依然存在。在描繪復(fù)雜動作或捕捉微妙面部表情方面,該模型還有待改進。此外,減少生成內(nèi)容中的偏見和防止有害的視覺輸出等道德方面的考慮也強調(diào)了開發(fā)人員、研究人員和更廣泛的社區(qū)負責(zé)任使用的重要性。確保 Sora 的輸出始終安全、無偏見是一項主要挑戰(zhàn)。
但伴隨著視頻生成領(lǐng)域的發(fā)展,學(xué)術(shù)界和工業(yè)界的研究團隊都取得了長足的進步。文本到視頻競爭模式的出現(xiàn)表明,Sora 可能很快就會成為動態(tài)生態(tài)系統(tǒng)的一部分。這種合作與競爭的環(huán)境促進了創(chuàng)新,從而提高了視頻質(zhì)量并開發(fā)了新的應(yīng)用,有助于提高工人的工作效率,使人們的生活更具娛樂性。