自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="siea2"><track id="siea2"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Sora是『神筆馬良』還是AI怪物？首篇綜述一探乾坤！

作者：汽車人 2024-03-12 09:22:30

人工智能智能汽車

自從ChatGPT于2022年11月發(fā)布以來，AI技術(shù)的出現(xiàn)標(biāo)志著一個(gè)重大的轉(zhuǎn)變，深入融合到日常生活和行業(yè)的各個(gè)方面。借助這一勢頭，OpenAI于2024年2月發(fā)布了Sora，這是一個(gè)文本到視頻生成的AI模型，可以根據(jù)文本提示生成逼真或富有想象力的場景視頻。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

Sora是一種文本到視頻生成的人工智能模型，由OpenAI于2024年2月發(fā)布。該模型經(jīng)過訓(xùn)練，能夠從文本指令中生成逼真或想象的場景視頻，并顯示出在模擬物理世界方面的潛力?；诠_的技術(shù)報(bào)告和逆向工程，本文對(duì)該模型的背景、相關(guān)技術(shù)、應(yīng)用、尚存挑戰(zhàn)以及文本到視頻人工智能模型未來發(fā)展方向進(jìn)行了全面審查。我們首先追溯了Sora的發(fā)展歷程，并調(diào)查了用于構(gòu)建這個(gè)"世界模擬器"的基礎(chǔ)技術(shù)。然后，我們?cè)敿?xì)描述了Sora在從電影制作、教育到營銷等多個(gè)行業(yè)中的應(yīng)用和潛在影響。我們討論了需要解決的主要挑戰(zhàn)和限制，以廣泛部署Sora，例如確保視頻生成的安全和無偏見性。最后，我們討論了Sora和視頻生成模型的未來發(fā)展，以及該領(lǐng)域的進(jìn)步如何可能促進(jìn)人機(jī)交互的新方式，提升視頻生成的生產(chǎn)力和創(chuàng)造力。

相關(guān)介紹

自從ChatGPT于2022年11月發(fā)布以來，AI技術(shù)的出現(xiàn)標(biāo)志著一個(gè)重大的轉(zhuǎn)變，深入融合到日常生活和行業(yè)的各個(gè)方面。借助這一勢頭，OpenAI于2024年2月發(fā)布了Sora，這是一個(gè)文本到視頻生成的AI模型，可以根據(jù)文本提示生成逼真或富有想象力的場景視頻。與先前的視頻生成模型相比，Sora的特點(diǎn)在于其能夠在保持對(duì)用戶文本指令的遵循的同時(shí)生成長達(dá)1分鐘的高質(zhì)量視頻。Sora的這一進(jìn)步體現(xiàn)了長期以來AI研究的使命，即賦予AI系統(tǒng)（或AI代理）理解和與動(dòng)態(tài)物理世界交互的能力。這涉及開發(fā)既能夠解釋復(fù)雜用戶指令又能夠?qū)⑦@種理解應(yīng)用于通過動(dòng)態(tài)和具有豐富上下文的模擬解決現(xiàn)實(shí)問題的AI模型。

Sora展示了準(zhǔn)確解釋和執(zhí)行復(fù)雜人類指令的卓越能力，如圖2所示。該模型可以生成包含多個(gè)角色在錯(cuò)綜復(fù)雜的背景中執(zhí)行特定動(dòng)作的詳細(xì)場景。研究人員將Sora的熟練歸因于其不僅處理用戶生成的文本提示，還辨別了情景中各個(gè)元素的復(fù)雜相互作用。Sora最引人注目的一個(gè)方面之一是其能夠生成長達(dá)一分鐘的視頻，同時(shí)保持高視覺質(zhì)量和引人入勝的視覺連貫性。與以前只能生成短視頻剪輯的模型不同，Sora的一分鐘視頻創(chuàng)作具有從第一幀到最后一幀的連貫性和視覺一致性的進(jìn)展。此外，Sora的進(jìn)步體現(xiàn)在其能夠生成具有動(dòng)態(tài)和交互細(xì)微描繪的擴(kuò)展視頻序列上，克服了先前視頻生成模型的短片和簡單視覺呈現(xiàn)的限制。這一能力代表了AI驅(qū)動(dòng)的創(chuàng)意工具的一大進(jìn)步，允許用戶將文本敘述轉(zhuǎn)換為豐富的視覺故事?？偟膩碚f，這些進(jìn)步展示了Sora作為一個(gè)世界模擬器在提供所描繪場景的物理和上下文動(dòng)態(tài)的細(xì)微洞見方面的潛力。

技術(shù)：Sora的核心是一個(gè)預(yù)訓(xùn)練的擴(kuò)散Transformer。Transformer模型已被證明在許多自然語言任務(wù)中具有可伸縮性和有效性。與諸如GPT-4等強(qiáng)大的大型語言模型（LLMs）相似，Sora可以解析文本并理解復(fù)雜的用戶指令。為了使視頻生成在計(jì)算上更有效，Sora采用時(shí)空潛在補(bǔ)丁作為其構(gòu)建模塊。具體而言，Sora將原始輸入視頻壓縮成潛在時(shí)空表示。然后，從壓縮視頻中提取一系列潛在時(shí)空補(bǔ)丁，以概括短暫時(shí)間內(nèi)的視覺外觀和運(yùn)動(dòng)動(dòng)態(tài)。這些補(bǔ)丁類似于語言模型中的詞標(biāo)記，為Sora提供了詳細(xì)的視覺短語，用于構(gòu)建視頻。Sora的文本到視頻生成是通過擴(kuò)散Transformer模型執(zhí)行的。從一個(gè)充滿視覺噪聲的幀開始，模型迭代地去噪圖像，并根據(jù)提供的文本提示引入特定的細(xì)節(jié)。本質(zhì)上，生成的視頻通過一個(gè)多步細(xì)化過程逐步呈現(xiàn)，每一步都使視頻更加與所需內(nèi)容和質(zhì)量保持一致。

Sora的亮點(diǎn)：Sora的能力在各個(gè)方面都具有深遠(yuǎn)的影響：

提高模擬能力：訓(xùn)練Sora的規(guī)模被歸因于其模擬物理世界各個(gè)方面的卓越能力。盡管缺乏顯式的3D建模，但Sora表現(xiàn)出具有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)和長距離連貫性的3D一致性，其中包括對(duì)象持續(xù)存在并模擬與世界的簡單交互。此外，Sora有趣地模擬數(shù)字環(huán)境，如Minecraft，由基本策略控制，同時(shí)保持視覺保真度。這些新出現(xiàn)的能力表明，擴(kuò)展視頻模型在創(chuàng)建模擬物理和數(shù)字世界的AI模型方面是有效的。
提升創(chuàng)造力：想象通過文本勾勒一個(gè)概念，無論是簡單的對(duì)象還是完整的場景，并在幾秒鐘內(nèi)看到一個(gè)逼真或高度風(fēng)格化的視頻。Sora為更快的探索和完善想法提供了加速的設(shè)計(jì)過程，從而顯著提升了藝術(shù)家、電影制片人和設(shè)計(jì)師的創(chuàng)造力。
推動(dòng)教育創(chuàng)新：視覺輔助長期以來一直是理解教育中重要概念的核心。有了Sora，教育者可以輕松地將課程計(jì)劃從文本轉(zhuǎn)換為視頻，以吸引學(xué)生的注意力并提高學(xué)習(xí)效率。從科學(xué)模擬到歷史戲劇化，可能性是無限的。
提升可訪問性：在視覺領(lǐng)域提高可訪問性至關(guān)重要。Sora通過將文本描述轉(zhuǎn)換為視覺內(nèi)容提供了創(chuàng)新的解決方案。這種能力使所有個(gè)體，包括視覺障礙者，在內(nèi)容創(chuàng)作和與他人更有效地互動(dòng)方面能夠積極參與。因此，它為一個(gè)更具包容性的環(huán)境提供了可能，每個(gè)人都有機(jī)會(huì)通過視頻表達(dá)自己的想法。
促進(jìn)新興應(yīng)用：Sora的應(yīng)用是廣泛的。例如，營銷人員可以使用它創(chuàng)建針對(duì)特定受眾描述的動(dòng)態(tài)廣告。游戲開發(fā)人員可以使用它從玩家敘述中生成定制的視覺或甚至角色動(dòng)作。

局限性和機(jī)會(huì)。雖然Sora的成就突顯了AI領(lǐng)域的重大進(jìn)步，但仍存在挑戰(zhàn)。描繪復(fù)雜動(dòng)作或捕捉微妙面部表情是模型可以改進(jìn)的領(lǐng)域之一。此外，諸如減輕生成內(nèi)容中的偏見和防止有害視覺輸出等道德考慮強(qiáng)調(diào)了開發(fā)者、研究人員和更廣泛社區(qū)負(fù)責(zé)任使用的重要性。確保Sora的輸出始終安全和公正是一項(xiàng)主要挑戰(zhàn)。視頻生成領(lǐng)域正在迅速發(fā)展，學(xué)術(shù)界和工業(yè)研究團(tuán)隊(duì)正在不懈地取得進(jìn)展。競爭性文本到視頻模型的出現(xiàn)表明，Sora很快可能成為一個(gè)動(dòng)態(tài)生態(tài)系統(tǒng)的一部分。這種合作和競爭的環(huán)境促進(jìn)了創(chuàng)新，導(dǎo)致了視頻質(zhì)量的提高和新的應(yīng)用，有助于提高工作者的生產(chǎn)力，并使人們的生活更加有趣。

基于已發(fā)布的技術(shù)報(bào)告和我們的逆向工程，本文介紹了Sora背后的首次全面審查，涉及相關(guān)技術(shù)、新興應(yīng)用、當(dāng)前局限性和未來機(jī)會(huì)。

關(guān)于Sora的背景

歷史回顧

在計(jì)算機(jī)視覺（CV）領(lǐng)域，在深度學(xué)習(xí)革命之前，傳統(tǒng)的圖像生成技術(shù)依賴于諸如紋理合成和紋理映射等基于手工制作特征的方法。然而，這些方法在生成復(fù)雜和生動(dòng)圖像的能力方面受到了限制。生成對(duì)抗網(wǎng)絡(luò)（GANs）和變分自動(dòng)編碼器（VAEs）的引入標(biāo)志著一個(gè)重大的轉(zhuǎn)折點(diǎn)，因?yàn)樗鼈冊(cè)诟鞣N應(yīng)用中展現(xiàn)了顯著的能力。隨后的發(fā)展，如流模型和擴(kuò)散模型，進(jìn)一步增強(qiáng)了圖像生成的細(xì)節(jié)和質(zhì)量。人工智能生成內(nèi)容（AIGC）技術(shù)的最新進(jìn)展使內(nèi)容創(chuàng)作民主化，使用戶能夠通過簡單的文本指令生成所需的內(nèi)容。

在過去的十年里，生成CV模型的發(fā)展已經(jīng)采取了各種路線，如圖3所示。這個(gè)景觀在成功將Transformer架構(gòu)應(yīng)用于NLP中后開始顯著變化，如BERT和GPT所示。在CV中，研究人員進(jìn)一步將這一概念發(fā)展，將Transformer架構(gòu)與視覺組件結(jié)合起來，使其能夠應(yīng)用于下游CV任務(wù)，如Vision Transformer（ViT）和Swin Transformer。與Transformer的成功并行的是，擴(kuò)散模型在圖像和視頻生成領(lǐng)域也取得了顯著進(jìn)展。擴(kuò)散模型提供了一個(gè)數(shù)學(xué)上合理的框架，用于將噪聲轉(zhuǎn)換為帶有U-Nets的圖像，其中U-Nets通過學(xué)習(xí)在每個(gè)步驟預(yù)測和減輕噪聲來促進(jìn)這一過程。

自2021年以來，人工智能的一個(gè)重要焦點(diǎn)是能夠解釋人類指令的生成語言和視覺模型，即多模型。例如，CLIP 是一種開創(chuàng)性的視覺語言模型，它將Transformer架構(gòu)與視覺元素結(jié)合起來，促進(jìn)了它在大量文本和圖像數(shù)據(jù)集上的訓(xùn)練。通過從一開始就整合視覺和語言知識(shí)，CLIP可以在多模式生成框架內(nèi)作為圖像編碼器運(yùn)行。另一個(gè)值得注意的例子是Stable Diffusion，這是一種通用的文本到圖像AI模型，因其適應(yīng)性和易用性而備受贊譽(yù)。它采用Transformer架構(gòu)和潛在擴(kuò)散技術(shù)來解碼文本輸入并生成各種風(fēng)格的圖像，進(jìn)一步說明了多模式AI的進(jìn)步。

在2022年11月發(fā)布ChatGPT后，我們見證了2023年商業(yè)文本到圖像產(chǎn)品的出現(xiàn)，如Stable Diffusion，Midjourney，DALL-E 3。這些工具使用戶能夠通過簡單的文本提示生成高分辨率和高質(zhì)量的新圖像，展示了AI在創(chuàng)造性圖像生成方面的潛力。然而，從文本到視頻的過渡在于視頻的時(shí)間復(fù)雜性而具有挑戰(zhàn)性。盡管工業(yè)界和學(xué)術(shù)界做出了大量努力，但大多數(shù)現(xiàn)有的視頻生成工具，如Pika和Gen-2，僅限于生成幾秒鐘的短視頻片段。在這種情況下，Sora代表了一個(gè)重大突破，類似于ChatGPT在NLP領(lǐng)域的影響。Sora是第一個(gè)能夠根據(jù)人類指令生成長達(dá)一分鐘的視頻的模型，標(biāo)志著生成AI研究和發(fā)展中的一個(gè)里程碑。為了便于獲取最新的視覺生成模型的最新進(jìn)展，最近的研究成果已經(jīng)編譯并提供在附錄和我們的GitHub中。

概念解釋

視覺模型的規(guī)模定律。隨著LLMs的規(guī)模定律，自然會(huì)問視覺模型的發(fā)展是否遵循類似的規(guī)模定律。最近，翟等人表明，對(duì)于足夠的訓(xùn)練數(shù)據(jù)，ViT模型的性能-計(jì)算邊界大致遵循（飽和）冪律。緊隨其后，谷歌研究提出了一種高效穩(wěn)定地訓(xùn)練22B參數(shù)ViT的方法。結(jié)果表明，可以使用凍結(jié)模型生成嵌入，并在其上訓(xùn)練薄層以獲得良好的性能。作為一個(gè)大型視覺模型（LVM），Sora符合這些規(guī)模定律，揭示了文本到視頻生成中的幾個(gè)新能力。這一重大進(jìn)展突顯了LVMs實(shí)現(xiàn)LLMs類似進(jìn)展的潛力。

新興能力。LLMs中的新興能力是在某些尺度上表現(xiàn)出的復(fù)雜行為或功能------通常與模型參數(shù)的大小相關(guān)------這些能力并不是由其開發(fā)人員明確編程或預(yù)期的。這些能力被稱為"新興"，因?yàn)樗鼈冊(cè)从谀Ｐ驮诟鞣N數(shù)據(jù)集上的

全面訓(xùn)練，加上其大量的參數(shù)數(shù)量。這種組合使得模型能夠建立連接和進(jìn)行推理，超越了簡單的模式識(shí)別或死記硬背。通常情況下，這些能力的出現(xiàn)不能通過從較小規(guī)模模型的性能推斷來直接預(yù)測。雖然許多LLMs，如Chat-GPT和GPT-4，都表現(xiàn)出了新興能力，但在Sora出現(xiàn)之前，展示出可比較能力的視覺模型卻很少。根據(jù)Sora的技術(shù)報(bào)告，它是第一個(gè)展示出確認(rèn)的新興能力的視覺模型，標(biāo)志著計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重大里程碑。

除了其新興能力外，Sora還表現(xiàn)出其他顯著的能力，包括指令遵循、視覺提示工程和視頻理解。Sora功能的這些方面代表了視覺領(lǐng)域的重大進(jìn)步，將在接下來的部分中探討和討論。

詳解SoRA技術(shù)

概述

從核心本質(zhì)上講，Sora 是一個(gè)具有靈活采樣維度的擴(kuò)散Transformer，如圖 4 所示。它分為三個(gè)部分：(1) 一個(gè)時(shí)間-空間壓縮器首先將原始視頻映射到潛在空間中。(2) 然后，一個(gè) ViT 處理標(biāo)記化的潛在表示，并輸出去噪的潛在表示。(3) 一個(gè)類似于 CLIP 的條件機(jī)制接收 LLM 增強(qiáng)的用戶指令和潛在的視覺提示，以指導(dǎo)擴(kuò)散模型生成風(fēng)格化或主題化的視頻。經(jīng)過許多去噪步驟，生成視頻的潛在表示被獲取，然后與相應(yīng)的解碼器映射回像素空間。

在本節(jié)中，我們旨在逆向工程 Sora 使用的技術(shù)，并討論一系列相關(guān)工作。

數(shù)據(jù)預(yù)處理

可變持續(xù)時(shí)間、分辨率、長寬比

Sora 的一個(gè)顯著特點(diǎn)是其能夠訓(xùn)練、理解和生成視頻和圖像，并以它們的原生尺寸，如圖 5 所示。傳統(tǒng)方法通常會(huì)調(diào)整視頻的大小、裁剪或調(diào)整長寬比以適應(yīng)統(tǒng)一的標(biāo)準(zhǔn)------通常是具有固定低分辨率的正方形幀的短片。這些樣本通常是以更寬的時(shí)間步幅生成的，并依賴于分別訓(xùn)練的幀插入和分辨率渲染模型作為最后一步，從而在視頻中產(chǎn)生不一致性。利用擴(kuò)散Transformer架構(gòu)（見第 3.2.4 節(jié)），Sora 是第一個(gè)接受視覺數(shù)據(jù)多樣性并且能夠在各種視頻和圖像格式中采樣的模型，范圍從寬屏 1920x1080p 視頻到豎屏 1080x1920p 視頻，以及所有介于兩者之間的內(nèi)容，而不會(huì)損害其原始尺寸。

在其原生尺寸的數(shù)據(jù)上進(jìn)行訓(xùn)練顯著提高了生成視頻的構(gòu)圖和構(gòu)圖在生成的視頻中表現(xiàn)出更自然和連貫的視覺敘事。通過保持原始長寬比，Sora 實(shí)現(xiàn)了更自然和連貫的視覺敘事。如圖 6 所示，Sora 和模型在統(tǒng)一裁剪的正方形視頻上訓(xùn)練的比較清楚地表明了其優(yōu)勢。由 Sora 生成的視頻呈現(xiàn)出更好的構(gòu)圖，確保主題完全出現(xiàn)在場景中，而不是由于正方形裁剪而導(dǎo)致有時(shí)截?cái)嗟囊晥D。

對(duì)原始視頻和圖像特征的這種微妙理解和保留標(biāo)記了生成模型領(lǐng)域的一項(xiàng)重大進(jìn)步。Sora 的方法不僅展示了更真實(shí)和吸引人的視頻生成的潛力，還突顯了訓(xùn)練數(shù)據(jù)多樣性對(duì)于在生成 AI 中獲得高質(zhì)量結(jié)果的重要性。Sora 的訓(xùn)練方法與 Richard Sutton 的"苦澀教訓(xùn)" 的核心理念一致，即利用計(jì)算能力而不是人類設(shè)計(jì)的特征可以實(shí)現(xiàn)更有效和靈活的 AI 系統(tǒng)。就像擴(kuò)散Transformer的原始設(shè)計(jì)追求簡單和可擴(kuò)展性一樣，Sora 在原始尺寸上訓(xùn)練數(shù)據(jù)的策略放棄了傳統(tǒng)的 AI 對(duì)人類衍生抽象的依賴，而是更傾向于一種隨著計(jì)算能力擴(kuò)展的通用方法。在本節(jié)的其余部分，我們嘗試逆向工程 Sora 的架構(gòu)設(shè)計(jì)，并討論相關(guān)技術(shù)來實(shí)現(xiàn)這一令人驚嘆的功能。

統(tǒng)一的視覺表示

為了有效處理包括持續(xù)時(shí)間、分辨率和長寬比在內(nèi)的各種形式的視覺輸入，特別是Transformer令牌的后處理和輸出去噪的潛在表示。一個(gè)類似于 CLIP 的條件機(jī)制接收經(jīng)過 LLM 增強(qiáng)的用戶指令和潛在的視覺提示，以指導(dǎo)擴(kuò)散模型生成風(fēng)格化或主題化的視頻。經(jīng)過許多去噪步驟，生成視頻的潛在表示被獲取，然后與相應(yīng)的解碼器映射回像素空間。在本節(jié)中，我們旨在逆向工程 Sora 使用的技術(shù)，并討論一系列相關(guān)工作。

視頻壓縮網(wǎng)絡(luò)

Sora 的視頻壓縮網(wǎng)絡(luò)（或視覺編碼器）旨在減少輸入數(shù)據(jù)的維度，特別是原始視頻，并輸出一個(gè)壓縮的潛在表示，該表示在時(shí)間和空間上都被壓縮，如圖 7 所示。根據(jù)技術(shù)報(bào)告中的參考文獻(xiàn)，壓縮網(wǎng)絡(luò)建立在 VAE 或向量量化-VAE（VQ-VAE）上。然而，如果不使用調(diào)整大小和裁剪，VAE 將難以將任何大小的視覺數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間中。我們總結(jié)了兩種不同的實(shí)現(xiàn)來解決這個(gè)問題：

空間補(bǔ)丁壓縮。這涉及將視頻幀轉(zhuǎn)換為固定大小的補(bǔ)丁，類似于 ViT 和 MAE 中采用的方法（見圖 8），然后將它們編碼為潛在空間。這種方法對(duì)于容納各種分辨率和長寬比的視頻尤其有效，因?yàn)樗ㄟ^處理單個(gè)補(bǔ)丁來編碼整個(gè)幀。隨后，這些空間令牌被組織成一個(gè)時(shí)空順序，以創(chuàng)建一個(gè)空間-時(shí)間潛在表示。這種技術(shù)突出了幾個(gè)關(guān)鍵考慮因素：

時(shí)間維度的可變性------鑒于訓(xùn)練視頻的持續(xù)時(shí)間不同，潛在空間表示的時(shí)間維度不能固定。為了解決這個(gè)問題，可以采樣特定數(shù)量的幀（對(duì)于更短的視頻可能需要填充或時(shí)間插值），或者定義一個(gè)通用擴(kuò)展（超長）的輸入長度以進(jìn)行后續(xù)處理；利用預(yù)訓(xùn)練的視覺編碼器------為了處理高分辨率視頻，大多數(shù)研究人員都建議利用現(xiàn)有的預(yù)訓(xùn)練的視覺編碼器，例如來自 Stable Diffusion 的 VAE 編碼器，而 Sora 的團(tuán)隊(duì)則預(yù)計(jì)通過訓(xùn)練自己的壓縮網(wǎng)絡(luò)（視頻生成器）來獲得一個(gè)解碼器（視頻生成器）（通過訓(xùn)練潛在擴(kuò)散模型的方式）。這些編碼器可以高效地壓縮大尺寸的補(bǔ)?。ɡ?256 × 256），便于管理大規(guī)模數(shù)據(jù)；時(shí)間信息聚合------由于這種方法主要側(cè)重于空間補(bǔ)丁壓縮，因此需要一種額外的機(jī)制來聚合模型內(nèi)的時(shí)間信息。這一方面對(duì)于捕捉隨時(shí)間動(dòng)態(tài)變化至關(guān)重要，并且在后續(xù)章節(jié)中進(jìn)行了進(jìn)一步的闡述。

空間-時(shí)間補(bǔ)丁壓縮。這種技術(shù)旨在封裝視頻數(shù)據(jù)的空間和時(shí)間維度，提供全面的表示。這種技術(shù)不僅僅分析靜態(tài)幀，還考慮了幀間的運(yùn)動(dòng)和變化，從而捕捉視頻的動(dòng)態(tài)方面。采用 3D 卷積出現(xiàn)為實(shí)現(xiàn)這種集成的一種直接而有效的方法。圖形說明和與純空間-補(bǔ)丁化的比較如圖 9 所示。與空間補(bǔ)丁壓縮類似，采用帶有預(yù)定卷積核參數(shù)的空間-時(shí)間補(bǔ)丁壓縮------例如固定的核大小、步幅和輸出通道------由于視頻輸入的特征不同而導(dǎo)致潛在空間維度的變化。這種變化主要受到正在處理的視頻的不同持續(xù)時(shí)間和分辨率的影響。為了緩解這一挑戰(zhàn)，采用的空間補(bǔ)丁化方法在這種情況下同樣適用且有效。

總而言之，我們根據(jù) VAE 或其變體（如 VQ-VQE）對(duì)兩種補(bǔ)丁級(jí)壓縮方法進(jìn)行了逆向工程，因?yàn)閷?duì)補(bǔ)丁的操作更靈活，能夠處理不同類型的視頻。由于 Sora 的目標(biāo)是生成高保真度的視頻，因此采用了較大的補(bǔ)丁大小或核大小以進(jìn)行高效壓縮。在這里，我們期望使用固定大小的補(bǔ)丁以簡化、擴(kuò)展和訓(xùn)練穩(wěn)定性。但也可以使用不同大小的補(bǔ)丁使?jié)撛诳臻g中的整體幀或視頻的維度保持一致。然而，這可能會(huì)導(dǎo)致無效的位置編碼，并且對(duì)于生成具有不同大小潛在補(bǔ)丁的視頻，會(huì)帶來挑戰(zhàn)。

時(shí)空潛在補(bǔ)丁

在壓縮網(wǎng)絡(luò)部分仍存在一個(gè)關(guān)鍵問題：如何處理潛在空間維度的可變性（即來自不同視頻類型的潛在特征塊或補(bǔ)丁的數(shù)量），然后將這些補(bǔ)丁饋送到擴(kuò)散Transformer的輸入層。在這里，我們討論了幾種解決方案?；?Sora 的技術(shù)報(bào)告和相應(yīng)的參考文獻(xiàn)，patch n' pack（PNP）可能是解決方案。PNP 將來自不同圖像的多個(gè)補(bǔ)丁打包到單個(gè)序列中，如圖 10 所示。這種方法受自然語言處理中使用的示例打包的啟發(fā)，通過丟棄標(biāo)記來有效地訓(xùn)練變長輸入。在這里，補(bǔ)丁化和標(biāo)記嵌入步驟需要在壓縮網(wǎng)絡(luò)中完成，但 Sora 可能會(huì)進(jìn)一步將潛在補(bǔ)丁化為Transformer標(biāo)記，如擴(kuò)散Transformer所做的。無論是否有第二輪的補(bǔ)丁化，我們都需要解決兩個(gè)問題，即如何以緊湊的方式打包這些標(biāo)記以及如何控制哪些標(biāo)記應(yīng)該被丟棄。對(duì)于第一個(gè)問題，采用簡單的貪婪方法，該方法將示例添加到具有足夠剩余空間的第一個(gè)序列中。一旦沒有更多的示例可以適合，序列將用填充標(biāo)記填充，產(chǎn)生需要進(jìn)行批處理操作的固定序列長度。這樣簡單的打包算法可能會(huì)導(dǎo)致重大的填充，這取決于輸入長度的分布。另一方面，我們可以通過調(diào)整序列長度和限制填充來控制我們采樣的分辨率和幀數(shù)以確保有效的打包。對(duì)于第二個(gè)問題，一種直觀的方法是丟棄相似的標(biāo)記或者像 PNP 一樣應(yīng)用丟棄率調(diào)度器。然而，值得注意的是，時(shí)空一致性是 Sora 的一個(gè)很好的特性之一。丟棄標(biāo)記可能會(huì)在訓(xùn)練過程中忽略細(xì)粒度的細(xì)節(jié)。因此，我們相信 OpenAI 可能會(huì)使用一個(gè)超長的上下文窗口并將所有來自視頻的標(biāo)記打包在一起，盡管這樣做是計(jì)算昂貴的，例如，多頭注意力操作符在序列長度方面表現(xiàn)出二次成本。具體來說，來自長時(shí)間視頻的時(shí)空潛在補(bǔ)丁可以打包在一個(gè)序列中，而來自幾個(gè)短時(shí)間視頻的補(bǔ)丁則連接在另一個(gè)序列中。

討論

我們討論了 Sora 可能使用的兩種數(shù)據(jù)預(yù)處理的技術(shù)解決方案。由于其靈活性和可擴(kuò)展性的特點(diǎn)，在補(bǔ)丁級(jí)別執(zhí)行這兩種解決方案。與先前的方法不同，先前的方法將視頻調(diào)整大小、裁剪或修剪到標(biāo)準(zhǔn)尺寸，Sora 在其原生尺寸上對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。盡管有幾個(gè)好處（詳見第 3.2.1 節(jié)中的詳細(xì)分析），但它帶來了一些技術(shù)挑戰(zhàn)，其中最重要的之一是神經(jīng)網(wǎng)絡(luò)本質(zhì)上無法處理可變持續(xù)時(shí)間、分辨率和長寬比的視覺數(shù)據(jù)。通過逆向工程，我們相信 Sora 首先將視覺補(bǔ)丁壓縮為低維潛在表示，并將這些潛在補(bǔ)丁或進(jìn)一步的補(bǔ)丁化的潛在補(bǔ)丁排列成一個(gè)序列，然后在將其饋送到擴(kuò)散Transformer的輸入層之前注入噪聲。Sora 采用空間-時(shí)間補(bǔ)丁化是因?yàn)樗子趯?shí)現(xiàn)，并且可以通過具有高信息密度的令牌有效地減少上下文長度并降低后續(xù)建模的復(fù)雜性。對(duì)于研究界，我們建議使用成本效率更高的替代方案進(jìn)行視頻壓縮和表示，包括利用預(yù)訓(xùn)練檢查點(diǎn)（例如，壓縮網(wǎng)絡(luò)），縮短上下文窗口，使用輕量級(jí)建模機(jī)制（例如（分組）多查詢注意力）或高效架構(gòu)（例如 Mamba），對(duì)數(shù)據(jù)進(jìn)行降采樣并在必要時(shí)丟棄標(biāo)記。在視頻建模的效果和效率之間的權(quán)衡是一個(gè)重要的研究課題。

建模

擴(kuò)散Transformer

圖像擴(kuò)散Transformer。傳統(tǒng)的擴(kuò)散模型主要利用卷積 U-Net，該 U-Net 包括用于去噪網(wǎng)絡(luò)骨干的下采樣和上采樣塊。然而，最近的研究表明，U-Net 架構(gòu)對(duì)擴(kuò)散模型的良好性能并不關(guān)鍵。通過結(jié)合更靈活的Transformer架構(gòu)，基于Transformer的擴(kuò)散模型可以使用更多的訓(xùn)練數(shù)據(jù)和更大的模型參數(shù)。沿著這條線，DiT 和 U-ViT 是首批采用視覺Transformer進(jìn)行潛在擴(kuò)散模型的作品之一。與 ViT 一樣，DiT 使用多頭自注意層和一個(gè)與一些層規(guī)范和縮放層交織的逐點(diǎn)前饋網(wǎng)絡(luò)。此外，如圖 11 所示，DiT 通過自適應(yīng)層規(guī)范 (AdaLN) 來融合條件，其中還有一個(gè)額外的 MLP 層用于零初始化，它將每個(gè)殘差塊初始化為一個(gè)恒等函數(shù)，從而極大地穩(wěn)定了訓(xùn)練過程。DiT 的可擴(kuò)展性和靈活性經(jīng)過了經(jīng)驗(yàn)驗(yàn)證。DiT 成為擴(kuò)散模型的新骨干。在 U-ViT 中，如圖 11 所示，他們將所有輸入（包括時(shí)間、條件和嘈雜的圖像塊）都視為標(biāo)記，并提出了淺層和深層Transformer層之間的長跳連線。結(jié)果表明，在基于 CNN 的 U-Net 中，下采樣和上采樣操作并不總是必要的，而 U-ViT 在圖像和文本到圖像生成中實(shí)現(xiàn)了創(chuàng)紀(jì)錄的 FID 分?jǐn)?shù)。

與掩碼自編碼器 (MAE)類似，掩碼擴(kuò)散Transformer (MDT)將掩碼潛在建模整合到擴(kuò)散過程中，以明確增強(qiáng)圖像合成中對(duì)象語義部分之間的上下文關(guān)系學(xué)習(xí)。具體而言，如圖 12 所示，MDT 在訓(xùn)練期間使用側(cè)插值來進(jìn)行額外的掩碼標(biāo)記重構(gòu)任務(wù)，以增強(qiáng)訓(xùn)練效率，并為推理學(xué)習(xí)強(qiáng)大的上下文感知位置嵌入。與 DiT相比，MDT 實(shí)現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。哈塔米扎德等人引入了擴(kuò)散視覺Transformer (DiffiT)，用于時(shí)序條件建模，而不是使用 AdaLN (即移位和縮放)。DiffiT 使用定時(shí)依賴自注意 (TMSA) 模塊來模擬在采樣時(shí)間步驟上的動(dòng)態(tài)去噪行為。此外，DiffiT 分別在像素空間和潛在空間中使用了兩種混合分層體系結(jié)構(gòu)進(jìn)行高效去噪，并在各種生成任務(wù)中實(shí)現(xiàn)了新的最先進(jìn)結(jié)果?？偟膩碚f，這些研究展示了采用視覺Transformer進(jìn)行圖像潛在擴(kuò)散的良好結(jié)果，為其他模態(tài)的未來研究鋪平了道路。

視頻擴(kuò)散Transformer。在文本到圖像 (T2I) 擴(kuò)散模型的基礎(chǔ)研究上，最近的研究集中于實(shí)現(xiàn)擴(kuò)散Transformer在文本到視頻 (T2V) 生成任務(wù)中的潛力。由于視頻的時(shí)間性質(zhì)，將 DiTs 應(yīng)用于視頻領(lǐng)域的關(guān)鍵挑戰(zhàn)是：i) 如何將視頻在空間上和時(shí)間上壓縮到潛在空間以進(jìn)行有效去噪；ii) 如何將壓縮的潛在空間轉(zhuǎn)換為塊并將其饋送到Transformer；以及 iii) 如何處理長期時(shí)間和空間依賴性，并確保內(nèi)容的一致性。在本節(jié)中，我們將重點(diǎn)討論基于Transformer的去噪網(wǎng)絡(luò)架構(gòu)，該架構(gòu)設(shè)計(jì)用于在空間和時(shí)間上壓縮的潛在空間中運(yùn)行。我們對(duì) OpenAI Sora 技術(shù)報(bào)告參考列表中描述的兩項(xiàng)重要工作（Imagen Video和 Video LDM）進(jìn)行了詳細(xì)審查。

Imagen Video是谷歌研究開發(fā)的文本到視頻生成系統(tǒng)，它利用一系列擴(kuò)散模型，包括 7 個(gè)子模型，執(zhí)行文本條件視頻生成、空間超分辨率和時(shí)間超分辨率，將文本提示轉(zhuǎn)換為高清視頻。如圖 13 所示，首先，一個(gè)凍結(jié)的 T5 文本編碼器從輸入文本提示生成上下文嵌入。這些嵌入對(duì)于將生成的視頻與文本提示對(duì)齊至關(guān)重要，并且除了基礎(chǔ)模型之外，它們被注入到級(jí)聯(lián)的所有模型中。隨后，嵌入被饋送到基礎(chǔ)模型進(jìn)行低分辨率視頻生成，然后通過級(jí)聯(lián)擴(kuò)散模型進(jìn)行細(xì)化以增加分辨率?；A(chǔ)視頻和超分辨率模型以時(shí)空可分離的方式使用 3D U-Net 架構(gòu)。

時(shí)間注意力和卷積層與空間對(duì)應(yīng)層相結(jié)合，以有效捕獲幀間依賴關(guān)系。它使用 v-預(yù)測參數(shù)化來實(shí)現(xiàn)數(shù)值穩(wěn)定性，并使用條件增強(qiáng)來促進(jìn)跨模型的并行訓(xùn)練。該過程涉及對(duì)圖像和視頻的聯(lián)合訓(xùn)練，將每個(gè)圖像視為一幀以利用更大的數(shù)據(jù)集，并使用無分類器指導(dǎo)來增強(qiáng)提示的保真度。漸進(jìn)蒸餾被應(yīng)用于簡化采樣過程，顯著降低了計(jì)算負(fù)載，同時(shí)保持了感知質(zhì)量。將這些方法和技術(shù)結(jié)合起來，使 Imagen Video 能夠生成不僅保真度高，而且可控性 remarkable 的視頻，如其產(chǎn)生多樣的視頻、文本動(dòng)畫和各種藝術(shù)風(fēng)格的內(nèi)容所示。

Blattmann 等人提出將 2D 潛在擴(kuò)散模型轉(zhuǎn)變?yōu)橐曨l潛在擴(kuò)散模型 (Video LDM)。他們通過在現(xiàn)有的空間層之間添加一些事后時(shí)間層，將編碼器和 VAE 解碼器中的現(xiàn)有空間層轉(zhuǎn)換為視頻 LDM。這些時(shí)間層在編碼的視頻數(shù)據(jù)上進(jìn)行訓(xùn)練，而空間層保持不變，使模型能夠利用大型圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。LDM 的解碼器被微調(diào)以在像素空間中保持時(shí)間一致性，并將擴(kuò)散模型的上采樣器在增強(qiáng)空間分辨率方面進(jìn)行時(shí)間對(duì)齊。為了生成非常長的視頻，模型被訓(xùn)練以在給定一定數(shù)量的上下文幀的情況下預(yù)測未來幀，從而允許在采樣過程中無分類器指導(dǎo)。為了實(shí)現(xiàn)高時(shí)間分辨率，視頻合成過程被分為關(guān)鍵幀生成和這些關(guān)鍵幀之間的插值。在級(jí)聯(lián)的 LDM 之后，通過使用 DM 進(jìn)一步將 Video LDM 的輸出擴(kuò)大 4 倍，從而確保了高空間分辨率同時(shí)保持時(shí)間一致性。這種方法以高效的方式實(shí)現(xiàn)了生成全局一致的長視頻。此外，作者展示了將預(yù)訓(xùn)練的圖像 LDMs（例如，穩(wěn)定擴(kuò)散）轉(zhuǎn)換為文本到視頻模型的能力，方法是僅訓(xùn)練時(shí)間對(duì)齊層，實(shí)現(xiàn)了分辨率高達(dá) 1280 × 2048 的視頻合成。

討論

用于空間和時(shí)間上采樣的級(jí)聯(lián)擴(kuò)散模型。Sora 能夠生成高分辨率視頻。通過審查現(xiàn)有作品和我們的逆向工程，我們推測 Sora 也利用了級(jí)聯(lián)擴(kuò)散模型架構(gòu)，它由一個(gè)基礎(chǔ)模型和許多時(shí)空精煉器模型組成。鑒于在高分辨率情況下使用注意力機(jī)制的高計(jì)算成本和有限的性能提升，基礎(chǔ)擴(kuò)散模型和低分辨率擴(kuò)散模型中不太可能大量使用注意力模塊。對(duì)于空間和時(shí)間場景一致性，由于先前的作品表明，對(duì)于視頻/場景生成，時(shí)間一致性比空間一致性更重要，因此 Sora 可能利用一種有效的訓(xùn)練策略，即使用更長的視頻（用于時(shí)間一致性）以及更低的分辨率。此外，考慮到 v-參數(shù)化擴(kuò)散模型相對(duì)于預(yù)測原始潛在變量 x 或噪聲 ? 的其他變體具有更優(yōu)越的性能，Sora 可能使用 v-參數(shù)化擴(kuò)散模型。

關(guān)于潛在編碼器。為了訓(xùn)練效率，大多數(shù)現(xiàn)有作品利用穩(wěn)定擴(kuò)散的預(yù)訓(xùn)練 VAE 編碼器作為初始化模型檢查點(diǎn)。然而，編碼器缺乏時(shí)間壓縮能力。即使一些作品提出僅微調(diào)解碼器以處理時(shí)間信息，但在壓縮潛在空間中處理視頻時(shí)間數(shù)據(jù)的解碼器性能仍然不夠優(yōu)化。根據(jù)技術(shù)報(bào)告，我們的逆向工程顯示，與使用現(xiàn)有的預(yù)訓(xùn)練 VAE 編碼器不同，Sora 可能使用從頭開始在視頻數(shù)據(jù)上訓(xùn)練的時(shí)空 VAE 編碼器，這種編碼器在視頻導(dǎo)向的壓縮潛在空間方面表現(xiàn)更好。

語言指令跟隨

用戶主要通過自然語言指令與生成式人工智能模型互動(dòng)，這些指令被稱為文本提示。模型指令調(diào)整旨在增強(qiáng)人工智能模型準(zhǔn)確跟隨指令的能力。這種改進(jìn)的提示跟隨能力使模型生成的輸出更接近人類對(duì)自然語言查詢的響應(yīng)。我們從對(duì)大型語言模型（LLMs）和文本到圖像模型（如 DALL·E 3）的指令跟隨技術(shù)的回顧開始討論。為了增強(qiáng)文本到視頻模型跟隨文本指令的能力，Sora 采用了與 DALLE3 類似的方法。該方法涉及訓(xùn)練一個(gè)描述性字幕生成器，并利用字幕生成器生成的數(shù)據(jù)進(jìn)行微調(diào)。由于指令調(diào)整，Sora 能夠滿足各種用戶請(qǐng)求，確保對(duì)指令中的細(xì)節(jié)進(jìn)行細(xì)致注意，并生成精確滿足用戶需求的視頻。

大型語言模型

對(duì)于LLMs的跟隨指令的能力已經(jīng)得到了廣泛探討。這種能力使LLMs能夠閱讀、理解和適當(dāng)?shù)仨憫?yīng)描述一個(gè)未見任務(wù)的指令，而無需示例。通過在格式化為指令的任務(wù)的混合上對(duì)LLMs進(jìn)行微調(diào)，即所謂的指令調(diào)整，獲得和增強(qiáng)了提示跟隨能力。Wei 等人表明，經(jīng)過指令調(diào)整的LLMs在未見任務(wù)上顯著優(yōu)于未調(diào)整的LLMs。跟隨指令的能力將LLMs轉(zhuǎn)化為通用任務(wù)求解器，標(biāo)志著人工智能發(fā)展史上的一次范式轉(zhuǎn)變。

文本到圖像

在DALL·E 3中，通過一種假設(shè)來解決指令跟隨問題，即模型訓(xùn)練中的文本-圖像對(duì)質(zhì)量決定了結(jié)果文本到圖像模型的性能。數(shù)據(jù)質(zhì)量不佳，特別是嘈雜數(shù)據(jù)和短字幕的普遍存在，這導(dǎo)致了許多問題，如忽略關(guān)鍵字和詞序，并且誤解用戶意圖。通過重新為現(xiàn)有圖像制作詳細(xì)的、描述性的字幕來解決這些問題。該方法首先訓(xùn)練一個(gè)圖像字幕生成器，即視覺語言模型，以生成精確和描述性的圖像字幕。然后，通過這些由字幕生成器生成的描述性圖像字幕對(duì)文本到圖像模型進(jìn)行微調(diào)。具體來說，DALL·E 3遵循對(duì)比字幕生成器（CoCa），以共同訓(xùn)練一個(gè)圖像字幕生成器與CLIP架構(gòu)和語言模型目標(biāo)。這個(gè)圖像字幕生成器包括一個(gè)圖像編碼器，一個(gè)用于提取語言信息的單模文本編碼器，和一個(gè)多模文本解碼器。它首先在單模圖像和文本嵌入之間使用對(duì)比損失，然后在多模解碼器的輸出上使用字幕損失。通過這一步，圖像字幕生成器能夠?yàn)閳D像生成詳細(xì)的描述性字幕。文本到圖像模型的訓(xùn)練數(shù)據(jù)集是由圖像字幕生成器生成的重新字幕數(shù)據(jù)集和地面真實(shí)人類編寫數(shù)據(jù)的混合，以確保模型捕獲用戶輸入。這種圖像字幕改進(jìn)方法引入了一個(gè)潛在的問題：實(shí)際用戶提示與訓(xùn)練數(shù)據(jù)中描述性圖像描述之間的不匹配。DALL·E 3通過上采樣來解決這個(gè)問題，即LLMs用于將短用戶提示重新撰寫成詳細(xì)和冗長的說明。這樣可以確保推理時(shí)模型接收到的文本輸入與模型訓(xùn)練中的輸入一致。

文本到視頻

為了增強(qiáng)指令跟隨的能力，Sora采用了類似的字幕改進(jìn)方法。首先通過訓(xùn)練一個(gè)能夠?yàn)橐曨l生成詳細(xì)描述的視頻字幕生成器來實(shí)現(xiàn)此方法。然后，將此視頻字幕生成器應(yīng)用于訓(xùn)練數(shù)據(jù)中的所有視頻，以生成高質(zhì)量的（視頻，描述性字幕）對(duì)，這些對(duì)用于微調(diào)Sora以提高其指令跟隨能力。Sora 的技術(shù)報(bào)告沒有透露視頻字幕生成器是如何訓(xùn)練的細(xì)節(jié)。鑒于視頻字幕生成器是一個(gè)視頻到文本模型，有許多構(gòu)建方法。一種直接的方法是利用 CoCa 架構(gòu)進(jìn)行視頻字幕生成，通過將視頻的多幀輸入到圖像編碼器，即 VideoCoCa。VideoCoCa 在 CoCa 的基礎(chǔ)上構(gòu)建，并重新使用圖像編碼器預(yù)訓(xùn)練權(quán)重，并獨(dú)立地應(yīng)用于采樣視頻幀。結(jié)果幀令牌嵌入被展平并連接成視頻表示的長序列。然后，這些展平的幀令牌由生成池和對(duì)比池處理，它們與對(duì)比損失和字幕損失一起進(jìn)行聯(lián)合訓(xùn)練。構(gòu)建視頻字幕生成器的其他替代方法包括 mPLUG-2、GIT、FrozenBiLM等。最后，為了確保用戶提示與訓(xùn)練數(shù)據(jù)中的描述性字幕格式相一致，Sora 執(zhí)行了額外的提示擴(kuò)展步驟，其中 GPT-4V 用于將用戶輸入擴(kuò)展到詳細(xì)的描述性提示。

討論

對(duì)于 Sora 來說，遵循指令的能力對(duì)于生成符合用戶意圖的復(fù)雜場景的一分鐘長視頻至關(guān)重要。根據(jù) Sora 的技術(shù)報(bào)告，這種能力是通過開發(fā)一個(gè)能夠生成長而詳細(xì)的字幕的字幕生成器來獲得的，然后用于訓(xùn)練模型。然而，收集用于訓(xùn)練這樣一個(gè)字幕生成器的數(shù)據(jù)的過程是未知的，并且可能是耗時(shí)的，因?yàn)樗赡苄枰曨l的詳細(xì)描述。此外，描述性視頻字幕生成器可能會(huì)產(chǎn)生視頻的重要細(xì)節(jié)幻覺。我們認(rèn)為，如何改進(jìn)視頻字幕生成器值得進(jìn)一步研究，并且對(duì)于增強(qiáng)文本到圖像模型的指令跟隨能力至關(guān)重要。

提示工程

提示工程是指設(shè)計(jì)和完善輸入給人工智能系統(tǒng)的過程，特別是在生成模型的背景下，以實(shí)現(xiàn)特定或優(yōu)化的輸出。提示工程的藝術(shù)和科學(xué)涉及以引導(dǎo)模型產(chǎn)生最準(zhǔn)確、相關(guān)和連貫的響應(yīng)的方式來制作這些輸入。

文本提示

文本提示工程對(duì)于指導(dǎo)文本到視頻模型（例如 Sora）生成視覺上引人注目的視頻并精確滿足用戶要求至關(guān)重要。這涉及制作詳細(xì)描述來指導(dǎo)模型有效地彌合人類創(chuàng)造力與人工智能執(zhí)行能力之間的差距。Sora 的提示涵蓋了各種情境。最近的研究（例如 VoP、Make-A-Video 和 Tune-A-Video）展示了提示工程如何利用模型的自然語言理解能力來解碼復(fù)雜的指令，并將其渲染成連貫、生動(dòng)和高質(zhì)量的視頻敘事。如圖 15 所示，"一位時(shí)尚的女性走在霓虹燈閃爍的東京街道上......"就是這樣一個(gè)精心制作的文本提示，它確保 Sora 生成與預(yù)期視覺相符的視頻。提示工程的質(zhì)量取決于單詞的精心選擇、提供細(xì)節(jié)的具體性以及對(duì)其對(duì)模型輸出的影響的理解。例如，圖 15 中的提示詳細(xì)說明了場景的動(dòng)作、設(shè)置、人物外貌，甚至是所需的心情和氛圍。

圖像提示

圖像提示作為待生成視頻內(nèi)容的視覺錨點(diǎn)，還包括角色、設(shè)置和情緒等其他元素。此外，文本提示可以指示模型通過添加運(yùn)動(dòng)、互動(dòng)和敘事發(fā)展的層次來使這些元素動(dòng)畫化，從而使靜態(tài)圖像栩栩如生。使用圖像提示允許 Sora 利用視覺和文本信息將靜態(tài)圖像轉(zhuǎn)換為動(dòng)態(tài)、敘事驅(qū)動(dòng)的視頻。在圖 16 中，我們展示了"一只穿著貝雷帽和高領(lǐng)衫的柴犬"、"一個(gè)獨(dú)特的怪物家庭"、"一個(gè)云形成"SORA"字樣"和"沖浪者在歷史性大廳內(nèi)航行潮水浪涌"的 AI 生成視頻。這些例子展示了通過向 Sora 提供由 DALL·E 生成的圖像可以實(shí)現(xiàn)的效果。

視頻提示

視頻提示也可以用于視頻生成。最近的研究（例如 Moonshot 和 Fast-Vid2Vid）表明，良好的視頻提示需要具體和靈活。這確保了模型在特定目標(biāo)上獲得清晰的指導(dǎo)，例如特定對(duì)象和視覺主題的描繪，并且還允許最終輸出中具有想象力的變化。例如，在視頻擴(kuò)展任務(wù)中，提示可以指定擴(kuò)展的方向（時(shí)間向前或向后）以及擴(kuò)展的上下文或主題。在圖 17(a) 中，視頻提示指示 Sora 將視頻向時(shí)間的反方向延伸以探索原始起始點(diǎn)之前發(fā)生的事件。在通過視頻提示進(jìn)行視頻到視頻編輯時(shí)，如圖 17(b) 所示，模型需要清楚地理解所需的轉(zhuǎn)換，例如改變視頻的風(fēng)格、設(shè)置或氛圍，或者改變細(xì)微的方面，如光線或心情。在圖 17(c) 中，提示指示 Sora 在確保不同場景中的對(duì)象之間實(shí)現(xiàn)平滑過渡的同時(shí)連接視頻。

討論

提示工程使用戶能夠引導(dǎo) AI 模型生成符合其意圖的內(nèi)容。例如，文本、圖像和視頻提示的結(jié)合使用使 Sora 能夠創(chuàng)建不僅在視覺上引人注目，而且與用戶的期望和意圖相契合的內(nèi)容。雖然先前關(guān)于提示工程的研究集中在 LLMs 和 LVMs 的文本和圖像提示上，但我們預(yù)計(jì)視頻生成模型的視頻提示將引起越來越多的關(guān)注。

可信度

隨著諸如 ChatGPT、GPT4-V 和 Sora 等復(fù)雜模型的快速發(fā)展，這些模型的能力得到了顯著增強(qiáng)。這些發(fā)展對(duì)提高工作效率和推動(dòng)技術(shù)進(jìn)步做出了重要貢獻(xiàn)。然而，這些進(jìn)步也引發(fā)了人們對(duì)這些技術(shù)潛在濫用的擔(dān)憂，包括虛假新聞的生成、隱私侵犯和道德困境。因此，大型模型的可信度問題引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注，成為當(dāng)代研究討論的焦點(diǎn)之一。

安全性問題

一個(gè)主要關(guān)注的領(lǐng)域是模型的安全性，特別是其抵御濫用和所謂的"越獄"攻擊的韌性，用戶試圖利用漏洞生成被禁止或有害內(nèi)容的情況。例如，引入了一種基于梯度技術(shù)的新穎且可解釋的對(duì)抗攻擊方法 AutoDAN ，以實(shí)現(xiàn)系統(tǒng)繞過。在一項(xiàng)最近的研究中，研究人員探討了語言模型為什么難以抵御越獄攻擊的兩個(gè)原因：競爭性目標(biāo)和不匹配的泛化。除了文本攻擊，視覺越獄也威脅到多模型模型的安全性（例如，GPT-4V和 Sora）。一項(xiàng)最近的研究發(fā)現(xiàn)，大型多模型模型更易受攻擊，因?yàn)轭~外的視覺輸入的連續(xù)和高維特性使其更脆弱，容易受到對(duì)抗性攻擊，代表了一個(gè)擴(kuò)展的攻擊面。

其他利用

由于大型基礎(chǔ)模型的訓(xùn)練數(shù)據(jù)集的規(guī)模和訓(xùn)練方法（例如，ChatGPT和 Sora），這些模型的真實(shí)性需要加強(qiáng)，因?yàn)橄嚓P(guān)問題如幻覺已經(jīng)廣泛討論。在這種情況下，幻覺指的是模型傾向于生成看似令人信服但毫無根據(jù)或錯(cuò)誤的響應(yīng)。這種現(xiàn)象引發(fā)了關(guān)于模型輸出的可靠性和可信度的關(guān)鍵問題，需要綜合方法來評(píng)估和解決這個(gè)問題。已經(jīng)有大量研究致力于從各個(gè)角度剖析幻覺問題。這包括旨在評(píng)估不同模型和場景中幻覺程度和性質(zhì)的努力。這些評(píng)估為理解幻覺發(fā)生的方式和原因提供了寶貴的見解，為開發(fā)減少其發(fā)生的策略奠定了基礎(chǔ)。與此同時(shí)，大量研究致力于設(shè)計(jì)和實(shí)施方法，以減少這些大型模型中的幻覺。

可信度的另一個(gè)重要方面是公平性和偏見。開發(fā)不會(huì)持續(xù)或加劇社會(huì)偏見的模型的重要性是一個(gè)重要關(guān)注點(diǎn)。這一重點(diǎn)來自于認(rèn)識(shí)到這些模型中編碼的偏見可能會(huì)強(qiáng)化現(xiàn)有的社會(huì)不公平，導(dǎo)致歧視性結(jié)果。該領(lǐng)域的研究，正如 Gallegos 等人、Zhang 等人、Liang 等人和 Friedrich 等人的工作所證實(shí)的那樣，致力于對(duì)這些固有偏見進(jìn)行仔細(xì)辨別和糾正。目標(biāo)是培養(yǎng)公平運(yùn)作的模型，對(duì)待所有個(gè)體時(shí)都不帶有種族、性別或其他敏感屬性的偏見。這不僅涉及在數(shù)據(jù)集中檢測和減輕偏見，還包括設(shè)計(jì)能夠積極抵制這些偏見傳播的算法。

隱私保護(hù)是這些模型部署時(shí)的另一個(gè)基本支柱。在數(shù)據(jù)隱私關(guān)切日益加劇的時(shí)代，保護(hù)用戶數(shù)據(jù)的重視程度從未如此關(guān)鍵。對(duì)于大型模型的嚴(yán)格評(píng)估日益引起公眾的關(guān)注和擔(dān)憂，這些評(píng)估側(cè)重于模型保護(hù)用戶數(shù)據(jù)的能力，確保個(gè)人信息保持機(jī)密，不會(huì)被無意間披露。Mireshghallah 等人、Plant 等人和 Li 等人的研究展示了推動(dòng)隱私保護(hù)方法和技術(shù)的努力。

對(duì)齊

在應(yīng)對(duì)這些挑戰(zhàn)時(shí)，確保大型模型的可信度已成為研究人員的主要關(guān)注點(diǎn)之一。其中最重要的技術(shù)之一是模型對(duì)齊，指的是確保模型的行為和輸出與人類設(shè)計(jì)者的意圖和道德標(biāo)準(zhǔn)一致的過程和目標(biāo)。這涉及到技術(shù)的發(fā)展、其道德責(zé)任和社會(huì)價(jià)值。在大型語言模型領(lǐng)域，利用人類反饋的強(qiáng)化學(xué)習(xí)方法（RLHF）已被廣泛應(yīng)用于模型對(duì)齊。該方法將強(qiáng)化學(xué)習(xí)（RL）與直接人類反饋結(jié)合，使模型能夠更好地與人類的期望和標(biāo)準(zhǔn)一致地理解和執(zhí)行任務(wù)。

討論

從 Sora（特別是其技術(shù)報(bào)告）中，我們總結(jié)了一些有見地的發(fā)現(xiàn)，這些發(fā)現(xiàn)可能為未來的工作提供了信息性的指導(dǎo)：

（1）模型與外部安全的綜合保護(hù)：隨著模型變得更加強(qiáng)大，特別是在生成內(nèi)容方面，確保它們不被濫用以生成有害內(nèi)容（例如仇恨言論和虛假信息）已成為一個(gè)嚴(yán)重的挑戰(zhàn)。除了調(diào)整模型本身外，外部安全保護(hù)同樣重要。這包括內(nèi)容過濾和審查機(jī)制、使用權(quán)限和訪問控制、數(shù)據(jù)隱私保護(hù)，以及透明度和可解釋性的增強(qiáng)。例如，OpenAI 現(xiàn)在使用檢測分類器來判斷給定視頻是否由 Sora 生成。此外，還部署了文本分類器來檢測潛在有害的文本輸入。

（2）多模型模型的安全挑戰(zhàn)：多模型模型，如文本到視頻模型（如 Sora），由于其理解和生成各種類型內(nèi)容的能力（文本、圖像、視頻等），給安全帶來了額外的復(fù)雜性。多模型模型可以以各種形式生成內(nèi)容，增加了濫用和版權(quán)問題的方式和范圍。由于多模型模型生成的內(nèi)容更加復(fù)雜和多樣化，傳統(tǒng)的內(nèi)容驗(yàn)證和真實(shí)性方法可能不再有效。這需要開發(fā)新的技術(shù)和方法來識(shí)別和過濾這些模型生成的有害內(nèi)容，增加了規(guī)范和管理的難度。

（3）跨學(xué)科合作的需求：確保模型的安全性不僅是一個(gè)技術(shù)問題，還需要跨學(xué)科合作。為了解決這些挑戰(zhàn)，需要來自法律和心理學(xué)等各個(gè)領(lǐng)域的專家共同合作，制定適當(dāng)?shù)囊?guī)范（例如，什么是安全的，什么是不安全的？）、政策和技術(shù)解決方案?？鐚W(xué)科合作的需求顯著增加了解決這些問題的復(fù)雜性。

應(yīng)用

隨著以Sora為代表的視頻擴(kuò)散模型成為前沿技術(shù)，它們?cè)诟鱾€(gè)研究領(lǐng)域和行業(yè)中的應(yīng)用正在迅速加速。這項(xiàng)技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了僅僅視頻創(chuàng)作，為從自動(dòng)化內(nèi)容生成到復(fù)雜決策過程等任務(wù)提供了變革性潛力。在本節(jié)中，我們深入全面地審視了視頻擴(kuò)散模型的當(dāng)前應(yīng)用，突出了Sora不僅展示了其能力，而且徹底改變了解決復(fù)雜問題的方法。我們旨在為實(shí)際部署場景提供廣泛的視角（見圖18）。

電影

傳統(tǒng)上，創(chuàng)作影視杰作是一個(gè)艱難且昂貴的過程，通常需要數(shù)十年的努力、尖端設(shè)備和大量的財(cái)政投資。然而，先進(jìn)的視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作的新時(shí)代，其中一個(gè)夢想是從簡單的文本輸入自動(dòng)產(chǎn)生電影正在成為現(xiàn)實(shí)。研究人員通過將視頻生成模型擴(kuò)展到電影生成的領(lǐng)域，涉足了電影生成的領(lǐng)域。MovieFactory應(yīng)用擴(kuò)散模型生成電影風(fēng)格的視頻，這些視頻由Chat-GPT生成的詳細(xì)腳本產(chǎn)生，代表了一個(gè)重大飛躍。隨后，MobileVidFactory可以根據(jù)用戶提供的簡單文本自動(dòng)生成垂直移動(dòng)視頻。Vlogger使用戶能夠撰寫一分鐘長的視頻日志。這些發(fā)展，以Sora輕松生成引人入勝的電影內(nèi)容的能力為代表，標(biāo)志著電影制作民主化的一個(gè)關(guān)鍵時(shí)刻。它們展示了一個(gè)未來的景象，那里任何人都可以成為電影制片人，顯著降低了進(jìn)入電影行業(yè)的門檻，并在電影制作中引入了一個(gè)新穎的維度，將傳統(tǒng)敘事與人工智能驅(qū)動(dòng)的創(chuàng)造力融合在一起。這些技術(shù)的影響超出了簡化。它們承諾重塑電影制作的格局，在不斷變化的觀眾偏好和分發(fā)渠道面前，使其更加可訪問和多樣化。

教育

長期以來，教育內(nèi)容的景觀一直被靜態(tài)資源所主導(dǎo)，盡管它們具有價(jià)值，但往往無法滿足當(dāng)今學(xué)生多樣化的需求和學(xué)習(xí)風(fēng)格。視頻擴(kuò)散模型站在教育革命的前沿，提供了前所未有的機(jī)會(huì)，以一種顯著增強(qiáng)學(xué)習(xí)者參與度和理解能力的方式定制和激活教育材料。這些先進(jìn)技術(shù)使教育工作者能夠?qū)⑽谋久枋龌蛘n程大綱轉(zhuǎn)化為動(dòng)態(tài)、引人入勝的視頻內(nèi)容，以適應(yīng)個(gè)體學(xué)習(xí)者的特定風(fēng)格和興趣。此外，圖像到視頻編輯技術(shù)提供了將靜態(tài)教育資產(chǎn)轉(zhuǎn)化為互動(dòng)視頻的創(chuàng)新途徑，從而支持一系列學(xué)習(xí)偏好，并潛在地增加學(xué)生參與度。通過將這些模型整合到教育內(nèi)容創(chuàng)作中，教育工作者可以在許多主題上制作視頻，使復(fù)雜概念對(duì)學(xué)生更加易于理解和引人入勝。Sora在革新教育領(lǐng)域方面的應(yīng)用體現(xiàn)了這些技術(shù)的變革潛力。這種向個(gè)性化、動(dòng)態(tài)教育內(nèi)容的轉(zhuǎn)變標(biāo)志著教育的新時(shí)代。

游戲

游戲行業(yè)不斷尋求推動(dòng)現(xiàn)實(shí)感和沉浸感的界限，然而，傳統(tǒng)的游戲開發(fā)往往受制于預(yù)先渲染的環(huán)境和腳本化事件的限制。擴(kuò)散模型實(shí)時(shí)生成動(dòng)態(tài)、高保真視頻內(nèi)容和逼真音效的能力，承諾克服現(xiàn)有的限制，為開發(fā)者提供工具，創(chuàng)造對(duì)玩家行動(dòng)和游戲事件有機(jī)響應(yīng)的不斷演變的游戲環(huán)境。這可能包括生成變化的天氣條件、改變地貌，甚至實(shí)時(shí)創(chuàng)建全新的環(huán)境，使游戲世界更加沉浸和響應(yīng)。一些方法還從視頻輸入中合成逼真的撞擊聲音，增強(qiáng)游戲音頻體驗(yàn)。通過將Sora整合到游戲領(lǐng)域，可以創(chuàng)造出引人入勝、吸引玩家的無與倫比的沉浸式體驗(yàn)。游戲的開發(fā)、玩法和體驗(yàn)將得到革新，同時(shí)為敘事、互動(dòng)和沉浸體驗(yàn)開辟新的可能性。

醫(yī)療保健

盡管具有生成能力，視頻擴(kuò)散模型擅長理解和生成復(fù)雜的視頻序列，使其特別適用于識(shí)別體內(nèi)的動(dòng)態(tài)異常，例如早期細(xì)胞凋亡、皮膚病變進(jìn)展和不規(guī)則的人體運(yùn)動(dòng)，這對(duì)于早期疾病的檢測和干預(yù)策略至關(guān)重要。此外，像MedSegDiff-V2和這樣的模型利用Transformer的力量以前所未有的精度對(duì)醫(yī)學(xué)圖像進(jìn)行分割，使臨床醫(yī)生能夠在各種成像模式下精確地找出感興趣的區(qū)域。將Sora整合到臨床實(shí)踐中，不僅可以改進(jìn)診斷過程，而且可以個(gè)性化患者護(hù)理，根據(jù)精確的醫(yī)學(xué)成像分析提供定制的治療方案。然而，這種技術(shù)整合也帶來了一系列挑戰(zhàn)，包括對(duì)健壯數(shù)據(jù)隱私措施的需求和解決醫(yī)療倫理問題。

機(jī)器人技術(shù)

視頻擴(kuò)散模型現(xiàn)在在機(jī)器人技術(shù)中扮演著重要角色，展示了一個(gè)新時(shí)代，在這個(gè)時(shí)代，機(jī)器人可以生成和解釋復(fù)雜的視頻序列，以增強(qiáng)感知和決策制定。這些模型為機(jī)器人解鎖了新的能力，使它們能夠與環(huán)境交互，并以前所未有的復(fù)雜性和精度執(zhí)行任務(wù)。將網(wǎng)絡(luò)規(guī)模的擴(kuò)散模型應(yīng)用到機(jī)器人技術(shù)展示了利用大規(guī)模模型增強(qiáng)機(jī)器人視覺和理解能力的潛力。潛在的擴(kuò)散模型被用于語言指導(dǎo)的視頻預(yù)測，使機(jī)器人能夠通過預(yù)測視頻格式中的動(dòng)作結(jié)果來理解和執(zhí)行任務(wù)。此外，視頻擴(kuò)散模型創(chuàng)新地解決了機(jī)器人研究中對(duì)模擬環(huán)境的依賴，這些模型能夠創(chuàng)建高度逼真的視頻序列。這使得為機(jī)器人生成多樣化的訓(xùn)練場景成為可能，緩解了真實(shí)世界數(shù)據(jù)稀缺性所帶來的限制。我們相信，將Sora等技術(shù)整合到機(jī)器人領(lǐng)域，將帶來突破性的發(fā)展。通過利用Sora的力量，機(jī)器人的未來將迎來前所未有的進(jìn)步，使機(jī)器人能夠無縫地在環(huán)境中導(dǎo)航和交互。

討論

Sora顯示出了從人類精確理解和實(shí)施復(fù)雜指令方面的卓越才能。這個(gè)模型擅長創(chuàng)作具有各種角色的詳細(xì)視頻，這些角色都設(shè)置在精心制作的場景中。Sora的一個(gè)特別令人印象深刻的特點(diǎn)是，它能夠在保持一致而引人入勝的敘述的同時(shí)制作長達(dá)一分鐘的視頻。這標(biāo)志著與之前專注于較短視頻片段的嘗試相比，Sora的延長序列展示了清晰的敘述流程，并從頭到尾保持了視覺一致性。此外，Sora通過生成更長的視頻序列來區(qū)別于先前模型，這些視頻序列捕捉了復(fù)雜的動(dòng)作和交互，推動(dòng)了AI驅(qū)動(dòng)的創(chuàng)造工具的重大進(jìn)步，使用戶能夠?qū)婀适罗D(zhuǎn)化為細(xì)節(jié)豐富、復(fù)雜的視頻，而這在以前是不可能實(shí)現(xiàn)的。

限制

物理真實(shí)性的挑戰(zhàn)。作為一個(gè)模擬平臺(tái)，Sora展示了一系列限制，這些限制削弱了其準(zhǔn)確描繪復(fù)雜場景的效果。最重要的是，它在復(fù)雜場景中對(duì)物理原理的處理不一致，導(dǎo)致未能準(zhǔn)確復(fù)制特定的因果示例。例如，吃掉一部分餅干可能不會(huì)導(dǎo)致相應(yīng)的咬痕，這說明了系統(tǒng)偶爾脫離物理可信度。這個(gè)問題延伸到運(yùn)動(dòng)的模擬，Sora生成的運(yùn)動(dòng)挑戰(zhàn)現(xiàn)實(shí)的物理建模，比如物體的不自然變形或椅子等剛性結(jié)構(gòu)的錯(cuò)誤模擬，導(dǎo)致不真實(shí)的物理交互。在模擬物體和角色之間的復(fù)雜交互時(shí)，挑戰(zhàn)進(jìn)一步加劇，有時(shí)產(chǎn)生的結(jié)果偏向于幽默。

空間和時(shí)間復(fù)雜性。Sora偶爾會(huì)誤解與給定提示中的對(duì)象和角色的放置或排列相關(guān)的指令，導(dǎo)致對(duì)方向的混淆（例如，將左右混淆）。此外，在保持事件的時(shí)間準(zhǔn)確性方面存在挑戰(zhàn)，特別是在遵循指定的相機(jī)運(yùn)動(dòng)或序列時(shí)。這可能導(dǎo)致偏離場景的預(yù)期時(shí)間流。在涉及大量角色或元素的復(fù)雜情況下，Sora有時(shí)會(huì)插入不相關(guān)的動(dòng)物或人物。這種添加可能會(huì)顯著改變最初設(shè)想的構(gòu)圖和氛圍，偏離了計(jì)劃的敘述或視覺布局。這個(gè)問題不僅影響了模型準(zhǔn)確重現(xiàn)特定場景或敘述的能力，還影響了其在生成內(nèi)容方面與用戶期望和生成輸出的連貫性一致性。

人機(jī)交互的限制。盡管Sora在視頻生成領(lǐng)域顯示出潛力，但在人機(jī)交互方面面臨著重大限制。這些限制主要體現(xiàn)在用戶系統(tǒng)交互的一致性和效率上，尤其是在對(duì)生成內(nèi)容進(jìn)行詳細(xì)修改或優(yōu)化時(shí)。例如，用戶可能會(huì)發(fā)現(xiàn)難以精確指定或調(diào)整視頻中特定元素的呈現(xiàn)方式，比如動(dòng)作細(xì)節(jié)和場景過渡。此外，Sora在理解復(fù)雜語言指令或捕捉微妙語義差異方面的限制可能導(dǎo)致視頻內(nèi)容未能完全滿足用戶的期望或需求。這些缺點(diǎn)限制了Sora在視頻編輯和增強(qiáng)方面的潛力，也影響了用戶體驗(yàn)的整體滿意度。

使用限制。關(guān)于使用限制，OpenAI尚未為公眾訪問Sora設(shè)定具體的發(fā)布日期，強(qiáng)調(diào)在廣泛部署之前需要謹(jǐn)慎處理安全性和準(zhǔn)備性。這表明，Sora在安全、隱私保護(hù)和內(nèi)容審查等領(lǐng)域可能仍需要進(jìn)一步改進(jìn)和測試。此外，目前，Sora只能生成長達(dá)一分鐘的視頻，根據(jù)已發(fā)布的案例，大多數(shù)生成的視頻只有幾十秒長。這一限制限制了其在需要更長內(nèi)容展示的應(yīng)用中的使用，如詳細(xì)的教學(xué)視頻或深入的敘事。這一限制降低了Sora在內(nèi)容創(chuàng)作中的靈活性。

機(jī)遇

學(xué)術(shù)。(1) OpenAI引入Sora標(biāo)志著AI社區(qū)更深入地探索文本到視頻模型的轉(zhuǎn)變，利用擴(kuò)散和Transformer技術(shù)。這一舉措旨在重新引導(dǎo)關(guān)注，將重點(diǎn)轉(zhuǎn)向直接從文本描述創(chuàng)建高度復(fù)雜和微妙的視頻內(nèi)容的潛力，這是一片有望革新內(nèi)容創(chuàng)作、敘事和信息共享的前沿。(2) 將Sora訓(xùn)練在原始大小的數(shù)據(jù)上的創(chuàng)新方法，與傳統(tǒng)的調(diào)整或裁剪方法相比，為學(xué)術(shù)界提供了突破性的靈感。它通過突出利用未經(jīng)修改的數(shù)據(jù)集的好處，為創(chuàng)建更先進(jìn)的生成模型打開了新的途徑。

行業(yè)。(1) Sora目前的能力標(biāo)志著視頻模擬技術(shù)進(jìn)步的一個(gè)有希望的路徑，突出了在物理和數(shù)字領(lǐng)域內(nèi)顯著增強(qiáng)逼真性的潛力。Sora通過文本描述使得創(chuàng)造高度逼真環(huán)境成為可能，這為內(nèi)容創(chuàng)作開辟了一個(gè)充滿希望的未來。這一潛力延伸到了革新游戲開發(fā)，展示了一個(gè)未來的景象，即可以以前所未有的輕松和準(zhǔn)確度打造沉浸式的虛擬世界。(2) 公司可以利用Sora制作能夠迅速適應(yīng)市場變化并創(chuàng)建定制營銷內(nèi)容的廣告視頻。這不僅降低了生產(chǎn)成本，還增強(qiáng)了廣告的吸引力和有效性。Sora僅憑文本描述就能生成高度逼真的視頻內(nèi)容的能力，可能會(huì)徹底改變品牌與受眾互動(dòng)的方式，使其能夠以前所未有的方式創(chuàng)造沉浸式和引人入勝的視頻，捕捉產(chǎn)品或服務(wù)的本質(zhì)。

社會(huì)。(1) 雖然利用文本到視頻技術(shù)替代傳統(tǒng)電影制作的前景仍然遙遠(yuǎn)，但Sora和類似的平臺(tái)對(duì)社交媒體內(nèi)容創(chuàng)作具有變革性的潛力。目前視頻長度的限制并不減弱這些工具在使高質(zhì)量視頻制作對(duì)每個(gè)人都可及的方面所能發(fā)揮的影響，使個(gè)人能夠在不需要昂貴設(shè)備的情況下制作引人入勝的內(nèi)容。這代表了對(duì)TikTok和Reels等平臺(tái)上內(nèi)容創(chuàng)作者的重大轉(zhuǎn)變，帶來了一個(gè)新的創(chuàng)造力和參與度的時(shí)代。(2) 編劇和創(chuàng)意專業(yè)人員可以利用Sora將書面劇本轉(zhuǎn)化為視頻，幫助他們更好地展示和分享他們的創(chuàng)意概念，甚至制作短片和動(dòng)畫片。從劇本中創(chuàng)作詳細(xì)、生動(dòng)的視頻可以從根本上改變電影和動(dòng)畫制作的前期制作過程，讓未來的敘事者可以在其中進(jìn)行創(chuàng)作、發(fā)展和完善他們的敘事構(gòu)思。這項(xiàng)技術(shù)為更動(dòng)態(tài)、更互動(dòng)的劇本開發(fā)形式開辟了可能性，其中的想法可以實(shí)時(shí)可視化和評(píng)估，為創(chuàng)造力和協(xié)作提供了強(qiáng)大的工具。(3) 記者和新聞機(jī)構(gòu)也可以利用Sora快速生成新聞報(bào)道或解釋性視頻，使新聞內(nèi)容更加生動(dòng)和引人入勝。這可以顯著增加新聞報(bào)道的報(bào)道范圍和受眾參與度。通過提供一個(gè)可以模擬真實(shí)環(huán)境和場景的工具，Sora為視覺敘事提供了強(qiáng)大的解決方案，使記者能夠通過引人入勝的視頻來傳達(dá)復(fù)雜的故事，這些故事以前很難或昂貴地制作?？偟膩碚f，Sora 在營銷、新聞和娛樂領(lǐng)域徹底改革內(nèi)容創(chuàng)作的潛力是巨大的。

結(jié)論

這篇綜述提供了對(duì) Sora 的全面評(píng)估，以幫助開發(fā)者和研究人員研究 Sora 的能力和相關(guān)工作。該評(píng)估基于對(duì)已發(fā)表的技術(shù)報(bào)告的調(diào)查和基于現(xiàn)有文獻(xiàn)的逆向工程。當(dāng) Sora 的 API 可用并且有關(guān) Sora 的進(jìn)一步細(xì)節(jié)被揭示時(shí)，作者將繼續(xù)更新本文。作者希望本綜述論文能成為開源研究社區(qū)的寶貴資源，并為社區(qū)共同在不久的將來開發(fā)一個(gè)開源版本的 Sora 打下基礎(chǔ)，以在 AIGC 時(shí)代使視頻自動(dòng)生成民主化。為了實(shí)現(xiàn)這一目標(biāo)，作者邀請(qǐng)各方進(jìn)行討論、提出建議，并展開合作。

責(zé)任編輯：張燕妮來源：自動(dòng)駕駛之心

AI 技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營