自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn) 精華

發(fā)布于 2024-12-12 11:37
瀏覽
0收藏

最近被Sora刷屏,今天結(jié)合OpenAI Sora的技術(shù)報(bào)告Video generation models as world simulators來(lái)看下Sora具備哪些能力,以及這些能力是怎么來(lái)的。功能上除了文生圖,還支持以圖片、視頻作為prompt,極大拓展使用場(chǎng)景。技術(shù)上,利用spacetime patches,統(tǒng)一了時(shí)空分割語(yǔ)言,為后續(xù)模型訓(xùn)練以及使用場(chǎng)景的拓展打下基礎(chǔ)。數(shù)據(jù)側(cè)在準(zhǔn)備高質(zhì)量的caption數(shù)據(jù)做了專門(mén)的優(yōu)化。另外模型基礎(chǔ)架構(gòu)采用Diffusion Transformer,通過(guò)Scalling,顯著提升生成質(zhì)量。

技術(shù):將視頻信息處理成spacetime patches,統(tǒng)一了時(shí)空分割的語(yǔ)言,方便支持不同尺寸、時(shí)間、分辨率的數(shù)據(jù)。使用Diffusion Transformer作為主干網(wǎng)絡(luò)進(jìn)行建模,方便對(duì)模型規(guī)模進(jìn)行擴(kuò)展。訓(xùn)練Video compression network降低視覺(jué)數(shù)據(jù)維度,在壓縮潛在空間訓(xùn)練生成模型和解碼模型。通過(guò)Scalling顯著提升生成質(zhì)量。

數(shù)據(jù)工程:通過(guò)專門(mén)訓(xùn)練一個(gè)高度描述性的標(biāo)題模型,或利用 GPT4 將簡(jiǎn)短的用戶提示轉(zhuǎn)化成更長(zhǎng)、更詳細(xì)的標(biāo)題,來(lái)獲取高質(zhì)量的每一幀圖像的標(biāo)題;

能力:可以根據(jù)文本、圖片或視頻創(chuàng)建視頻,也可以做其他視頻編輯工具,如根據(jù)靜態(tài)圖片生成動(dòng)態(tài)圖片、在時(shí)間上向前或向后拓展視頻、直接通過(guò) prompt 提示詞修改視頻背景、插針融合兩個(gè)風(fēng)格完全不同的視頻等;

涌現(xiàn)3D世界建模能力:能夠模擬物理世界中的人、動(dòng)物和環(huán)境的變化,包括 3D 一致性、有效地模擬物體短程和遠(yuǎn)程依賴關(guān)系、模擬簡(jiǎn)單的動(dòng)作來(lái)影響世界的狀態(tài)、模擬數(shù)字世界。

ps:為了防止個(gè)人理解出現(xiàn)問(wèn)題,技術(shù)報(bào)告中英文原文和翻譯都有保留,視頻只截圖處理,原始視頻請(qǐng)看原報(bào)告。

一、概述

1.Motivation

  • 之前視頻生成技術(shù)方案主要包括循環(huán)網(wǎng)絡(luò)[^1][^2][^3]、生成對(duì)抗網(wǎng)絡(luò)[^4][^5][^6][^7]、和擴(kuò)散模型[^8][^9],這些工作主要關(guān)注一小部分類別的數(shù)據(jù),并且只能生成一些時(shí)間長(zhǎng)度較短或者時(shí)間固定的視頻。
  • 能夠生成不同時(shí)長(zhǎng)、長(zhǎng)寬比和分辨率的視頻和圖像,長(zhǎng)度達(dá)一分鐘的高清視頻的方案還沒(méi)出現(xiàn)。

2.Method

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

2.1 Turning visual data into patches

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

We take inspiration from large language models which acquire generalist capabilities by training on internet-scale data.13,14 The success of the LLM paradigm is enabled in part by the use of tokens that elegantly unify diverse modalities of text—code, math and various natural languages. In this work, we consider how generative models of visual data can inherit such benefits. Whereas LLMs have text tokens, Sora has visual patches. Patches have previously been shown to be an effective representation for models of visual data.15,16,17,18 We find that patches are a highly-scalable and effective representation for training generative models on diverse types of videos and images.

我們從大型語(yǔ)言模型中獲得靈感,這些模型通過(guò)在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練來(lái)獲得通用能力。LLM 范式的成功在一定程度上是由于使用了令牌Token,這些令牌Token優(yōu)雅地統(tǒng)一了文本的多種模式——代碼、數(shù)學(xué)和各種自然語(yǔ)言。在這項(xiàng)工作中,我們考慮視覺(jué)數(shù)據(jù)的生成模型如何繼承這些好處。雖然 LLM 具有文本令牌Token,但 Sora 具有視覺(jué)補(bǔ)丁Patches。之前已經(jīng)表明,補(bǔ)丁Patches是視覺(jué)數(shù)據(jù)模型的有效表示。我們發(fā)現(xiàn)補(bǔ)丁Patches是一種高度可擴(kuò)展且有效的表示形式,可以對(duì)不同類型的視頻和圖像進(jìn)行生成模型的訓(xùn)練。

2.2 Video compression network

We train a network that reduces the dimensionality of visual data.20 This network takes raw video as input and outputs a latent representation that is compressed both temporally and spatially. Sora is trained on and subsequently generates videos within this compressed latent space. We also train a corresponding decoder model that maps generated latents back to pixel space.

我們訓(xùn)練了一個(gè)網(wǎng)絡(luò)來(lái)降低視覺(jué)數(shù)據(jù)的維度。這個(gè)網(wǎng)絡(luò)以原始視頻作為輸入,并輸出一個(gè)在時(shí)間和空間上都經(jīng)過(guò)壓縮的潛在表示。Sora 在這個(gè)壓縮的潛在空間中進(jìn)行訓(xùn)練,并隨后生成視頻。我們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間。

2.3 Spacetime latent patches

Given a compressed input video, we extract a sequence of spacetime patches which act as transformer tokens. This scheme works for images too since images are just videos with a single frame. Our patch-based representation enables Sora to train on videos and images of variable resolutions, durations and aspect ratios. At inference time, we can control the size of generated videos by arranging randomly-initialized patches in an appropriately-sized grid.

給定一個(gè)壓縮的輸入視頻,我們提取一系列spacetime patches 作為 Transformer 的tokens。該方案也適用于圖像,因?yàn)閳D像只是具有單個(gè)幀的視頻。我們基于patch的表示使 Sora 能夠在具有不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像上進(jìn)行訓(xùn)練。在推理時(shí),我們可以通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的補(bǔ)丁來(lái)控制生成視頻的大小。

2.4 Scaling transformers for video generation

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

Sora is a diffusion model21,22,23,24,25; given input noisy patches (and conditioning information like text prompts), it’s trained to predict the original “clean” patches. Importantly, Sora is a diffusion transformer.26 Transformers have demonstrated remarkable scaling properties across a variety of domains, including language modeling,13,14 computer vision,15,16,17,18 and image generation.27,28,29

Sora 是一種擴(kuò)散模型;在給定輸入噪聲patches(以及諸如文本提示之類的條件信息)的情況下,它經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)原始的“干凈”補(bǔ)丁。重要的是,Sora 是一個(gè)擴(kuò)散 Transformer。Transformer 已經(jīng)在包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)、圖像生成等在內(nèi)的多個(gè)領(lǐng)域中表現(xiàn)出了出色的擴(kuò)展屬性。

In this work, we find that diffusion transformers scale effectively as video models as well. Below, we show a comparison of video samples with fixed seeds and inputs as training progresses. Sample quality improves markedly as training compute increases.

在這項(xiàng)工作中,我們發(fā)現(xiàn)diffusion  Transformer 作為視頻模型也具有出色的擴(kuò)展能力。下面,我們展示了隨著訓(xùn)練的進(jìn)行,固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計(jì)算的增加,樣本質(zhì)量有了顯著的提高。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

2.5 Variable durations, resolutions, aspect ratios

Past approaches to image and video generation typically resize, crop or trim videos to a standard size—e.g., 4 second videos at 256x256 resolution. We find that instead training on data at its native size provides several benefits.

過(guò)去的圖像和視頻生成方法通常會(huì)調(diào)整、裁剪或修剪視頻到標(biāo)準(zhǔn)尺寸——例如,4 秒的視頻,分辨率為 256x256。我們發(fā)現(xiàn),在其原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練反而有幾個(gè)好處。

Sampling flexibility

Sora can sample widescreen 1920x1080p videos, vertical 1080x1920 videos and everything inbetween. This lets Sora create content for different devices directly at their native aspect ratios. It also lets us quickly prototype content at lower sizes before generating at full resolution—all with the same model.

Sora 可以采樣寬屏 1920x1080p 視頻、豎屏 1080x1920 視頻以及介于兩者之間的所有視頻。這使得 Sora 可以直接為不同設(shè)備創(chuàng)建與其原始寬高比匹配的內(nèi)容。它還可以讓我們?cè)谏扇直媛蕛?nèi)容之前,先以較小的尺寸快速制作內(nèi)容原型——所有這些都使用相同的模型。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

Improved framing and composition

We empirically find that training on videos at their native aspect ratios improves composition and framing. We compare Sora against a version of our model that crops all training videos to be square, which is common practice when training generative models. The model trained on square crops (left) sometimes generates videos where the subject is only partially in view. In comparison, videos from Sora (right) have improved framing.

我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),以原始寬高比進(jìn)行視頻訓(xùn)練可以提高構(gòu)圖和取景效果。我們將 Sora 與我們的另一個(gè)模型進(jìn)行了比較,該模型將所有訓(xùn)練視頻都裁剪成正方形,這是訓(xùn)練生成式模型時(shí)常用的做法。經(jīng)過(guò)方形裁剪訓(xùn)練的模型(左側(cè))有時(shí)會(huì)生成主體部分只在畫(huà)面中出現(xiàn)一部分的視頻。相比之下,Sora 生成的視頻(右側(cè))取景效果更好。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

2.6 Language understanding

Training text-to-video generation systems requires a large amount of videos with corresponding text captions. We apply the re-captioning technique introduced in DALL·E 330 to videos. We first train a highly descriptive captioner model and then use it to produce text captions for all videos in our training set. We find that training on highly descriptive video captions improves text fidelity as well as the overall quality of videos.

訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本標(biāo)題的視頻。我們將 DALL·E 3[^30] 中介紹的重寫(xiě)標(biāo)題技術(shù)應(yīng)用于視頻。我們首先訓(xùn)練一個(gè)高度描述性的標(biāo)題模型,然后使用它為我們訓(xùn)練集中的所有視頻生成文本標(biāo)題。我們發(fā)現(xiàn),在高度描述性的視頻標(biāo)題上進(jìn)行訓(xùn)練可以提高文本保真度以及視頻的整體質(zhì)量。

Similar to DALL·E 3, we also leverage GPT to turn short user prompts into longer detailed captions that are sent to the video model. This enables Sora to generate high quality videos that accurately follow user prompts.

與 DALL·E 3類似,我們還利用 GPT 將簡(jiǎn)短的用戶提示轉(zhuǎn)化為更長(zhǎng)、更詳細(xì)的標(biāo)題,然后將其發(fā)送到視頻模型。這使得 Sora 能夠生成高質(zhì)量的視頻,準(zhǔn)確地遵循用戶提示。

3.Conclusion

強(qiáng)悍的視頻圖像生成、修改、融合等能力: 可以根據(jù)文本、圖片或視頻創(chuàng)建視頻,也可以做其他視頻編輯工具,如根據(jù)靜態(tài)圖片生成動(dòng)態(tài)圖片、在時(shí)間上向前或向后拓展視頻、直接通過(guò) prompt 提示詞修改視頻背景、插針融合兩個(gè)風(fēng)格完全不同的視頻;

涌現(xiàn)3D世界建模能力: 能夠模擬物理世界中的人、動(dòng)物和環(huán)境的變化,包括 3D 一致性、有效地模擬物體短程和遠(yuǎn)程依賴關(guān)系、模擬簡(jiǎn)單的動(dòng)作來(lái)影響世界的狀態(tài)、模擬數(shù)字世界。

4.Limitation

Sora currently exhibits numerous limitations as a simulator. For example, it does not accurately model the physics of many basic interactions, like glass shattering. Other interactions, like eating food, do not always yield correct changes in object state. We enumerate other common failure modes of the model—such as incoherencies that develop in long duration samples or spontaneous appearances of objects—in our landing page.

Sora 作為模擬器目前存在許多限制。例如,它不能準(zhǔn)確模擬許多基本交互的物理特性,如玻璃破碎。 其他交互,如進(jìn)食,并不總是導(dǎo)致對(duì)象狀態(tài)的正確變化。我們?cè)诘卿涰?yè)面中列舉了模型的其他常見(jiàn)故障模式,例如在長(zhǎng)時(shí)間采樣中出現(xiàn)的不一致或物體的自發(fā)出現(xiàn)。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

二、相關(guān)應(yīng)用

1.文本可以作為prompt,圖片或者視頻也行!

All of the results above and in our landing page show text-to-video samples. But Sora can also be prompted with other inputs, such as pre-existing images or video. This capability enables Sora to perform a wide range of image and video editing tasks—creating perfectly looping video, animating static images, extending videos forwards or backwards in time, etc.

上述所有結(jié)果和我們的登錄頁(yè)面均顯示了文本到視頻的示例。但 Sora 也可以使用其他輸入來(lái)作為提示,例如現(xiàn)有的圖像或視頻。此功能使 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù)-創(chuàng)建完美循環(huán)的視頻、為靜態(tài)圖像制作動(dòng)畫(huà)、在時(shí)間上向前或向后擴(kuò)展視頻等。

Animating DALL·E images(使用靜態(tài)圖生成動(dòng)態(tài)圖片)

Sora is capable of generating videos provided an image and prompt as input. Below we show example videos generated based on DALL·E 231 and DALL·E 330 images.

Sora 可以根據(jù)輸入的圖像和提示生成視頻。下面我們展示一些基于 DALL·E 2和 DALL·E 3 圖像生成的示例視頻。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

A Shiba Inu dog wearing a beret and black turtleneck.

Extending generated videos(拓展視頻)

Sora is also capable of extending videos, either forward or backward in time. Below are four videos that were all extended backward in time starting from a segment of a generated video. As a result, each of the four videos starts different from the others, yet all four videos lead to the same ending.

Sora 還能夠延長(zhǎng)視頻,無(wú)論是向前還是向后。以下是3個(gè)視頻,它們都是從生成的視頻的一個(gè)片段開(kāi)始,然后向回?cái)U(kuò)展。因此,這四個(gè)視頻的起點(diǎn)各不相同,但它們都導(dǎo)向同一個(gè)結(jié)局。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

Video-to-video editing(視頻修改和編輯)

Diffusion models have enabled a plethora of methods for editing images and videos from text prompts. Below we apply one of these methods, SDEdit,32 to Sora. This technique enables Sora to transform the styles and environments of input videos zero-shot.

擴(kuò)散模型使得從文本提示中編輯圖像和視頻的方法大量涌現(xiàn)。下面我們將其中一種方法,即 SDEdit,應(yīng)用于 Sora。這種技術(shù)使得 Sora 能夠?qū)斎胍曨l進(jìn)行零樣本的風(fēng)格和環(huán)境轉(zhuǎn)換。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

Connecting videos(視頻融合)

We can also use Sora to gradually interpolate between two input videos, creating seamless transitions between videos with entirely different subjects and scene compositions. In the examples below, the videos in the center interpolate between the corresponding videos on the left and right.

我們還可以使用 Sora **在兩個(gè)輸入視頻之間逐漸插值,從而在主題和場(chǎng)景構(gòu)圖完全不同的視頻之間創(chuàng)建無(wú)縫過(guò)渡。**在下面的示例中,中間的視頻在左側(cè)和右側(cè)的相應(yīng)視頻之間進(jìn)行插值。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

2.Image generation capabilities(單幀圖像生成能力)

Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.

Sora 還能夠生成圖像。我們通過(guò)在具有一幀時(shí)間范圍的空間網(wǎng)格中排列高斯噪聲補(bǔ)丁來(lái)實(shí)現(xiàn)這一點(diǎn)。該模型可以生成可變大小的圖像,最高可達(dá) 2048x2048 分辨率。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

3.Emerging simulation capabilities(模擬物理世界)

We find that video models exhibit a number of interesting emergent capabilities when trained at scale. These capabilities enable Sora to simulate some aspects of people, animals and environments from the physical world. These properties emerge without any explicit inductive biases for 3D, objects, etc.—they are purely phenomena of scale.

我們發(fā)現(xiàn),在大規(guī)模訓(xùn)練時(shí),視頻模型表現(xiàn)出許多有趣的新興能力。這些能力使 Sora 能夠模擬物理世界中的人、動(dòng)物和環(huán)境的某些方面。這些屬性是在沒(méi)有任何針對(duì) 3D、對(duì)象等的明確歸納偏差的情況下出現(xiàn)的——它們純粹是規(guī)模的現(xiàn)象。

3D consistency(保持3D一致性)

Sora can generate videos with dynamic camera motion. As the camera shifts and rotates, people and scene elements move consistently through three-dimensional space.

Sora 可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中持續(xù)移動(dòng)。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

Long-range coherence and object permanence(保持長(zhǎng)時(shí)依賴)

A significant challenge for video generation systems has been maintaining temporal consistency when sampling long videos. We find that Sora is often, though not always, able to effectively model both short- and long-range dependencies. For example, our model can persist people, animals and objects even when they are occluded or leave the frame. Likewise, it can generate multiple shots of the same character in a single sample, maintaining their appearance throughout the video.

視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在采樣長(zhǎng)視頻時(shí)保持時(shí)間一致性。我們發(fā)現(xiàn),Sora 通常(盡管并非總是)能夠有效地模擬短程和遠(yuǎn)程依賴關(guān)系。例如,我們的模型即使在人物、動(dòng)物和物體被遮擋或離開(kāi)畫(huà)面時(shí)也能保持它們的存在。同樣,它可以在單個(gè)樣本中生成同一個(gè)角色的多個(gè)鏡頭,并在整個(gè)視頻中保持他們的外觀。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

Interacting with the world(模擬與真實(shí)世界交互)

Sora can sometimes simulate actions that affect the state of the world in simple ways. For example, a painter can leave new strokes along a canvas that persist over time, or a man can eat a burger and leave bite marks.

Sora 有時(shí)可以模擬簡(jiǎn)單的動(dòng)作來(lái)影響世界的狀態(tài)。例如,畫(huà)家可以在畫(huà)布上留下新的筆觸,這些筆觸會(huì)隨著時(shí)間的推移而保留下來(lái),或者一個(gè)人可以吃漢堡并留下咬痕。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

Simulating digital worlds(模擬數(shù)字世界)

Sora is also able to simulate artificial processes–one example is video games. Sora can simultaneously control the player in Minecraft with a basic policy while also rendering the world and its dynamics in high fidelity. These capabilities can be elicited zero-shot by prompting Sora with captions mentioning “Minecraft.”

Sora 還能夠模擬人工過(guò)程——其中一個(gè)例子是電子游戲。Sora 可以在使用基本策略控制 Minecraft 中的玩家的同時(shí),以高保真度渲染世界及其動(dòng)態(tài)。這些功能可以通過(guò)提示 Sora 使用提到“Minecraft”的標(biāo)題來(lái)實(shí)現(xiàn)零鏡頭。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.

這些能力表明,繼續(xù)擴(kuò)展視頻模型是朝著開(kāi)發(fā)高度能力的物理和數(shù)字世界模擬器以及生活在其中的物體、動(dòng)物和人的有前途的道路。

三、總結(jié)

1.相關(guān)技術(shù)主要包括:1) 將視頻信息處理成spacetime patches,統(tǒng)一了時(shí)空分割的語(yǔ)言,方便支持不同尺寸、時(shí)間、分辨率的數(shù)據(jù)。2)使用Diffusion Transformer作為主干網(wǎng)絡(luò)進(jìn)行建模。3) 訓(xùn)練Video compression network降低視覺(jué)數(shù)據(jù)維度,在壓縮潛在空間訓(xùn)練生成模型和解碼模型。4)通過(guò)Scalling顯著提升生成質(zhì)量。

  • 語(yǔ)言模型與視覺(jué)數(shù)據(jù)建模:大語(yǔ)言模型如ChatGPT通過(guò)Embedding技術(shù)將人類語(yǔ)言編碼,并利用注意力機(jī)制提取知識(shí),生成回應(yīng)。類似地,Sora項(xiàng)目在視覺(jué)數(shù)據(jù)建模中采用Token Embedding思路,將視頻和圖像壓縮為低維的潛變量空間,即時(shí)空碎片(Spacetime Latent Patches),作為統(tǒng)一的時(shí)空數(shù)據(jù)表示。
  • spacetime patches(時(shí)空碎片)的重要性:時(shí)空碎片是Sora項(xiàng)目中的關(guān)鍵概念,它不僅有效地表示了視覺(jué)數(shù)據(jù),而且統(tǒng)一了時(shí)空分割的語(yǔ)言,為后續(xù)的時(shí)空建模提供了基礎(chǔ)。

2.Scaling是有用的:隨著訓(xùn)練計(jì)算量的增加,視頻生成質(zhì)量有了明顯的提升。

?探索Sora背后秘密:結(jié)合OpenAI Sora技術(shù)報(bào)告來(lái)看其能力和技術(shù)點(diǎn)-AI.x社區(qū)

3.數(shù)據(jù)工程:在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練反而有幾個(gè)好處。

  • 更方便創(chuàng)造不同分辨率的圖片
  • 更好的構(gòu)圖和取景效果

4.數(shù)據(jù)工程:高度描述性的視頻標(biāo)題上進(jìn)行訓(xùn)練可以提高文本保真度以及視頻的整體質(zhì)量。

本文采取兩個(gè)策略獲取高質(zhì)量的每一幀圖像的caption。通過(guò)這種方式,Sora能夠更精確地關(guān)聯(lián)GPT4的語(yǔ)言空間和視覺(jué)數(shù)據(jù),實(shí)現(xiàn)了Token(文本)與Patch(視覺(jué)數(shù)據(jù))之間的統(tǒng)一。

  • 專門(mén)訓(xùn)練一個(gè)高度描述性的標(biāo)題模型。
  • 利用GPT4將簡(jiǎn)短的用戶提示轉(zhuǎn)化成更長(zhǎng)、更詳細(xì)的標(biāo)題。

5.能力展現(xiàn):文本可以作為prompt,圖片或者視頻也行!

這意味著我們除了根據(jù)文本創(chuàng)建視頻,還可以做非常多其他的視頻編輯工具,這在視頻創(chuàng)作,電影等行業(yè)都可以帶來(lái)非常大的變革。應(yīng)用方法包括但不限于:

  • 根據(jù)靜態(tài)圖片生成動(dòng)態(tài)圖片
  • 在時(shí)間上向前或者向后拓展視頻
  • 視頻編輯:直接通過(guò)prompt提示詞修改視頻背景
  • 視頻融合:插針融合兩個(gè)風(fēng)格完全不同的視頻

6.涌現(xiàn)能力:Sora能夠模擬物理世界中的人、動(dòng)物和環(huán)境的變化。

文章提出,沒(méi)有對(duì)3D數(shù)據(jù)進(jìn)行優(yōu)化,隨著模型規(guī)模的變大,發(fā)現(xiàn)視頻生成模型能夠涌現(xiàn)出3D世界的模擬能力。主要包括以下幾個(gè)方面。

  • 3D一致性:場(chǎng)景元素能在在三維空間中持續(xù)移動(dòng)
  • 有效地模擬物體短程和遠(yuǎn)程依賴關(guān)系:狗被遮擋還是能持續(xù)保持狀態(tài)
  • 模擬簡(jiǎn)單的動(dòng)作來(lái)影響世界的狀態(tài):畫(huà)畫(huà)動(dòng)作反饋,咬東西物體反饋
  • 模擬數(shù)字世界:模擬游戲玩家,渲染畫(huà)面

7.還是存在類似于LLM的幻覺(jué)現(xiàn)象。

比如不能準(zhǔn)確模擬許多基本交互的物理特性,如玻璃破碎;其他交互,如進(jìn)食,并不能總是導(dǎo)致對(duì)象狀態(tài)的正確變化;而且在長(zhǎng)時(shí)間采樣中會(huì)出現(xiàn)不一致或物體的自發(fā)出現(xiàn)等問(wèn)題。

本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly


標(biāo)簽
已于2024-12-12 12:02:49修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦