自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI 的 ?Sora 技術報告詳解

發(fā)布于 2024-11-12 15:44
瀏覽
0收藏

Sora 詳細的技術報告發(fā)布了,相關從業(yè)者可能都需要看看。

OpenAI 的 ?Sora 技術報告詳解-AI.x社區(qū)

里面有 Open AI的訓練思路以及 Sora 詳細的技術特性,我從里面找了一些要點,詳細的可以去看完整內(nèi)容。

簡單來說 Sora 的訓練量足夠大也產(chǎn)生了類似涌現(xiàn)的能力。

技術特點

三維空間的連貫性:Sora可以生成帶有動態(tài)相機運動的視頻。隨著相機移動和旋轉,人物和場景元素在三維空間中保持連貫的運動。

模擬數(shù)字世界:Sora還能模擬人工過程,如視頻游戲。Sora能夠同時控制Minecraft中的玩家,并高保真地渲染游戲世界及其動態(tài)。通過提及“Minecraft”的提示,可以零樣本地激發(fā)Sora的這些能力

長期連續(xù)性和物體持久性:對視頻生成系統(tǒng)來說,Sora通常能夠有效地模擬短期和長期的依賴關系。同樣,它能在一個樣本中生成同一角色的多個鏡頭,確保其在整個視頻中的外觀一致。

與世界互動:Sora有時能夠模擬對世界狀態(tài)產(chǎn)生簡單影響的行為。例如,畫家可以在畫布上留下隨時間持續(xù)的新筆觸,或者一個人吃漢堡時留下咬痕。

訓練過程

Sora 的訓練受到了大語言模型(Large Language Model)的啟發(fā)。這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行訓練,從而獲得了廣泛的能力。

Sora實際上是一種擴散型變換器模型(diffusion transformer)。

首先將視頻壓縮到一個低維潛在空間19中,然后將這種表現(xiàn)形式分解成時空區(qū)塊,從而將視頻轉換為區(qū)塊。

訓練了一個用于降低視覺數(shù)據(jù)維度的網(wǎng)絡。這個網(wǎng)絡以原始視頻為輸入,輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練,并在此空間中生成視頻。還開發(fā)了一個對應的解碼器模型,它能將生成的潛在表示映射回到像素空間。

對于給定的壓縮輸入視頻,提取一系列時空區(qū)塊,它們在變換器模型中充當標記(token)。這種方案同樣適用于圖像,因為圖像本質上是單幀的視頻?;趨^(qū)塊的表示方法使Sora能夠針對不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進行訓練。在推理過程中,可以通過在適當大小的網(wǎng)格中排列隨機初始化的區(qū)塊來控制生成視頻的大小。

隨著 Sora 訓練計算量的增加,樣本質量有了顯著提升。

Sora訓練時沒有對素材進行裁切,使得Sora能夠直接為不同設備以其原生縱橫比創(chuàng)造內(nèi)容。

針對視頻的原生縱橫比進行訓練,還可以提高構圖和取景的質量。

訓練文本到視頻的生成系統(tǒng)需要大量配有相應文本提示的視頻。應用了在DALL·E 3中引入的重新字幕技術到視頻上。

與DALL·E 3相似,也利用了GPT技術,將用戶的簡短提示轉換成更詳細的提示,然后發(fā)送給視頻模型。Video generation models as world simulators

論文關鍵點

OpenAI 的研究論文《Video generation models as world simulators》探討了在視頻數(shù)據(jù)上進行大規(guī)模訓練生成模型的方法。這項研究特別關注于文本條件擴散模型,這些模型同時在視頻和圖像上進行訓練,處理不同時長、分辨率和寬高比的數(shù)據(jù)。研究中提到的最大模型 Sora 能夠生成長達一分鐘的高保真視頻。以下是論文的一些關鍵點:

  1. 統(tǒng)一的視覺數(shù)據(jù)表示:研究者們將所有類型的視覺數(shù)據(jù)轉換為統(tǒng)一的表示,以便進行大規(guī)模的生成模型訓練。Sora 使用視覺補丁(patches)作為其表示方式,類似于大型語言模型(LLM)中的文本標記。
  2. 視頻壓縮網(wǎng)絡:研究者們訓練了一個網(wǎng)絡,將原始視頻壓縮到一個低維潛在空間,并將其表示分解為時空補丁。Sora 在這個壓縮的潛在空間中進行訓練,并生成視頻。
  3. 擴散模型:Sora 是一個擴散模型,它通過預測原始“干凈”的補丁來從輸入的噪聲補丁中生成視頻。擴散模型在語言建模、計算機視覺和圖像生成等領域已經(jīng)顯示出了顯著的擴展性。
  4. 視頻生成的可擴展性:Sora 能夠生成不同分辨率、時長和寬高比的視頻,包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設備生成內(nèi)容,或者在生成全分辨率視頻之前快速原型化內(nèi)容。
  5. 語言理解:為了訓練文本到視頻生成系統(tǒng),需要大量的視頻和相應的文本標題。研究者們應用了在 DALL·E 3 中引入的重新描述技術,首先訓練一個高度描述性的標題生成器,然后為訓練集中的所有視頻生成文本標題。
  6. 圖像和視頻編輯:Sora 不僅能夠基于文本提示生成視頻,還可以基于現(xiàn)有圖像或視頻進行提示。這使得 Sora 能夠執(zhí)行廣泛的圖像和視頻編輯任務,如創(chuàng)建完美循環(huán)的視頻、動畫靜態(tài)圖像、向前或向后擴展視頻等。
  7. 模擬能力:當視頻模型在大規(guī)模訓練時,它們展現(xiàn)出了一些有趣的新興能力,使得 Sora 能夠模擬物理世界中的某些方面,如動態(tài)相機運動、長期一致性和對象持久性等。
  8. 討論:盡管 Sora 展示了作為模擬器的潛力,但它仍然存在許多局限性,例如在模擬基本物理交互(如玻璃破碎)時的準確性不足。研究者們認為,繼續(xù)擴展視頻模型是開發(fā)物理和數(shù)字世界模擬器的有前途的道路。

這篇論文提供了對 Sora 模型的深入分析,展示了其在視頻生成領域的潛力和挑戰(zhàn)。通過這種方式,OpenAI 正在探索如何利用 AI 來更好地理解和模擬我們周圍的世界。

論文報告:https://openai.com/research/video-generation-models-as-world-simulators。

本文轉載自探索者知白,作者:知白 ??AI??

收藏
回復
舉報
回復
相關推薦