自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解剖Sora:37頁論文逆向工程推測技術(shù)細(xì)節(jié),微軟參與,華人團(tuán)隊出品

人工智能 新聞
來自理海大學(xué)、微軟研究院的華人團(tuán)隊發(fā)布了首個Sora相關(guān)研究綜述,足足有37頁。

Sora剛發(fā)布不久,就被逆向工程“解剖”了?!

來自理海大學(xué)、微軟研究院的華人團(tuán)隊發(fā)布了首個Sora相關(guān)研究綜述,足足有37頁。

他們基于Sora公開技術(shù)報告和逆向工程,對模型背景、相關(guān)技術(shù)、應(yīng)用、現(xiàn)存挑戰(zhàn)以及文本到視頻AI模型未來發(fā)展方向進(jìn)行了全面分析。

連計算機(jī)視覺領(lǐng)域的AI生成模型發(fā)展史、近兩年有代表性的視頻生成模型都羅列了出來:

圖片

網(wǎng)友們也屬實(shí)沒想到,僅僅過了半個月、Sora還暫未公開僅有部分人可使用,學(xué)術(shù)圈相關(guān)研究竟出現(xiàn)得這么快。

圖片
圖片

不少網(wǎng)友表示,綜述非常全面有條理,建議全文閱讀。

圖片

那么這篇綜述具體都講了啥?

量子位在不改變原意的基礎(chǔ)上,對部分內(nèi)容進(jìn)行了整理。

圖片

目錄

逆向工程剖析Sora技術(shù)細(xì)節(jié)

  • 整體架構(gòu)
  • 多樣性視覺數(shù)據(jù)預(yù)處理
  • 指令調(diào)優(yōu):視頻摘要生成器
  • 視頻提示工程

Sora具有里程碑式意義

Sora的五大應(yīng)用前景及局限性

逆向工程剖析Sora技術(shù)細(xì)節(jié)

眾所周知,Sora發(fā)布后,OpenAI緊接著發(fā)布了技術(shù)報告,但未詳細(xì)透露技術(shù)細(xì)節(jié),被有的網(wǎng)友吐槽OpenAI果然還是這么“Close”。

學(xué)術(shù)圈的猜測也是五花八門,ResNeXt一作謝賽寧、英偉達(dá)AI科學(xué)家Jim Fan等各路大佬都曾激情開麥。Jim Fan還高呼Sora就是視頻生成的GPT-3時刻

不過,OpenAI研究員Jason Wei最近對Sora的評價是視頻生成的GPT-2時刻

圖片

大佬們眾說紛紜,然而誰的猜測更為準(zhǔn)確還不好說。

而在這篇研究綜述中,研究人員用逆向工程同樣推測分析了Sora的技術(shù)細(xì)節(jié),并討論了一系列相關(guān)工作。大致涉及以下幾個問題——

整體架構(gòu)

根據(jù)OpenAI發(fā)布的技術(shù)報告,Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型,同時采用了Transformer架構(gòu),即為一種“擴(kuò)散型Transformer”。

圖片

回顧現(xiàn)有工作并運(yùn)用逆向工程,研究人員推測補(bǔ)充了如下信息。

Sora整個框架可能由三部分組成:

  • 首先,時間-空間壓縮器將原始視頻映射到潛在空間;
  • 隨后,ViT處理這些被token化的潛在表示,并輸出去噪后的潛在表示;
  • 類似CLIP的條件機(jī)制接收由LLM增強(qiáng)的用戶指令和潛在的視覺提示,生成具有特定風(fēng)格主題的視頻。經(jīng)過多次去噪迭代,最終得到了生成視頻的潛在表示,隨后通過相應(yīng)的解碼器映射回像素空間。
圖片

△逆向工程:Sora框架概述

更細(xì)節(jié)一點(diǎn),逆向工程推測Sora利用了級聯(lián)擴(kuò)散模型架構(gòu),結(jié)合基礎(chǔ)模型和多個時空細(xì)化模型。

由于高分辨率下使用注意力機(jī)制的計算成本高且性能提升有限,基礎(chǔ)擴(kuò)散模型和低分辨率擴(kuò)散模型不太可能大量使用注意力模塊。

同時,考慮到視頻/場景生成中時間一致性比空間一致性更重要,Sora或采用長視頻(用于時間一致性)和低分辨率的高效訓(xùn)練策略來保證空間和時間上的一致性。

圖片

△Diffusion Transformer,DiT(左)、U-ViT(右)的整體架構(gòu)

另外,考慮到與預(yù)測原始潛在變量x或噪聲?的其他變體相比,v參數(shù)化擴(kuò)散模型的性能更優(yōu),Sora可能使用v參數(shù)化擴(kuò)散模型。

在潛在編碼器方面,大多數(shù)現(xiàn)有工作為提升訓(xùn)練效率,利用Stable Diffusion的預(yù)訓(xùn)練VAE編碼器作為初始化的模型checkpoint。

然而,編碼器缺乏時間壓縮能力。盡管一些工作提議只微調(diào)解碼器來處理時間信息,但解碼器在壓縮的潛在空間中處理視頻時間數(shù)據(jù)的性能仍然不是最優(yōu)的。

基于技術(shù)報告,研究人員推測Sora可能不是使用現(xiàn)有預(yù)訓(xùn)練VAE編碼器,而是使用從零開始在視頻數(shù)據(jù)上訓(xùn)練的時空VAE編碼器,該編碼器在針對視頻內(nèi)容優(yōu)化的壓縮潛在空間中的表現(xiàn)優(yōu)于現(xiàn)有編碼器。

多樣性視覺數(shù)據(jù)預(yù)處理

與傳統(tǒng)方法需要裁剪視頻大小或調(diào)整寬高比以適應(yīng)統(tǒng)一的標(biāo)準(zhǔn)尺寸不同,Sora能夠在原生尺寸的視頻和圖像上訓(xùn)練、理解并生成視頻。

也就是能處理多樣性視覺數(shù)據(jù),且對原始尺寸的樣本無損,這顯著提升了Sora的視頻構(gòu)圖與框架,使生成的視頻更自然連貫。

圖片

舉個例子,用傳統(tǒng)方法訓(xùn)練如左圖,由于正方形裁剪,視頻畫面主體被截斷,而右圖使用原始樣本訓(xùn)練,視頻主體完全被捕捉。

圖片

這部分的技術(shù)細(xì)節(jié),OpenAI在技術(shù)報告中雖然做了重點(diǎn)介紹,不過也僅是提出了一個高層次的想法:

為處理不同分辨率、寬高比、時長的圖像和視頻,Sora采用了統(tǒng)一的視覺表示。具體來說,模型先將視頻壓縮到低維潛在空間中,然后將表示分解為時空patch,從而實(shí)現(xiàn)了視頻的“patch化”。

圖片

而在綜述中,研究人員做了如下分析。

Sora的視頻壓縮網(wǎng)絡(luò)(視覺編碼器)目的是減少輸入數(shù)據(jù)(原始視頻)的維度,并輸出一個在時間和空間上都被壓縮的潛在表示。

根據(jù)Sora技術(shù)報告中的參考文獻(xiàn),壓縮網(wǎng)絡(luò)建立在VAE或VQ-VAE之上。如果按照技術(shù)報告中提到的不調(diào)整大小、不裁剪,VAE很難將視覺數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間。

不過,這里總結(jié)了兩種方法來解決這個問題。

一種方法是空間-patch壓縮(Spatial-patch Compression),類似于ViT和MAE中采用的方法,將視頻幀分割成固定大小的patch然后將它們編碼到潛在空間。

圖片

有幾個關(guān)鍵問題要注意:

  • 時間維度的可變性。因視頻時長不同、潛在空間維度不固定,需通過采樣固定幀數(shù)或設(shè)定超長輸入長度來整合時間信息。
  • 利用預(yù)訓(xùn)練視覺編碼器。大多數(shù)研究者傾向于使用預(yù)訓(xùn)練編碼器如Stable Diffusion的VAE,但Sora團(tuán)隊可能自行訓(xùn)練編碼器和解碼器,能高效處理大尺寸patch數(shù)據(jù)。
  • 時間信息的整合。由于這種方法主要關(guān)注空間patch壓縮,所以需要模型內(nèi)部的額外機(jī)制來聚合時間信息,這對于捕捉動態(tài)變化至關(guān)重要。

另一種方法是空間-時間-patch壓縮(Spatial-temporal-patch Compression),使用3D卷積提取時間信息。

圖片

這種方法同時封裝視頻數(shù)據(jù)的空間和時間維度,提供一種全面的視頻表示,考慮了幀之間的運(yùn)動和變化,從而捕捉視頻的動態(tài)特性。

與空間-patch壓縮相似,空間-時間-patch壓縮通過設(shè)置特定的卷積核參數(shù)處理視頻,由于視頻輸入的特征差異,導(dǎo)致潛在空間維度發(fā)生變化,在這里上文提到的空間-patch的方法同樣適用并有效。

在壓縮網(wǎng)絡(luò)這部分還有一個關(guān)鍵問題:如何處理不同視頻類型中潛在特征塊或patch的數(shù)量,然后再將patch輸入到Diffusion Transformer的輸入層?

研究人員認(rèn)為,基于Sora的技術(shù)報告和相應(yīng)參考文獻(xiàn),patch n’ pack(PNP)可能是解決方案。

圖片

PNP將來自不同圖像的多個patch打包到一個序列中,類似于NLP中的示例打包,通過丟棄token來適應(yīng)可變長度輸入的高效訓(xùn)練。

在打包過程中,需要考慮如何以緊湊的方式打包這些patch,以及如何控制哪些patch應(yīng)被丟棄。

對于第一個問題,研究人員提到了一種簡單的算法,即在有足夠剩余空間時添加示例,然后用token填充序列,以獲得批量操作所需的固定序列長度。

對于第二個問題,一種直觀的方法是丟棄相似的token,或者像PNP那樣應(yīng)用丟棄率調(diào)度器。

不過丟棄token可能會在訓(xùn)練過程中遺失一些細(xì)節(jié)。因此,研究人員認(rèn)為OpenAI可能會使用超長的上下文窗口打包視頻中的所有token。

長視頻的空間-時間潛在patch可以打包在一個序列中,而來自幾個短視頻的潛在patch則在另一個序列中連接。

總的來說,在數(shù)據(jù)預(yù)處理這部分,研究人員推測Sora首先將視覺patch壓縮成低維潛在表示,然后將這樣的潛在patch或進(jìn)一步patch化潛在patch排列成一個序列,接著在將這些潛在patch輸入到Diffusion Transformer的輸入層之前注入噪聲。

Sora采用空間-時間patch化,因為它易于實(shí)現(xiàn),并且可以有效減少具有高信息密度token的上下文長度,降低后續(xù)對時間信息建模的復(fù)雜性。

指令調(diào)優(yōu):視頻描述生成器

模型指令調(diào)優(yōu)旨在增強(qiáng)AI模型遵循提示的能力,使模型能適應(yīng)更廣泛的用戶請求,確保對指令中的細(xì)節(jié)給予細(xì)致的關(guān)注,并生成精確滿足用戶需求的視頻。

Sora在這方面采用了一種與DALL·E 3類似的方法。

首先訓(xùn)練一個能夠詳細(xì)描述視頻的視頻描述生成器(Video captioner)。然后,將其應(yīng)用于訓(xùn)練數(shù)據(jù)中的所有視頻,來生成高質(zhì)量的視頻-文本對,用這些視頻-文本對微調(diào)Sora,提高其遵循指令的能力。

Sora的技術(shù)報告沒有透露訓(xùn)練視頻摘要生成器的細(xì)節(jié)。鑒于視頻摘要生成器是一個視頻-文本的模型,構(gòu)建它有多種方法。

方法之一是利用CoCa架構(gòu)進(jìn)行視頻摘要生成,通過獲取視頻的多個幀并將每個幀輸入到圖像編碼器VideoCoCa。

VideoCoCa基于CoCa并重用預(yù)訓(xùn)練的圖像編碼器權(quán)重,獨(dú)立地應(yīng)用于采樣的視頻幀。得到的幀token嵌入被展平并連接成一個長視頻表示序列。這些展平的幀token隨后被一個生成性池化器和一個對比性池化器處理,這兩者與對比損失和摘要生成損失一起聯(lián)合訓(xùn)練。

構(gòu)建視頻描述生成器的其他選擇包括mPLUG-2、GIT、FrozenBiLM等。

最后,為確保用戶提示與訓(xùn)練數(shù)據(jù)中的描述性摘要格式對齊,Sora執(zhí)行了一個額外的提示擴(kuò)展步驟,其中用GPT-4V將用戶輸入擴(kuò)展為詳細(xì)的描述性提示。

視頻提示工程

提示工程是為了讓用戶引導(dǎo)AI模型生成與其意圖一致的內(nèi)容。

以前關(guān)于提示工程的研究主要集中在LLM和文本生成圖像的提示上,研究人員推測對視頻生成模型的視頻提示將會越來越受到關(guān)注。

提示工程的效果依賴于精準(zhǔn)選擇用詞、明確細(xì)節(jié),以及對這些細(xì)節(jié)如何影響模型輸出的深刻理解。比如下圖示例中,提示詞詳細(xì)描述了動作、環(huán)境、角色造型,甚至是期望的情緒和場景氛圍。

圖片

Sora還能夠同時利用視覺和文本信息,將靜態(tài)圖像轉(zhuǎn)換為動態(tài)的、敘事驅(qū)動的視頻。

圖片

除此外,Sora還能夠向前或向后擴(kuò)展視頻,通過提示可以指定擴(kuò)展的方向、主題等。

圖片

在下圖(a)中,視頻提示指導(dǎo)Sora倒退擴(kuò)展視頻。下圖(b)中,切換視頻場景時,模型需要通過prompt清楚理解所需視頻風(fēng)格、氛圍、光線明暗變化等細(xì)節(jié)。圖(c)中,指導(dǎo)Sora連接視頻,在不同場景中對象間順暢過渡,也需要在提示工程上下功夫。

圖片

Sora具有里程碑式意義

在圈內(nèi)外炸開鍋、被稱為是視頻生成GPT-3、GPT-2時刻,Sora為何被認(rèn)為具有里程碑式意義?

透過計算機(jī)視覺(CV)領(lǐng)域的AI生成模型發(fā)展史來看,Sora的突破性或許就更加明了了。

圖片

過去十年,生成式CV模型的發(fā)展變換了多種路線。

  • 深度學(xué)習(xí)革命前,傳統(tǒng)圖像生成依賴于基于手工制作特征的紋理合成和紋理映射等方法。
  • 而后生成對抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE)、流模型( flow model)和擴(kuò)散模型(diffusion model)相繼出現(xiàn)。
  • Transformer架構(gòu)出現(xiàn)格局發(fā)生巨變,先在NLP領(lǐng)域成功應(yīng)用,而后在CV領(lǐng)域與視覺組件結(jié)合,催生了ViT、Swin Transformer等。
  • 與此同時,擴(kuò)散模型在圖像和視頻生成領(lǐng)域也取得了顯著進(jìn)展。
  • 2021年以來,AI多模態(tài)迎來變革。CLIP、Stable Diffusion接連爆火。

重要的一點(diǎn)是,大語言模型領(lǐng)域開始逐漸展示出規(guī)?;?,ChatGPT、GPT-4等展示出了一定的涌現(xiàn)能力。

不過視覺模型是否同樣符合規(guī)?;蛇€不是很清晰。

而Sora作為一個大型視覺模型(LVM),它的問世與規(guī)模原則保持了一致,揭示了在文本-視頻生成中的幾種涌現(xiàn)能力。這一進(jìn)展凸顯了LVM實(shí)現(xiàn)類似LLM那樣的進(jìn)步的潛力。

根據(jù)Sora的技術(shù)報告,它是第一個確認(rèn)展示出涌現(xiàn)能力的視覺模型,標(biāo)志著計算機(jī)視覺領(lǐng)域的一個重要里程碑。

除了其涌現(xiàn)能力,正如上面提到的,Sora在遵循指令、視覺提示工程以及視頻理解等方面的能力亦有重大進(jìn)步。

比如,Sora能生成具有多個角色、包含特定運(yùn)動的復(fù)雜場景,不僅能理解用戶在提示中提出的要求,似乎還能理解簡單物體在物理世界中的存在方式。它還可以在單個視頻中創(chuàng)建多個鏡頭,并依靠對語言的深入理解準(zhǔn)確地解釋提示詞,保留角色和視覺風(fēng)格……

Sora的五大應(yīng)用前景及局限性

研究人員總結(jié)Sora具有五大亮點(diǎn):提高模擬能力、促進(jìn)創(chuàng)造力、推動教育創(chuàng)新、增強(qiáng)無障礙性、促進(jìn)新興應(yīng)用。

最后還總結(jié)了Sora的五大應(yīng)用場景:

1、電影制作:Sora的應(yīng)用在電影制作領(lǐng)域具有革命性意義,它能夠?qū)⑽谋灸_本轉(zhuǎn)化為電影風(fēng)格的視頻,降低了電影制作的門檻,使得個人創(chuàng)作者也能夠制作電影內(nèi)容。

2、教育:在教育領(lǐng)域,Sora能夠?qū)⒔虒W(xué)大綱或文本描述轉(zhuǎn)化為動態(tài)視頻內(nèi)容,提高學(xué)生參與度和理解能力,為定制和激活教育材料提供了前所未有的機(jī)會。

3、游戲:傳統(tǒng)游戲開發(fā)常常受限于預(yù)渲染環(huán)境和腳本事件。擴(kuò)散模型能夠?qū)崟r生成動態(tài)、高保真度的視頻內(nèi)容和真實(shí)的聲音,有望克服現(xiàn)有限制,為開發(fā)者提供創(chuàng)造有機(jī)響應(yīng)玩家行動和游戲事件的演變游戲環(huán)境的工具。

4、醫(yī)療保健:在醫(yī)療領(lǐng)域,它特別適合于識別身體內(nèi)的動態(tài)異常,如早期細(xì)胞凋亡、皮膚病變進(jìn)展和不規(guī)則的人體運(yùn)動,對于早期疾病檢測和干預(yù)策略至關(guān)重要。

5、機(jī)器人:在機(jī)器人技術(shù)中,Sora可以增強(qiáng)機(jī)器人的視覺感知和決策能力。使它們能夠與環(huán)境交互,并以前所未有的復(fù)雜性和精度執(zhí)行任務(wù)。

不過,盡管Sora在AI視頻生成領(lǐng)域取得了顯著進(jìn)步,但仍面臨一些挑戰(zhàn)。

解決生成內(nèi)容中的偏見問題和防止產(chǎn)生有害視覺內(nèi)容,確保Sora輸出的持續(xù)安全和無偏見是一項主要挑戰(zhàn)。

此外,局限性還包括以下幾點(diǎn):

  • 物理真實(shí)性的挑戰(zhàn):Sora在處理復(fù)雜場景的物理規(guī)律時存在不一致性,例如,吃餅干不一定留下咬痕。
  • 空間和時間的復(fù)雜性:Sora有時難以準(zhǔn)確理解空間布局和時間順序的指令,導(dǎo)致物體和角色的位置或安排出現(xiàn)混淆。
  • 人機(jī)交互的限制:用戶很難對生成內(nèi)容進(jìn)行詳細(xì)修改或優(yōu)化。
  • 使用限制:OpenAI尚未將Sora對公眾開放,在安全性、隱私保護(hù)和內(nèi)容審查等方面,Sora可能仍需進(jìn)一步的改進(jìn)和測試。且目前Sora只能生成長達(dá)一分鐘的視頻,限制了其在需要展示更長內(nèi)容的應(yīng)用場景中的使用。

更多細(xì)節(jié),感興趣的家人們可以查閱原論文。

One More Thing

這篇綜述發(fā)布后引起了不少網(wǎng)友關(guān)注,有網(wǎng)友表示值得全文閱讀,但也有網(wǎng)友吐槽標(biāo)題“Sora:”的設(shè)置極易引起誤會。

圖片

對此,疑似論文作者在小紅書做出回應(yīng):

圖片

論文鏈接:https://arxiv.org/abs/2402.17177
參考鏈接:https://twitter.com/_akhaliq/status/1762678991549354121

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-03-01 12:17:00

AI數(shù)據(jù)微軟

2020-04-03 09:05:43

麻將 AI Suphx神經(jīng)網(wǎng)絡(luò)

2021-06-11 21:46:31

RocketMQ數(shù)據(jù)JSON

2015-04-13 10:12:08

Windows容器技術(shù)Nano Server

2024-10-05 10:57:21

2024-02-29 15:39:00

AI研究算力

2009-11-23 09:50:54

HTML5IE9

2023-11-10 12:53:35

論文AI

2014-05-29 09:34:25

2024-04-25 17:07:33

無源光網(wǎng)絡(luò)PON接入網(wǎng)技術(shù)

2019-05-06 10:51:49

總監(jiān)技術(shù)場景

2019-05-13 08:51:53

總監(jiān)技術(shù)CTO

2010-03-31 22:20:51

2013-06-26 09:42:25

技術(shù)服務(wù)器內(nèi)存虛擬化

2017-11-10 08:35:06

存儲FCoE網(wǎng)絡(luò)

2023-08-04 09:30:51

2023-05-08 07:20:22

Doris分析型數(shù)據(jù)庫

2024-03-18 15:01:58

SoraAI人工智能

2021-03-16 15:49:30

架構(gòu)運(yùn)維技術(shù)

2018-04-20 14:37:43

互聯(lián)網(wǎng)技術(shù)細(xì)節(jié)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號