擴(kuò)散模型與文生視頻
一、快速發(fā)展的文生視頻
在當(dāng)前的人工智能領(lǐng)域,文生視頻技術(shù)有著引人注目的進(jìn)展。該技術(shù)的核心任務(wù)非常明確,就是利用文本指令來控制視頻內(nèi)容的生成。具體而言,用戶可以輸入特定文本,系統(tǒng)則根據(jù)這段文本生成相應(yīng)的視覺畫面。這一過程并不局限于單一的輸出,相同的文本可能會引導(dǎo)生成多種不同的視覺場景,顯示出該技術(shù)的靈活性和多樣性。
基于擴(kuò)散模型模式的視頻生成技術(shù),是從 2022 年上半年才開始出現(xiàn)的。在兩年的時間里,這一技術(shù)取得了顯著的進(jìn)步。由上圖中可以看到,從 Google 在2022 年 4 月發(fā)布的文章所展示的效果,到騰訊在 2023 年 12 月發(fā)布的 hunyuan 的效果,無論在畫質(zhì)、光影的重建,還是整個畫面的連續(xù)性上,都實現(xiàn)了顯著的提升。
在過去兩年間,這一領(lǐng)域吸引了眾多參與者,包括各大公司和研究機構(gòu),比如上海人工智能研究院,以及一些高校。在這個賽道中,誕生了許多引人注目的成果。從最初的 VDM 模型,到我們常聽到的老玩家 Runway Gen1 和 Gen2 的工作,以及去年備受關(guān)注的 PikaLab。PikaLab 由兩位華人女性科學(xué)家創(chuàng)立,它的上市甚至引發(fā)了中國 A 股市場上某些股票的劇烈波動。此外,還有騰訊之前的 VideoCrafter 系列,以及阿里的 ModelScope 系列等。
當(dāng)然,最讓人印象深刻的是在今年 2 月 15 日,OpenAI 發(fā)布了頗具影響力的 Sora 模型。這款 Sora 模型的出現(xiàn),使得其它模型相比之下顯得普通了許多。我們當(dāng)時還在糾結(jié)于生成 4 秒到 8 秒的視頻,而 Sora 模型直接將視頻生成的時長擴(kuò)展到了 1 分鐘。這一突破顯著提升了視頻生成技術(shù)的能力。
在視頻生成領(lǐng)域,我們主要依賴于 diffusion model。為什么這種模型能夠相對于之前的 GAN 生成或者 VAE 生成技術(shù)實現(xiàn)顯著的效果提升呢?關(guān)鍵的區(qū)別在于,以往的模型通常采用單步生成或稱為 decoder 的方法,直接從隱空間一步生成最終的數(shù)據(jù) x。這種單步從隱空間映射到數(shù)據(jù)空間的生成過程,建模非常復(fù)雜,過去的模型往往難以實現(xiàn)有效的建模。
然而,diffusion model 的獨特之處在于它采用多步驟過程。為什么稱之為“diffusion”呢?“擴(kuò)散”的概念類似于一滴墨水滴入水杯中,墨水緩緩擴(kuò)散開來,最終均勻分布,使我們難以區(qū)分它與其他水的不同。這種自然界中廣泛存在的擴(kuò)散過程被用來模擬數(shù)據(jù)生成:假設(shè)一個人臉圖像或任何信號,通過 n 步加噪聲的迭代,最終變?yōu)榧冊肼?。這就是 diffusion 的過程,它極大地增強了模型處理復(fù)雜數(shù)據(jù)的能力。
與 diffusion 相對應(yīng)的,在 diffusion model 中核心學(xué)習(xí)的任務(wù)是 denoising,通過逐步去除噪聲最終生成我們所需的圖像信號。從無序的噪聲中重建有序的信號,這個過程被稱為 denoising。
具體來說,diffusion model 主要包括兩個過程:一個是加噪過程,稱為 diffusion;另一個是降噪過程,稱為 denoising。在加噪的過程中,通過每一步的計算添加高斯噪聲,從而實現(xiàn)加噪。相比之下,denoising 過程更為復(fù)雜,也就是模型訓(xùn)練去擬合的過程,旨在使模型學(xué)會在每一個單步上,即從 t 步到 t-1 中的噪聲預(yù)測。
因此,在每一步的噪聲預(yù)測中,生成的模型會生成高斯噪聲,并將整個預(yù)測的域限定在高斯分布上,這樣可以使整個 diffusion model 更有效地學(xué)習(xí)這個過程。相對于以前的 VAE 的 encoder-decoder 架構(gòu),或者是基于 GAN 的通過discriminator 去修正 generator 生成的模式,diffusion model 能夠?qū)崿F(xiàn)更優(yōu)的生成效果。
Diffusion 模型最初主要應(yīng)用于圖像生成,原因在于圖像數(shù)據(jù)更容易收集,而且相對于視頻,圖像生成所需注入的信息量較少。在眾多突出的研究中,stable diffusion 是最著名的一項工作。這個框架的設(shè)計主要基于三個模塊:encoder和 decoder 模塊、unet 模塊以及 condition 模塊。使用 encoder 和 decoder 模塊的原因在于,這種設(shè)計復(fù)用了之前 VAE 模型的架構(gòu)。這樣做的好處是能夠?qū)⒄鎸崍D像映射到隱空間,實現(xiàn)圖像的下采樣和數(shù)據(jù)壓縮,從而在后續(xù)過程中減少所需的計算量。此外,在隱空間中,像 VAE 模型那樣對 z 的約束形成高斯分布,使得 latent space 的分布較為標(biāo)準(zhǔn)。這種設(shè)置使得在隱空間中進(jìn)行 denoising 學(xué)習(xí)變得相對容易。這就是第一個主要模塊,即 VAE 模塊。
第二個介紹的是 condition 模塊,它在生成過程中起著至關(guān)重要的作用。例如,在文生視頻的應(yīng)用中,我們通常提到的是從文本到視頻的轉(zhuǎn)換,這里的 condition 即為文本,也就是對畫面的描述性文本提示(prompt)。除此之外,condition 模塊還可以包含其他多種形式的條件輸入,如圖像本身、代表特定特征的向量,以及如語義分割圖這類的圖像等。這些條件的引入,允許模型根據(jù)不同的輸入信息產(chǎn)生定制化的輸出,從而增強生成內(nèi)容的相關(guān)性和準(zhǔn)確性。
中間核心部分是 unet 模塊,這是實際進(jìn)行 denoising 預(yù)測的模塊。上圖中展示的流程是從第 t 步到第 t-1 步的過程。整個生成流程是通過迭代 T 步迭代到第 0 步,但每個模塊的構(gòu)成是一致的。在 unet 模塊中,通過 down sampling 和 up sampling 恢復(fù)到與輸入相同的尺寸,核心包含一個 convolutional layer,其后加入了 transformer layer,通過 attention 機制將 condition 的 embedding 注入進(jìn)來。例如,文本通過一個 text encoder 轉(zhuǎn)換成text embedding,然后以 KV 形式與 latent space 進(jìn)行 cross attention 計算,以實現(xiàn)條件的注入。
經(jīng)過這樣的模型設(shè)計,就可以預(yù)測出一步的 epsilon(噪聲),下一個 ZT-1 就是 ZT 減去預(yù)測出的噪聲?;谶@樣的邏輯,通過 t 步的迭代 denoising 最終會生成一個與目標(biāo) x 相關(guān)的 z,通過 decoder 就可以還原出最終的圖像。
這就是 text to image 的框架。與圖像相比,視頻數(shù)據(jù)更難收集,視頻中的時間信息和動態(tài)信息建模難度更大,數(shù)據(jù)標(biāo)注的成本也非常高。因此,現(xiàn)在基于text video 的模型多是在 text image 模型基礎(chǔ)上,進(jìn)行時空建模的設(shè)計來實現(xiàn)視頻生成。即在原有的 spatial layer 上加入 motion layer,通過這種結(jié)合實現(xiàn)生成視頻的模型。其中兩個較為著名的方法包括 AnimateDiff,由上海人工智能實驗室提出,在時間軸上使用 self-attention,以及 ModelScope 系列,使用基于 3D convolution layer 的 temporal 建模。
這種框架實際上保留了模型由文本生成靜態(tài)圖像的能力,并且通過引入 motion layer,實現(xiàn)了在時間軸上的平滑過渡。這相當(dāng)于在每一幀圖片生成的基礎(chǔ)上,通過將這些幀相互連接生成一個連續(xù)動態(tài)的視頻。這種方法可以有效地將單幀的靜態(tài)圖像轉(zhuǎn)變?yōu)檎宫F(xiàn)動態(tài)序列的視頻,使得生成的內(nèi)容不僅限于靜態(tài)畫面,而是展現(xiàn)出時間維度上的連貫動態(tài)。
二、視頻生成的主要難點
下面介紹開發(fā)過程中的主要難點,以及我們?yōu)閮?yōu)化模型生成圖像的效率和最終性能所設(shè)計的解決方案。
1. 難點 1:動作建模合理
我們發(fā)現(xiàn)在一些模型中會出現(xiàn)問題,例如在模擬鼓掌動作的圖像中,手部可能會融合在一起,或者大臂與小臂的比例和運動不符合機械原理,導(dǎo)致動作看起來不自然。此外,由于每一幀的時空建模是獨立進(jìn)行的,若沒有通過 motion layer 有效地串聯(lián)這些幀,就可能出現(xiàn)動作不連貫的現(xiàn)象。例如,一幀中狗可能朝左,而下一幀突然朝右,造成觀感上的劇烈變化。這些問題都需要在模型的動作建模方面進(jìn)行優(yōu)化,以確保生成的視頻動作連貫且自然。
2. 難點 2:語義對齊準(zhǔn)確
當(dāng)我們的 condition 僅有文字時,在實際工業(yè)應(yīng)用中,需要模型對這些文字描述有更好的響應(yīng)能力。例如,控制生成的數(shù)量,比如是四只還是五只,以及對特定局部區(qū)域的空間控制。用戶可能希望生成的背景是黃色或白色,或者想要白色的潛艇、白色的狗等特定對象。因此,對語義的準(zhǔn)確理解和響應(yīng)在整個生成框架中是影響生成效果的一個關(guān)鍵點,對提高模型的實用性和用戶滿意度至關(guān)重要。
3. 難點 3:畫質(zhì)細(xì)節(jié)精美
第三個難點是對畫質(zhì)的進(jìn)一步雕琢??紤]到當(dāng)前互聯(lián)網(wǎng)統(tǒng)計數(shù)據(jù)顯示,大約七八十甚至九十以上的網(wǎng)絡(luò)流量來自視頻,因此用戶對視頻的畫質(zhì)、分辨率以及幀率有著更高的期望。在生成模型中,我們面臨的挑戰(zhàn)是如何在生成速度和畫質(zhì)之間找到平衡。因此,我們必須對模型進(jìn)行優(yōu)化,以確保在滿足實時生成的同時,也能夠提供高質(zhì)量的視頻輸出。
針對這些難點,我們設(shè)計了一些解決方案。
4. 方案 1:運動質(zhì)量提升
為了提升運動質(zhì)量,我們設(shè)計了一個整體的模型框架,在 text condition 的基礎(chǔ)上,注入 image condition。這種 image condition 為模型提供了一個生成時的基準(zhǔn),可以理解為一個錨點(anchor)。通常這個錨點是視頻的第一幀,基于這一幀,模型會在后續(xù)幀的生成中保持人物和背景的基本分布,以及大致的運動空間。這樣的設(shè)計使得訓(xùn)練過程中視頻的生成結(jié)構(gòu)更穩(wěn)定,運動更加合理。這樣相當(dāng)于降低了模型在訓(xùn)練時對整個視頻畫面的理解難度,從而優(yōu)化了生成過程的效率和質(zhì)量。這種方法不僅提升了視頻的視覺連貫性,還確保了生成內(nèi)容的動態(tài)自然性和逼真度。
為了訓(xùn)練這種模型,我們在數(shù)據(jù)集的增廣方面進(jìn)行了一些探索。圖片數(shù)據(jù)遠(yuǎn)多于視頻數(shù)據(jù),一般來說,訓(xùn)練一個圖像模型可能會使用到 10 億條數(shù)據(jù),而視頻數(shù)據(jù)可能只有千萬到億級別。
為了彌補這種差距,第一,我們通過對圖片進(jìn)行增廣處理,比如縮放、左移、右移、上移、下移等操作,使圖片模擬簡單的運動視頻,從而擴(kuò)大訓(xùn)練集。第二,我們在多分辨率的環(huán)境下設(shè)計了一種訓(xùn)練框架,可以同時處理不同幀率、幀數(shù)和視頻分辨率的數(shù)據(jù),這樣可以實現(xiàn)更豐富的數(shù)據(jù)樣態(tài),提高模型的效果。第三,我們在圖像和文本的控制(condition)上進(jìn)行了有條件的融合,通過數(shù)據(jù)學(xué)習(xí)擬合條件的權(quán)重和參數(shù)。另外,還借鑒了南洋理工大學(xué) ziwei liu 教授的研究,采用多輪生成的方法構(gòu)建模型,利用上一輪生成的低頻信號信息指導(dǎo)下一輪的生成。我們可以將低頻信號理解為在運動中相對保持固定的一些特征,例如一個人跑步時背景相對固定,而跑步動作則是有節(jié)奏的規(guī)律運動?;谶@樣的低頻信號指導(dǎo),最終生成的視頻信號將更加穩(wěn)定。
5. 方案 2:語義對齊準(zhǔn)確
關(guān)于語義對齊,我們發(fā)現(xiàn)開源的數(shù)據(jù)集通常比較簡單,對畫面的描述僅是一個籠統(tǒng)的概念,例如“女孩在家中學(xué)習(xí)”。然而,在生成模型的預(yù)訓(xùn)練中,我們需要精確地對齊畫面中的各種元素。例如,不僅要描述“女孩在家中學(xué)習(xí)”,還要包括更具體的場景和元素,如“她在廚房里用 iPad 學(xué)習(xí),穿著牛仔襯衫,她是一位黑人女孩”。
為了提高對這種復(fù)雜場景的理解,我們嘗試使用過去的視頻理解專家模型和現(xiàn)在較多使用的視頻基礎(chǔ)模型(video foundation model),來實現(xiàn)對視頻的多維度描述生成。最后,再通過大型語言模型進(jìn)行融合。在這個大模型的時代,研究方向的一個新范式是需要團(tuán)隊合作。因此,我們使用騰訊內(nèi)部的多模態(tài)包括語言文本模型的資源進(jìn)行組合,最終生成了一個對畫面更優(yōu)質(zhì)的理解。通過這種深入的理解,就能夠訓(xùn)練出更好的生成模型。這也是對“更好的理解帶來更好的生成”這一理念的實踐。未來,我們可能還會探索基于知識圖譜的畫面描述,以通過知識圖譜的結(jié)構(gòu)更好地生成最終的視頻效果。
在模型中對文本的理解至關(guān)重要。我們之前通常使用的開源模型是 CLIP 的 text encoder。CLIP 主要學(xué)習(xí)文本與圖像數(shù)據(jù)之間的關(guān)聯(lián),它本質(zhì)上是一個二分類模型。這樣的關(guān)聯(lián)可能導(dǎo)致對細(xì)節(jié)和不同區(qū)域下的表征不充分。因此會出現(xiàn)一些問題,例如,當(dāng)我們輸入描述為“四只貓”的時候,結(jié)果可能只顯示三只貓的情況,或者在需要生成鏡頭運動的場景時,模型表現(xiàn)不佳。
因此,我們發(fā)現(xiàn)對于文本的響應(yīng),CLIP 的 text encoder 是不夠的。一個直觀的方法是替換掉對文本的 encoder 模型。我們嘗試使用 T5 模型進(jìn)行簡單的 projection,并在 unet 上訓(xùn)練。但由于 unet 本身基于 CLIP 訓(xùn)練得非常充分,整個分布依賴于 CLIP 的 text encoder,直接加入 T5 可能反而會對整個系統(tǒng)產(chǎn)生一定的影響。
最近,騰訊進(jìn)行了一個嘗試,使用類似多模態(tài)模型中的 q-former 形式,通過cross attention 的方式將 T5 的 text embedding 注入到網(wǎng)絡(luò)中。我們最終注入網(wǎng)絡(luò)的長度是固定的。這樣可以有效地將 T5 或其他大型語言模型如 LLAMA 的 embedding 提取出來,與 unet 中的 Query 進(jìn)行匹配并注入。通過這種形式,可以對具體細(xì)節(jié)的文本描述響應(yīng)更加充分,從而提高模型對文本的理解和生成的質(zhì)量。
6. 方案 3:畫質(zhì)提升
在畫質(zhì)提升方面,看起來類似于傳統(tǒng)的畫質(zhì)提升任務(wù),但在生成模型中的應(yīng)用實際上有所不同。在生成模型中的畫質(zhì)提升,包括超分辨率(super resolution)或超幀率(frame interpolation)提升,不僅僅是對原視頻的簡單修正,更多地是具有修復(fù)功能,需要模型具備重新生成的能力。在生成模型的第一階段,視頻的生成可能主要集中在畫面的布局,決定視頻主體的位置和大致的動作形式。而在第二階段,則需要對一些具體的區(qū)域進(jìn)行修復(fù)和生成。
我們借鑒了基于圖片 condition 的模型,設(shè)計了基于視頻的 condition 模型。通過類似于 control net 的方式將條件注入到原先的 unet 中。這樣,基于第一階段生成的視頻,進(jìn)行有條件的、可控的生成,最終實現(xiàn)二階段的超分辨率后的視頻模型。通過這種方法,我們不僅簡單地提高了分辨率,而且通過有目的的修復(fù)和精細(xì)化生成,提升了整個視頻的視覺質(zhì)量,使得最終輸出的視頻更加清晰且細(xì)節(jié)更加豐富。
在基于人臉的生成中,用戶對人臉的瑕疵更加敏感,特別是當(dāng)人臉在畫面中占比較小時,很容易出現(xiàn)生成效果的崩壞。我們分析原因,可能是由于 VAE 的 encoder 在較小區(qū)域進(jìn)行了 8 倍的下采樣,導(dǎo)致響應(yīng)極小。這種情況下,decoder 在處理特別是人臉這種復(fù)雜 pattern 的小區(qū)域時,其內(nèi)容表達(dá)和恢復(fù)能力不足。
為了優(yōu)化這一問題,我們發(fā)現(xiàn)在生成后對人臉區(qū)域單獨進(jìn)行放大和重繪可以顯著優(yōu)化人臉的生成效果,然后通過高斯模糊的方式將其無縫融合回原圖,即可實現(xiàn)人臉的有效修復(fù)。
此外,關(guān)于提升分辨率和處理長視頻,我們也借鑒了學(xué)術(shù)界的一些方法,通過對噪聲的控制實現(xiàn)快速的多階段生成,同時確保生成內(nèi)容之間的連續(xù)性。上圖中展示了超分前后的畫質(zhì)對比以及人臉的修復(fù)效果。在騰訊內(nèi)部進(jìn)行的人工主觀評測中,這種人臉修復(fù)方法可以解決 90% 以上的人臉問題,顯著提高了人臉生成的質(zhì)量和實用性。
這里展示的是截至 2023 年年底的一些效果。上半部分是基于文生視頻的示例,由文字描述控制視頻內(nèi)容的生成。下半部分是基于單張圖片控制的“圖生視頻”,不再需要文本控制,可以直接從一張靜態(tài)圖片生成動態(tài)的視頻。
三、視頻生成的應(yīng)用實踐
接下來將分享我們在工業(yè)界應(yīng)用方面的一些實踐。
1. 視頻風(fēng)格化轉(zhuǎn)換
視頻風(fēng)格化是將真實視頻或動畫視頻轉(zhuǎn)化成其他風(fēng)格視頻的過程。這里展示的示例包括將真實視頻轉(zhuǎn)化成日本動漫風(fēng)格,以及將真實視頻轉(zhuǎn)化成 3D 動畫風(fēng)格。這種轉(zhuǎn)化不僅可以應(yīng)用于模特拍攝的視頻生成對應(yīng)的動畫畫面,還可以用于風(fēng)景視頻的風(fēng)格遷移。例如,我們曾與人民日報合作制作了一系列名為“江山如此多嬌”的短片,其中包括對風(fēng)景進(jìn)行風(fēng)格化處理,效果非常引人注目,大家可以在微信視頻號中搜索觀看。
具體的實現(xiàn)方法包括將視頻作為 condition 輸入,這里的 condition 不僅包括常規(guī)的 RGB 信號,還包括 Canny 邊緣檢測信號、深度信息和人物骨架控制等信號序列。這些信號通過 ControlNet 的形式注入到 unet 中,從而生成相應(yīng)的風(fēng)格化視頻。之所以能夠生成特定風(fēng)格的視頻,是因為我們對 unet 進(jìn)行了針對該獨立風(fēng)格的微調(diào),使其成為一個只能生成動漫風(fēng)格視頻的網(wǎng)絡(luò)。因此,基于原始視頻的控制信號,加上專門生成動漫風(fēng)格的模型,我們可以生成與原視頻內(nèi)容對齊的動漫風(fēng)格視頻。這種技術(shù)不僅提升了視頻的視覺效果,也增加了內(nèi)容的多樣性和趣味性。
2. 人體姿態(tài)控制
這里的輸入是單獨的人物圖片,可以是真人也可以是動漫形象。接著,我們將使用人體動作骨架的控制序列,包括人的手、腿、頭部等關(guān)鍵點的骨架圖。有了這些骨架圖之后,我們設(shè)計了一個 condition 融合模塊,將之前提到的 noise 與 condition 融合后,注入到 unet 網(wǎng)絡(luò)中。這樣就可以生成動態(tài)的人物圖像,讓參考圖像中的人物動起來。
這項技術(shù)的應(yīng)用非常廣泛,一方面可以用于創(chuàng)造有趣的互動體驗,例如讓圖中的人物跳舞;另一方面,它也可以用于從單一動漫圖像直接生成動作視頻,極大提高了動漫制作和短視頻制作的效率。盡管這個模型未在動物數(shù)據(jù)上進(jìn)行訓(xùn)練,但它展示了一定的泛化能力,甚至能使圖中的小貓?zhí)瑁鎏砹艘环萑の缎浴?/span>
3. 視頻運動筆刷
視頻運動筆刷可以讓視頻中的局部區(qū)域動起來,這對于工業(yè)應(yīng)用中提高效率非常有用。具體操作是,通過用戶的控制讓畫面中某個局部區(qū)域進(jìn)行動態(tài)表現(xiàn),控制方式包括選擇特定區(qū)域以及輸入相關(guān)文本。例如,用戶可以點擊圖中某個區(qū)域,如讓畫中的女神開始哭泣,或讓皮卡丘顯得更加開心而笑起來。
在技術(shù)實現(xiàn)上,我們在輸入的 condition 中加入了一些特定功能來實現(xiàn)這樣的效果。首先,用戶的點擊會觸發(fā)對該區(qū)塊的實例分割,產(chǎn)生一個 mask。這個 mask 隨后會被用于 cross attention 過程中,與輸出即 denoise 的輸入一起工作。在 attention 過程中,加入的 mask 將增強被選區(qū)域的動態(tài)效果,同時抑制 mask 之外的區(qū)域動作,從而使得指定區(qū)域的運動更加豐富和明顯。這種技術(shù)不僅增加了視頻內(nèi)容的互動性和動態(tài)表現(xiàn),還提高了制作過程的靈活性和效率。
四、一些不太長遠(yuǎn)的展望
Sora 的出現(xiàn)無疑極大地推動了文生視頻技術(shù)的推廣,引起了廣泛關(guān)注。當(dāng)行業(yè)內(nèi)還在討論如何處理 4 秒或 8 秒的視頻時,Sora 已經(jīng)能夠生成長達(dá) 1 分鐘的視頻,這無疑震驚到了整個行業(yè)的從業(yè)人員。Sora 的出現(xiàn)將視頻生成技術(shù)分成了兩個陣營:“Sora”與“其他”。這種劃分突顯了 Sora 與現(xiàn)有技術(shù)之間的根本區(qū)別。
首先要講的一個區(qū)別是關(guān)于 scaling up 的概念,OpenAI 非常推崇這一策略,他們堅信通過增大數(shù)據(jù)量和模型規(guī)??梢越鉀Q各種問題。同時,他們設(shè)計的 Sara 模型也是為了模擬物理世界,所有動機和設(shè)計都基于 scaling up 的理念。為了實現(xiàn)模型規(guī)模的擴(kuò)大,他們將unet 中的 CNN 替換為了 Transformer,因為相比于 CNN,Transformer 更易于進(jìn)行模型的并行優(yōu)化。此外,他們還利用了之前大型語言模型(LLM)的工程技術(shù)。
關(guān)于如何做出更長的視頻,他們首先在 encoder 的 VAE 階段對視頻進(jìn)行了壓縮。這種壓縮不僅僅發(fā)生在單幀的分辨率空間,還包括在時間軸上的大幅壓縮。這樣做使得在一個較小的 latent 空間中進(jìn)行 denoise 成為可能,同時也能通過這個 denoise 過程或 latent 生成相對較長的視頻。
這里有三個例子展示了 Sora 模型的效果,這些例子來自 Sora 的官方網(wǎng)站。第一個例子是基于 0-scale 的模型效果,第二個是 8 倍 scale 的效果,最后一個是 32 倍 scale 的效果??梢悦黠@看到,隨著模型規(guī)模的增加,生成的視頻效果有了顯著提升。
同時,我也推薦大家關(guān)注中國的兩個開源 Sora 項目。一個是潞晨科技的項目,另一個是北京大學(xué)袁粒老師領(lǐng)導(dǎo)的團(tuán)隊開發(fā)的 Open Sora Plan。這些團(tuán)隊對開源社區(qū)的貢獻(xiàn)值得敬佩,他們投入了大量精力。
騰訊也在積極進(jìn)行類似的工作,我們正在探索基于 Transformer 架構(gòu)的技術(shù)。希望在不久的將來,我們能夠展示更好的效果,并預(yù)計會有一個重要的版本更新。歡迎大家積極體驗這一新技術(shù)。
五、問答環(huán)節(jié)
Q1:文生圖或視頻過程中的語義保真如何理解?如何衡量生成的質(zhì)量?
A1:這是一個很好的問題。首先,我們可以從兩個方面來衡量:主觀的和客觀的。從客觀角度來說,我們會使用一些模型來評估,比如對于語義保真度,我們常用 CLIP 的相關(guān)性作為一個重要的衡量標(biāo)準(zhǔn)。另外,我們騰訊的某些系列產(chǎn)品也通過語義相關(guān)性、運動感、畫質(zhì)、清晰度以及內(nèi)容的豐富度等方面,使用專家模型來評估生成內(nèi)容的綜合效果。
從主觀角度來看,我們通過人來評估。我們內(nèi)部有一個專門的評測團(tuán)隊,超過 1000 人,他們通過對比兩個模型的輸出來評估效果優(yōu)劣。評估形式通常是進(jìn)行模型對比,例如將混元和 Pika 的結(jié)果相比較,評估團(tuán)隊會判斷哪一個更好,或者兩者是否相當(dāng)。評估人員都經(jīng)過專業(yè)訓(xùn)練,在多個維度上進(jìn)行評估,并進(jìn)行加權(quán)判斷。
Q2:Sora 背后到底有沒有它的護(hù)城河,到底在哪里?是數(shù)據(jù)量,技術(shù)框架,還是都有?
A2:我覺得顯然是兩者都有。在技術(shù)框架方面,網(wǎng)絡(luò)模型的護(hù)城河可能相對較低。但是在大規(guī)模訓(xùn)練的基建方面,我認(rèn)為有相當(dāng)大的護(hù)城河。OpenAI 在千卡甚至萬卡級的 GPU 聯(lián)合訓(xùn)練上有非常深厚的積累,這在其他公司,尤其是國內(nèi)的一些公司中可能相對欠缺。另外,正如我之前提到的,團(tuán)隊協(xié)作方面,OpenAI 的 LLM 和其 GP4-V 等多模態(tài)模型也表現(xiàn)出顯著的優(yōu)勢,這些模型對于理解產(chǎn)生的數(shù)據(jù)極為關(guān)鍵,對生成模型的訓(xùn)練也會有很大影響。
我們在數(shù)據(jù)構(gòu)建方面落后于他們,在訓(xùn)練的最終結(jié)果上也有較大的差距。,所以這構(gòu)成了一個非常深的護(hù)城河,我們需要在各個方面實現(xiàn)追趕和超越。
Q3:您剛剛提到數(shù)據(jù)層面,只是原始收集的數(shù)據(jù)量比我們大,還是他借助的這些工具做得更好、質(zhì)量更好呢?
A3:我之前聽說過 OpenAI 在下載全互聯(lián)網(wǎng)的視頻數(shù)據(jù),具體數(shù)據(jù)量他們沒有公開,我也不好猜測。另外,也有分析指出他們使用了 UE 引擎來造數(shù)據(jù)??紤]到他們對 Scaling Up 的崇拜,我覺得他們的數(shù)據(jù)量應(yīng)該是非常巨大的,可能超出我們的想象。
在數(shù)據(jù)質(zhì)量上,如我之前所述,對視頻的描述能力會產(chǎn)生很大的影響。即使我們擁有相同的數(shù)據(jù),如果我們對其描述存在缺陷或差距,那么訓(xùn)練出來的生成模型也會有顯著的性能差異。所以,不僅是數(shù)據(jù)的數(shù)量,其質(zhì)量和處理方式同樣關(guān)鍵。
Q4:您認(rèn)為 Sora 這種機制,或者這種數(shù)據(jù)驅(qū)動的方式,是否真的能夠理解這個物理世界?因為關(guān)于這個的爭論很多,到底能不能真正地實現(xiàn)所謂的世界模型呢?
A4:我個人覺得這還是比較困難的。我認(rèn)為我們現(xiàn)有的數(shù)據(jù)可能還不夠。在這種擴(kuò)大模型和訓(xùn)練的方式下,對于算力來說,數(shù)據(jù)的利用率是非常低的。例如,一個人不需要看幾十億、上百億的數(shù)據(jù)視頻就能理解影子是由物體遮擋光線產(chǎn)生的,但是 AI 模型可能就需要極大量的數(shù)據(jù)才能學(xué)會這一點。當(dāng)然,如果有足夠多的數(shù)據(jù),也許 AI 真的能夠?qū)W會,但是暫時來看,我們可能在有生之年都達(dá)不到這樣的數(shù)據(jù)規(guī)模,所以我認(rèn)為實現(xiàn)真正的物理世界理解是非常難的。
同時,也有人討論說生成模型是否一定需要對物理有強制性約束,因為我們實際上看到的世界有時也會因為我們自己的視覺系統(tǒng)產(chǎn)生誤判。比如,兩個相同大小和顏色的正方形放在不同的背景下,我們也可能會判斷它們的亮度不同。所以,最終如果 AI 模型能夠符合我們?nèi)祟惖囊曈X偏好,也是可以接受的。