自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析

發(fā)布于 2024-8-14 10:24
瀏覽
0收藏

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.06072
項(xiàng)目鏈接:https://github.com/THUDM/CogVideo


近期,國內(nèi)視頻生成領(lǐng)域發(fā)展迅速,各家模型都在效果上下足了功夫,可謂神仙打架,前面分享過快手可靈,效果可以媲美Sora,這次智譜AI又發(fā)布了CogVideoX,效果如何呢,一起來看技術(shù)報(bào)告解讀。


CogVideoX是一個(gè)基于文本提示生成視頻的大規(guī)模擴(kuò)散Transformer模型。為了高效地建模視頻數(shù)據(jù),提出使用3D變分自編碼器(VAE)在空間和時(shí)間維度上對視頻進(jìn)行壓縮。為了改善文本與視頻的對齊,提出了一個(gè)帶有專家自適應(yīng)LayerNorm的專家Transformer,以促進(jìn)兩種模態(tài)之間的深度融合。通過采用漸進(jìn)式訓(xùn)練技術(shù),CogVideoX能夠生成具有顯著動(dòng)作的連貫長時(shí)間視頻。此外,還開發(fā)了一種有效的文本-視頻數(shù)據(jù)處理pipeline,包括各種數(shù)據(jù)預(yù)處理策略和視頻字幕生成方法。這大大有助于提升CogVideoX的性能,提高生成質(zhì)量和語義對齊度。結(jié)果表明,CogVideoX在多種機(jī)器指標(biāo)和人工評估中均表現(xiàn)出最先進(jìn)的性能。

效果先睹為快

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

CogVideoX架構(gòu)

本節(jié)介紹了CogVideoX模型。下圖2展示了整體架構(gòu)。給定一對視頻和文本輸入,設(shè)計(jì)了一個(gè)3D causal VAE,將視頻壓縮到潛在空間中,然后將這些潛在變量打包并展開為一個(gè)長序列,記作zvision。同時(shí),使用T5將文本輸入編碼為文本embeddings 。隨后,和在序列維度上進(jìn)行連接。連接后的embeddings隨后被輸入到一堆專家Transformer塊中。最后,模型輸出被反打包以恢復(fù)原始的潛在形狀,然后使用3D causal VAE解碼器解碼以重建視頻。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

3D causal VAE

視頻不僅包含空間信息,還包含大量的時(shí)間信息,通常導(dǎo)致比圖像多出數(shù)個(gè)數(shù)量級(jí)的數(shù)據(jù)量。為了解決視頻數(shù)據(jù)建模的計(jì)算挑戰(zhàn),本文提出了基于3D變分自編碼器(3D VAEs)的視頻壓縮模塊。其思路是通過三維卷積在空間和時(shí)間上對視頻進(jìn)行壓縮。這有助于實(shí)現(xiàn)更高的壓縮率,并在視頻重建時(shí)大大提高質(zhì)量和連貫性。


下圖3(a)展示了所提出的3D VAE的結(jié)構(gòu)。它包括一個(gè)編碼器、一個(gè)解碼器和一個(gè)潛在空間正則化器。高斯?jié)撛诳臻g受到Kullback-Leibler (KL) 正則化器的約束。編碼器和解碼器分別由四個(gè)對稱排列的階段組成,通過交錯(cuò)的ResNet塊堆疊階段分別進(jìn)行2倍下采樣和上采樣。前兩輪的下采樣和最后兩輪的上采樣同時(shí)涉及空間和時(shí)間維度,而最后一輪僅應(yīng)用空間采樣。這使得3D VAE在時(shí)間維度上實(shí)現(xiàn)4倍壓縮,在空間維度上實(shí)現(xiàn)8×8壓縮??偟膩碚f,從像素到潛變量的壓縮達(dá)到了4×8×8倍。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

本文采用了時(shí)間因果卷積,它將所有填充放置在卷積空間的開頭,如上圖3(b)所示。這確保了未來的信息不會(huì)影響當(dāng)前或過去的預(yù)測。由于處理大量幀的視頻會(huì)引入過多的GPU內(nèi)存使用,在時(shí)間維度上應(yīng)用上下文并行來分配3D卷積的計(jì)算到多個(gè)設(shè)備上。如圖3(b)所示,由于卷積的因果特性,每個(gè)排名僅將長度為k-1的片段發(fā)送到下一個(gè)排名,其中k表示時(shí)間內(nèi)核的大小。這導(dǎo)致了相對較低的通信開銷。


在實(shí)際實(shí)現(xiàn)過程中,首先在較低分辨率和較少幀數(shù)上訓(xùn)練3D VAE,以節(jié)省計(jì)算資源。觀察到較大分辨率的編碼可以自然地泛化,而擴(kuò)展幀數(shù)的編碼并不那么順暢。因此,通過首先在短視頻上進(jìn)行訓(xùn)練,然后通過上下文并行在長視頻上進(jìn)行微調(diào),采用了兩階段的訓(xùn)練過程。訓(xùn)練的兩個(gè)階段都使用了L2損失、LPIPS感知損失和來自3D判別器的GAN損失的加權(quán)組合。

專家Transformer

本文介紹了CogVideoX中的Transformer設(shè)計(jì)選擇,包括處理文本-視頻數(shù)據(jù)的分塊、位置embedding和注意力策略,以實(shí)現(xiàn)高效處理。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

3D-RoPE:旋轉(zhuǎn)位置Embedding(RoPE)是一種相對位置編碼,已被證明能夠在大型語言模型中有效捕捉令牌之間的關(guān)系,尤其擅長處理長序列。為了適應(yīng)視頻數(shù)據(jù),將原始RoPE擴(kuò)展為3D-RoPE。視頻張量中的每個(gè)潛變量可以用3D坐標(biāo)(x, y, t)表示。分別在每個(gè)坐標(biāo)維度上獨(dú)立應(yīng)用1D-RoPE,每個(gè)維度分別占用隱藏狀態(tài)通道的3/8、3/8和2/8。然后將得到的編碼在通道維度上連接,得到最終的3D-RoPE編碼。


本文對RoPE的使用進(jìn)行了經(jīng)驗(yàn)性研究。下圖4(a)顯示了3D RoPE和正弦絕對位置編碼的比較??梢杂^察到,使用3D RoPE的損失曲線比使用正弦編碼的收斂速度顯著更快。還比較了單獨(dú)使用3D RoPE與結(jié)合3D RoPE和可學(xué)習(xí)的絕對位置嵌入的效果。下圖4(b)表明,兩種方法的損失曲線幾乎相同。因此,為了簡化,選擇單獨(dú)使用3D RoPE。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

專家Transformer塊:在輸入階段,將文本和視頻的嵌入進(jìn)行連接,以更好地對齊視覺和語義信息。然而,這兩種模態(tài)的特征空間差異顯著,它們的embeddings可能具有不同的數(shù)值尺度。為了在同一序列中更好地處理它們,使用了專家自適應(yīng)Layernorm(Expert Adaptive Layernorm),以獨(dú)立處理每種模態(tài)。如前面圖2所示,遵循DiT的做法,使用擴(kuò)散過程中的時(shí)間步長t作為調(diào)制模塊的輸入。然后,視覺專家自適應(yīng)Layernorm(Vision Expert AdaLN)和文本專家自適應(yīng)Layernorm(Text Expert AdaLN)將該調(diào)制機(jī)制分別應(yīng)用于視覺隱藏狀態(tài)和文本隱藏狀態(tài)。這一策略促進(jìn)了跨模態(tài)特征空間的對齊,同時(shí)盡量減少了額外的參數(shù)。


為了驗(yàn)證專家自適應(yīng)Layernorm的采用效果,嘗試了不同的專家整合方式:專家LayerNorm和MLP,及僅專家LayerNorm。實(shí)驗(yàn)發(fā)現(xiàn),添加專家MLP并沒有有效加速模型的收斂(參見上圖4(c))。為了減少模型參數(shù),選擇僅使用專家自適應(yīng)Layernorm。


3D全注意力:先前的研究通常采用分離的空間和時(shí)間注意力,以減少計(jì)算復(fù)雜性并便于從文本到圖像模型的微調(diào)。然而,如下圖5所示,這種分離的注意力方法需要大量隱式的視覺信息傳遞,顯著增加了學(xué)習(xí)的復(fù)雜性,并使得維持大動(dòng)作物體的一致性變得困難??紤]到長上下文訓(xùn)練在大型語言模型中的巨大成功以及FlashAttention的高效性,本文提出了一種3D文本-視頻混合注意力機(jī)制。該機(jī)制不僅取得了更好的結(jié)果,還能夠輕松適應(yīng)各種并行加速方法。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

訓(xùn)練CogVideoX

在訓(xùn)練過程中,將圖像和視頻混合處理,將每張圖像視為單幀視頻。此外,從分辨率的角度采用漸進(jìn)式訓(xùn)練方法。在擴(kuò)散設(shè)置中,采用了v-prediction和零信噪比(SNR)策略,并遵循LDM中使用的噪聲調(diào)度。在擴(kuò)散訓(xùn)練的時(shí)間步采樣過程中,還采用了一種顯式均勻時(shí)間步采樣方法,有助于提高訓(xùn)練的穩(wěn)定性。

Frame Pack

以往的視頻訓(xùn)練方法通常涉及使用固定幀數(shù)對圖像和視頻進(jìn)行聯(lián)合訓(xùn)練。然而,這種方法通常會(huì)導(dǎo)致兩個(gè)問題:首先,使用雙向注意力時(shí),這兩種輸入類型之間存在顯著差距,圖像只有一幀,而視頻則有幾十幀。觀察到,以這種方式訓(xùn)練的模型往往會(huì)根據(jù)令牌數(shù)量分化為兩種生成模式,且泛化效果不佳。其次,為了使用固定時(shí)長進(jìn)行訓(xùn)練,不得不舍棄短視頻并截?cái)嚅L視頻,這限制了幀數(shù)不同的視頻的充分利用。


為了解決這些問題,選擇混合時(shí)長訓(xùn)練,即將不同長度的視頻一起進(jìn)行訓(xùn)練。然而,批次內(nèi)數(shù)據(jù)形狀的不一致使得訓(xùn)練變得困難。受Patch’n Pack的啟發(fā),將不同長度的視頻放入同一批次中,以確保每個(gè)批次內(nèi)的數(shù)據(jù)形狀一致,這種方法稱之為Frame Pack。該過程如下圖6所示。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

分辨率漸進(jìn)訓(xùn)練

CogVideoX的訓(xùn)練流程分為三個(gè)階段:低分辨率訓(xùn)練、高分辨率訓(xùn)練和高質(zhì)量視頻微調(diào)。與圖像類似,互聯(lián)網(wǎng)上的視頻通常包括大量低分辨率的視頻。漸進(jìn)式訓(xùn)練可以有效利用各種分辨率的視頻。此外,初期的低分辨率訓(xùn)練可以賦予模型粗粒度的建模能力,隨后通過高分辨率訓(xùn)練增強(qiáng)其捕捉細(xì)節(jié)的能力。與直接進(jìn)行高分辨率訓(xùn)練相比,分階段訓(xùn)練還可以幫助減少整體訓(xùn)練時(shí)間。


位置編碼的外推:在將低分辨率位置編碼調(diào)整為高分辨率時(shí),考慮了兩種不同的方法:插值和外推。下圖7展示了這兩種方法的效果。插值更能有效保留全局信息,而外推則更好地保留了局部細(xì)節(jié)。鑒于RoPE是一種相對位置編碼,選擇了外推方法,以維持像素之間的相對位置。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

高質(zhì)量微調(diào):由于經(jīng)過篩選的預(yù)訓(xùn)練數(shù)據(jù)仍包含一定比例的臟數(shù)據(jù),例如字幕、水印和低比特率視頻,在最后階段選擇了占總數(shù)據(jù)集20%的高質(zhì)量視頻數(shù)據(jù)子集進(jìn)行微調(diào)。此步驟有效去除了生成的字幕和水印,并略微提升了視覺質(zhì)量。然而,也觀察到模型的語義能力略有下降。

顯式均勻采樣

Ho等人(2020)定義了擴(kuò)散的訓(xùn)練目標(biāo)為:

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

其中,t 在 1 到 T 之間均勻分布。常見的做法是數(shù)據(jù)并行組中的每個(gè)節(jié)點(diǎn)在 1 到 T 之間均勻采樣一個(gè)值,這在理論上等同于公式1。然而,實(shí)際上,這種隨機(jī)采樣得到的結(jié)果往往不夠均勻,由于擴(kuò)散損失的大小與時(shí)間步長有關(guān),這可能導(dǎo)致?lián)p失出現(xiàn)顯著波動(dòng)。因此,提出使用顯式均勻采樣,將1到T的范圍劃分為n個(gè)區(qū)間,其中n是節(jié)點(diǎn)數(shù)量。每個(gè)節(jié)點(diǎn)在其對應(yīng)的區(qū)間內(nèi)均勻采樣。這種方法確保了時(shí)間步長的更均勻分布。如前面圖4(d)所示,使用顯式均勻采樣進(jìn)行訓(xùn)練的損失曲線明顯更加穩(wěn)定。


此外,為了更精確地比較兩種方法,單獨(dú)比較了每個(gè)擴(kuò)散時(shí)間步長的損失。結(jié)果發(fā)現(xiàn),使用顯式均勻采樣后,各時(shí)間步長的損失下降速度更快,表明該方法能夠加速損失的收斂。

數(shù)據(jù)

通過視頻過濾器和重述模型構(gòu)建了一系列相對高質(zhì)量的視頻剪輯及其文本描述。過濾后,剩下約3500萬單次拍攝的剪輯,每個(gè)剪輯平均約6秒。


視頻過濾:視頻生成模型需要學(xué)習(xí)世界的動(dòng)態(tài)信息,但未經(jīng)篩選的視頻數(shù)據(jù)具有高度的噪聲分布,主要有兩個(gè)原因:首先,視頻是由人類創(chuàng)作的,人工編輯可能會(huì)扭曲真實(shí)的動(dòng)態(tài)信息;其次,由于拍攝過程中出現(xiàn)的問題,如相機(jī)抖動(dòng)和設(shè)備不合格,視頻質(zhì)量可能顯著下降。


除了視頻的固有質(zhì)量外,還考慮了視頻數(shù)據(jù)對模型訓(xùn)練的支持程度。缺乏動(dòng)態(tài)信息或在動(dòng)態(tài)方面缺乏連接性的視頻被認(rèn)為是不利的。因此,研究者們制定了一套負(fù)面標(biāo)簽,包括:

  • 編輯:經(jīng)過明顯人工處理的視頻,如重新編輯和特效,導(dǎo)致視覺完整性下降。
  • 缺乏運(yùn)動(dòng)連接性:圖像過渡中缺乏運(yùn)動(dòng)連接性的視頻片段,通常見于人工拼接或從圖像中編輯的視頻。
  • 低質(zhì)量:拍攝不佳的視頻,視覺不清晰或相機(jī)抖動(dòng)過大。
  • 講座類型:主要關(guān)注一個(gè)人持續(xù)講解、有效運(yùn)動(dòng)最少的視頻,如教育內(nèi)容、講座和直播討論。
  • 文本主導(dǎo):包含大量可見文本或主要集中于文本內(nèi)容的視頻。
  • 噪聲截圖:從手機(jī)或計(jì)算機(jī)屏幕錄制的噪聲視頻。


抽樣了20,000個(gè)視頻數(shù)據(jù)樣本,并標(biāo)記了每個(gè)樣本中的負(fù)面標(biāo)簽。通過這些注釋,訓(xùn)練了幾個(gè)基于視頻-llama的過濾器,以篩選低質(zhì)量視頻數(shù)據(jù)。


此外,計(jì)算了所有訓(xùn)練視頻的光流分?jǐn)?shù)和圖像美學(xué)分?jǐn)?shù),并在訓(xùn)練過程中動(dòng)態(tài)調(diào)整閾值范圍,以確保生成視頻的流暢性和美學(xué)質(zhì)量。


視頻描述:通常,大多數(shù)視頻數(shù)據(jù)沒有對應(yīng)的描述性文本,因此需要將視頻數(shù)據(jù)轉(zhuǎn)換為文本描述,以提供文本到視頻模型所需的訓(xùn)練數(shù)據(jù)。目前,已經(jīng)有一些視頻標(biāo)題數(shù)據(jù)集,如Panda70M、COCO Caption和WebVid。然而,這些數(shù)據(jù)集中的標(biāo)題通常非常簡短,無法全面描述視頻的內(nèi)容。


為了生成高質(zhì)量的視頻標(biāo)題數(shù)據(jù),建立了一個(gè)密集視頻標(biāo)題數(shù)據(jù)生成pipeline,如下圖8所示。其思路是從圖像標(biāo)題生成視頻標(biāo)題。首先,使用Panda70M視頻標(biāo)題模型為視頻生成簡短的標(biāo)題。然后,利用在Stable Diffusion 3和CogView3中使用的圖像重述模型CogVLM為視頻中的每一幀創(chuàng)建密集的圖像標(biāo)題。隨后,使用GPT-4總結(jié)所有圖像標(biāo)題,以生成最終的視頻標(biāo)題。為了加速從圖像標(biāo)題到視頻標(biāo)題的生成,使用GPT-4生成的摘要數(shù)據(jù)微調(diào)Llama2模型,從而實(shí)現(xiàn)大規(guī)模視頻標(biāo)題數(shù)據(jù)的生成。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

上述pipeline生成的標(biāo)題數(shù)據(jù)用于訓(xùn)練本報(bào)告中介紹的CogVideoX模型。為了進(jìn)一步加速視頻重述,還基于CogVLM2-Video1和Llama3微調(diào)了一個(gè)端到端的視頻理解模型CogVLM2-Caption,使用從上述pipeline生成的密集標(biāo)題數(shù)據(jù)。CogVLM2-Caption生成的視頻標(biāo)題數(shù)據(jù)用于訓(xùn)練下一代CogVideoX。附錄D中展示了該端到端CogVLM2-Caption模型生成的視頻標(biāo)題示例。


附錄中還展示了一些視頻生成的示例,其中一個(gè)視頻首先輸入到CogVLM2-Caption以生成標(biāo)題,然后這些標(biāo)題被用作CogVideoX的輸入,從而生成新的視頻,有效地實(shí)現(xiàn)了視頻到視頻的生成。

實(shí)證評估

在這一部分,通過兩種主要方法展示CogVideoX的性能:自動(dòng)化指標(biāo)評估和人工評估。對不同參數(shù)規(guī)模的CogVideoX模型進(jìn)行訓(xùn)練。目前展示了2B和5B模型的結(jié)果,更大的模型仍在訓(xùn)練中。

自動(dòng)化指標(biāo)評估

基準(zhǔn)測試:本文選擇了公開可獲取的頂級(jí)文本到視頻模型作為基準(zhǔn),包括T2V-Turbo、AnimateDiff、VideoCrafter2、OpenSora、Show-1、Gen-2、Pika和LaVie-2。

評估指標(biāo)

為了評估文本到視頻生成,采用了來自VBench的幾個(gè)指標(biāo):人類動(dòng)作、場景、動(dòng)態(tài)程度、多物體和外觀風(fēng)格。VBench是一套旨在自動(dòng)評估生成視頻質(zhì)量的工具。本文選擇了VBench中的某些指標(biāo),排除了其他與本文的評估需求不符的指標(biāo)。例如,顏色指標(biāo)旨在通過計(jì)算視頻中物體對應(yīng)特定顏色的出現(xiàn)概率來評估模型的質(zhì)量。然而,這一指標(biāo)可能會(huì)誤導(dǎo)那些具有較大變異的視頻生成模型,因此沒有將其包含在評估中。


對于生成較長的視頻,有些模型可能會(huì)生成幀間變化最小的視頻以獲得更高的分?jǐn)?shù),但這些視頻缺乏豐富的內(nèi)容。因此,評估視頻動(dòng)態(tài)性成為更重要的指標(biāo)。為此,采用了兩個(gè)視頻評估工具:Devil的動(dòng)態(tài)質(zhì)量和ChronoMagic的GPT4o-MTScore,這兩個(gè)工具更側(cè)重于視頻的動(dòng)態(tài)特性。動(dòng)態(tài)質(zhì)量通過將各種質(zhì)量指標(biāo)與動(dòng)態(tài)分?jǐn)?shù)結(jié)合來定義,減少了視頻動(dòng)態(tài)性與視頻質(zhì)量之間負(fù)相關(guān)帶來的偏差。例如,ChronoMagic引入了GPT4o-MTScore,一個(gè)旨在測量時(shí)光流逝視頻(如描繪物理、生物和氣象變化的視頻)變遷幅度的指標(biāo)。該指標(biāo)使用GPT-4o來評分變化程度,提供了對視頻動(dòng)態(tài)性的細(xì)致評估。


結(jié)果:下表1提供了CogVideoX與其他模型的性能比較。CogVideoX在七個(gè)指標(biāo)中的五個(gè)上取得了最佳性能,并且在剩余的兩個(gè)指標(biāo)中表現(xiàn)競爭力。這些結(jié)果表明,該模型不僅在視頻生成質(zhì)量上表現(xiàn)卓越,還在處理各種復(fù)雜動(dòng)態(tài)場景時(shí)超越了以前的模型。此外,下圖1展示了一個(gè)雷達(dá)圖,直觀地展示了CogVideoX的性能優(yōu)勢。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

人工評估

除了自動(dòng)評分機(jī)制,還通過人工評估對Kling和CogVideoX進(jìn)行比較分析。使用了100個(gè)精心設(shè)計(jì)的提示,這些提示具有廣泛的分布、明確的表述和良好的概念范圍。對視頻進(jìn)行隨機(jī)化以進(jìn)行盲評。評估小組被要求根據(jù)從0到1的尺度對每個(gè)細(xì)節(jié)進(jìn)行評分,總分在0到5的范圍內(nèi)評定,其中更高的分?jǐn)?shù)反映出更好的視頻質(zhì)量。為了更好地補(bǔ)充自動(dòng)評估,人工評估強(qiáng)調(diào)指令遵循能力:如果生成的視頻未能遵循指令,總分不能超過2分。


下表2顯示了CogVideoX在各個(gè)方面都優(yōu)于Kling的人類偏好。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

結(jié)論

本文介紹了CogVideoX,一種先進(jìn)的文本到視頻擴(kuò)散模型。它利用了3D VAE和Expert Transformer架構(gòu),生成連貫的長時(shí)間視頻,并具有顯著的運(yùn)動(dòng)效果。通過實(shí)施全面的數(shù)據(jù)處理pipeline和視頻重述方法,顯著提高了生成視頻的質(zhì)量和語義對齊性。本文的漸進(jìn)式訓(xùn)練技術(shù),包括混合時(shí)長訓(xùn)練和分辨率漸進(jìn)訓(xùn)練,進(jìn)一步提升了模型的性能和穩(wěn)定性。研究者們正在繼續(xù)努力,專注于提升CogVideoX捕捉復(fù)雜動(dòng)態(tài)的能力,并確保視頻生成的更高質(zhì)量。目前還在探索視頻生成模型的擴(kuò)展規(guī)律,旨在訓(xùn)練更大、更強(qiáng)大的模型,以生成更長、更高質(zhì)量的視頻,推動(dòng)文本到視頻生成領(lǐng)域的極限。

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

又見神仙打架,全面超越快手可靈?智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術(shù)報(bào)告解析-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:Zhuoyi Yang等


原文鏈接:??https://mp.weixin.qq.com/s/DRXRlQB3yuDsrRWNeGtU9g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦