自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!

發(fā)布于 2024-8-7 09:35
瀏覽
0收藏

7月26日,智譜發(fā)布AI 生視頻產(chǎn)品「清影」,30秒將任意文圖生成視頻,并上線在他們的AI助手「智譜清言」上,被譽(yù)為是國(guó)內(nèi)首個(gè)人人可用的Sora。


就在發(fā)布6天后,「清影」生成到視頻數(shù)便已突破了百萬量級(jí)。


今天,智譜AI宣布將與「清影」同源的視頻生成模型——CogVideoX正式開源。


團(tuán)隊(duì)表示,希望每一位開發(fā)者、每一家企業(yè)都能自由地開發(fā)屬于自己的視頻生成模型,從而推動(dòng)整個(gè)行業(yè)的快速迭代與創(chuàng)新發(fā)展。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

打開AI助手「智譜清言」即可體驗(yàn)

隨著大型模型技術(shù)的持續(xù)發(fā)展,視頻生成技術(shù)正逐步走向成熟。


以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù),正在重新定義行業(yè)的未來格局。


然而,截至目前,仍未有一個(gè)開源的視頻生成模型,能夠滿足商業(yè)級(jí)應(yīng)用的要求。


CogVideoX系列包含多個(gè)不同尺寸大小的開源模型。


目前已經(jīng)開源的CogVideoX-2B,提示詞上限為226個(gè)token,視頻長(zhǎng)度為6秒,幀率為8幀/秒,視頻分辨率為720×480。


它在FP-16精度下的推理僅需18GB顯存,微調(diào)則只需要40GB顯存。這意味著單張4090顯卡即可進(jìn)行推理,而單張A6000顯卡即可完成微調(diào)。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

代碼倉(cāng)庫(kù):https://github.com/THUDM/CogVideo

模型下載:https://huggingface.co/THUDM/CogVideoX-2b

技術(shù)報(bào)告:???https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf??


目前,該項(xiàng)目已在GitHub上斬獲了3.8k星。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

下面,我們就來看看CogVideoX生成的效果到底如何?


一個(gè)木制玩具船,在模擬海浪的藍(lán)色地毯上航行,宛如在真的海水行駛一般。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

A detailed wooden toy ship with intricately carved masts and sails is seen gliding smoothly over a plush, blue carpet that mimics the waves of the sea. The ship's hull is painted a rich brown, with tiny windows. The carpet, soft and textured, provides a perfect backdrop, resembling an oceanic expanse. Surrounding the ship are various other toys and children's items, hinting at a playful environment. The scene captures the innocence and imagination of childhood, with the toy ship's journey symbolizing endless adventures in a whimsical, indoor setting.

一輛白色越野車沿著松樹環(huán)繞的陡峭土路快速行駛,可以看到車尾的塵土飛揚(yáng)。


其實(shí)這個(gè)場(chǎng)景對(duì)于AI來說,相對(duì)較難,只有正確理解了物理世界,才不會(huì)讓生成的塵土在車前揚(yáng)起。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

下面這幅在戰(zhàn)亂中,人物表情細(xì)節(jié)的刻畫,細(xì)膩豐富。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

In the haunting backdrop of a war-torn city, where ruins and crumbled walls tell a story of devastation, a poignant close-up frames a young girl. Her face is smudged with ash, a silent testament to the chaos around her. Her eyes glistening with a mix of sorrow and resilience, capturing the raw emotion of a world that has lost its innocence to the ravages of conflict.

針對(duì)更宏觀的場(chǎng)景,CogVideoX也能將白雪皚皚的森林、無人穿梭的寧?kù)o小路,生動(dòng)地描繪出來。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

A snowy forest landscape with a dirt road running through it. The road is flanked by trees covered in snow, and the ground is also covered in snow. The sun is shining, creating a bright and serene atmosphere. The road appears to be empty, and there are no people or animals visible in the video. The style of the video is a natural landscape shot, with a focus on the beauty of the snowy forest and the peacefulness of the road.

舌尖上的美食,還得看國(guó)產(chǎn)AI視頻模型。燒烤架上烤制的雞肉和青椒烤串,讓人看了垂涎欲滴。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours

CogVideoX

見識(shí)到CogVideoX驚艷視頻生成能力,你一定非常好奇這是怎么做到的?

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

VAE

視頻數(shù)據(jù)因包含空間和時(shí)間信息,其數(shù)據(jù)量和計(jì)算負(fù)擔(dān)遠(yuǎn)超圖像數(shù)據(jù)。


為應(yīng)對(duì)此挑戰(zhàn),團(tuán)隊(duì)提出了基于3D變分自編碼器(3D VAE)的視頻壓縮方法。


其中,3D VAE通過三維卷積同時(shí)壓縮視頻的空間和時(shí)間維度,實(shí)現(xiàn)了更高的壓縮率和更好的重建質(zhì)量。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

模型結(jié)構(gòu)包括編碼器、解碼器和潛在空間正則化器,并通過四個(gè)階段的下采樣和上采樣實(shí)現(xiàn)壓縮。


時(shí)間因果卷積確保了信息的因果性,減少了通信開銷。而上下文并行技術(shù)的采用,則可以適應(yīng)大規(guī)模視頻處理。


實(shí)驗(yàn)中,團(tuán)隊(duì)發(fā)現(xiàn)大分辨率編碼易于泛化,而增加幀數(shù)則挑戰(zhàn)較大。


因此,可將分兩階段訓(xùn)練模型:

- 首先在較低幀率和小批量上訓(xùn)練;

- 然后通過上下文并行在更高幀率上進(jìn)行微調(diào)。


訓(xùn)練損失函數(shù)結(jié)合了L2損失、LPIPS感知損失和3D判別器的GAN損失。

專家Transformer

團(tuán)隊(duì)使用VAE的編碼器將視頻壓縮至潛在空間,然后將潛在空間分割成塊并展開成長(zhǎng)的序列嵌入z_vision。


同時(shí),使用T5將文本輸入編碼為文本嵌入z_text,然后將z_text和z_vision沿序列維度拼接。拼接后的嵌入被送入專家Transformer塊堆棧中處理。


最后,反向拼接嵌入來恢復(fù)原始潛在空間形狀,并使用VAE進(jìn)行解碼以重建視頻。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

數(shù)據(jù)

視頻生成模型訓(xùn)練需篩選高質(zhì)量視頻數(shù)據(jù),以學(xué)習(xí)真實(shí)世界動(dòng)態(tài)。但視頻可能因人工編輯或拍攝問題而不準(zhǔn)確。


為此,團(tuán)隊(duì)開發(fā)了負(fù)面標(biāo)簽來識(shí)別和排除低質(zhì)量視頻,如過度編輯、運(yùn)動(dòng)不連貫、質(zhì)量低下、講座式、文本主導(dǎo)和屏幕噪音視頻。


通過video-llama訓(xùn)練的過濾器,團(tuán)隊(duì)標(biāo)注并篩選了20,000個(gè)視頻數(shù)據(jù)點(diǎn)。同時(shí),計(jì)算光流和美學(xué)分?jǐn)?shù),動(dòng)態(tài)調(diào)整閾值,確保生成視頻的質(zhì)量。


視頻數(shù)據(jù)通常沒有文本描述,需要轉(zhuǎn)換為文本描述以供文本到視頻模型訓(xùn)練。然而,現(xiàn)有的視頻字幕數(shù)據(jù)集字幕較短,無法全面描述視頻內(nèi)容。


為了解決一問題,團(tuán)隊(duì)提出了一種從圖像字幕生成視頻字幕的管道,并微調(diào)端到端的視頻字幕模型以獲得更密集的字幕。


這種方法通過Panda70M模型生成簡(jiǎn)短字幕,使用CogView3模型生成密集圖像字幕,然后使用GPT-4模型總結(jié)生成最終的短視頻。


除此之外,團(tuán)隊(duì)還微調(diào)了一個(gè)基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,使用密集字幕數(shù)據(jù)進(jìn)行訓(xùn)練,以加速視頻字幕生成過程。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

性能

為了評(píng)估文本到視頻生成的質(zhì)量,團(tuán)隊(duì)使用了VBench中的多個(gè)指標(biāo),如人類動(dòng)作、場(chǎng)景、動(dòng)態(tài)程度等。并排除了不適用于評(píng)估需求的指標(biāo),例如顏色指標(biāo),因?yàn)樗赡苷`導(dǎo)視頻生成模型。


此外,團(tuán)隊(duì)還使用了兩個(gè)額外的視頻評(píng)估工具:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score,這些工具專注于視頻的動(dòng)態(tài)特性。

4090單卡可跑,6秒直出電影級(jí)畫質(zhì),智譜版Sora正式開源!-AI.x社區(qū)

值得一提的是,團(tuán)隊(duì)已經(jīng)驗(yàn)證了scaling law在視頻生成方面的有效性!


未來會(huì)在不斷scale up數(shù)據(jù)規(guī)模和模型規(guī)模的同時(shí),探究更具突破式創(chuàng)新的新型模型架構(gòu)、更高效地壓縮視頻信息、更充分地融合文本和視頻內(nèi)容。


團(tuán)隊(duì)表示,目前的視頻質(zhì)量還有很廣闊的提升空間,期待開發(fā)者們?cè)谔崾驹~優(yōu)化、視頻長(zhǎng)度、幀率、分辨率、場(chǎng)景微調(diào)以及圍繞視頻的各類功能開發(fā)上貢獻(xiàn)開源力量。


此外,性能更強(qiáng)參數(shù)量更大的模型正在路上,敬請(qǐng)關(guān)注與期待。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/XwIdZY_7RC3ySAIQicL_Tg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦