自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智譜版Sora開源爆火:狂攬4K Star,4090單卡運(yùn)行,A6000可微調(diào)

人工智能 新聞
「清影」的出現(xiàn)被譽(yù)為是國(guó)內(nèi)首個(gè)人人可用的 Sora。發(fā)布 6 天,「清影」生成視頻數(shù)就突破百萬量級(jí)。

國(guó)內(nèi)視頻生成領(lǐng)域越來越卷了。剛剛,智譜 AI 宣布將與「清影」同源的視頻生成模型 ——CogVideoX 開源。短短幾個(gè)小時(shí)狂攬 4k 星標(biāo)。

圖片

  • 代碼倉(cāng)庫(kù):https://github.com/THUDM/CogVideo
  • 模型下載:https://huggingface.co/THUDM/CogVideoX-2b
  • 技術(shù)報(bào)告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日,智譜 AI 正式發(fā)布視頻生成產(chǎn)品「清影」,得到大家廣泛好評(píng)。只要你有好的創(chuàng)意(幾個(gè)字到幾百個(gè)字),再加上一點(diǎn)點(diǎn)耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度視頻。

官宣即日起,清影上線清言 App,所有用戶都可以全方位體驗(yàn)。想要嘗試的小伙伴可以去「智譜清言」上體驗(yàn)「清影」生視頻的能力。

「清影」的出現(xiàn)被譽(yù)為是國(guó)內(nèi)首個(gè)人人可用的 Sora。發(fā)布 6 天,「清影」生成視頻數(shù)就突破百萬量級(jí)。

  • PC 端訪問鏈接:https://chatglm.cn/
  • 移動(dòng)端訪問鏈接:https://chatglm.cn/download?fr=web_home

為何智譜 AI 開源模型如此爆火?要知道雖然現(xiàn)在視頻生成技術(shù)正逐步走向成熟,然而,仍未有一個(gè)開源的視頻生成模型,能夠滿足商業(yè)級(jí)應(yīng)用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。CogVideoX 的開源就好比 OpenAI 將 Sora 背后的模型開源,對(duì)廣大研究者而言,意義重大。

CogVideoX 開源模型包含多個(gè)不同尺寸大小的模型,目前智譜 AI 開源 CogVideoX-2B,它在 FP-16 精度下的推理僅需 18GB 顯存,微調(diào)則只需要 40GB 顯存,這意味著單張 4090 顯卡即可進(jìn)行推理,而單張 A6000 顯卡即可完成微調(diào)。

CogVideoX-2B 的提示詞上限為 226 個(gè) token,視頻長(zhǎng)度為 6 秒,幀率為 8 幀 / 秒,視頻分辨率為 720*480。智譜 AI 為視頻質(zhì)量的提升預(yù)留了廣闊的空間,期待開發(fā)者們?cè)谔崾驹~優(yōu)化、視頻長(zhǎng)度、幀率、分辨率、場(chǎng)景微調(diào)以及圍繞視頻的各類功能開發(fā)上貢獻(xiàn)開源力量。

性能更強(qiáng)參數(shù)量更大的模型正在路上,敬請(qǐng)關(guān)注與期待。

模型

圖片

VAE

視頻數(shù)據(jù)因包含空間和時(shí)間信息,其數(shù)據(jù)量和計(jì)算負(fù)擔(dān)遠(yuǎn)超圖像數(shù)據(jù)。為應(yīng)對(duì)此挑戰(zhàn),智譜提出了基于 3D 變分自編碼器(3D VAE)的視頻壓縮方法。3D VAE 通過三維卷積同時(shí)壓縮視頻的空間和時(shí)間維度,實(shí)現(xiàn)了更高的壓縮率和更好的重建質(zhì)量。

圖片

模型結(jié)構(gòu)包括編碼器、解碼器和潛在空間正則化器,通過四個(gè)階段的下采樣和上采樣實(shí)現(xiàn)壓縮。時(shí)間因果卷積確保了信息的因果性,減少了通信開銷。智譜采用上下文并行技術(shù)以適應(yīng)大規(guī)模視頻處理。

實(shí)驗(yàn)中,智譜 AI 發(fā)現(xiàn)大分辨率編碼易于泛化,而增加幀數(shù)則挑戰(zhàn)較大。因此,智譜分兩階段訓(xùn)練模型:首先在較低幀率和小批量上訓(xùn)練,然后通過上下文并行在更高幀率上進(jìn)行微調(diào)。訓(xùn)練損失函數(shù)結(jié)合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。

專家 Transformer

智譜 AI 使用 VAE 的編碼器將視頻壓縮至潛在空間,然后將潛在空間分割成塊并展開成長(zhǎng)的序列嵌入 z_vision。同時(shí),智譜 AI 使用 T5,將文本輸入編碼為文本嵌入 z_text,然后將 z_text 和 z_vision 沿序列維度拼接。拼接后的嵌入被送入專家 Transformer 塊堆棧中處理。最后,反向拼接嵌入來恢復(fù)原始潛在空間形狀,并使用 VAE 進(jìn)行解碼以重建視頻。

圖片

Data

視頻生成模型訓(xùn)練需篩選高質(zhì)量視頻數(shù)據(jù),以學(xué)習(xí)真實(shí)世界動(dòng)態(tài)。視頻可能因人工編輯或拍攝問題而不準(zhǔn)確。智譜 AI 開發(fā)了負(fù)面標(biāo)簽來識(shí)別和排除低質(zhì)量視頻,如過度編輯、運(yùn)動(dòng)不連貫、質(zhì)量低下、講座式、文本主導(dǎo)和屏幕噪音視頻。通過 video-llama 訓(xùn)練的過濾器,智譜 AI 標(biāo)注并篩選了 20,000 個(gè)視頻數(shù)據(jù)點(diǎn)。同時(shí),計(jì)算光流和美學(xué)分?jǐn)?shù),動(dòng)態(tài)調(diào)整閾值,確保生成視頻的質(zhì)量。

視頻數(shù)據(jù)通常沒有文本描述,需要轉(zhuǎn)換為文本描述以供文本到視頻模型訓(xùn)練?,F(xiàn)有的視頻字幕數(shù)據(jù)集字幕較短,無法全面描述視頻內(nèi)容。智譜 AI 提出了一種從圖像字幕生成視頻字幕的管道,并微調(diào)端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過 Panda70M 模型生成簡(jiǎn)短字幕,使用 CogView3 模型生成密集圖像字幕,然后使用 GPT-4 模型總結(jié)生成最終的短視頻。智譜 AI 還微調(diào)了一個(gè)基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕數(shù)據(jù)進(jìn)行訓(xùn)練,以加速視頻字幕生成過程。

圖片

性能

為了評(píng)估文本到視頻生成的質(zhì)量,智譜 AI 使用了 VBench 中的多個(gè)指標(biāo),如人類動(dòng)作、場(chǎng)景、動(dòng)態(tài)程度等。智譜 AI 還使用了兩個(gè)額外的視頻評(píng)估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,這些工具專注于視頻的動(dòng)態(tài)特性。如下表所示。

圖片

智譜 AI 已經(jīng)驗(yàn)證了 scaling law 在視頻生成方面的有效性,未來會(huì)在不斷 scale up 數(shù)據(jù)規(guī)模和模型規(guī)模的同時(shí),探究更具突破式創(chuàng)新的新型模型架構(gòu)、更高效地壓縮視頻信息、更充分地融合文本和視頻內(nèi)容。

最后,我們看看「清影」的效果。

提示語(yǔ):「一艘精致的木制玩具船,桅桿和船帆雕刻精美,平穩(wěn)地滑過一塊模仿海浪的藍(lán)色毛絨地毯。船體漆成濃郁的棕色,有小窗戶。地毯柔軟而有質(zhì)感,提供了完美的背景,類似于廣闊的海洋。船周圍還有各種玩具和兒童用品,暗示著一個(gè)好玩的環(huán)境。這個(gè)場(chǎng)景捕捉到了童年的純真和想象力,玩具船的旅程象征著在異想天開的室內(nèi)環(huán)境中無盡的冒險(xiǎn)?!?/span>

提示語(yǔ):「鏡頭跟隨一輛裝著黑色車頂行李架的白色老式 SUV,它在陡峭的山坡上沿著松樹環(huán)繞的土路加速行駛,輪胎揚(yáng)起塵土,陽(yáng)光照射在沿著土路飛馳的 SUV 身上,為場(chǎng)景投下溫暖的光芒。土路緩緩彎曲向遠(yuǎn)方延伸,看不到其他汽車或車輛。道路兩旁的樹木都是紅杉,點(diǎn)綴著一片片綠植。從后面看,汽車輕松地順著彎道行駛,讓人覺得它正在崎嶇的地形上行駛。土路周圍是陡峭的山丘和山脈,頭頂是湛藍(lán)的天空,上面飄著薄薄的云彩?!?/span>

提示語(yǔ):「一片白雪皚皚的森林景觀,一條土路穿過其中。道路兩旁是被白雪覆蓋的樹木,地面也被白雪覆蓋。陽(yáng)光燦爛,營(yíng)造出明亮而寧?kù)o的氛圍。道路上空無一人,視頻中看不到任何人或動(dòng)物。視頻的風(fēng)格是自然風(fēng)景拍攝,重點(diǎn)是白雪皚皚的森林之美和道路的寧?kù)o。」

提示語(yǔ):「雞肉和青椒烤肉串在燒烤架上燒烤的特寫。淺焦和淡煙。色彩鮮艷」

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-09-10 10:40:08

2023-10-19 13:25:00

AI訓(xùn)練

2023-06-20 16:05:58

AI代碼

2023-10-16 13:16:03

2024-12-17 09:38:00

2023-10-04 19:52:33

模型論文

2023-02-13 13:58:15

模型開源

2023-08-07 13:30:08

平臺(tái)MetaGPTAI

2022-02-15 15:48:03

GitHub工具圖像

2024-02-22 10:17:39

AI模型

2023-04-25 15:41:59

2020-12-30 10:35:49

程序員技能開發(fā)者

2025-02-12 12:45:59

2015-07-01 13:48:04

華曦達(dá)

2015-08-28 10:17:25

顯卡NVIDIAQuadro M600

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2024-05-20 12:50:52

AI模型

2020-01-06 12:30:59

顯示器Windows 10Windows

2023-10-16 13:43:00

AI模型

2024-07-15 12:18:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)