自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

智譜版Sora開源爆火：狂攬4K Star，4090單卡運(yùn)行，A6000可微調(diào)

作者：機(jī)器之心 2024-08-07 09:20:00

人工智能新聞

「清影」的出現(xiàn)被譽(yù)為是國(guó)內(nèi)首個(gè)人人可用的 Sora。發(fā)布 6 天，「清影」生成視頻數(shù)就突破百萬量級(jí)。

國(guó)內(nèi)視頻生成領(lǐng)域越來越卷了。剛剛，智譜 AI 宣布將與「清影」同源的視頻生成模型 ——CogVideoX 開源。短短幾個(gè)小時(shí)狂攬 4k 星標(biāo)。

代碼倉(cāng)庫(kù)：https://github.com/THUDM/CogVideo
模型下載：https://huggingface.co/THUDM/CogVideoX-2b
技術(shù)報(bào)告：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日，智譜 AI 正式發(fā)布視頻生成產(chǎn)品「清影」，得到大家廣泛好評(píng)。只要你有好的創(chuàng)意（幾個(gè)字到幾百個(gè)字），再加上一點(diǎn)點(diǎn)耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度視頻。

官宣即日起，清影上線清言 App，所有用戶都可以全方位體驗(yàn)。想要嘗試的小伙伴可以去「智譜清言」上體驗(yàn)「清影」生視頻的能力。

「清影」的出現(xiàn)被譽(yù)為是國(guó)內(nèi)首個(gè)人人可用的 Sora。發(fā)布 6 天，「清影」生成視頻數(shù)就突破百萬量級(jí)。

PC 端訪問鏈接：https://chatglm.cn/
移動(dòng)端訪問鏈接：https://chatglm.cn/download?fr=web_home

為何智譜 AI 開源模型如此爆火？要知道雖然現(xiàn)在視頻生成技術(shù)正逐步走向成熟，然而，仍未有一個(gè)開源的視頻生成模型，能夠滿足商業(yè)級(jí)應(yīng)用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。CogVideoX 的開源就好比 OpenAI 將 Sora 背后的模型開源，對(duì)廣大研究者而言，意義重大。

CogVideoX 開源模型包含多個(gè)不同尺寸大小的模型，目前智譜 AI 開源 CogVideoX-2B，它在 FP-16 精度下的推理僅需 18GB 顯存，微調(diào)則只需要 40GB 顯存，這意味著單張 4090 顯卡即可進(jìn)行推理，而單張 A6000 顯卡即可完成微調(diào)。

CogVideoX-2B 的提示詞上限為 226 個(gè) token，視頻長(zhǎng)度為 6 秒，幀率為 8 幀 / 秒，視頻分辨率為 720*480。智譜 AI 為視頻質(zhì)量的提升預(yù)留了廣闊的空間，期待開發(fā)者們?cè)谔崾驹~優(yōu)化、視頻長(zhǎng)度、幀率、分辨率、場(chǎng)景微調(diào)以及圍繞視頻的各類功能開發(fā)上貢獻(xiàn)開源力量。

性能更強(qiáng)參數(shù)量更大的模型正在路上，敬請(qǐng)關(guān)注與期待。

模型

VAE

視頻數(shù)據(jù)因包含空間和時(shí)間信息，其數(shù)據(jù)量和計(jì)算負(fù)擔(dān)遠(yuǎn)超圖像數(shù)據(jù)。為應(yīng)對(duì)此挑戰(zhàn)，智譜提出了基于 3D 變分自編碼器（3D VAE）的視頻壓縮方法。3D VAE 通過三維卷積同時(shí)壓縮視頻的空間和時(shí)間維度，實(shí)現(xiàn)了更高的壓縮率和更好的重建質(zhì)量。

模型結(jié)構(gòu)包括編碼器、解碼器和潛在空間正則化器，通過四個(gè)階段的下采樣和上采樣實(shí)現(xiàn)壓縮。時(shí)間因果卷積確保了信息的因果性，減少了通信開銷。智譜采用上下文并行技術(shù)以適應(yīng)大規(guī)模視頻處理。

實(shí)驗(yàn)中，智譜 AI 發(fā)現(xiàn)大分辨率編碼易于泛化，而增加幀數(shù)則挑戰(zhàn)較大。因此，智譜分兩階段訓(xùn)練模型：首先在較低幀率和小批量上訓(xùn)練，然后通過上下文并行在更高幀率上進(jìn)行微調(diào)。訓(xùn)練損失函數(shù)結(jié)合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。

專家 Transformer

智譜 AI 使用 VAE 的編碼器將視頻壓縮至潛在空間，然后將潛在空間分割成塊并展開成長(zhǎng)的序列嵌入 z_vision。同時(shí)，智譜 AI 使用 T5，將文本輸入編碼為文本嵌入 z_text，然后將 z_text 和 z_vision 沿序列維度拼接。拼接后的嵌入被送入專家 Transformer 塊堆棧中處理。最后，反向拼接嵌入來恢復(fù)原始潛在空間形狀，并使用 VAE 進(jìn)行解碼以重建視頻。

Data

視頻生成模型訓(xùn)練需篩選高質(zhì)量視頻數(shù)據(jù)，以學(xué)習(xí)真實(shí)世界動(dòng)態(tài)。視頻可能因人工編輯或拍攝問題而不準(zhǔn)確。智譜 AI 開發(fā)了負(fù)面標(biāo)簽來識(shí)別和排除低質(zhì)量視頻，如過度編輯、運(yùn)動(dòng)不連貫、質(zhì)量低下、講座式、文本主導(dǎo)和屏幕噪音視頻。通過 video-llama 訓(xùn)練的過濾器，智譜 AI 標(biāo)注并篩選了 20,000 個(gè)視頻數(shù)據(jù)點(diǎn)。同時(shí)，計(jì)算光流和美學(xué)分?jǐn)?shù)，動(dòng)態(tài)調(diào)整閾值，確保生成視頻的質(zhì)量。

視頻數(shù)據(jù)通常沒有文本描述，需要轉(zhuǎn)換為文本描述以供文本到視頻模型訓(xùn)練?，F(xiàn)有的視頻字幕數(shù)據(jù)集字幕較短，無法全面描述視頻內(nèi)容。智譜 AI 提出了一種從圖像字幕生成視頻字幕的管道，并微調(diào)端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過 Panda70M 模型生成簡(jiǎn)短字幕，使用 CogView3 模型生成密集圖像字幕，然后使用 GPT-4 模型總結(jié)生成最終的短視頻。智譜 AI 還微調(diào)了一個(gè)基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型，使用密集字幕數(shù)據(jù)進(jìn)行訓(xùn)練，以加速視頻字幕生成過程。

性能

為了評(píng)估文本到視頻生成的質(zhì)量，智譜 AI 使用了 VBench 中的多個(gè)指標(biāo)，如人類動(dòng)作、場(chǎng)景、動(dòng)態(tài)程度等。智譜 AI 還使用了兩個(gè)額外的視頻評(píng)估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，這些工具專注于視頻的動(dòng)態(tài)特性。如下表所示。

智譜 AI 已經(jīng)驗(yàn)證了 scaling law 在視頻生成方面的有效性，未來會(huì)在不斷 scale up 數(shù)據(jù)規(guī)模和模型規(guī)模的同時(shí)，探究更具突破式創(chuàng)新的新型模型架構(gòu)、更高效地壓縮視頻信息、更充分地融合文本和視頻內(nèi)容。

最后，我們看看「清影」的效果。

提示語(yǔ)：「一艘精致的木制玩具船，桅桿和船帆雕刻精美，平穩(wěn)地滑過一塊模仿海浪的藍(lán)色毛絨地毯。船體漆成濃郁的棕色，有小窗戶。地毯柔軟而有質(zhì)感，提供了完美的背景，類似于廣闊的海洋。船周圍還有各種玩具和兒童用品，暗示著一個(gè)好玩的環(huán)境。這個(gè)場(chǎng)景捕捉到了童年的純真和想象力，玩具船的旅程象征著在異想天開的室內(nèi)環(huán)境中無盡的冒險(xiǎn)?！?/span>

提示語(yǔ)：「鏡頭跟隨一輛裝著黑色車頂行李架的白色老式 SUV，它在陡峭的山坡上沿著松樹環(huán)繞的土路加速行駛，輪胎揚(yáng)起塵土，陽(yáng)光照射在沿著土路飛馳的 SUV 身上，為場(chǎng)景投下溫暖的光芒。土路緩緩彎曲向遠(yuǎn)方延伸，看不到其他汽車或車輛。道路兩旁的樹木都是紅杉，點(diǎn)綴著一片片綠植。從后面看，汽車輕松地順著彎道行駛，讓人覺得它正在崎嶇的地形上行駛。土路周圍是陡峭的山丘和山脈，頭頂是湛藍(lán)的天空，上面飄著薄薄的云彩?！?/span>

提示語(yǔ)：「一片白雪皚皚的森林景觀，一條土路穿過其中。道路兩旁是被白雪覆蓋的樹木，地面也被白雪覆蓋。陽(yáng)光燦爛，營(yíng)造出明亮而寧?kù)o的氛圍。道路上空無一人，視頻中看不到任何人或動(dòng)物。視頻的風(fēng)格是自然風(fēng)景拍攝，重點(diǎn)是白雪皚皚的森林之美和道路的寧?kù)o。」

提示語(yǔ)：「雞肉和青椒烤肉串在燒烤架上燒烤的特寫。淺焦和淡煙。色彩鮮艷」

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<bdo id="1ej3n"></bdo>

<sub id="1ej3n"></sub>