自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

同時(shí)提升攝像機(jī)控制效率、視頻質(zhì)量,可控視頻生成架構(gòu)AC3D來(lái)了

人工智能 新聞
AC3D 對(duì)視頻擴(kuò)散模型中的攝像機(jī)運(yùn)動(dòng)進(jìn)行系統(tǒng)性分析, 從而顯著提升控制的精度和效率。

可控的視頻生成需要實(shí)現(xiàn)對(duì)攝像機(jī)的精確控制。然而,控制視頻生成模型的攝像機(jī)運(yùn)動(dòng)(camera control)總是不可避免地伴隨著視頻質(zhì)量的下降。近期,來(lái)自多倫多大學(xué)、Vector Institute、Snap Research 和西蒙?弗雷澤大學(xué)(SFU)的研究團(tuán)隊(duì)推出了 AC3D (Advanced 3D Camera Control)。AC3D 從基本原理出發(fā),分析了攝像機(jī)運(yùn)動(dòng)在視頻生成中的特點(diǎn),并通過(guò)以下三方面改進(jìn)了視頻生成的效果和效率:

1. 低頻運(yùn)動(dòng)建模:研究發(fā)現(xiàn)視頻中的攝像機(jī)運(yùn)動(dòng)具有低頻特性。研究者優(yōu)化了訓(xùn)練和測(cè)試的條件調(diào)度,加速了訓(xùn)練收斂,同時(shí)提升了視覺和運(yùn)動(dòng)質(zhì)量。

2. 攝像機(jī)信息表示:通過(guò)研究無(wú)條件視頻擴(kuò)散變換器的表示,研究者觀察到其內(nèi)部隱含地進(jìn)行了攝像機(jī)姿態(tài)估計(jì)。將攝像機(jī)條件注入限制在特定子層,既減少干擾,又顯著降低了參數(shù)數(shù)量并提升訓(xùn)練速度和視覺質(zhì)量。

3. 數(shù)據(jù)集改進(jìn):通過(guò)加入包含 20,000 段動(dòng)態(tài)視頻的高質(zhì)量靜態(tài)攝像機(jī)數(shù)據(jù)集,增強(qiáng)模型區(qū)分?jǐn)z像機(jī)運(yùn)動(dòng)與場(chǎng)景運(yùn)動(dòng)的能力。這些發(fā)現(xiàn)促成了 AC3D 架構(gòu)的設(shè)計(jì),從而同時(shí)提升了攝像機(jī)控制的效率以及視頻的質(zhì)量,使得 AC3D 在具有攝像機(jī)控制的生成視頻建模中達(dá)到了新的技術(shù)水平。

圖片

  • 論文標(biāo)題:AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers
  • 論文地址:arxiv.org/abs/2411.18673
  • 項(xiàng)目地址:snap-research.github.io/ac3d/

方法介紹

研究者首先搭建了文生視頻擴(kuò)散模型作為基礎(chǔ)模型,對(duì)該模型進(jìn)行分析,從而得到攝像機(jī)控制的第一性原理。然后研究者基于這些原理設(shè)計(jì)了 AC3D。

基礎(chǔ)模型:視頻擴(kuò)散模型

AC3D 基于 VDiT(Video Diffusion Transformer)采用了標(biāo)準(zhǔn)的 Transformer 結(jié)構(gòu)進(jìn)行構(gòu)建。VDiT 通過(guò)在變分自動(dòng)編碼器(VAE)潛空間中執(zhí)行擴(kuò)散建模,從文本描述生成視頻。模型架構(gòu)包括:

  • 使用 T5 編碼器生成文本嵌入;
  • 通過(guò)交叉注意力機(jī)制將文本嵌入輸入 VDiT;
  • 在潛空間中采用流擴(kuò)散參數(shù)化技術(shù)(Rectified Flow Diffusion)進(jìn)行生成。

具體而言,研究者采用了一種標(biāo)準(zhǔn)設(shè)計(jì),預(yù)訓(xùn)練了一個(gè)具有 11.5B 參數(shù)的 Video DiT 模型。該模型包含 32 層,隱藏維度為 4,096,并在 CogVideoX 的潛空間中操作,并使用了 流擴(kuò)散參數(shù)化技術(shù)(Rectified Flow Diffusion)。基礎(chǔ)模型在一個(gè)大規(guī)模圖像和視頻數(shù)據(jù)集上訓(xùn)練,該數(shù)據(jù)集包含了文本注釋,分辨率范圍從 17×144×256 到 121×576×1024。

攝像機(jī)運(yùn)動(dòng)的第一性原理分析

(1)分析 1:運(yùn)動(dòng)光譜體積(MSVs)分析

通過(guò)運(yùn)動(dòng)光譜體積(Motion Spectral Volumes, MSVs)分析,研究者發(fā)現(xiàn)攝像機(jī)引起的運(yùn)動(dòng)主要位于低頻段。與場(chǎng)景運(yùn)動(dòng)相比,攝像機(jī)運(yùn)動(dòng)更平滑且更少劇烈變化。并且,84% 的低頻運(yùn)動(dòng)信息在擴(kuò)散過(guò)程的前 10% 階段已經(jīng)確定,后續(xù)不會(huì)再改變?;谶@一觀察,研究者調(diào)整了訓(xùn)練和測(cè)試的噪聲條件調(diào)度,將攝像機(jī)運(yùn)動(dòng)注入限制在早期噪聲階段進(jìn)行訓(xùn)練和推理。這一方法大幅減少了后期干擾,同時(shí)提升了視頻的視覺質(zhì)量和運(yùn)動(dòng)保真度。

(2)分析 2:線性探測(cè)的 VDiT 表征

研究者通過(guò)線性探測(cè)實(shí)驗(yàn),在文生視頻網(wǎng)絡(luò)的每一層訓(xùn)練一個(gè)線性層以預(yù)測(cè)攝像機(jī)參數(shù)。實(shí)驗(yàn)結(jié)果顯示:

1. 無(wú)條件文生視頻模型在中間層對(duì)攝像機(jī)姿態(tài)信息預(yù)測(cè)最為準(zhǔn)確;

2. 網(wǎng)絡(luò)中間層對(duì)攝像機(jī)參數(shù)具有最佳表征,說(shuō)明模型在早期階段隱式地注入了攝像機(jī)位置信息,并利用后續(xù)層指導(dǎo)其他視覺元素生成。

基于此發(fā)現(xiàn),AC3D 將攝像機(jī)條件注入限制在前 8 層,從而減少了對(duì)其他視覺特征表征的干擾,顯著提升了訓(xùn)練速度和生成質(zhì)量。

圖片

(3)分析 3:數(shù)據(jù)集偏見的分析

傳統(tǒng)的具有相機(jī)參數(shù)的視頻數(shù)據(jù)集(如 RealEstate10k)幾乎只有靜態(tài)場(chǎng)景。這種靜態(tài)場(chǎng)景視頻導(dǎo)致模型難以區(qū)分?jǐn)z像機(jī)運(yùn)動(dòng)與場(chǎng)景運(yùn)動(dòng),也使得網(wǎng)絡(luò)過(guò)擬合到靜態(tài)分布上,從而降低了生成視頻中文運(yùn)動(dòng)場(chǎng)景的質(zhì)量。然而,在動(dòng)態(tài)視頻中預(yù)測(cè)攝像機(jī)運(yùn)動(dòng)依然沒有很好的開源解決方案。研究者另辟蹊徑,構(gòu)建了一個(gè)包含 20,000 個(gè)動(dòng)態(tài)場(chǎng)景但使用靜態(tài)攝像機(jī)拍攝的數(shù)據(jù)集。

這種混合動(dòng)態(tài)場(chǎng)景靜態(tài)攝像機(jī)與靜態(tài)場(chǎng)景動(dòng)態(tài)攝像機(jī)的數(shù)據(jù)集,顯著改善了模型的學(xué)習(xí)效果。訓(xùn)練后,模型更能分離攝像機(jī)運(yùn)動(dòng)和場(chǎng)景運(yùn)動(dòng),從而生成更加真實(shí)且動(dòng)態(tài)的視頻。

攝像機(jī)控制方法

為實(shí)現(xiàn)攝像機(jī)控制,研究者將 ControlNet 模塊與 VDiT 結(jié)合,形成了 VDiT-CC(VDiT with Camera Control)。具體方法:

1. 用 Plücker 相機(jī)表征,通過(guò)全卷積編碼器對(duì)攝像機(jī)軌跡進(jìn)行編碼;

2. 使用輕量化的 128 維 DiT-XS 模塊處理攝像機(jī)編碼,并類似 ControlNet 直接將攝像機(jī)特征加入到視頻特征中進(jìn)行融合;

3. 只在 256x256 的分辨率中訓(xùn)練攝像機(jī)運(yùn)動(dòng)注入,因?yàn)檠芯空甙l(fā)現(xiàn)攝像機(jī)運(yùn)動(dòng)屬于一種低頻信息。在低分辨率中訓(xùn)練也可以推理在推理高分辨率時(shí)實(shí)現(xiàn)精準(zhǔn)相機(jī)控制。

4. 調(diào)整訓(xùn)練和推理時(shí)的攝像機(jī)條件調(diào)度,僅覆蓋逆擴(kuò)散軌跡的前 40%。這種噪聲調(diào)節(jié)平均將 FID 和 FVD 指標(biāo)提升了 14%,并使攝像機(jī)跟蹤能力在 MSR-VTT 數(shù)據(jù)集上提高了 30%(該數(shù)據(jù)集用于評(píng)估模型對(duì)多樣化、超出微調(diào)分布場(chǎng)景的泛化能力)。此外,這種方法還增強(qiáng)了整體場(chǎng)景的運(yùn)動(dòng)性,我們?cè)趯?shí)驗(yàn)中對(duì)其進(jìn)行了定性驗(yàn)證。

5. 僅在前 8 個(gè) DiT 塊中注入攝像機(jī)信息,而將后續(xù)的 24 個(gè) DiT 塊保持無(wú)條件狀態(tài)。這種設(shè)計(jì)能夠避免攝像機(jī)信息與后續(xù)層的其他特征表征產(chǎn)生干擾,同時(shí)顯著減少訓(xùn)練復(fù)雜度,提高模型的生成效率和質(zhì)量。

其他改進(jìn):為了進(jìn)一步提升模型的性能和攝像機(jī)控制能力,研究者引入了以下創(chuàng)新:

1. 一維時(shí)間編碼器:通過(guò)因果卷積,將高分辨率攝像機(jī)軌跡數(shù)據(jù)轉(zhuǎn)換為低分辨率表示。

2. 分離文本與攝像機(jī)引導(dǎo):為文本和攝像機(jī)信號(hào)獨(dú)立設(shè)計(jì)引導(dǎo)機(jī)制,分別調(diào)整每種輸入類型的權(quán)重。

3.ControlNet 反饋機(jī)制:通過(guò)交叉注意力,從視頻向攝像機(jī)提供反饋,優(yōu)化攝像機(jī)表示。

4. 移除攝像機(jī)分支的上下文信息:消除上下文干擾,提高對(duì)攝像機(jī)軌跡的追蹤能力。

通過(guò)這些方法,AC3D 在攝像機(jī)控制效率和生成質(zhì)量上取得了顯著突破,為高質(zhì)量的文本生成視頻提供了新的技術(shù)基準(zhǔn)。

圖片

模型結(jié)果

研究者展示了一系列提示詞,不同攝像機(jī)軌跡下的可控視頻生成(總時(shí)長(zhǎng) 40 秒),通過(guò)這些視頻可以直觀地觀察 AC3D 在攝像機(jī)控制上的表現(xiàn)。

Prompts:

1. 在一個(gè)藝術(shù)工作室中,一只戴著貝雷帽的貓正在小畫布上作畫。

2. 在一個(gè)未來(lái)廚房中,宇航員熟練地用平底鍋烹飪。

3. 在一個(gè)舒適的廚房里,一只泰迪熊認(rèn)真地洗碗。

4. 在一個(gè)熱帶海灘上,一只金毛獵犬坐在沙灘上,興奮地吃著冰淇淋。

5. 在公園的長(zhǎng)椅上,一只松鼠用小爪子抓著一個(gè)多汁的漢堡,悠閑地吃著。

6. 在一個(gè)溫馨的咖啡館里,一只水獺熟練地操作著濃縮咖啡機(jī)。

7. 在一個(gè)別致的城市廚房里,一只戴著小廚師帽的貓正在揉面團(tuán)。

8. 在廚房里,一名宇航員正在用平底鍋烹飪。

9. 在一個(gè)未來(lái)感十足的東京天臺(tái)上,一只戴著耳機(jī)的機(jī)械考拉在混音。

10. 穿著正式服裝的貓坐在棋盤旁,專注于下一步棋局策略。

11. 在一個(gè)廢墟中,一名孤獨(dú)的機(jī)器人正在尋找可利用的材料。

12. 穿著文藝復(fù)興服飾的小老鼠正優(yōu)雅地吃著一塊奶酪。

總結(jié)

AC3D 對(duì)視頻擴(kuò)散模型中的攝像機(jī)運(yùn)動(dòng)進(jìn)行系統(tǒng)性分析, 從而顯著提升控制的精度和效率。通過(guò)改進(jìn)條件調(diào)度、針對(duì)特定層的攝像機(jī)控制以及更精確校準(zhǔn)的訓(xùn)練數(shù)據(jù),模型在三維攝像機(jī)控制視頻合成方面達(dá)到了最先進(jìn)的性能,同時(shí)保持了高視覺質(zhì)量和自然的場(chǎng)景動(dòng)態(tài)。這項(xiàng)工作為文本生成視頻中更精準(zhǔn)和高效的攝像機(jī)控制奠定了基礎(chǔ)。未來(lái)的研究將專注于進(jìn)一步克服數(shù)據(jù)局限性,并開發(fā)適用于訓(xùn)練分布范圍外攝像機(jī)軌跡的控制機(jī)制。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-27 09:24:16

2024-10-28 07:30:00

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-12-31 07:15:00

2025-01-14 09:24:46

2023-02-20 09:58:35

模型3D

2024-12-26 00:51:38

2023-06-13 09:33:37

視頻阿里巴巴

2024-07-31 15:30:05

2023-09-21 12:33:31

3DAI

2023-04-03 10:04:44

開源模型

2024-03-25 00:30:00

AI框架

2025-01-26 10:50:00

模型視頻生成

2024-09-23 15:40:00

2020-05-28 17:25:08

安防AI機(jī)器視覺華為

2024-10-16 14:10:00

AI視頻生成

2024-10-22 09:40:00

模型生成

2024-08-14 16:30:00

3D AIGC

2022-10-25 10:32:56

人工智能攝像機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)