自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

只需一張圖片、一句動作指令，Animate124輕松生成3D視頻

作者：機器之心 2023-12-22 09:29:07

人工智能新聞

來自新加坡國立大學（NUS）和華為的研究團隊提出了 Animate124 模型。該模型結合單張圖片和相應的動作描述，實現(xiàn)了對 3D 視頻生成的精準控制。

近一年來，DreamFusion 引領了一個新潮流，即 3D 靜態(tài)物體與場景的生成，這在生成技術領域引發(fā)了廣泛關注?；仡欉^去一年，我們見證了 3D 靜態(tài)生成技術在質量和控制性方面的顯著進步。技術發(fā)展從基于文本的生成起步，逐漸融入單視角圖像，進而發(fā)展到整合多種控制信號。

與此相較，3D 動態(tài)場景生成仍處于起步階段。2023 年初，Meta 推出了 MAV3D，標志著首次嘗試基于文本生成 3D 視頻。然而，受限于開源視頻生成模型的缺乏，這一領域的進展相對緩慢。

然而，現(xiàn)在，基于圖文結合的 3D 視頻生成技術已經問世！

盡管基于文本的 3D 視頻生成能夠產生多樣化的內容，但在控制物體的細節(jié)和姿態(tài)方面仍有局限。在 3D 靜態(tài)生成領域，使用單張圖片作為輸入已經能夠有效重建 3D 物體。由此受到啟發(fā)，來自新加坡國立大學（NUS）和華為的研究團隊提出了 Animate124 模型。該模型結合單張圖片和相應的動作描述，實現(xiàn)了對 3D 視頻生成的精準控制。

項目主頁: https://animate124.github.io/
論文地址: https://arxiv.org/abs/2311.14603
Code: https://github.com/HeliosZhao/Animate124

核心方法

方法概括

根據(jù)靜態(tài)和動態(tài)，粗糙和精細優(yōu)化，本文將 3D 視頻生成分為了 3 個階段：1）靜態(tài)生成階段：使用文生圖和 3D 圖生圖擴散模型，從單張圖像生成 3D 物體；2）動態(tài)粗糙生成階段：使用文生視頻模型，根據(jù)語言描述優(yōu)化動作；3) 語義優(yōu)化階段：額外使用個性化微調的 ControlNet，對第二階段語言描述對外觀造成的偏移進行優(yōu)化改善。

圖 1. 整體框架

靜態(tài)生成

本文延續(xù) Magic123 的方法，使用文生圖（Stable Diffusion）和 3D 圖生圖（Zero-1-to-3）進行基于圖片的靜態(tài)物體生成：

對于條件圖片所對應的視角，額外使用損失函數(shù)進行優(yōu)化：

通過上述兩個優(yōu)化目標，得到多視角 3D 一致的靜態(tài)物體（此階段在框架圖中省略）。

動態(tài)粗糙生成

此階段主要使用文生視頻擴散模型，將靜態(tài) 3D 視為初始幀，根據(jù)語言描述生成動作。具體來說，動態(tài) 3D 模型（dynamic NeRF）渲染連續(xù)時間戳的多幀視頻，并將此視頻輸入文生視頻擴散模型，采用 SDS 蒸餾損失對動態(tài) 3D 模型進行優(yōu)化：

僅使用文生視頻的蒸餾損失會導致 3D 模型遺忘圖片的內容，并且隨機采樣會導致視頻的初始和結束階段訓練不充分。因此，本文的研究者們對開始和結束的時間戳進行過采樣。并且，在采樣初始幀時，額外使用靜態(tài)函數(shù)進行優(yōu)化（3D 圖生圖的 SDS 蒸餾損失）：

因此，此階段的損失函數(shù)為：

語義優(yōu)化

即使采用了初始幀過采樣并且對其額外監(jiān)督，在使用文生視頻擴散模型的優(yōu)化過程中，物體的外觀仍然會受到文本的影響，從而偏移參考圖片。因此，本文提出了語義優(yōu)化階段，通過個性化模型對語義偏移進行改善。

由于僅有單張圖片，無法對文生視頻模型進行個性化訓練，本文引入了基于圖文的擴散模型，并對此擴散模型進行個性化微調。此擴散模型應不改變原有視頻的內容和動作，僅對外觀進行調整。因此，本文采用 ControlNet-Tile 圖文模型，使用上一階段生成的視頻幀作為條件，根據(jù)語言進行優(yōu)化。ControlNet 基于 Stable Diffusion 模型，只需要對 Stable Diffusion 進行個性化微調（Textual Inversion），即可提取參考圖像中的語義信息。個性化微調之后，將視頻視為多幀圖像，使用 ControlNet 對單個圖像進行監(jiān)督：

另外，因為 ControlNet 使用粗糙的圖片作為條件，classifier-free guidance (CFG) 可以使用正常范圍（10 左右），而不用與文生圖以及文生視頻模型一樣使用極大的數(shù)值（通常是 100）。過大的 CFG 會導致圖像過飽和，因此，使用 ControlNet 擴散模型可以緩解過飽和現(xiàn)象，實現(xiàn)更優(yōu)的生成結果。此階段的監(jiān)督由動態(tài)階段的損失和 ControlNet 監(jiān)督聯(lián)合而成：

實驗結果

作為第一個基于圖文的 3D 視頻生成模型，本文與兩個 baseline 模型和 MAV3D 進行了比較。與其他方法相比，Animate124 有更好的效果。

可視化結果比較

圖 2. Animate124 與兩個 baseline 比較

圖 3.1. Animate124 與 MAV3D 文生 3D 視頻比較

圖 3.1. Animate124 與 MAV3D 圖生 3D 視頻比較

量化結果比較

本文使用 CLIP 和人工評價生成的質量，CLIP 指標包括與文本的相似度和檢索準確率，與圖片的相似度，以及時域一致性。人工評價指標包括與文本的相似度，與圖片的相似度，視頻質量，動作真實程度以及動作幅度。人工評價表現(xiàn)為單個模型與 Animate124 在對應指標上選擇的比例。

與兩個 baseline 模型相比，Animate124 在 CLIP 和人工評價上均取得更好的效果。

表 1. Animate124 與兩個 baseline 量化比較

總結

Animate124 是首個根據(jù)文本描述，將任意圖片變成 3D 視頻的方法。其采用多種擴散模型進行監(jiān)督和引導，優(yōu)化 4D 動態(tài)表征網絡，從而生成高質量 3D 視頻。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="zjl18"></sub>