自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AIGC時代的視頻擴散模型,復旦等團隊發(fā)布領域首篇綜述

人工智能 新聞
近期,復旦大學視覺與學習實驗室聯(lián)合微軟、華為等學術機構發(fā)布了首個關于擴散模型在視頻任務工作的綜述,系統(tǒng)梳理了擴散模型在視頻生成、視頻編輯以及視頻理解等方向的學術前沿成果。

AI 生成內容已經成為當前人工智能領域的最熱門話題之一,也代表著該領域的前沿技術。近年來,隨著 Stable Diffusion、DALL-E3、ControlNet 等新技術的發(fā)布,AI 圖像生成和編輯領域實現了令人驚艷的視覺效果,并且在學術界和工業(yè)界都受到了廣泛關注和探討。這些方法大多基于擴散模型,而這正是它們能夠實現強大可控生成、照片級生成以及多樣性的關鍵所在。

然而,與簡單的靜態(tài)圖像相比,視頻具有更為豐富的語義信息和動態(tài)變化。視頻能夠展示實物的動態(tài)演變過程,因此在視頻生成和編輯領域的需求和挑戰(zhàn)更為復雜。盡管在這個領域,受限于標注數據和計算資源的限制,視頻生成的研究一直面臨困難,但是一些代表性的研究工作,比如 Make-A-Video、Imagen Video 和 Gen-2 等方法,已經開始逐漸占據主導地位。

這些研究工作引領著視頻生成和編輯技術的發(fā)展方向。研究數據顯示,自從 2022 年以來,關于擴散模型在視頻任務上的研究工作呈現出爆炸式增長的態(tài)勢。這種趨勢不僅體現了視頻擴散模型在學術界和工業(yè)界的受歡迎程度,同時也凸顯了該領域的研究者們對于視頻生成技術不斷突破和創(chuàng)新的迫切需求。

圖片


近期,復旦大學視覺與學習實驗室聯(lián)合微軟、華為等學術機構發(fā)布了首個關于擴散模型在視頻任務工作的綜述,系統(tǒng)梳理了擴散模型在視頻生成、視頻編輯以及視頻理解等方向的學術前沿成果。

圖片

  • 論文鏈接:https://arxiv.org/abs/2310.10647
  • 主頁鏈接:https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

視頻生成

圖片

基于文本的視頻生成:自然語言作為輸入的視頻生成是視頻生成領域最為重要的任務之一。作者首先回顧了擴散模型提出之前該領域的研究成果,然后分別介紹了基于訓練的和無需訓練的文本 - 視頻生成模型。

圖片

Christmas tree holiday celebration winter snow animation.

基于其他條件的視頻生成:細分領域的視頻生成工作。作者將它們歸類為基于以下的條件:姿勢(pose-guided)、動作(motion-guided)、聲音(sound-guided)、圖像(image-guided)、深度圖(depth-guided)等。

圖片


圖片

無條件的視頻生成:該任務指的是在特定領域中無需輸入條件的視頻生成,作者根據模型架構主要分為基于 U-Net 和基于 Transformer 的生成模型。

視頻補全:主要包括視頻增強和恢復、視頻預測等任務。

數據集:視頻生成任務所用到的數據集可分為以下兩類:

1.Caption-level:每個視頻都有與之對應的文本描述信息,最具代表性的就是 WebVid10M 數據集。

2.Category-level:視頻只有分類標簽而沒有文本描述信息,UCF-101 是目前在視頻生成、視頻預測等任務上最常用的數據集。

評價指標與結果對比:視頻生成的評價指標主要分為質量層面的評價指標和定量層面的評價指標,質量層面的評價指標主要是基于人工主觀打分的方式,而定量層面的評價指標又可以分為:

1. 圖像層面的評價指標:視頻是由一系列的圖像幀所組成的,因此圖像層面的評估方式基本上參照 T2I 模型的評價指標。

2. 視頻層面的評價指標:相比于圖像層面的評價指標更偏向于逐幀的衡量,視頻層面的評價指標能夠衡量生成視頻的時序連貫性等方面。

此外,作者還將前述提到的生成模型在基準數據集上的評價指標進行了橫向比較。

圖片

視頻編輯

通過對許多研究的梳理,作者發(fā)現視頻編輯任務的核心目標在于實現:

1. 保真度(fidelity):編輯后的視頻的對應幀應當與原視頻在內容上保持一致。

2. 對齊性(alignment):編輯后的視頻需要和輸入的條件保持對齊。

3. 高質量(high quality):編輯后的視頻應當是連貫且高質量的。

圖片

基于文本的視頻編輯:考慮到現有文本 - 視頻數據規(guī)模有限,目前大多數基于文本的視頻編輯任務都傾向于利用預訓練的 T2I 模型,在此基礎上解決視頻幀的連貫性和語義不一致性等問題。作者進一步將此類任務細分為基于訓練的(training-based)、無需訓練的(training-free)和一次性調優(yōu)的(one-shot tuned)方法,分別加以總結。

圖片


圖片

基于其他條件的視頻編輯:隨著大模型時代的到來,除了最為直接的自然語言信息作為條件的視頻編輯,由指令、聲音、動作、多模態(tài)等作為條件的視頻編輯正受到越來越多的關注,作者也對相應的工作進行了分類梳理。

圖片

特定細分領域的視頻編輯:一些工作關注到在特定領域對視頻編輯任務有特殊定制化的需求,例如視頻著色、人像視頻編輯等。

視頻理解

圖片

擴散模型在視頻領域的應用已遠不止傳統(tǒng)的視頻生成和編輯任務,它在視頻理解任務上也展現了出巨大的潛能。通過對前沿論文的追蹤,作者歸納了視頻時序分割、視頻異常檢測、視頻物體分割、文本視頻檢索、動作識別等 10 個現有的應用場景。

未來與總結

該綜述全面細致地總結了 AIGC 時代擴散模型在視頻任務上的最新研究,根據研究對象和技術特點,將百余份前沿工作進行了分類和概述,在一些經典的基準(benchmark)上對這些模型進行比較。此外,擴散模型在視頻任務領域也還有一些新的研究方向和挑戰(zhàn),如:

1. 大規(guī)模的文本 - 視頻數據集收集:T2I 模型的成功離不開數以億計高質量的文本 - 圖像數據集,同樣地,T2V 模型也需要大量無水印、高分辨率的文本 - 視頻數據作為支撐。

2. 高效的訓練和推理:視頻數據相比于圖像數據規(guī)模巨大,在訓練和推理階段所需要的算力也呈幾何倍數增加,高效的訓練和推理算法能極大地降低成本。

3. 可靠的基準和評價指標:現有視頻領域的評價指標往往在于衡量生成視頻與原視頻在分布上的差異,而未能全面衡量生成視頻的質量。同時,目前用戶測試仍然是重要的評估方式之一,考慮到其需要大量人力且主觀性強,因此迫切需要更為客觀全面的評價指標。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-09-13 15:40:56

模型分析

2022-09-13 14:54:08

模型AI

2024-12-27 13:30:00

2024-03-07 14:55:18

模型論文

2025-02-21 08:56:49

2023-09-18 08:50:51

智能模型

2021-06-11 15:02:36

模型人工智能深度學習

2024-01-16 17:17:30

模型訓練

2021-04-30 09:55:34

系統(tǒng)運維架構

2024-03-07 12:31:29

AI技術

2024-05-10 07:58:03

2009-02-04 10:58:21

華為RFC標準

2024-08-27 13:00:10

2024-05-13 10:38:08

2023-08-28 00:27:11

模型監(jiān)督

2023-04-03 15:05:00

自然語言AI

2025-02-20 11:31:31

2024-03-11 09:37:01

模型圖片編輯

2022-11-21 14:43:34

人臉復原SOTA

2024-07-01 10:19:22

點贊
收藏

51CTO技術棧公眾號