自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用AI短視頻「反哺」長(zhǎng)視頻理解,騰訊MovieLLM框架瞄準(zhǔn)電影級(jí)連續(xù)幀生成

人工智能 新聞
騰訊和復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出了 MovieLLM,一個(gè)創(chuàng)新性的 AI 生成框架。MovieLLM 采用了創(chuàng)新性的方法,不僅可以生成高質(zhì)量、多樣化的視頻數(shù)據(jù),而且能自動(dòng)生成大量與之相關(guān)的問答數(shù)據(jù)集,極大地豐富了數(shù)據(jù)的維度和深度,同時(shí)整個(gè)自動(dòng)化的過程也極大地減少了人力的投入。

在視頻理解這一領(lǐng)域,盡管多模態(tài)模型在短視頻分析上取得了突破性進(jìn)展,展現(xiàn)出了較強(qiáng)的理解能力,但當(dāng)它們面對(duì)電影級(jí)別的長(zhǎng)視頻時(shí),卻顯得力不從心。因而,長(zhǎng)視頻的分析與理解,特別是對(duì)于長(zhǎng)達(dá)數(shù)小時(shí)電影內(nèi)容的理解,成為了當(dāng)前的一個(gè)巨大挑戰(zhàn)。

究其原因,導(dǎo)致模型理解長(zhǎng)視頻困難的一個(gè)主要原因是缺乏高質(zhì)量、多樣化的長(zhǎng)視頻數(shù)據(jù)資源,而且收集和注釋這些數(shù)據(jù)需要龐大的工作量。

面對(duì)這樣的難題, 騰訊和復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出了 MovieLLM,一個(gè)創(chuàng)新性的 AI 生成框架。MovieLLM 采用了創(chuàng)新性的方法,不僅可以生成高質(zhì)量、多樣化的視頻數(shù)據(jù),而且能自動(dòng)生成大量與之相關(guān)的問答數(shù)據(jù)集,極大地豐富了數(shù)據(jù)的維度和深度,同時(shí)整個(gè)自動(dòng)化的過程也極大地減少了人力的投入。

  • 論文地址:https://arxiv.org/abs/2403.01422
  • 主頁地址:https://deaddawn.github.io/MovieLLM/

這一突破性的進(jìn)展不僅提高了模型對(duì)復(fù)雜視頻敘事的理解能力,還增強(qiáng)了模型針對(duì)長(zhǎng)達(dá)數(shù)小時(shí)電影內(nèi)容的分析能力,克服了現(xiàn)有數(shù)據(jù)集在稀缺性和偏差方面的限制,為超長(zhǎng)視頻的理解提供了一條全新而有效的思路。

MovieLLM 巧妙地結(jié)合了 GPT-4 與擴(kuò)散模型強(qiáng)大的生成能力,應(yīng)用了一種「story expanding」連續(xù)幀描述生成策略,并通過「textual inversion」來引導(dǎo)擴(kuò)散模型生成場(chǎng)景一致的圖片來構(gòu)造出一部完整電影的連續(xù)幀。

方法概述

MovieLLM 巧妙地結(jié)合了 GPT-4 與擴(kuò)散模型強(qiáng)大的生成能力,構(gòu)造了高質(zhì)量、多樣性的長(zhǎng)視頻數(shù)據(jù)與 QA 問答來幫助增強(qiáng)大模型對(duì)長(zhǎng)視頻的理解。

MovieLLM 主要包括三個(gè)階段:

1. 電影情節(jié)生成。

MovieLLM 不依賴于網(wǎng)絡(luò)或現(xiàn)有數(shù)據(jù)集來生成情節(jié),而是充分利用 GPT-4 的能力來產(chǎn)生合成數(shù)據(jù)。通過提供特定的元素,如主題、概述和風(fēng)格,引導(dǎo) GPT-4 產(chǎn)生針對(duì)后續(xù)生成過程量身定制的電影級(jí)關(guān)鍵幀描述。

2. 風(fēng)格固定過程。

MovieLLM 巧妙地使用「textual inversion」技術(shù),將劇本中生成的風(fēng)格描述固定到擴(kuò)散模型的潛在空間上。這種方法指導(dǎo)模型在保持統(tǒng)一美學(xué)的同時(shí),生成具有固定風(fēng)格的場(chǎng)景,并保持多樣性。

3. 視頻指令數(shù)據(jù)生成。

在前兩步的基礎(chǔ)上,已經(jīng)獲得了固定的風(fēng)格嵌入和關(guān)鍵幀描述?;谶@些,MovieLLM 利用風(fēng)格嵌入指導(dǎo)擴(kuò)散模型生成符合關(guān)鍵幀描述的關(guān)鍵幀并根據(jù)電影情節(jié)逐步生成各種指令性問答對(duì)。

經(jīng)過上述步驟,MovieLLM 就創(chuàng)建了高質(zhì)量、風(fēng)格多樣的、連貫的電影連續(xù)幀以及對(duì)應(yīng)的問答對(duì)數(shù)據(jù)。電影數(shù)據(jù)種類的詳細(xì)分布如下:

實(shí)驗(yàn)結(jié)果

通過在 LLaMA-VID 這一專注于長(zhǎng)視頻理解的大模型上應(yīng)用基于 MovieLLM 構(gòu)造的數(shù)據(jù)進(jìn)行微調(diào),本文顯著增強(qiáng)了模型處理各種長(zhǎng)度視頻內(nèi)容的理解能力。而針對(duì)于長(zhǎng)視頻理解,當(dāng)前并沒有工作提出測(cè)試基準(zhǔn),因此本文還提出了一個(gè)測(cè)試長(zhǎng)視頻理解能力的基準(zhǔn)。

雖然 MovieLLM 并沒有特別地去構(gòu)造短視頻數(shù)據(jù)進(jìn)行訓(xùn)練,但通過訓(xùn)練,仍然觀察到了在各類短視頻基準(zhǔn)上的性能提升,結(jié)果如下:

在 MSVD-QA 與 MSRVTT-QA 這兩個(gè)測(cè)試數(shù)據(jù)集上相較于 baseline 模型,有顯著提升。

在基于視頻生成的性能基準(zhǔn)上,在五個(gè)測(cè)評(píng)方面都獲得了性能提升。

圖片

在長(zhǎng)視頻理解方面,通過 MovieLLM 的訓(xùn)練,模型在概括、劇情以及時(shí)序三個(gè)方面的理解都有顯著提升。

圖片

此外,MovieLLM 相較于其他類似的可固定風(fēng)格生成圖片的方法,在生成質(zhì)量上也有著較好的結(jié)果。

圖片

總之,MovieLLM 所提出的數(shù)據(jù)生成工作流程顯著降低了為模型生產(chǎn)電影級(jí)視頻數(shù)據(jù)的挑戰(zhàn)難度,提高了生成內(nèi)容的控制性和多樣性。同時(shí),MovieLLM 顯著增強(qiáng)了多模態(tài)模型對(duì)于電影級(jí)長(zhǎng)視頻的理解能力,為其他領(lǐng)域采納類似的數(shù)據(jù)生成方法提供了寶貴的參考。

對(duì)此研究感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-08-15 08:36:20

ChatGPT模型

2024-07-15 08:58:00

2022-04-15 15:46:06

數(shù)據(jù)視頻技術(shù)

2025-04-22 09:17:00

模型生成開源

2023-08-28 00:22:42

AI工具

2025-01-26 10:50:00

模型視頻生成

2025-04-10 15:44:47

2024-12-10 15:30:00

AI模型

2024-10-28 07:30:00

2021-09-07 16:15:07

微信視頻號(hào)移動(dòng)應(yīng)用

2025-02-19 11:28:00

2013-12-20 09:50:01

2018-02-25 17:09:30

視頻AI圖像

2024-07-30 13:42:57

2018-12-17 16:34:02

華為云

2024-06-13 13:54:52

2019-12-23 09:27:43

Python短視頻視頻

2024-07-25 13:04:21

2023-12-13 13:49:00

模型訓(xùn)練

2024-07-08 08:47:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)