自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="xuwjz"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

拖拽下圖像就能生成視頻，中科大、微軟等DragNUWA屬實(shí)驚艷

作者：機(jī)器之心 2023-08-21 13:49:00

人工智能新聞

來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)、微軟亞研和北京大學(xué)的研究者提出了一種基于開(kāi)放域擴(kuò)散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語(yǔ)義、空間和時(shí)間三個(gè)角度實(shí)現(xiàn)了對(duì)視頻內(nèi)容的細(xì)粒度控制。

隨著 ChatGPT、GPT-4、LLaMa 等模型的問(wèn)世，人們?cè)絹?lái)越關(guān)注生成式模型的發(fā)展。相比于日漸成熟的文本生成和圖像生成，視頻、語(yǔ)音等模態(tài)的 AI 生成還面臨著較大的挑戰(zhàn)。

現(xiàn)有可控視頻生成工作主要存在兩個(gè)問(wèn)題：首先，大多數(shù)現(xiàn)有工作基于文本、圖像或軌跡來(lái)控制視頻的生成，無(wú)法實(shí)現(xiàn)視頻的細(xì)粒度控制；其次，軌跡控制研究仍處于早期階段，大多數(shù)實(shí)驗(yàn)都是在 Human3.6M 等簡(jiǎn)單數(shù)據(jù)集上進(jìn)行的，這種約束限制了模型有效處理開(kāi)放域圖像和復(fù)雜彎曲軌跡的能力。

基于此，來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)、微軟亞研和北京大學(xué)的研究者提出了一種基于開(kāi)放域擴(kuò)散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語(yǔ)義、空間和時(shí)間三個(gè)角度實(shí)現(xiàn)了對(duì)視頻內(nèi)容的細(xì)粒度控制。

論文地址：https://arxiv.org/abs/2308.08089

以拖動(dòng)（drag）的方式給出運(yùn)動(dòng)軌跡，DragNUWA 就能讓圖像中的物體對(duì)象按照該軌跡移動(dòng)位置，并且可以直接生成連貫的視頻。例如，讓兩個(gè)滑滑板的小男孩按要求路線(xiàn)滑行：

還可以「變換」靜態(tài)景物圖像的相機(jī)位置和角度：

方法簡(jiǎn)介

該研究認(rèn)為文本、圖像、軌跡這三種類(lèi)型的控制是缺一不可的，因?yàn)樗鼈兏髯杂兄趶恼Z(yǔ)義、空間和時(shí)間角度控制視頻內(nèi)容。如下圖 1 所示，僅文本和圖像的組合不足以傳達(dá)視頻中存在的復(fù)雜運(yùn)動(dòng)細(xì)節(jié)，這可以用軌跡信息來(lái)補(bǔ)充；僅圖像和軌跡組合無(wú)法充分表征視頻中的未來(lái)物體，文本控制可以彌補(bǔ)這一點(diǎn)；在表達(dá)抽象概念時(shí)，僅依賴(lài)軌跡和文本可能會(huì)導(dǎo)致歧義，圖像控制可以提供必要的區(qū)別。

DragNUWA 是一種端到端的視頻生成模型，它無(wú)縫集成了三個(gè)基本控件 —— 文本、圖像和軌跡，提供強(qiáng)大且用戶(hù)友好的可控性，從語(yǔ)義、空間和時(shí)間角度對(duì)視頻內(nèi)容進(jìn)行細(xì)粒度控制。

為了解決當(dāng)前研究中有限的開(kāi)放域軌跡控制問(wèn)題，該研究重點(diǎn)關(guān)注三個(gè)方面的軌跡建模：

使用軌跡采樣器（Trajectory Sampler，TS）在訓(xùn)練期間直接從開(kāi)放域視頻流中采樣軌跡，用于實(shí)現(xiàn)任意軌跡的開(kāi)放域控制；
使用多尺度融合（Multiscale Fusion，MF）將軌跡下采樣到各種尺度，并將其與 UNet 架構(gòu)每個(gè)塊內(nèi)的文本和圖像深度集成，用于控制不同粒度的軌跡；
采用自適應(yīng)訓(xùn)練（Adaptive Training，AT）策略，以密集流為初始條件來(lái)穩(wěn)定視頻生成，然后在稀疏軌跡上進(jìn)行訓(xùn)練以適應(yīng)模型，最終生成穩(wěn)定且連貫的視頻。

實(shí)驗(yàn)及結(jié)果

該研究用大量實(shí)驗(yàn)來(lái)驗(yàn)證 DragNUWA 的有效性，實(shí)驗(yàn)結(jié)果展示了其在視頻合成細(xì)粒度控制方面的卓越性能。

與現(xiàn)有專(zhuān)注于文本或圖像控制的研究不同，DragNUWA 主要強(qiáng)調(diào)建模軌跡控制。為了驗(yàn)證軌跡控制的有效性，該研究從相機(jī)運(yùn)動(dòng)和復(fù)雜軌跡兩個(gè)方面測(cè)試了 DragNUWA。

如下圖 4 所示，DragNUWA 雖然沒(méi)有明確地對(duì)相機(jī)運(yùn)動(dòng)進(jìn)行建模，但它從開(kāi)放域軌跡的建模中學(xué)習(xí)了各種相機(jī)運(yùn)動(dòng)。

為了評(píng)估 DragNUWA 對(duì)復(fù)雜運(yùn)動(dòng)的精確建模能力，該研究使用相同的圖像和文本對(duì)各種復(fù)雜的拖動(dòng)（drag）軌跡進(jìn)行了測(cè)試。如下圖 5 所示，實(shí)驗(yàn)結(jié)果表明 DragNUWA 能夠可靠地控制復(fù)雜運(yùn)動(dòng)。

此外，DragNUWA 雖然主要強(qiáng)調(diào)軌跡控制建模，但也融合了文本和圖像控制。研究團(tuán)隊(duì)認(rèn)為，文本、圖像和軌跡分別對(duì)應(yīng)視頻的三個(gè)基本控制方面：語(yǔ)義、空間和時(shí)間。下圖 6 通過(guò)展示文本（p）、軌跡（g）和圖像（s）的不同組合（包括 s2v、p2v、gs2v、ps2v 和 pgs2v）說(shuō)明了這些控制條件的必要性。

感興趣的讀者可以閱讀論文原文，了解更多研究?jī)?nèi)容。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

圖像技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="zpn6b"></sub>

<sup id="zpn6b"><p id="zpn6b"></p></sup>