自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strike id="2rfk1"></strike>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

快手發(fā)布DragAnything，拖動錨點(diǎn)精準(zhǔn)控制視頻物體和鏡頭運(yùn)動，視頻運(yùn)動控制技術(shù)革命性更新

作者：AIGC Studio 2025-02-05 10:30:00

人工智能新聞

DragAnything能夠使用實(shí)體表示實(shí)現(xiàn)真正的實(shí)體級別運(yùn)動控制。用戶可以通過繪制軌跡與SAM進(jìn)行互動。

快手聯(lián)合浙江大學(xué)、新加坡國立大學(xué)發(fā)布了DragAnything ，利用實(shí)體表示實(shí)現(xiàn)對任何物體的運(yùn)動控制。該技術(shù)可以精確控制物體的運(yùn)動，包括前景、背景和相機(jī)等不同元素。

該項(xiàng)目提供了對實(shí)體級別運(yùn)動控制的新見解，通過實(shí)體表示揭示了像素級運(yùn)動和實(shí)體級運(yùn)動之間的差異。與拖動像素范式不同，

DragAnything能夠使用實(shí)體表示實(shí)現(xiàn)真正的實(shí)體級別運(yùn)動控制。用戶可以通過繪制軌跡與SAM進(jìn)行互動。該項(xiàng)目能夠精確控制物體的運(yùn)動，生成高質(zhì)量的視頻。用戶軌跡與SAM的交互

論文閱讀

基于軌跡的可控生成的新見解揭示了像素級運(yùn)動和實(shí)體級運(yùn)動之間的差異。
DragAnything與拖動像素范例不同，它可以通過實(shí)體表示實(shí)現(xiàn)真正的實(shí)體級運(yùn)動控制。

與DragNUWA的比較

DragNUWA導(dǎo)致第一排外觀失真，第三排失控的天空和船，不正確的鏡頭運(yùn)動(第五排)，而DragAnthing可以精確控制運(yùn)動。

更多的可視化拖動任何東西

提出的DragAnything可以在實(shí)體級精確控制物體的運(yùn)動，產(chǎn)生高質(zhì)量的視頻。利用Co-Track實(shí)現(xiàn)了第20幀像素運(yùn)動的可視化。

各種各樣的運(yùn)動控制

提出的DragAnything可以實(shí)現(xiàn)多種運(yùn)動控制，如控制前景、背景和相機(jī)。

Badcase for DragNUWA

當(dāng)前模型受到基礎(chǔ)模型(穩(wěn)定視頻擴(kuò)散)的性能限制，無法生成具有非常大運(yùn)動的場景。這可能是由于運(yùn)動過度，超過了基礎(chǔ)模型的生成能力，導(dǎo)致視頻質(zhì)量崩潰。

摘要

我們提出了DragAnything，它利用實(shí)體表示來實(shí)現(xiàn)可控視頻生成中任何對象的運(yùn)動控制。與現(xiàn)有的運(yùn)動控制方法相比，DragAnything具有幾個(gè)優(yōu)勢。首先，基于軌跡的交互更人性化，當(dāng)獲取其他指導(dǎo)信號(例如，掩碼、深度圖)是勞動密集型時(shí)。用戶只需要在交互過程中畫一條線(軌跡)。其次，我們的實(shí)體表示作為一個(gè)開放域嵌入，能夠表示任何對象，使包括背景在內(nèi)的各種實(shí)體的運(yùn)動控制成為可能。最后，我們的實(shí)體表示允許對多個(gè)對象進(jìn)行同時(shí)和不同的運(yùn)動控制。廣泛的實(shí)驗(yàn)表明，我們的方法在FVD、FID和用戶研究方面取得了最先進(jìn)的性能，特別是在對象運(yùn)動控制方面，我們的方法在人工投票中超過了以前的方法(例如，DragNUWA)26%。

動機(jī)

啟示1

物體上的軌跡點(diǎn)不能代表實(shí)體。從DragUNWA的像素運(yùn)動軌跡可以看出，拖動云的像素點(diǎn)并不會導(dǎo)致云移動，相反，它會導(dǎo)致攝像機(jī)向上移動。這表明模型無法感知我們控制云的意圖，這意味著單個(gè)點(diǎn)不能代表云。

啟示2

對于軌跡點(diǎn)表示范式，靠近拖動點(diǎn)的像素受到的影響更大，導(dǎo)致更大的運(yùn)動。通過比較，我們觀察到在DragNUWA合成的視頻中，靠近拖動點(diǎn)的像素表現(xiàn)出更大的運(yùn)動。然而，我們期望的是物體按照提供的軌跡作為一個(gè)整體移動，而不是單個(gè)像素的運(yùn)動。

方法

該體系結(jié)構(gòu)包括兩個(gè)部分:

實(shí)體語義表示抽取。基于實(shí)體掩碼指標(biāo)提取擴(kuò)散模型的潛在特征作為對應(yīng)的實(shí)體表示。
DragAnything的主框架。利用相應(yīng)的實(shí)體表示和二維高斯表示來控制實(shí)體的運(yùn)動。

責(zé)任編輯：張燕妮來源： AIGC Studio

模型訓(xùn)練數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="srae3"><rp id="srae3"></rp></style>

<p id="srae3"></p>

<cite id="srae3"><track id="srae3"><sub id="srae3"></sub></track></cite>

<sub id="srae3"></sub>