自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

快手發(fā)布DragAnything,拖動錨點(diǎn)精準(zhǔn)控制視頻物體和鏡頭運(yùn)動,視頻運(yùn)動控制技術(shù)革命性更新

人工智能 新聞
DragAnything能夠使用實(shí)體表示實(shí)現(xiàn)真正的實(shí)體級別運(yùn)動控制。用戶可以通過繪制軌跡與SAM進(jìn)行互動。

快手聯(lián)合浙江大學(xué)、新加坡國立大學(xué)發(fā)布了DragAnything ,利用實(shí)體表示實(shí)現(xiàn)對任何物體的運(yùn)動控制。該技術(shù)可以精確控制物體的運(yùn)動,包括前景、背景和相機(jī)等不同元素。

該項(xiàng)目提供了對實(shí)體級別運(yùn)動控制的新見解,通過實(shí)體表示揭示了像素級運(yùn)動和實(shí)體級運(yùn)動之間的差異。與拖動像素范式不同,

DragAnything能夠使用實(shí)體表示實(shí)現(xiàn)真正的實(shí)體級別運(yùn)動控制。用戶可以通過繪制軌跡與SAM進(jìn)行互動。該項(xiàng)目能夠精確控制物體的運(yùn)動,生成高質(zhì)量的視頻。用戶軌跡與SAM的交互圖片

論文閱讀

圖片

  • 基于軌跡的可控生成的新見解揭示了像素級運(yùn)動和實(shí)體級運(yùn)動之間的差異。
  • DragAnything與拖動像素范例不同,它可以通過實(shí)體表示實(shí)現(xiàn)真正的實(shí)體級運(yùn)動控制。

與DragNUWA的比較

DragNUWA導(dǎo)致第一排外觀失真,第三排失控的天空和船,不正確的鏡頭運(yùn)動(第五排),而DragAnthing可以精確控制運(yùn)動。圖片

更多的可視化拖動任何東西

提出的DragAnything可以在實(shí)體級精確控制物體的運(yùn)動,產(chǎn)生高質(zhì)量的視頻。利用Co-Track實(shí)現(xiàn)了第20幀像素運(yùn)動的可視化。圖片

各種各樣的運(yùn)動控制

提出的DragAnything可以實(shí)現(xiàn)多種運(yùn)動控制,如控制前景、背景和相機(jī)。圖片

Badcase for DragNUWA

當(dāng)前模型受到基礎(chǔ)模型(穩(wěn)定視頻擴(kuò)散)的性能限制,無法生成具有非常大運(yùn)動的場景。這可能是由于運(yùn)動過度,超過了基礎(chǔ)模型的生成能力,導(dǎo)致視頻質(zhì)量崩潰。圖片

摘要

我們提出了DragAnything,它利用實(shí)體表示來實(shí)現(xiàn)可控視頻生成中任何對象的運(yùn)動控制。與現(xiàn)有的運(yùn)動控制方法相比,DragAnything具有幾個(gè)優(yōu)勢。首先,基于軌跡的交互更人性化,當(dāng)獲取其他指導(dǎo)信號(例如,掩碼、深度圖)是勞動密集型時(shí)。用戶只需要在交互過程中畫一條線(軌跡)。其次,我們的實(shí)體表示作為一個(gè)開放域嵌入,能夠表示任何對象,使包括背景在內(nèi)的各種實(shí)體的運(yùn)動控制成為可能。最后,我們的實(shí)體表示允許對多個(gè)對象進(jìn)行同時(shí)和不同的運(yùn)動控制。廣泛的實(shí)驗(yàn)表明,我們的方法在FVD、FID和用戶研究方面取得了最先進(jìn)的性能,特別是在對象運(yùn)動控制方面,我們的方法在人工投票中超過了以前的方法(例如,DragNUWA)26%。

動機(jī)

圖片

啟示1

物體上的軌跡點(diǎn)不能代表實(shí)體。從DragUNWA的像素運(yùn)動軌跡可以看出,拖動云的像素點(diǎn)并不會導(dǎo)致云移動,相反,它會導(dǎo)致攝像機(jī)向上移動。這表明模型無法感知我們控制云的意圖,這意味著單個(gè)點(diǎn)不能代表云。

啟示2

對于軌跡點(diǎn)表示范式,靠近拖動點(diǎn)的像素受到的影響更大,導(dǎo)致更大的運(yùn)動。通過比較,我們觀察到在DragNUWA合成的視頻中,靠近拖動點(diǎn)的像素表現(xiàn)出更大的運(yùn)動。然而,我們期望的是物體按照提供的軌跡作為一個(gè)整體移動,而不是單個(gè)像素的運(yùn)動。

圖片

方法

圖片該體系結(jié)構(gòu)包括兩個(gè)部分:

  • 實(shí)體語義表示抽取。基于實(shí)體掩碼指標(biāo)提取擴(kuò)散模型的潛在特征作為對應(yīng)的實(shí)體表示。
  • DragAnything的主框架。利用相應(yīng)的實(shí)體表示和二維高斯表示來控制實(shí)體的運(yùn)動。
責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2025-03-27 09:24:16

2023-12-20 15:26:13

AI谷歌

2024-06-06 16:17:00

2010-06-28 11:20:10

思科無線技術(shù)

2020-04-01 23:19:56

聯(lián)網(wǎng)汽車物聯(lián)網(wǎng)IOT

2022-03-14 11:32:46

視頻安全紅外傳感器智能檢測

2012-08-22 09:40:41

2009-07-07 22:47:55

2013-12-09 15:57:52

存儲

2024-07-15 12:27:08

2010-08-16 10:39:59

虛擬化

2013-08-02 10:17:38

2016-10-19 13:18:28

數(shù)據(jù)驅(qū)動分析

2023-02-20 15:11:14

物聯(lián)網(wǎng)數(shù)字經(jīng)濟(jì)

2022-05-30 22:51:53

物聯(lián)網(wǎng)技術(shù)革命網(wǎng)絡(luò)泡沫

2024-10-31 11:03:06

C#橢圓運(yùn)動緩沖

2022-08-10 16:56:30

StreamLak快手

2020-12-08 17:15:27

數(shù)據(jù)中心云計(jì)算IT

2012-03-07 09:10:49

Windows 8微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號