快手發(fā)布DragAnything,拖動錨點(diǎn)精準(zhǔn)控制視頻物體和鏡頭運(yùn)動,視頻運(yùn)動控制技術(shù)革命性更新
快手聯(lián)合浙江大學(xué)、新加坡國立大學(xué)發(fā)布了DragAnything ,利用實(shí)體表示實(shí)現(xiàn)對任何物體的運(yùn)動控制。該技術(shù)可以精確控制物體的運(yùn)動,包括前景、背景和相機(jī)等不同元素。
該項(xiàng)目提供了對實(shí)體級別運(yùn)動控制的新見解,通過實(shí)體表示揭示了像素級運(yùn)動和實(shí)體級運(yùn)動之間的差異。與拖動像素范式不同,
DragAnything能夠使用實(shí)體表示實(shí)現(xiàn)真正的實(shí)體級別運(yùn)動控制。用戶可以通過繪制軌跡與SAM進(jìn)行互動。該項(xiàng)目能夠精確控制物體的運(yùn)動,生成高質(zhì)量的視頻。用戶軌跡與SAM的交互
論文閱讀
- 基于軌跡的可控生成的新見解揭示了像素級運(yùn)動和實(shí)體級運(yùn)動之間的差異。
- DragAnything與拖動像素范例不同,它可以通過實(shí)體表示實(shí)現(xiàn)真正的實(shí)體級運(yùn)動控制。
與DragNUWA的比較
DragNUWA導(dǎo)致第一排外觀失真,第三排失控的天空和船,不正確的鏡頭運(yùn)動(第五排),而DragAnthing可以精確控制運(yùn)動。
更多的可視化拖動任何東西
提出的DragAnything可以在實(shí)體級精確控制物體的運(yùn)動,產(chǎn)生高質(zhì)量的視頻。利用Co-Track實(shí)現(xiàn)了第20幀像素運(yùn)動的可視化。
各種各樣的運(yùn)動控制
提出的DragAnything可以實(shí)現(xiàn)多種運(yùn)動控制,如控制前景、背景和相機(jī)。
Badcase for DragNUWA
當(dāng)前模型受到基礎(chǔ)模型(穩(wěn)定視頻擴(kuò)散)的性能限制,無法生成具有非常大運(yùn)動的場景。這可能是由于運(yùn)動過度,超過了基礎(chǔ)模型的生成能力,導(dǎo)致視頻質(zhì)量崩潰。
摘要
我們提出了DragAnything,它利用實(shí)體表示來實(shí)現(xiàn)可控視頻生成中任何對象的運(yùn)動控制。與現(xiàn)有的運(yùn)動控制方法相比,DragAnything具有幾個(gè)優(yōu)勢。首先,基于軌跡的交互更人性化,當(dāng)獲取其他指導(dǎo)信號(例如,掩碼、深度圖)是勞動密集型時(shí)。用戶只需要在交互過程中畫一條線(軌跡)。其次,我們的實(shí)體表示作為一個(gè)開放域嵌入,能夠表示任何對象,使包括背景在內(nèi)的各種實(shí)體的運(yùn)動控制成為可能。最后,我們的實(shí)體表示允許對多個(gè)對象進(jìn)行同時(shí)和不同的運(yùn)動控制。廣泛的實(shí)驗(yàn)表明,我們的方法在FVD、FID和用戶研究方面取得了最先進(jìn)的性能,特別是在對象運(yùn)動控制方面,我們的方法在人工投票中超過了以前的方法(例如,DragNUWA)26%。
動機(jī)
啟示1
物體上的軌跡點(diǎn)不能代表實(shí)體。從DragUNWA的像素運(yùn)動軌跡可以看出,拖動云的像素點(diǎn)并不會導(dǎo)致云移動,相反,它會導(dǎo)致攝像機(jī)向上移動。這表明模型無法感知我們控制云的意圖,這意味著單個(gè)點(diǎn)不能代表云。
啟示2
對于軌跡點(diǎn)表示范式,靠近拖動點(diǎn)的像素受到的影響更大,導(dǎo)致更大的運(yùn)動。通過比較,我們觀察到在DragNUWA合成的視頻中,靠近拖動點(diǎn)的像素表現(xiàn)出更大的運(yùn)動。然而,我們期望的是物體按照提供的軌跡作為一個(gè)整體移動,而不是單個(gè)像素的運(yùn)動。
方法
該體系結(jié)構(gòu)包括兩個(gè)部分:
- 實(shí)體語義表示抽取。基于實(shí)體掩碼指標(biāo)提取擴(kuò)散模型的潛在特征作為對應(yīng)的實(shí)體表示。
- DragAnything的主框架。利用相應(yīng)的實(shí)體表示和二維高斯表示來控制實(shí)體的運(yùn)動。