自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視頻一鍵拆分PS層!DeepMind新模型效果碾壓同級,物體、背景完美分離,還能腦補(bǔ)

人工智能 新聞
DeepMind的研究人員開發(fā)了一種視頻分層新方法,可以無需假設(shè)背景靜止或精確的相機(jī)姿態(tài),就能將視頻分解成包含物體及其效果(如陰影和反射)的多個層,提升了視頻編輯的靈活性和效率。

視頻數(shù)據(jù)中通常會包含動態(tài)世界中的復(fù)雜信號,比如相機(jī)運(yùn)動、關(guān)節(jié)移動、復(fù)雜的場景效果以及物體之間的交互。

如果能自動化地把視頻分解成一組語義上有意義的、半透明的層,分離前景對象和背景的話,類似PS中的圖片,就可以極大提升視頻的編輯效率和直觀性。

現(xiàn)有方法在推斷對象及其效果之間復(fù)雜的時(shí)空相關(guān)性時(shí),只能處理靜態(tài)背景或帶有精確相機(jī)和深度估計(jì)數(shù)據(jù)的視頻,并且無法補(bǔ)全被遮擋區(qū)域,極大限制了可應(yīng)用范圍。

圖片

最近,Google DeepMind、馬里蘭大學(xué)帕克分校和魏茨曼科學(xué)研究所的研究人員共同提出了一個全新的分層視頻分解框架,無需假設(shè)背景是靜態(tài)的,也不需要相機(jī)姿態(tài)或深度信息,就能生成清晰、完整的圖像層,甚至還能對被遮擋動態(tài)區(qū)域進(jìn)行補(bǔ)全。

圖片

論文鏈接:https://arxiv.org/pdf/2411.16683

項(xiàng)目地址:https://gen-omnimatte.github.io/

該框架的其核心思想是訓(xùn)練一個視頻擴(kuò)散模型,利用其強(qiáng)大生成式先驗(yàn)知識來克服之前方法的限制。

1. 模型的內(nèi)部特征可以揭示物體與視頻效果之間的聯(lián)系,類似于把視頻擴(kuò)散模型的內(nèi)部特征應(yīng)用于分析任務(wù);

圖片

2. 模型可以直接利用先驗(yàn)補(bǔ)全層分解中的被遮擋區(qū)域,包括動態(tài)區(qū)域,而之前方法在先驗(yàn)信息有限的情況下無法實(shí)現(xiàn)。

在實(shí)驗(yàn)階段,研究人員驗(yàn)證了,只需要一個小型、精心策劃的數(shù)據(jù)集,就能夠處理包含軟陰影、光澤反射、飛濺的水等多種元素的日常拍攝視頻,最終輸出高質(zhì)量的分解和編輯結(jié)果。

圖片

最?!敢曨l分層」模型

由于真實(shí)的分層視頻數(shù)據(jù)很少,并且預(yù)訓(xùn)練模型已經(jīng)在生成任務(wù)中學(xué)習(xí)到了物體及其效果之間的關(guān)聯(lián),所以希望通過微調(diào)模型來發(fā)揮這種能力,使用小型的分層視頻數(shù)據(jù)集進(jìn)行微調(diào)。

基礎(chǔ)視頻擴(kuò)散模型

研究人員基于文本到視頻的生成器Lumiere,開發(fā)出了一個可用于移除物體及其效果的模型Casper

基礎(chǔ)模型Lumiere先從文本提示生成一個80幀、分辨率為128×128像素的視頻,再利用空間超分辨率(SSR)模型將基礎(chǔ)模型的輸出上采樣到1024×1024像素的分辨率。

Lumiere inpainting模型對原模型進(jìn)行微調(diào),輸入條件為「遮罩的RGB視頻」和「二進(jìn)制掩碼視頻」,然后使用相同的SSR,以實(shí)現(xiàn)高分辨率質(zhì)量。

Casper基于inpainting模型進(jìn)行微調(diào),對物體及視頻效果進(jìn)行移除,保持相同的模型架構(gòu)。

使用三元掩碼進(jìn)行物體和效果移除

原始的Lumiere inpainting模型需要輸入一個二元掩碼來指示需要修復(fù)(inpaint)的區(qū)域和需要保留的區(qū)域。

Casper還引入了額外的不確定性,即所謂的「保留」區(qū)域并不完全保留,也可能為了擦除陰影而修改目標(biāo)區(qū)域。

研究人員提出了三元掩碼(Trimask)條件M,區(qū)分出需要移除的對象(M=0)、需要保留的對象(M=1)以及可能包含需要移除或保留效果的背景區(qū)域(M=0.5)。

為了獲得干凈的背景視頻,再使用一個背景三元掩碼,將所有物體都標(biāo)記為需要移除的區(qū)域,背景標(biāo)記為可能需要修改的區(qū)域。

使用SegmentAnything2獲得二進(jìn)制對象掩碼,然后將單個物體作為保留區(qū)域,其余物體標(biāo)記為移除區(qū)域。

在推理過程中,Casper的輸入包括描述目標(biāo)移除場景的文本提示、輸入視頻、三元掩碼和128px分辨率的噪聲視頻的拼接。

模型在沒有分類器自由引導(dǎo)的情況下進(jìn)行256個DDPM采樣步驟進(jìn)行推理(一個80幀的視頻大約需要12分鐘),采用時(shí)間多擴(kuò)散技術(shù)來處理更長的視頻。

視頻生成器中的效果關(guān)聯(lián)先驗(yàn)

為了探究Lumiere對對象效果關(guān)聯(lián)的內(nèi)在理解,研究人員分析了使用SDEdit在給定視頻去噪過程中的自注意力模式,測量了與感興趣對象相關(guān)的查詢token和鍵token之間的自注意力權(quán)重。

圖片

可以觀察到,陰影區(qū)域的查詢token對對象區(qū)域展現(xiàn)出更高的注意力值,表明預(yù)訓(xùn)練模型能夠有效關(guān)聯(lián)對象及其效果。

訓(xùn)練數(shù)據(jù)構(gòu)造

研究人員從四個類別中構(gòu)造了一個包含真實(shí)和合成視頻示例的訓(xùn)練數(shù)據(jù)集。

圖片

Omnimatte,從現(xiàn)有方法的結(jié)果中收集了31個場景,形成輸入視頻、輸入三元掩碼和目標(biāo)背景視頻的訓(xùn)練元組。場景大多來自DAVIS數(shù)據(jù)集,以靜態(tài)背景和單個對象為特色,包含現(xiàn)實(shí)世界視頻中陰影和反射。

Tripod,通過互聯(lián)網(wǎng)補(bǔ)充了15個視頻,由固定相機(jī)拍攝,包含進(jìn)出場景的對象、水效果(例如,反射、飛濺、波紋)和環(huán)境背景運(yùn)動。然后通過Ken Burns效果增強(qiáng)視頻,以模擬相機(jī)運(yùn)動。

Kubric,包含569個合成視頻,在Blender中渲染多對象場景并使對象透明。此外,研究人員觀察到許多現(xiàn)實(shí)世界場景在一個場景中會展示同一類型對象的多個實(shí)例,例如狗、行人或車輛,所以還特意生成了包含重復(fù)對象的場景,以訓(xùn)練模型處理多個相似對象。

對象粘貼(Object-Paste),從YouTube-VOS數(shù)據(jù)集中的真實(shí)視頻合成了1024個視頻元組,使用SegmentAnything2從隨機(jī)視頻裁剪對象,并將其粘貼到目標(biāo)視頻上。訓(xùn)練輸入和目標(biāo)分別是合成的視頻和原始視頻,可以加強(qiáng)模型的修復(fù)和背景保留能力。

訓(xùn)練數(shù)據(jù)的文本提示由BLIP-2描述,描述了對象效果移除模型應(yīng)該學(xué)會生成的目標(biāo)視頻;通過空間水平翻轉(zhuǎn)、時(shí)間翻轉(zhuǎn)和隨機(jī)裁剪到128×128像素分辨率來增強(qiáng)數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果

定性分析

在下圖「船」(boat)的例子中,現(xiàn)有的方法無法將船的尾跡從背景層中分離出來,而文中提出的方法可以正確地將其放置在船的層中。

圖片

「馬」的例子中,Omnimatte3D和OmnimatteRF因?yàn)?D感知背景表示對相機(jī)姿態(tài)估計(jì)的質(zhì)量很敏感,所以背景層很模糊,無法在最后一行中恢復(fù)出被遮擋的馬。

在物體移除方面,視頻修復(fù)模型無法移除輸入掩碼外的軟陰影和反射;ObjectDrop可以移除cartoon和parkour中的陰影,但獨(dú)立處理每一幀,并且沒有全局上下文的情況下修復(fù)區(qū)域,會導(dǎo)致不一致的幻覺。

圖片

定量分析

研究人員采用OmnimatteRF評估協(xié)議來評估十個合成場景的背景層重建效果,包括5個電影場景和5個由Kubric生成的場景,每個場景都有一個對應(yīng)的真實(shí)背景,不包含前景對象和效果。

使用峰值信噪比(PSNR)和Learned Perceptual Image Patch Similarity(LPIPS)作為評估指標(biāo)。

圖片

結(jié)果顯示,Omnimatte和Layered Neural Atlas使用2D運(yùn)動模型,因此難以處理視差;Omnimatte3D在兩個案例中未能構(gòu)建背景場景模型,并且在電影場景中的靜止前景對象處理上存在困難。

總體而言,文中的方法在兩個指標(biāo)上都取得了最佳性能。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-09-22 09:25:38

AI 數(shù)據(jù)人工智能

2022-12-23 15:46:14

AI開源

2023-01-07 12:53:44

模型效果Muse

2023-04-23 15:42:18

圖像視頻

2024-04-16 07:10:46

大模型AI自動生成視頻

2021-12-09 15:27:46

模型人工智能深度學(xué)習(xí)

2017-06-09 11:11:55

互聯(lián)網(wǎng)

2012-11-26 17:09:42

Windows 8

2024-07-15 12:27:08

2024-04-08 13:59:03

大模型Replicate

2015-02-09 15:25:52

換膚

2024-07-26 21:08:36

2024-10-15 14:00:00

AdobeAI生成

2021-10-14 09:43:59

人工智能AI機(jī)器人

2020-03-04 09:35:55

開源技術(shù) 軟件

2020-02-13 11:47:05

GitHub代碼開發(fā)者

2023-04-03 10:04:44

開源模型

2022-12-11 13:04:39

ChatGPT實(shí)用性功能

2020-09-08 12:58:48

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-02-20 14:56:14

圖像
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號