Adobe黑科技:視頻擴(kuò)散降維圖像編輯,ObjectMover秒懂物理規(guī)律
論文第一作者為余鑫,香港大學(xué)三年級(jí)博士生,通訊作者為香港大學(xué)齊曉娟教授。主要研究方向?yàn)樯赡P图捌湓趫D像和 3D 中的應(yīng)用,發(fā)表計(jì)算機(jī)視覺(jué)和圖形學(xué)頂級(jí)會(huì)議期刊論文數(shù)十篇,論文數(shù)次獲得 Oral, Spotlight 和 Best Paper Honorable Mention 等榮譽(yù)。此項(xiàng)研究工作為作者于 Adobe Research 的實(shí)習(xí)期間完成。
近年來(lái),圖像生成與編輯技術(shù)的快速發(fā)展,特別是擴(kuò)散模型(Diffusion Models)的興起,使得圖像編輯任務(wù)取得了顯著進(jìn)展。然而,現(xiàn)有技術(shù)在實(shí)現(xiàn)圖像中物體的移動(dòng)、插入和移除時(shí),仍存在諸多問(wèn)題:比如物體在新位置的光照與陰影無(wú)法與環(huán)境真實(shí)協(xié)調(diào),物體身份特征發(fā)生失真,以及物體移動(dòng)產(chǎn)生的空缺區(qū)域無(wú)法自然地補(bǔ)全。這些問(wèn)題在復(fù)雜的真實(shí)場(chǎng)景中尤為突出。
為解決上述難題,Adobe 聯(lián)合香港大學(xué)提出了一種新型圖像編輯模型 ——ObjectMover。該模型首次結(jié)合視頻擴(kuò)散模型(Video Diffusion Model)的強(qiáng)大先驗(yàn)知識(shí),并創(chuàng)新性地使用虛幻引擎(Unreal Engine)合成數(shù)據(jù)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)單張圖像內(nèi)物體的真實(shí)感移動(dòng)。
- 論文題目:ObjectMover: Generative Object Movement with Video Prior
- 論文鏈接:https://arxiv.org/abs/2503.08037
- 項(xiàng)目主頁(yè):https://xinyu-andy.github.io/ObjMover
實(shí)驗(yàn)結(jié)果與效果分析
ObjectMover 可統(tǒng)一地處理圖像編輯中的三個(gè)常見(jiàn)任務(wù):物體移動(dòng)、物體刪除與物體插入。與以往方法不同的是,本文僅需用戶使用邊界框(Bounding Box)指定待編輯的物體及目標(biāo)位置,無(wú)需額外標(biāo)注(如文本指令或陰影標(biāo)注),模型即可自動(dòng)同步處理相關(guān)的物理效果(例如陰影、反射等)。
真實(shí)感的光影同步調(diào)整
如下圖所示,當(dāng)移動(dòng)水中人物時(shí),ObjectMover 能夠自動(dòng)同步調(diào)整水中倒影,并識(shí)別并調(diào)整人物身上的太陽(yáng)光,使太陽(yáng)光準(zhǔn)確地照射在水面。
再例如下面這個(gè)異常困難的具有復(fù)雜陰影的例子。當(dāng)?shù)裣癖灰苿?dòng)后,其投射在地上的影子也被同步移動(dòng)。需要注意的是,模型能夠識(shí)別哪一部分陰影屬于雕像,而不會(huì)移除其他物體的影子,并且還能補(bǔ)全之前被雕像陰影覆蓋的其他物體的陰影。此外,移動(dòng)后雕像呈現(xiàn)出的透視角度也會(huì)隨位置變化而自然調(diào)整,且雕像背部原先被遮擋的區(qū)域自然地被新位置的太陽(yáng)光照射。
此外,模型還能有效理解物體的材質(zhì)特性。例如,下圖展示了透明酒杯移動(dòng)的實(shí)例。當(dāng)透明酒杯被移動(dòng)后,模型不會(huì)簡(jiǎn)單地復(fù)制酒杯原位置上透視看到的背景內(nèi)容,而是精確地去除背景,僅保留酒杯自身的透明材質(zhì)屬性。當(dāng)酒杯被移動(dòng)至新位置時(shí),模型又能準(zhǔn)確地透過(guò)酒杯重新生成與目標(biāo)位置環(huán)境一致的新背景內(nèi)容。這充分體現(xiàn)了模型對(duì)透明物體材質(zhì)的深入理解。同時(shí),模型還能夠自動(dòng)補(bǔ)全原本不完整的酒杯杯體,生成完整的物體外觀。
綜上,ObjectMover 不僅實(shí)現(xiàn)了物體位置的簡(jiǎn)單變化,更表現(xiàn)出顯著的物理規(guī)律理解能力。
多任務(wù)處理,一個(gè)統(tǒng)一模型
得益于統(tǒng)一的條件輸入框架和多任務(wù)訓(xùn)練機(jī)制,ObjectMover 還能有效完成物體刪除與插入任務(wù)。如圖所示,刪除任務(wù)中,模型能夠真實(shí)地填充被移除物體的背景,而非生成不相干的新物體,并準(zhǔn)確地移除光影;而在插入任務(wù)中,模型能精準(zhǔn)保持被插入物體的身份特征,自動(dòng)生成與環(huán)境一致的光影效果。
實(shí)驗(yàn)對(duì)比
實(shí)驗(yàn)結(jié)果表明,ObjectMover 在物體移動(dòng)、刪除和插入三個(gè)任務(wù)中均取得了明顯優(yōu)于現(xiàn)有方法的圖像質(zhì)量與真實(shí)感。
研究方法與主要?jiǎng)?chuàng)新點(diǎn)
將視頻擴(kuò)散模型用于單幀圖像編輯任務(wù)
傳統(tǒng)圖像編輯方法一般微調(diào)單幀圖像擴(kuò)散模型,這些模型的預(yù)訓(xùn)練階段僅關(guān)注單張圖像,沒(méi)有學(xué)習(xí)到物體動(dòng)態(tài)變化過(guò)程中的光影調(diào)整。而本文提出的核心創(chuàng)新在于,將物體移動(dòng)任務(wù)視為序列到序列(Sequence-to-Sequence)的預(yù)測(cè)任務(wù),首次應(yīng)用了預(yù)訓(xùn)練的視頻擴(kuò)散模型。
具體而言,本文通過(guò)將輸入圖像、待移動(dòng)物體、用戶指令與目標(biāo)位置統(tǒng)一編碼為視頻序列形式,以不改變模型原架構(gòu)的前提下直接進(jìn)行微調(diào),充分利用了視頻模型預(yù)訓(xùn)練時(shí)習(xí)得的物理規(guī)律及物體對(duì)應(yīng)關(guān)系(Object Correspondence),從而在圖像編輯任務(wù)中實(shí)現(xiàn)了精確的光影同步與身份特征保持。
首個(gè)利用虛幻引擎(Unreal Engine)生成合成數(shù)據(jù)進(jìn)行圖像編輯訓(xùn)練
由于真實(shí)環(huán)境中難以獲取大規(guī)模精準(zhǔn)標(biāo)注的物體移動(dòng)數(shù)據(jù),傳統(tǒng)方法多依賴人工標(biāo)注或數(shù)據(jù)改造,存在數(shù)據(jù)量不足和質(zhì)量限制。為此,本文首次利用虛幻引擎生成了豐富、高質(zhì)量的合成數(shù)據(jù)集,涵蓋了復(fù)雜的光照環(huán)境、多樣的物體類(lèi)型及真實(shí)的物體與環(huán)境交互。
通過(guò)合成數(shù)據(jù),本文得以模擬現(xiàn)實(shí)世界中多樣的物體移動(dòng)場(chǎng)景,例如光照強(qiáng)弱變化、物體透視變化及遮擋區(qū)域真實(shí)補(bǔ)全效果等。此外,本文設(shè)計(jì)了多種移動(dòng)軌跡與光照條件,確保模型學(xué)習(xí)到高度泛化的視覺(jué)先驗(yàn)。
實(shí)驗(yàn)結(jié)果證明,虛幻引擎生成的數(shù)據(jù)與視頻預(yù)訓(xùn)練模型的結(jié)合,有效提高了模型在真實(shí)圖像編輯任務(wù)中的泛化能力。同時(shí),本文提出了基于真實(shí)視頻與合成數(shù)據(jù)的多任務(wù)訓(xùn)練策略,進(jìn)一步增強(qiáng)模型的泛化表現(xiàn)。