東京大學(xué) | Adobe 提出InstructMove,可通過(guò)觀察視頻中的動(dòng)作來(lái)實(shí)現(xiàn)基于指令的圖像編輯
InstructMove是一種基于指令的圖像編輯模型,使用多模態(tài) LLM 生成的指令對(duì)視頻中的幀對(duì)進(jìn)行訓(xùn)練。該模型擅長(zhǎng)非剛性編輯,例如調(diào)整主體姿勢(shì)、表情和改變視點(diǎn),同時(shí)保持內(nèi)容一致性。此外,該方法通過(guò)集成蒙版、人體姿勢(shì)和其他控制機(jī)制來(lái)支持精確的局部編輯。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2412.12087v1
- 主頁(yè):https://ljzycmd.github.io/projects/InstructMove/
論文介紹
通過(guò)觀察事物如何移動(dòng)的基于指令的圖像操作
摘要
本文介紹了一種新穎的數(shù)據(jù)集構(gòu)建流程,該流程從視頻中抽取幀對(duì)并使用多模態(tài)大型語(yǔ)言模型 (MLLM) 生成編輯指令,以訓(xùn)練基于指令的圖像處理模型。視頻幀本質(zhì)上保留了主體和場(chǎng)景的身份,確保在編輯過(guò)程中內(nèi)容保存的一致性。此外,視頻數(shù)據(jù)捕捉了各種自然動(dòng)態(tài)(例如非剛性主體運(yùn)動(dòng)和復(fù)雜的相機(jī)運(yùn)動(dòng)),否則很難建模,使其成為可擴(kuò)展數(shù)據(jù)集構(gòu)建的理想來(lái)源。使用這種方法,我們創(chuàng)建了一個(gè)新數(shù)據(jù)集來(lái)訓(xùn)練 InstructMove,該模型能夠進(jìn)行基于指令的復(fù)雜操作,而這些操作很難通過(guò)合成生成的數(shù)據(jù)集實(shí)現(xiàn)。我們的模型在調(diào)整主體姿勢(shì)、重新排列元素和改變相機(jī)視角等任務(wù)中表現(xiàn)出最先進(jìn)的性能。
方法
數(shù)據(jù)構(gòu)建管道:
- 首先從視頻中采樣合適的幀對(duì),確保轉(zhuǎn)換逼真且適度。
- 這些幀對(duì)用于提示多模態(tài)大型語(yǔ)言模型 (MLLM) 生成詳細(xì)的編輯指令。
- 此過(guò)程會(huì)產(chǎn)生一個(gè)具有逼真圖像對(duì)和精確編輯指令的大規(guī)模數(shù)據(jù)集。
基于指令的圖像編輯的模型架構(gòu)概述。首先使用預(yù)訓(xùn)練編碼器將源圖像和目標(biāo)圖像編碼為潛在表示 zs和 ze。然后通過(guò)前向擴(kuò)散過(guò)程將目標(biāo)潛在 z e轉(zhuǎn)換為噪聲潛在 zet。沿寬度維度連接源圖像潛在和噪聲目標(biāo)潛在以形成模型輸入,該輸入被輸入到去噪 U-Net ?θ 中以預(yù)測(cè)噪聲圖。輸出的右半部分(對(duì)應(yīng)于噪聲目標(biāo)輸入)被裁剪并與原始噪聲圖進(jìn)行比較。
結(jié)果
與最先進(jìn)的圖像編輯方法進(jìn)行定性比較,包括基于描述和基于指令的方法?,F(xiàn)有方法難以處理復(fù)雜的編輯,例如非剛性變換(例如姿勢(shì)和表情的變化)、對(duì)象重新定位或視點(diǎn)調(diào)整。它們通常要么無(wú)法遵循編輯說(shuō)明,要么產(chǎn)生不一致的圖像,例如身份轉(zhuǎn)變。相比之下,論文的方法在具有自然變換的真實(shí)視頻幀上進(jìn)行訓(xùn)練,成功處理了這些編輯,同時(shí)保持了與原始輸入圖像的一致性。
該方法與附加控制的定性結(jié)果。
- 模型可以利用掩碼來(lái)指定要編輯圖像的哪個(gè)部分,從而實(shí)現(xiàn)局部調(diào)整并解決指令中的歧義。
- 與 ControlNet 結(jié)合使用時(shí),該模型可以接受其他輸入,例如人體姿勢(shì)或草圖,以實(shí)現(xiàn)對(duì)主體姿勢(shì)或物體定位的精確編輯。 以前的方法無(wú)法實(shí)現(xiàn)這種級(jí)別的控制。
結(jié)論
文章提出了一種對(duì)視頻幀進(jìn)行采樣并利用 MLLM 生成編輯指令以訓(xùn)練基于指令的圖像處理模型的方法。與依賴于合成生成的目標(biāo)圖像的現(xiàn)有數(shù)據(jù)集不同,該方法利用來(lái)自視頻和 MLLM 的監(jiān)督信號(hào)來(lái)支持復(fù)雜的編輯,例如非剛性變換和視點(diǎn)變化,同時(shí)保持內(nèi)容一致性。未來(lái)的工作可以集中在改進(jìn)過(guò)濾技術(shù)上,無(wú)論是通過(guò)改進(jìn) MLLM 還是結(jié)合人機(jī)交互過(guò)程,以及將視頻數(shù)據(jù)與其他數(shù)據(jù)集集成以進(jìn)一步增強(qiáng)圖像編輯功能。