用GPT-3.5生成數(shù)據(jù)集!北大天工等團隊圖像編輯新SOTA,可精準模擬物理世界場景
高質(zhì)量圖像編輯的方法有很多,但都很難準確表達出真實的物理世界。
那么,Edit the World試試。
圖片
來自北京大學、Tiamat AI、天工AI、Mila實驗室提出了EditWorld,他們引入了一種新的編輯任務,即世界指令(world-instructed)圖像編輯,它定義和分類基于各種世界場景的指令。
圖片
在一組預訓練模型,比如GPT-3.5、Video-LLava 和 SDXL的支持下,建立了一個帶有世界指令的多模態(tài)數(shù)據(jù)集。
在該數(shù)據(jù)集訓練了一個基于擴散的圖像編輯模型EditWorld,結(jié)果在其新任務的表現(xiàn)明顯優(yōu)于現(xiàn)有的編輯方法,實現(xiàn)SOTA。
圖像編輯新SOTA
現(xiàn)有的方法通過多種途徑實現(xiàn)高質(zhì)量的圖像編輯,包括但不限于文本控制、拖動操作以及inpainting。其中,利用instruction進行編輯的方法由于使用方便受到廣泛的關(guān)注。
盡管現(xiàn)有的圖片編輯方法能夠產(chǎn)生高質(zhì)量的結(jié)果,但它們在處理傳達物理世界中真實視覺動態(tài)的世界動態(tài)方面仍然存在困難。
如圖1所示,無論是InstructPix2pix還是MagicBrush都無法生成合理的編輯結(jié)果。
圖片
為了解決這一問題,團隊引入了一項新的任務,稱為world-instructed image editing,使圖像編輯能夠反映真實物理世界和虛擬媒體中的“世界動態(tài)”。
具體來說,他們定義并分類了各種世界動態(tài)指令,并基于這些指令創(chuàng)建了一個新的多模態(tài)訓練數(shù)據(jù)集,該數(shù)據(jù)集包含大量的輸入-指令-輸出三元組。
最后,團隊使用精心制作的數(shù)據(jù)集訓練了一個文本引導的擴散模型,并提出了一種零樣本圖像操作策略,以實現(xiàn)world-instructed image editing。
根據(jù)現(xiàn)實世界以及虛擬媒體中的任務場景,將world-instructed image editing分為7種認為類別,并對每一種類別進行了定義與介紹,同時提供了一個數(shù)據(jù)樣例。
圖片
隨后團隊設(shè)計了文本到圖片生成以及視頻分鏡提取兩個分支來獲取數(shù)據(jù)集。
文本生成圖片分支是為了豐富數(shù)據(jù)場景的豐富性,在該分支下,團隊首先利用GPT生成文本四元組(包括input圖片描述、instruction、output圖片描述以及關(guān)鍵詞),接著利用input以及output描述生成對應文本的圖片,利用關(guān)鍵詞對應的attention map對編輯位置進行定位獲取編輯mask,與此同時為了保證前后兩張圖關(guān)鍵特征的一致性,團隊引入了image prompt adaption的方法IP-Adapter,最后團隊使用IP-Adapter以及ControlNet,結(jié)合output image的canny map以及input image的image prompt feature,利用Image Inpainting對output image進行調(diào)整,從而獲得比較有效的編輯數(shù)據(jù)。
圖片
利用文本生成圖片分支得到場景豐富的數(shù)據(jù)后,為了能向數(shù)據(jù)集中添加真實數(shù)據(jù),團隊從視頻中提取高質(zhì)量的關(guān)鍵幀作為編輯數(shù)據(jù)。具體來說,團隊從視頻分鏡中提取相關(guān)性強且結(jié)構(gòu)差異大兩幀作為起始與末尾幀,并切分出一段新的分鏡,利用多模態(tài)大模型對這段分鏡的變化進行描述,最后團隊以起始與末尾幀作為input image以及output image,以得到的描述作為instruction,這樣就獲得了需要的編輯數(shù)據(jù)。
再進一步,團隊利用人工對生成數(shù)據(jù)進行recheck,從而進一步提升數(shù)據(jù)質(zhì)量。
團隊利用數(shù)據(jù)集對InstructPix2Pix模型進行finetune,同時為了保護非編輯區(qū)域?qū)崿F(xiàn)更為精確的編輯,團隊提出了post-edit策略。
圖片
圖片
最終可以看到,團隊的方法可以很好地實現(xiàn)world-instructed image editing。
論文鏈接:
https://arxiv.org/abs/2405.14785
代碼鏈接:
https://github.com/YangLing0818/EditWorld