港大&Adobe提出通用生成框架UniReal:通過學(xué)習(xí)真實(shí)世界動(dòng)態(tài)實(shí)現(xiàn)通用圖像生成和編輯
本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
今天給大家介紹由香港大學(xué),Adobe提出的統(tǒng)一圖像生產(chǎn)與編輯方法UniReal,將多種圖像任務(wù)統(tǒng)一成視頻生成的范式,并且在大規(guī)模視頻中學(xué)習(xí)真實(shí)的動(dòng)態(tài)與變化,在指令編輯、圖像定制化、圖像組合等多種任務(wù)達(dá)到最佳水準(zhǔn)。
圖片
上圖為UniReal多功能性的展示。作為一個(gè)通用框架,UniReal 支持在單一模型內(nèi)進(jìn)行廣泛的圖像生成和編輯任務(wù),適應(yīng)不同的輸入輸出配置并生成高度逼真的結(jié)果,可有效處理具有挑戰(zhàn)性的場(chǎng)景,例如陰影、反射、燈光效果、物體姿勢(shì)變化等。
相關(guān)鏈接
- 論文:https://arxiv.org/abs/2412.07774
- 主頁:https://xavierchen34.github.io/UniReal-Page/
- 代碼:即將開放...
論文概述
論文提出了一個(gè)統(tǒng)一的框架UniReal,旨在解決各種圖像生成和編輯任務(wù)?,F(xiàn)有的解決方案通常因任務(wù)而異,但基本原則是相同的:在捕捉視覺變化的同時(shí)保持輸入和輸出之間的一致性。受最近視頻生成模型的啟發(fā),這些模型有效地平衡了幀之間的一致性和變化,文中提出了一種統(tǒng)一的方法,將圖像級(jí)任務(wù)視為不連續(xù)的視頻生成。具體來說,將不同數(shù)量的輸入和輸出圖像視為幀,從而實(shí)現(xiàn)對(duì)圖像生成、編輯、自定義、合成等任務(wù)的無縫支持。雖然是為圖像級(jí)任務(wù)設(shè)計(jì)的,但是利用了視頻作為通用監(jiān)督的可擴(kuò)展來源。UniReal 從大規(guī)模視頻中學(xué)習(xí)世界動(dòng)態(tài),展示了處理陰影、反射、姿勢(shì)變化和物體交互的高級(jí)能力,同時(shí)也展示了用于新應(yīng)用的新興能力。
方法介紹
UniReal將圖像生成和編輯任務(wù)制定為不連續(xù)幀生成。首先,輸入圖像通過 VAE 編碼器編碼到潛在空間中。然后,將圖像潛在和噪聲潛在修補(bǔ)成視覺標(biāo)記。之后將索引嵌入和圖像提示(資產(chǎn)/畫布/控件)添加到視覺標(biāo)記中。同時(shí),上下文提示和基本提示由 T5 編碼器處理。將所有潛在補(bǔ)丁和文本嵌入連接為一個(gè)長(zhǎng) 1D 張量并將它們發(fā)送到轉(zhuǎn)換器。最后對(duì)去噪結(jié)果進(jìn)行解碼以獲得所需的輸出圖像。