多模態(tài)圖像合成與編輯這么火,馬普所、南洋理工等出了份詳細綜述
近期 OpenAI 發(fā)布的 DALLE-2 和谷歌發(fā)布的 Imagen 等實現(xiàn)了令人驚嘆的文字到圖像的生成效果,引發(fā)了廣泛關注并且衍生出了很多有趣的應用。而文字到圖像的生成屬于多模態(tài)圖像合成與編輯領域的一個典型任務。近日,來自馬普所和南洋理工等機構的研究人員對多模態(tài)圖像合成與編輯這一大領域的研究現(xiàn)狀和未來發(fā)展做了詳細的調查和分析。
- 論文地址:https://arxiv.org/pdf/2112.13592.pdf
- 項目地址:https://github.com/fnzhan/MISE
在第一章節(jié),該綜述描述了多模態(tài)圖像合成與編輯任務的意義和整體發(fā)展,以及本論文的貢獻與總體結構。
在第二章節(jié),根據(jù)引導圖片合成與編輯的數(shù)據(jù)模態(tài),該綜述論文介紹了比較常用的視覺引導(比如 語義圖,關鍵點圖,邊緣圖),文字引導,語音引導,場景圖(scene graph)引導和相應模態(tài)數(shù)據(jù)的處理方法以及統(tǒng)一的表示框架。
在第三章節(jié),根據(jù)圖像合成與編輯的模型框架,該論文對目前的各種方法進行了分類,包括基于 GAN 的方法,自回歸方法,擴散模型方法,和神經(jīng)輻射場(NeRF)方法。
由于基于 GAN 的方法一般使用條件 GAN 和 無條件 GAN 反演,因此該論文將這一類別進一步分為模態(tài)內條件(例如語義圖,邊緣圖),跨模態(tài)條件(例如文字和語音),和 GAN 反演(統(tǒng)一模態(tài))并進行了詳細描述。
相比于基于 GAN 的方法,自回歸模型方法能夠更加自然的處理多模態(tài)數(shù)據(jù),以及利用目前流行的 Transformer 模型。自回歸方法一般先學習一個向量量化編碼器將圖片離散地表示為 token 序列,然后自回歸式地建模 token 的分布。由于文本和語音等數(shù)據(jù)都能表示為 token 并作為自回歸建模的條件,因此各種多模態(tài)圖片合成與編輯任務都能統(tǒng)一到一個框架當中。
近期,火熱的擴散模型也被廣泛應用于多模態(tài)合成與編輯任務。例如效果驚人的 DALLE-2 和 Imagen 都是基于擴散模型實現(xiàn)的。相比于 GAN,擴散式生成模型擁有一些良好的性質,比如靜態(tài)的訓練目標和易擴展性。該論文依據(jù)條件擴散模型和預訓練擴散模型對現(xiàn)有方法進行了分類與詳細分析。
以上方法主要聚焦于 2D 圖像的多模態(tài)合成與編輯。近期隨著神經(jīng)輻射場(NeRF)的迅速發(fā)展,3D 感知的多模態(tài)合成與編輯也吸引了越來越多的關注。由于需要考慮多視角一致性,3D 感知的多模態(tài)合成與編輯是更具挑戰(zhàn)性的任務。本文針對單場景優(yōu)化 NeRF,生成式 NeRF 和 NeRF 反演的三種方法對現(xiàn)有工作進行了分類與總結。
隨后,該綜述對以上四種模型方法的進行了比較和討論??傮w而言,相比于 GAN,目前最先進的模型更加偏愛自回歸模型和擴散模型。而 NeRF 在多模態(tài)合成與編輯任務的應用為這個領域的研究打開了一扇新的窗戶。
在第四章節(jié),該綜述匯集了多模態(tài)合成與編輯領域流行的數(shù)據(jù)集以及相應的模態(tài)標注,并且針對各模態(tài)典型任務(語義圖像合成,文字到圖像合成,語音引導圖像編輯)對當前方法進行了定量的比較。
在第五章節(jié),該綜述對此領域目前的挑戰(zhàn)和未來方向進行了探討和分析,包括大規(guī)模的多模態(tài)數(shù)據(jù)集,準確可靠的評估指標,高效的網(wǎng)絡架構,以及 3D 感知的發(fā)展方向。
在第六和第七章節(jié),該綜述分別闡述了此領域潛在的社會影響和總結了文章的內容與貢獻。