CVPR 2024|讓圖像擴(kuò)散模型生成高質(zhì)量360度場景,只需要一個(gè)語言模型
蔡志鵬博士(https://zhipengcai.github.io/)是美國英特爾研究院的研究員,博士畢業(yè)于澳大利亞阿德萊德大學(xué)。他的研究興趣包括魯棒視覺感知,持續(xù)學(xué)習(xí)和生成模型等。他的工作已在領(lǐng)域頂級會(huì)議雜志上發(fā)表超過15篇。其中5篇文章被選為頂級會(huì)議(ECCV18*2,ICCV19,ICLR24,CVPR24)口頭或特邀報(bào)告,對魯棒估計(jì)計(jì)算復(fù)雜度的理論證明工作被選為ECCV18 12篇最佳論文之一。
360 度場景生成是計(jì)算機(jī)視覺的重要任務(wù),主流方法主要可分為兩類,一類利用圖像擴(kuò)散模型分別生成 360 度場景的多個(gè)視角。由于圖像擴(kuò)散模型缺乏場景全局結(jié)構(gòu)的先驗(yàn)知識,這類方法無法有效生成多樣的 360 度視角,導(dǎo)致場景內(nèi)主要的目標(biāo)被多次重復(fù)生成,如圖 1 的床和雕塑。
圖 1. 缺乏場景全局結(jié)構(gòu)的先驗(yàn)知識導(dǎo)致一個(gè)臥室出現(xiàn)多張床,一個(gè)公園出現(xiàn)多個(gè)雕塑。
另一類方法將 360 度場景用一張 Equirectangular Image 來表示,并用 GAN 或擴(kuò)散模型直接生成。由于該表征的局限性,這類方法通常無法有效完成 360 度閉環(huán)(如圖 2 每張圖片的中間部分),導(dǎo)致 360 度的連接處出現(xiàn)明顯的分界線。同時(shí)由于缺少大規(guī)模訓(xùn)練數(shù)據(jù),這類方法有時(shí)無法生成復(fù)合輸入條件的場景。最后,這類方法通常只能接受文字作為輸入。
圖 2. 現(xiàn)有方法的閉環(huán)問題.
為了解決這些問題,來自美國英特爾研究院的 Zhipeng Cai 等人提出了 L-MAGIC(Language Model Assisted Generation of Images with Coherence),通過使用語言模型控制圖像擴(kuò)散模型有效實(shí)現(xiàn)高質(zhì)量、多模態(tài)、零樣本泛化的 360 度場景生成。L-MAGIC 的 live demo 已被選為英特爾公司 2024 年的 5 個(gè)技術(shù)突破之一,在 ISC HPC 2024 上展示。該論文已被 CVPR 2024 接收。
- 項(xiàng)目主頁:https://zhipengcai.github.io/MMPano
- 代碼:https://github.com/IntelLabs/MMPano
- 論文地址:https://arxiv.org/pdf/2406.01843
- Youtube 視頻介紹:https://youtu.be/XDMNEzH4-Ec
- Intel ISC HPC 2024 live demo:https://www.intel.com/content/www/us/en/events/supercomputing.html
方法概覽
如圖 3 所示,L-MAGIC 是一個(gè)結(jié)合了語言模型及擴(kuò)散模型的場景生成框架。L-MAGIC 通過自然圖像連接各類不同模態(tài)的輸入。當(dāng)輸入不是一張自然圖像時(shí),L-MAGIC 使用成熟的條件擴(kuò)散模型如 ControlNet 從各種模態(tài)的輸入(文字,手繪草圖,深度圖等等)生成一張自然圖像。
圖 3.L-MAGIC 流程圖。
在獲得自然圖像之后,L-MAGIC 通過 iterative warping and inpainting 來生成 360 度場景的多個(gè)視角。在每一個(gè) iteration 中,warping step 將已生成的多視角 warp 到一個(gè)新的視角,實(shí)例中的黑色部分代表新視角中的缺失像素。Inpainting step 使用基于擴(kuò)散的圖像 inpainting 模型(Stable Diffusion v2)生成缺失像素。為了使圖像擴(kuò)散模型能夠生成多樣的全局場景結(jié)構(gòu),L-MAGIC 使用語言模型控制擴(kuò)散模型在每個(gè)視角需要生成的場景內(nèi)容。
除了生成 360 度場景的全景圖,利用深度估計(jì)模型,L-MAGIC 還能夠生成包含相機(jī)旋轉(zhuǎn)及平移的沉浸式視頻,以及場景的三維點(diǎn)云。由于無需微調(diào),L-MAGIC 能夠有效地保持語言及擴(kuò)散模型的泛化性,實(shí)現(xiàn)多樣化場景的高質(zhì)量生成。
L-MAGIC 的核心是使用語言模型全自動(dòng)地控制擴(kuò)散模型。如圖 4 所示若用戶未提供場景的文字描述,L-MAGIC 使用視覺語言模型(如 BLIP-2)基于輸入圖像獲得場景的整體描述(line 2)。
獲得場景描述后,L-MAGIC 使用如 ChatGPT 的語言模型(開源代碼已支持 ChatGPT-3.5、ChatGPT-4、Llama3),使其根據(jù)整體場景描述生成各個(gè)視角的描述(line 3),并決定對該場景是否需要防止重復(fù)物體的生成(line 5,如樹林里各個(gè)視角都是樹是合理的,但臥室有 5 張床就比較少見,L-MAGIC 利用大語言模型的泛化性能自適應(yīng)地規(guī)避不合理的重復(fù)目標(biāo))。
由于擴(kuò)散模型訓(xùn)練數(shù)據(jù)的 bias,有時(shí)擴(kuò)散模型的輸出無法完全符合語言模型的 prompt 要求。為了解決該問題,L-MAGIC 再次使用視覺語言模型監(jiān)督擴(kuò)散模型的輸出(line 14-18),如果擴(kuò)散模型的輸出不符合語言模型的要求,L-MAGIC 會(huì)重新進(jìn)行當(dāng)前視角的生成。
圖 4. L-MAGIC 算法。
實(shí)驗(yàn)結(jié)果
如圖 5 所示,L-MAGIC 在圖像到 360 度場景生成及文字到 360 度場景生成任務(wù)中均達(dá)到了 SOTA。
圖 5. 定量實(shí)驗(yàn)。
如圖 6 及圖 7 所示,L-MAGIC 在多樣的輸入及場景下均能夠生成具有多樣化 360 度場景結(jié)構(gòu)的全景圖,并且能夠平滑地完成 360 度閉環(huán)。
圖 6. 圖像到 360 度場景生成。
圖 7. 文字到 360 度場景生成
如圖 8 所示,除了文字及自然圖像之外,L-MAGIC 還能夠使用 ControlNet 接受多樣化的輸入,例如深度圖、設(shè)計(jì)草圖等。
圖 8. 更多不同模態(tài)的輸入。
通過利用成熟的計(jì)算機(jī)視覺算法例如深度估計(jì),L-MAGIC 還能夠生成場景的沉浸式視頻 (見 presentation video)以及三維點(diǎn)云(圖 9)。有趣的是,我們能夠清晰地分辨海底場景點(diǎn)云中魚以及珊瑚的幾何結(jié)構(gòu)。
圖 9. 三維點(diǎn)云生成結(jié)果。
本文轉(zhuǎn)自 機(jī)器之心,作者:機(jī)器之心
