自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

真實性驚人,谷歌、康奈爾提出真實的圖像補全技術(shù)RealFill

人工智能 新聞
在一個涵蓋了一系列多樣化且具有挑戰(zhàn)性的場景的新的圖像補全基準(zhǔn)測試中,RealFill 的表現(xiàn)大大超過了現(xiàn)有的方法。

假期出游,肯定少不了拍照留念。不過,大部分在景區(qū)拍攝的照片或多或少都有些遺憾,背景里不是多了些什么,就是少了些什么。

獲得一張「完美」的圖像,是 CV 研究人員長期以來努力的目標(biāo)之一。日前,Google Research 和康奈爾大學(xué)的研究人員合作,提出了一種「真實的圖像補全」(Authentic Image Completion)技術(shù)——用于圖像補全的生成模型 RealFill。

RealFill 模型的優(yōu)勢是可以使用少量的場景參考圖像進行個性化設(shè)置,而這些參考圖像無須與目標(biāo)圖像對齊,甚至可以在視角、光線條件、相機光圈或圖像風(fēng)格等方面有極大的差異。一旦完成個性化設(shè)置,RealFill 就能夠以忠實于原始場景的方式,用視覺上引人入勝的內(nèi)容來補全目標(biāo)圖像。

圖片


  • 論文鏈接:https://arxiv.org/abs/2309.16668
  • 項目頁面:https://realfill.github.io/

補畫(inpainting)和擴畫(outpainting)模型是能夠在圖像的未知區(qū)域生成高質(zhì)量、合理的圖像內(nèi)容的技術(shù),但這些模型生成的內(nèi)容必然是不真實的,因為這些模型在真實場景的上下文信息方面存在不足。相比之下,RealFill 能夠生成「應(yīng)該」出現(xiàn)在那里的內(nèi)容,從而使圖像補全的結(jié)果更為真實。

作者在論文中指出,他們定義了一個新的圖像補全問題——「真實圖像補全」(Authentic Image Completion)。不同于傳統(tǒng)的生成型圖像修復(fù)(替代缺失區(qū)域的內(nèi)容可能與原始場景不一致),真實圖像補全的目標(biāo)是使補全的內(nèi)容盡可能忠實于原始場景,用「應(yīng)該出現(xiàn)在那里」的內(nèi)容來補全目標(biāo)圖像,而不是用「可能在那里」的內(nèi)容。

作者表示,RealFill 是首個通過在過程中添加更多的條件(即添加參考圖像)來擴展生成型圖像修復(fù)模型表達力的方法。

在一個涵蓋了一系列多樣化且具有挑戰(zhàn)性的場景的新的圖像補全基準(zhǔn)測試中,RealFill 的表現(xiàn)大大超過了現(xiàn)有的方法。

方法

RealFill 的目標(biāo)是在盡可能保持真實性的前提下,使用少量的參考圖像來補全給定目標(biāo)圖像的缺失部分。具體說,給定最多 5 張參考圖像,和一張大致捕捉到相同場景(但布局或外觀可能不同)的目標(biāo)圖像。

對于給定的場景,研究人員首先通過在參考圖像和目標(biāo)圖像上微調(diào)一個預(yù)訓(xùn)練的 inpainting 擴散模型,創(chuàng)建一個個性化的生成模型。這個微調(diào)過程被設(shè)計成讓微調(diào)后的模型不僅保持良好的圖像先驗,還能學(xué)習(xí)輸入圖像中的場景內(nèi)容、光照和風(fēng)格。然后,使用這個微調(diào)過的模型,通過標(biāo)準(zhǔn)的擴散采樣過程來填充目標(biāo)圖像中的缺失區(qū)域。

值得注意的是,為了實際的應(yīng)用價值,該模型特別關(guān)注更具挑戰(zhàn)性、無約束的情況,即目標(biāo)圖像和參考圖像可能有非常不同的視點、環(huán)境條件、相機光圈、圖像風(fēng)格,甚至包括移動的對象。

實驗結(jié)果

根據(jù)左側(cè)的參考圖像,RealFill 能夠?qū)τ覀?cè)的目標(biāo)圖像進行擴展(uncrop)或修復(fù)(inpaint),生成的結(jié)果不僅視覺上吸引人,而且與參考圖像保持一致,即使參考圖像和目標(biāo)圖像在視點、光圈、光照、圖像風(fēng)格和物體運動等方面存在較大差異。

圖片

圖片

圖片

圖片

RealFill 模型的輸出效果。給定左側(cè)的參考圖像,RealFill 能夠擴畫出對應(yīng)的右側(cè)目標(biāo)圖像。白色框內(nèi)的區(qū)域被提供給網(wǎng)絡(luò)作為已知的像素,而白色框外的區(qū)域都是生成的。結(jié)果顯示,即使參考圖像和目標(biāo)圖像之間存在包括視點、光圈、光照、圖像風(fēng)格和物體運動等巨大差異,RealFill 也能生成高質(zhì)量且忠實于參考圖像的圖像。來源:論文

對照實驗

研究人員比較了 RealFill 模型和其他的基準(zhǔn)方法。相比之下,RealFill 生成的結(jié)果質(zhì)量高,在場景保真度和與參考圖像的一致性方面,RealFill的表現(xiàn)更好。

Paint-by-Example 無法實現(xiàn)高度的場景保真,因為它依賴于 CLIP 嵌入,而 CLIP 嵌入只能捕獲高級語義信息。

Stable Diffusion Inpainting 雖然可以產(chǎn)生看似合理的結(jié)果,但由于 prompt 的表達能力有限,所以最終生成結(jié)果與參考圖像并不一致。

圖片

RealFill 與其他兩種基線方法的比較。覆蓋了一層透明白色掩碼的區(qū)域是目標(biāo)圖像未修改的部分。來源:realfill.github.io

局限

研究人員也討論了 RealFill 模型的一些潛在的問題和限制,包括處理速度、對視點變化的處理能力,以及對基礎(chǔ)模型具有挑戰(zhàn)性的情況的處理能力。具體說:

RealFill 需要對輸入圖像進行基于梯度的微調(diào)過程,這使得它的運行速度相對較慢。

當(dāng)參考圖像和目標(biāo)圖像之間的視點變化非常大時,RealFill 往往無法恢復(fù) 3D 場景,特別是當(dāng)只有一張參考圖像的時候。

由于 RealFill 主要依賴于從基礎(chǔ)的預(yù)訓(xùn)練模型繼承的圖像先驗,因此它無法處理那些對基礎(chǔ)模型來說具有挑戰(zhàn)性的情況,例如 stable diffusion 模型無法處理好文本。

圖片

最后,作者對合作者表示了感謝:

我們要感謝 Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi Li、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin 和 Jon Barron 的寶貴討論和反饋,同時也感謝 Zeya Peng、Rundi Wu、Shan Nan 對評估數(shù)據(jù)集的貢獻。我們特別感謝 Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern 和 Nicole Brichtova 對項目的反饋和支持。

了解更多可閱讀原論文并訪問項目主頁。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2019-03-13 11:23:29

區(qū)塊鏈區(qū)塊鏈技術(shù)身份驗證

2015-06-09 11:13:18

2023-11-20 10:34:09

語言

2014-11-05 11:08:55

2022-06-14 14:48:09

AI圖像GAN

2023-06-25 09:41:52

GPTAI

2015-12-17 18:57:06

京東大數(shù)據(jù)

2009-11-25 10:29:41

袁萌谷歌Chrome OS

2013-02-18 13:28:19

谷歌Gmail

2011-11-15 08:53:52

用戶

2024-11-21 12:43:06

2025-01-03 10:30:00

2022-10-21 15:02:36

DeepFake技術(shù)

2025-04-09 13:25:34

2025-04-09 08:23:49

2013-01-07 09:22:02

DLP數(shù)據(jù)丟失防護

2013-01-17 09:26:41

云可擴展性云應(yīng)用

2018-05-09 10:59:55

軟件定義存儲

2011-05-31 09:38:48

OracleDUAL
點贊
收藏

51CTO技術(shù)棧公眾號