自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

單張圖片引導,保留主體,風格百變,VCT幫你輕松實現(xiàn)

人工智能 新聞
最近,來自網易互娛 AI Lab 的研究人員提出了一種基于單張圖像引導的圖像到圖像編輯方案,給定單張參考圖像,即可把參考圖中的物體或風格遷移到源圖像,同時不改變源圖像的整體結構。研究論文已被 ICCV 2023 接收,相關代碼已開源。

近年來,圖像生成技術取得了很多關鍵性突破。特別是自從 DALLE2、Stable Diffusion 等大模型發(fā)布以來,文本生成圖像技術逐漸成熟,高質量的圖像生成有了廣闊的實用場景。然而,對于已有圖片的細化編輯依舊是一個難題。

一方面,由于文本描述的局限性,現(xiàn)有的高質量文生圖模型,只能利用文本對圖片進行描述性的編輯,而對于某些具體效果,文本是難以描述的;另一方面,在實際應用場景中,圖像細化編輯任務往往只有少量的參考圖片,這讓很多需要大量數(shù)據(jù)進行訓練的方案,在少量數(shù)據(jù),特別是只有一張參考圖像的情況下,難以發(fā)揮作用。

最近,來自網易互娛 AI Lab 的研究人員提出了一種基于單張圖像引導的圖像到圖像編輯方案,給定單張參考圖像,即可把參考圖中的物體或風格遷移到源圖像,同時不改變源圖像的整體結構。研究論文已被 ICCV 2023 接收,相關代碼已開源。

  • 論文地址:https://arxiv.org/abs/2307.14352
  • 代碼地址:https://github.com/CrystalNeuro/visual-concept-translator

讓我們先來看一組圖,感受一下它的效果。

圖片

論文效果圖:每組圖片左上角是源圖,左下角是參考圖,右側是生成結果圖

主體框架

論文作者提出了一種基于反演-融合(Inversion-Fusion)的圖像編輯框架 ——VCT(visual concept translator,視覺概念轉換器)。如下圖所示,VCT 的整體框架包括兩個過程:內容-概念反演過程(Content-concept Inversion)和內容-概念融合過程(Content-concept Fusion)。內容 - 概念反演過程通過兩種不同的反演算法,分別學習和表示原圖像的結構信息和參考圖像的語義信息的隱向量;內容-概念融合過程則將結構信息和語義信息的隱向量進行融合,生成最后的結果。

圖片

論文主體框架

值得一提的是,反演方法是近年來,特別是在生成對抗網絡(GAN)領域,廣泛應用且在眾多圖像生成任務上取得突出效果的一項技術【1】。GAN Inversion 技術將一張圖片映射到與訓練的 GAN 生成器的隱空間中,通過對隱空間的控制來實現(xiàn)編輯的目的。反演方案可以充分利用預訓練生成模型的生成能力。本研究實際上是將 GAN Inversion 技術遷移到了以擴散模型為先驗的,基于圖像引導的圖像編輯任務上。


圖片

反演技術

方法介紹

基于反演的思路,VCT 設計了一個雙分支的擴散過程,其包含一個內容重建的分支 B* 和一個用于編輯的主分支 B。它們從同一個從 DDIM 反演(DDIM Inversion【2】,一種利用擴散模型從圖像計算噪聲的算法)獲得的噪聲 xT 出發(fā),分別用于內容重建和內容編輯。論文采用的預訓練模型為隱向量擴散模型(Latent Diffusion Models,簡稱 LDM),擴散過程發(fā)生在隱向量空間 z 空間中,雙分支過程可表示為:

圖片


圖片

雙分支擴散過程

內容重建分支 B* 學習 T 個內容特征向量 圖片,用于還原原圖的結構信息,并通過軟注意力控制(soft attention control)的方案,將結構信息傳遞給編輯主分支 B。軟注意力控制方案借鑒了谷歌的 prompt2prompt【3】工作,公式為:

圖片

即當擴散模型運行步數(shù)在一定區(qū)間時,將編輯主分支的注意力特征圖替換內容重建分支的特征圖,實現(xiàn)對生成圖片的結構控制。編輯主分支 B 則融合從原圖像學習的內容特征向量 圖片 和從參考圖像學習的概念特征向量 圖片,生成編輯的圖片。

圖片

噪聲空間 ( 圖片空間) 融合

在擴散模型的每一步,特征向量的融合都發(fā)生在噪聲空間空間,是特征向量輸入擴散模型之后預測的噪聲的加權。內容重建分支的特征混合發(fā)生在內容特征向量圖片和空文本向量上,與免分類器(Classifier-free)擴散引導【4】的形式一致:

圖片

編輯主分支的混合是內容特征向量 圖片 和概念特征向量 圖片 的混合,為

圖片

至此,研究的關鍵在于如何從單張源圖片獲取結構信息的特征向量圖片,和從單張參考圖片獲取概念信息的特征向量 圖片。文章分別通過兩個不同的反演方案實現(xiàn)這一目的。

為了復原源圖片,文章參考 NULL-text【5】優(yōu)化的方案,學習 T 個階段的特征向量去匹配擬合源圖像。但與 NULL-text 優(yōu)化空文本向量去擬合 DDIM 路徑不同的是,本文通過優(yōu)化源圖片特征向量,去直接擬合估計的干凈特征向量,擬合公式為:

圖片

圖片

與學習結構信息不同的是,參考圖像中的概念信息需要用單一高度概括的特征向量來表示,擴散模型的 T 個階段共用一個概念特征向量 圖片 。文章優(yōu)化了現(xiàn)有的反演方案 Textual Inversion【6】和 DreamArtist【7】。其采用一個多概念特征向量來表示參考圖像的內容,損失函數(shù)包含一項擴散模型的噪聲預估項和在隱向量空間的預估重建損失項:

圖片


實驗結果


文章在主體替換和風格化任務上進行了實驗,可以在較好地保持源圖片的結構信息的情況下,將內容變成參考圖片的主體或風格。


論文實驗效果

文章提出的 VCT 框架相較于以往的方案有以下優(yōu)勢:

(1)應用泛化性:與以往的基于圖像引導的圖像編輯任務相比,VCT 不需要大量的數(shù)據(jù)進行訓練,且生成質量和泛化性更好。其基于反演的思路,以在開放世界數(shù)據(jù)預訓練好的高質量文生圖模型為基礎,實際應用時,只需要一張輸入圖和一張參考圖就可以完成較好的圖片編輯效果。

(2)視覺準確性:相較于近期文字編輯圖像的方案,VCT 利用圖片進行參考引導。圖片參考相比于文字描述,可以更加準確地實現(xiàn)對圖片的編輯。下圖展示了 VCT 與其它方案的對比結果:

主體替換任務對比效果

圖片

風格遷移任務對比效果

(3)不需要額外信息:相較于近期的一些需要添加額外控制信息(如:遮罩圖或深度圖)等方案來進行引導控制的方案,VCT 直接從源圖像和參考圖像學習結構信息和語義信息來進行融合生成,下圖是一些對比結果。其中,Paint-by-example 通過提供一個源圖像的遮罩圖,來將對應的物體換成參考圖的物體;Controlnet 通過線稿圖、深度圖等控制生成的結果;而 VCT 則直接從源圖像和參考圖像,學習結構信息和內容信息融合成目標圖像,不需要額外的限制。

基于圖像引導的圖像編輯方案的對比效果

網易互娛 AI Lab

網易互娛 AI Lab 成立于 2017 年,隸屬于網易互動娛樂事業(yè)群,是游戲行業(yè)領先的人工智能實驗室。實驗室致力于計算機視覺、語音和自然語言處理,以及強化學習等技術在游戲場景下的的研究和應用,旨在通過 AI 技術助力互娛旗下熱門游戲及產品的技術升級,目前技術已應用于網易互娛旗下多款熱門游戲,如《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西游》等等。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-05-06 19:57:09

代碼開發(fā)編碼

2024-06-03 08:55:27

團隊代碼工具

2024-10-25 11:56:33

OCRVisRAGRAG

2015-06-09 09:25:34

2009-12-17 14:36:57

Ruby on Rai

2009-07-07 11:04:12

百變蠕蟲病毒卡巴斯基

2024-07-04 08:26:12

AndroidJPEG圖片

2024-04-19 08:31:40

Android屬性讀取

2009-10-12 13:03:45

RHEL Squid

2023-07-14 09:41:01

3DAI

2009-11-02 11:37:37

2024-03-20 12:27:48

模型訓練

2024-04-03 10:05:02

2011-09-16 17:12:01

iOS應用Android應用Ribblet

2022-09-16 08:04:25

阿里云權限網絡

2010-05-14 17:29:09

火狐瀏覽器開源

2015-02-12 16:48:35

虛擬主機選擇

2018-06-11 17:27:56

APP流量華為

2015-10-19 16:33:59

破解系統(tǒng)密碼Windows

2022-05-09 14:44:50

修復工具包office
點贊
收藏

51CTO技術棧公眾號