自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!

發(fā)布于 2024-5-28 11:49
瀏覽
0收藏

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2405.11190

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

基于指令的圖像編輯專注于使生成模型能夠遵循人類書寫的編輯圖像指令。當(dāng)前的方法通常能夠理解明確且具體的指令。然而,它們往往在執(zhí)行所需的主動推理能力上表現(xiàn)不足,無法很好地理解隱含或定義不足的指令。為了增強主動推理能力并賦予編輯模型智能性,本文引入了ReasonPix2Pix,一個綜合性的推理注意指令編輯數(shù)據(jù)集。


該數(shù)據(jù)集的特點是:

  • 包含推理指令
  • 來自細粒度類別的更真實的圖像
  • 輸入和編輯圖像之間的更大差異


在監(jiān)督條件下使用該數(shù)據(jù)集進行微調(diào)時,該模型在指令編輯任務(wù)中表現(xiàn)出優(yōu)越的性能,無論這些任務(wù)是否需要推理。

介紹

基于指令的圖像編輯旨在使生成模型具備遵循人類書寫的編輯圖像指令的能力,這對于促進AI生成內(nèi)容(AIGC)系統(tǒng)理解人類意圖至關(guān)重要。


現(xiàn)有的基于指令的圖像編輯框架通常能夠理解明確且具體的指令,例如“將水果換成蛋糕”。不幸的是,這些模型在主動推理能力上表現(xiàn)不足,即理解指令的含義而不僅僅是從中提取詞語。如下圖2所示,一個典型的基于指令的圖像編輯框架InstructPix2Pix未能實現(xiàn)“她更喜歡口罩而不是太陽鏡”,卻給女人添加了太陽鏡,這是不合理的。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

同時,該模型缺乏理解給定圖像的能力。例如,對于一個簡單明確的指令“讓它變成50年后”,對于各種給定的圖像,編輯結(jié)果應(yīng)該是不同的。但是在下圖3中,以前的方法只是簡單地將人變老,甚至未能編輯圖像,這是完全不正確的。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

另一方面,這些方法也缺乏理解隱含或定義不足的指令的能力。這需要人工干預(yù),將隱含指令變?yōu)槊鞔_指令,或?qū)⒅噶罘纸鉃槎鄠€明確、具體的指令,以符合這些模型的能力。

例如,指令“讓房間整潔”需要手動分解為各種步驟,如“將散落的衣物整齊折疊”,“移除地上的垃圾”,以及“整理床單”等。同樣,隱含指令“她是這場表演的明星”需要人為干預(yù),將其明確為“在圖像中添加一些閃光和聚光燈效果”。因此,增強自我推理能力不僅對用戶更友好,而且是下一代智能AIGC系統(tǒng)發(fā)展的關(guān)鍵。


借助多模態(tài)大模型(MLLM)的生成模型在推理感知指令編輯方面的潛力是巨大的。然而,現(xiàn)有的用于指令編輯的數(shù)據(jù)集未能充分發(fā)揮和利用模型的內(nèi)在推理能力。


因此,本文研究者們開發(fā)了一個綜合性的推理注意指令編輯數(shù)據(jù)集ReasonPix2Pix,該數(shù)據(jù)集包含圖像對及其相應(yīng)的推理指令。ReasonPix2Pix的特點包括:


  • 隱含指令以進一步增強模型的推理能力
  • 來自細粒度類別的大量真實圖像
  • 輸入圖像和編輯后圖像之間在幾何層面上的顯著差異。


在下表1中與之前的數(shù)據(jù)集進行了比較。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

此外,將多模態(tài)大模型(MLLM)引入圖像編輯模型,并在數(shù)據(jù)集上進行微調(diào),從而增強圖像編輯的推理能力,并顯著提升指令編輯的質(zhì)量。


貢獻可以總結(jié)如下:

  • 提出了基于指令推理的圖像編輯任務(wù),這是一項有趣的任務(wù),旨在增強模型理解人類意圖的智能。
  • 開發(fā)了一個綜合性的推理注意指令編輯數(shù)據(jù)集ReasonPix2Pix,該數(shù)據(jù)集包含圖像對及其相應(yīng)的推理指令。
  • 在數(shù)據(jù)集上微調(diào)了一個簡單的框架。即使在沒有繁雜操作的情況下,該模型不僅在不需要推理的指令編輯任務(wù)中表現(xiàn)出色,而且在需要推理的任務(wù)中也表現(xiàn)良好。

相關(guān)工作

圖像編輯 圖像編輯是一個基礎(chǔ)的計算機視覺任務(wù),也可以看作是圖像到圖像的轉(zhuǎn)換。在生成對抗網(wǎng)絡(luò)(GAN)提出后,許多工作[13, 14, 19, 29, 35]被發(fā)明來解決這一任務(wù)。一類方法[1–3, 7, 10, 41, 50]將原始圖像插入潛在空間,然后進行操作。這些方法被證明在轉(zhuǎn)換圖像風(fēng)格、添加和移動圖像中的對象方面是有效的。


最近,隨著多模態(tài)學(xué)習(xí)的爆炸性發(fā)展,文本信息可以通過諸如CLIP之類的模型嵌入,然后作為圖像編輯的指導(dǎo)。這些方法使模型能夠根據(jù)給定的文本編輯圖像。


擴散模型 擴散模型是最受歡迎的生成模型之一,在圖像合成方面表現(xiàn)出色。通過擴散過程學(xué)習(xí)給定數(shù)據(jù)集的概率分布。最近,文本到圖像的擴散模型,如Stable Diffusion,在將文本轉(zhuǎn)換為高質(zhì)量圖像方面取得了巨大成功。


圖像編輯的擴散模型一些擴散模型天生具備編輯圖像的能力。然而,在實際應(yīng)用中,這些模型顯示出穩(wěn)定性較差的問題(即在給定類似文本時生成類似的圖像)。通過Prompt-to-Prompt在模型上施加約束,這個問題得到了緩解。與以往處理生成圖像的方法不同,SDEdit通過加噪和去噪過程編輯真實圖像。


圖像修復(fù)可以看作是更精細的圖像編輯。它通過從一小組訓(xùn)練樣本中學(xué)習(xí),將文本輸入和用戶繪制的masks轉(zhuǎn)換為特定類別或風(fēng)格的圖像。InstructPix2Pix簡化了生成過程,僅需要一個輸入圖像和一個指令來編輯圖像,而不需要任何訓(xùn)練。它提出了一個大規(guī)模數(shù)據(jù)集,包含配對的圖像和相應(yīng)的指令。然而,它僅包含簡單明了的指令,限制了其在復(fù)雜的現(xiàn)實場景中的應(yīng)用。因此,本文構(gòu)建了一個指令推理數(shù)據(jù)集,以改善圖像編輯。


多模態(tài)大語言模型隨著大語言模型(LLM)的快速發(fā)展,它們被擴展到更多的模態(tài)(如視覺),形成多模態(tài)大語言模型。BLIP-2和mPLUG-OWL引入了視覺編碼器來嵌入圖像,然后將它們與文本embeddings結(jié)合起來。Instruct-tuning被廣泛采用,將LLM的能力轉(zhuǎn)移到視覺領(lǐng)域。另一類工作使用提示工程,犧牲了端到端訓(xùn)練。多模態(tài)大語言模型在視覺任務(wù)中的應(yīng)用被證明在基于視覺的任務(wù)和目標(biāo)檢測方面是有效的。

方法

本文的目標(biāo)是根據(jù)人類指令進行圖像編輯,特別強調(diào)推理指令。給定一個輸入圖像和一個人類指令,模型旨在理解人類的顯性或隱性意圖,并隨后生成與提供的指令一致的輸出圖像。為了實現(xiàn)這一目標(biāo),本文引入了ReasonPix2Pix,一個專門針對基于指令的圖像編輯并關(guān)注推理能力的數(shù)據(jù)集。以該數(shù)據(jù)集為基礎(chǔ)訓(xùn)練數(shù)據(jù),微調(diào)了一個包含多模態(tài)大語言模型與擴散模型的簡單框架。

預(yù)備知識

InstructPix2Pix數(shù)據(jù)集 InstructPix2Pix生成了一個重要的大規(guī)模配對數(shù)據(jù)集,以實現(xiàn)基于指令的圖像編輯。具體地,如下圖4所示

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

它包含:

  • 輸入圖像t和輸入標(biāo)題
  • 編輯后的圖像和編輯后的標(biāo)題
  • 文本指令。

V3Det數(shù)據(jù)集 V3Det是一個龐大的檢測數(shù)據(jù)集,包含13,204個類別,超過240,000張圖像。圖像看起來真實且復(fù)雜,開發(fā)了一個更通用的視覺感知系統(tǒng)。

ReasonPix2Pix

為了將推理能力注入圖像編輯模型,研究者們構(gòu)建了一個綜合性的推理注意指令編輯數(shù)據(jù)集。根據(jù)生成過程,生成數(shù)據(jù)集可以分為三個部分。如表2所示:

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

  • Part I:使用InstructPix2Pix中的原始圖像對,并生成指令以實現(xiàn)指令推理。
  • Part II:從InstructPix2Pix的輸入圖像開始,生成自己的編輯圖像和指令。
  • Part III:從V3Det中獲取更真實的圖像,生成編輯后的圖像和指令。

?

數(shù)據(jù)過濾盡管在基于指令的圖像編輯中取得了巨大成功,InstructPix2Pix模型仍存在各種失敗案例。一個典型的失敗案例是模型傾向于輸出原始圖像,即不進行任何編輯。深入研究數(shù)據(jù)集,發(fā)現(xiàn)部分編輯后的圖像與輸入圖像非常相似。因此,需要首先過濾這部分數(shù)據(jù),通過以下方法區(qū)分它們:

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

如下圖5所示,將InstructPix2Pix數(shù)據(jù)集中的輸入標(biāo)題、編輯標(biāo)題和原始指令輸入GPT-3.5,并要求GPT-3.5生成候選指令。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

然后,再次要求GPT-3.5從中區(qū)分出最佳指令。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

Part II & III:圖像編輯和推理指令生成為了進一步提高模型的能力,研究者們擴展了數(shù)據(jù)集,加入了其他兩部分數(shù)據(jù)。這些數(shù)據(jù)不僅增強了模型的推理能力,還旨在提升模型處理更真實的細粒度類別圖像和輸入與編輯圖像之間更大差異的能力。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

標(biāo)題傳遞給Spacy模型S,這是一個先進的自然語言處理(NLP)模型,用于識別句子中的實體。在這里利用它來提取候選類別。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

Spacy模型提取了i個候選類別。例如,在上面圖6中,Spacy提取了i = 2個類別,即蝴蝶和花朵。


通過這些類別,可以使用Grounding DINO在圖像中定位相應(yīng)的物體。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

然后將標(biāo)題和候選類別注入到GPT-3.5中。在這里,設(shè)計了另一個提示,要求GPT-3.5輸出

  1. 一個被選中的類別
  2. 需要用其替換的目標(biāo)類別
  3. 推理指令。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

在這里展示了數(shù)據(jù)集的一些樣本。從下圖7可以看出,數(shù)據(jù)集具有復(fù)雜的推理指令(例如,“一家公司計劃在清潔能源上開展新項目”),輸入和編輯圖像之間的變化更多,特別是在幾何水平上,而且圖像更加真實。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

數(shù)據(jù)集利用

利用廣泛模型來增強編輯模型的主動推理能力。具體來說,設(shè)計了一個簡單的框架,將一個多模態(tài)大語言模型(MLLM)整合到擴散模型中,如下圖8所示。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

與以往僅通過文本理解人類意圖的方法不同,MLLM通過結(jié)合指令和輸入圖像來增強理解能力。形式上,具有人類意圖的指令特征h可以被公式化為

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

其中,F(xiàn)是MLLM。h是F的輸出,包含了我們指令的多模態(tài)理解。


然后,可以無縫地將h注入到編輯模型中。圖像生成模型可以在h的監(jiān)督下編輯輸入圖像。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

考慮到LLM中的大量參數(shù),在對模型進行微調(diào)時將其固定。利用ReasonPix2Pix數(shù)據(jù)集,模型進行端到端的微調(diào)。

實驗

實施細節(jié)

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

利用V3Det的測試數(shù)據(jù)構(gòu)建了一個基準(zhǔn)測試集,具體流程見前面圖6,共有1000張圖像。同時,記錄了所選類別和目標(biāo)新類別,因此可以通過多種模板制定簡單的指令,例如“將A轉(zhuǎn)換為B”。


因此,測試數(shù)據(jù)包括輸入圖像及其標(biāo)題、真實編輯后的圖像及其標(biāo)題,以及直觀指令和推理指令。分別在這些數(shù)據(jù)上評估了ReasonPix2Pix以及之前的方法。

定性結(jié)果

圖像質(zhì)量 這里將本文的方法與之前的方法在簡單指令下的表現(xiàn)進行了比較。如下圖9所示,InstructPix2Pix未能將圖像中的刺猬變成兔子。而ReasonPix2Pix能夠轉(zhuǎn)換這些復(fù)雜的類別,生成更生動的結(jié)果。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

推理能力 為了比較推理能力,首先我們從相對簡單的指令開始。如下圖10所示,當(dāng)指令是“去除顏色”時。之前的方法在一定程度上能夠理解指令,但生成的結(jié)果不準(zhǔn)確。

InstructPix2Pix遵循指令將圖像轉(zhuǎn)換為黑白,但也移除了背景。相反,ReasonPix2Pix理解了指令并給出了充分的結(jié)果。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

然后我們轉(zhuǎn)移到更復(fù)雜的指令。如下圖11所示,對于間接指令“他有一個正式會議要參加”,之前的InstructPix2Pix無法處理,輸出了原始圖像而沒有進行任何編輯。ReasonPix2Pix能夠理解指令,并讓他穿著正式服裝參加會議。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

定量結(jié)果

除了上述的定性結(jié)果之外,還將定量指標(biāo)與之前的方法進行了比較,如下表3所示,分別使用直接指令和推理指令。我們報告了生成圖像與真實圖像之間的L1和L2距離,以及它們的CLIP和DINO嵌入之間的余弦距離。此外,還報告了CLIP-T,即目標(biāo)標(biāo)題的CLIP特征與生成圖像之間的余弦相似度。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

在傳統(tǒng)的直接指令下,ReasonPix2Pix在之前的方法中取得了競爭性的表現(xiàn),證明了生成的圖像的質(zhì)量。當(dāng)涉及需要理解的推理指令時,之前的方法表現(xiàn)下降,但ReasonPix2Pix的結(jié)果遠遠高于其他方法。


同時,研究者們還進行了用戶研究,以比較ReasonPix2Pix與之前的方法。分別隨機抽取了由不同模型生成的100個樣本,并請5名工作者對它們進行評估(每人20個)。工作者被要求在4個候選項中選擇最佳圖像。從下表4中可以看出,在直接指令下,ReasonPix2Pix略優(yōu)于之前的方法。當(dāng)指令變?yōu)橥评碇噶顣r,ReasonPix2Pix與之前的方法之間的差距變得更大。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

分析

定性結(jié)果評估了數(shù)據(jù)集的三個部分的有效性。下圖12展示了當(dāng)僅使用Part I、Part I和Part II、以及整個數(shù)據(jù)集進行訓(xùn)練時的結(jié)果??梢杂^察到,當(dāng)面對需要推理的指令時,之前的方法如InstructPix2Pix往往會編輯為空或產(chǎn)生不合理的編輯結(jié)果。使用Part I數(shù)據(jù)時,模型似乎理解了指令,但仍然很難提供編輯后的圖像。這與本文提出的觀點一致,即僅使用InstructPix2Pix數(shù)據(jù)集中的圖像時,模型的編輯能力仍然有限。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

另一方面,當(dāng)逐步引入Part II和Part III數(shù)據(jù)時,編輯結(jié)果變得越來越好。有了數(shù)據(jù)集中的所有數(shù)據(jù),模型能夠理解指令并產(chǎn)生相應(yīng)的結(jié)果。


在我們的簡單框架中,將多模態(tài)大語言模型集成到圖像編輯模型中,它自然具有推理能力。在這里,比較了InstructPix2Pix的結(jié)果,添加了未經(jīng)微調(diào)的MLLM,以及在ReasonPix2Pix上進行了微調(diào)的我們的模型。下圖13顯示,未經(jīng)微調(diào)時,圖像編輯模型很難接受MLLM的輸出。當(dāng)在我們的數(shù)據(jù)集上進行微調(diào)時,模型能夠理解和編輯。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

定量結(jié)果在下圖15a中,比較了定量結(jié)果。當(dāng)添加Part I、II和III數(shù)據(jù)時,CLIP-I上升。因此,數(shù)據(jù)集的三個部分都是必不可少的。同時,如下圖15b所示,MLLM帶來了輕微的改進,而數(shù)據(jù)集顯然提升了模型的性能。定量結(jié)果與定性結(jié)果一致。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

綜合理解最后,讓我們回到前面的案例,“使其晚50年”。以前的方法無法處理一些情況,例如水果。同時,理解指令不是一個單一模態(tài)的問題,一個男人的雕像在50年后不會變成老人。通過我們的框架和數(shù)據(jù)集,模型考慮了圖像和指令。因此,它根據(jù)不同的輸入提供了合理的結(jié)果。50年后,一個年輕美麗的女人變成了一個老女人,蘋果變成了腐爛的,雕像變成了一個帶著塵土的破碎的雕像。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)

限制

由于 API 成本的限制,數(shù)據(jù)集大小仍然有限。本文已經(jīng)制定了一個清晰的數(shù)據(jù)生成流程。如果需要,研究人員可以將數(shù)據(jù)集擴展到超過 400,000 個樣本。

結(jié)論

本文旨在增強編輯模型的推理能力,使其更加智能化。具體地,引入了 ReasonPix2Pix,一個專門用于注入推理能力到圖像編輯中的推理指令編輯數(shù)據(jù)集。在提出的數(shù)據(jù)集上微調(diào)了一個簡單的框架。廣泛的實驗結(jié)果證明,ReasonPix2Pix在不管指令是否需要推理的情況下都取得了競爭性的結(jié)果。

林達華團隊最新發(fā)布ReasonPix2Pix:讓基于指令的高級圖像編輯效果飛升!-AI.x社區(qū)


本文轉(zhuǎn)自 AI生成未來 ,作者:Ying Jin等


原文鏈接:??https://mp.weixin.qq.com/s/kf3cRjJDxukpG_xH0IvRdg??

標(biāo)簽
已于2024-5-28 11:49:36修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦