自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!

發(fā)布于 2024-8-1 08:38
瀏覽
0收藏

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2407.17911
git鏈接:https://alberthkyhky.github.io/ReCorD/

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

亮點直擊

  • 引入了一種新穎的推理框架,將潛在擴散模型(LDM)與視覺語言模型(VLM)相結(jié)合,以克服生成逼真的人與物體互動(HOI)時面臨的挑戰(zhàn),緩解了以往方法中的問題,例如大語言模型(LLM)對簡單文本提示的過度分析以及LDM中的訓(xùn)練數(shù)據(jù)偏差。
  • 為了提升人物形象描繪的準(zhǔn)確性,在LDM中設(shè)計了一個校正機制,用于動態(tài)圖像調(diào)整,使得對生成圖像中人類互動的精確控制和精細(xì)化成為可能,從而顯著提高了描繪的準(zhǔn)確性。
  • 大量實驗表明,本文的免訓(xùn)練方法ReCorD在創(chuàng)建引人入勝且逼真的HOI場景方面表現(xiàn)出色,優(yōu)于其它SOTA方法。

擴散模型通過利用自然語言引導(dǎo)多媒體內(nèi)容的創(chuàng)作,徹底改變了圖像生成技術(shù)。盡管在這些生成模型上取得了顯著進展,但在描繪人類與物體的詳細(xì)互動方面仍存在挑戰(zhàn),特別是在姿勢和物體放置準(zhǔn)確性方面。


本文引入了一種名為推理和校正擴散(ReCorD)的免訓(xùn)練方法來解決這些挑戰(zhàn)。該模型結(jié)合了潛在擴散模型和視覺語言模型,以優(yōu)化生成過程,確保精確描繪人與物體的互動(HOI)。提出了一個互動感知推理模塊來改進互動的解釋,并引入一個互動校正模塊,以精細(xì)化輸出圖像,達到更精確的HOI生成效果。通過精心的姿勢選擇和物體定位過程,ReCorD在生成圖像的保真度方面表現(xiàn)出色,同時有效減少了計算需求。在三個基準(zhǔn)上進行了全面的實驗,展示了在解決文本到圖像生成任務(wù)上的顯著進展,ReCorD通過在HOI分類評分、FID和動詞CLIP評分上的優(yōu)越表現(xiàn),展示了其精確渲染復(fù)雜互動的能力,優(yōu)于現(xiàn)有方法。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

方法

ReCorD,是一種免訓(xùn)練優(yōu)勢的互動感知模型。生成的圖像依賴于人類采用適當(dāng)?shù)淖藙?,并確保物體根據(jù)給定的文本提示位于合適的位置。生成流程包括三個模塊:粗略候選生成、互動感知推理和互動校正。將這些模塊分別簡稱為、和。通過觀察到擴散模型在早期去噪步驟中捕捉初始布局,并在后期迭代中細(xì)化細(xì)節(jié),將去噪過程分解為兩個階段,即和。在前一階段,生成k個粗略候選,而根據(jù)文本提示建議理想的姿勢和布局。隨后,在保留選定姿勢的同時糾正物體位置,將粗略圖像細(xì)化為所需的圖像。重要的是,ReCorD賦予擴散模型創(chuàng)建與文本提示一致的圖像的能力,突出了復(fù)雜的空間條件和復(fù)雜的互動,而無需額外訓(xùn)練。整體流程如下圖2所示。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

粗略候選生成模塊

給定描述HOI三元組(即“主體正在對物體進行某個動作”)的文本提示??,通過在中采用不同的注意力機制來增強互動表示。更具體地說,操控交叉注意力和自注意力圖生成與提示動作相關(guān)的候選圖像??。


交叉注意力圖操控。為了便于生成與文本信息相關(guān)的圖像,在LDMs中使用交叉注意力圖來整合這些條件。在去噪過程中,LDMs最初從高斯分布N(0,1)中采樣潛在向量,并逐步去除噪聲以在每一步中獲得。通過文本編碼器將提示??編碼為文本tokens后,交叉注意力圖定義如下:

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

其中,和分別表示通過相應(yīng)投影函數(shù)得出的查詢和鍵embeddings。??和??分別是空間歸一化和來自CLIP的文本編碼器,生成中間表示和??個文本tokens 。為簡化起見,在操控注意力圖時省略了表示去噪步驟的下標(biāo)t。


在生成HOI場景時,建模交叉注意力圖以表示互動(即??中的動詞)具有挑戰(zhàn)性,導(dǎo)致動詞標(biāo)記的表示模糊。為了解決這一問題,提出了一種替代的不及物提示,這通常排除y中與物體相關(guān)的描述。使用,可以通過在公式(1)中用替換K來導(dǎo)出交叉注意力圖。如下圖3所示,使用時,相比于A捕捉到了更多的信息線索,特別是對動詞標(biāo)記,從而生成更具互動性的表示。通過重新排列最終的交叉注意力圖,公式如下:

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

其中,??表示文本標(biāo)記的索引。理想情況下,如果文本tokens存在于不及物提示中,會接受這些注意力圖。


自注意力圖操控。與交叉注意力圖不同,自注意力圖缺乏直接的tokens關(guān)聯(lián),但仍然會影響生成圖像的空間布局和外觀。因此,在去噪步驟?? >??后,同樣對潛在表示的自注意力圖進行操控,以獲得,其中??是一個預(yù)定義參數(shù),確??梢杂行蓙碜栽紅oken ??(??)的場景和物體。

互動感知推理模塊

作為連接其他模塊的中間模塊,在中生成粗略候選后,提出了互動感知推理模塊  (見下圖4)。該模塊由兩個由VLM驅(qū)動的組件組成:姿勢選擇agent和布局agent。具體來說,姿勢選擇agent選擇與提示??一致的圖像,而布局agent調(diào)整物體的位置,保留人關(guān)鍵點P,并進一步確定校正模塊M??的目標(biāo)位置。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

姿勢選擇Agent。由于姿勢在HOI生成中具有重要特征,首先結(jié)合一個agent來選擇與提示條件一致的適當(dāng)姿勢。姿勢選擇agent將初始提示??與先前生成的候選相結(jié)合,以創(chuàng)建姿勢模板。利用VLM的視覺理解能力,該agent在識別與??對應(yīng)的精確姿勢方面表現(xiàn)出色,增強了模型對視覺數(shù)據(jù)的解釋能力,而不僅僅依賴于LLM中的文本認(rèn)知。這一步驟確保了從LDMs初始獲得的姿勢信息在后續(xù)階段得到精細(xì)化處理。


布局Agent。為了解決LLM輔助方法過于依賴提示來采樣布局的問題,將識別出的關(guān)鍵點P和人體的邊界框作為附加數(shù)據(jù)。認(rèn)識到互動涉及人與物體的關(guān)系,使用33個關(guān)鍵點在(??,??)坐標(biāo)中收集P的重要信息,并表示。此外,使用先前agent選擇的圖像作為VLM的輸入來執(zhí)行布局建議任務(wù)。


首先使用Otsu算法提取物體位置,這是一種自動閾值技術(shù),應(yīng)用于物體的交叉注意力圖,以隔離具有較高值的區(qū)域。隨后, 使用MediaPipe Pose Landmark檢測人體關(guān)鍵點以創(chuàng)建分割mask 。接著,為VLMs制定一系列指南和固定協(xié)議,包括對的約束,以保持預(yù)期人體姿勢的完整性,并通過減少重疊策略來提高包含多個物體的生成圖像的質(zhì)量。


此外,受鏈?zhǔn)剿季S方法[59]的啟發(fā),通過引導(dǎo)VLMs構(gòu)建視覺屬性信息來增強人類姿勢的邏輯連貫性。基于多個視覺屬性(例如姿勢類型、身體方向、物體關(guān)系等)在邏輯推理中支持VLMs。借鑒以往研究[5, 39]的見解,為VLMs準(zhǔn)備了三個示例,以幫助澄清視覺表示,防止過度分析和幻覺,以構(gòu)建互動模板。


最終,通過文本抓取提取建議的位置,用于框約束損失公式(4),并集成一個檢查機制來確定的變更是否在預(yù)定閾值內(nèi)。如果變更很小,表示差異不大,將不向發(fā)出更改信號。此機制對于保持簡化且資源高效的生成過程至關(guān)重要,確保只有顯著的位置調(diào)整才會促使進一步行動。

互動校正模塊

在中細(xì)致地優(yōu)化由雙agent提供的候選圖像,同時保留原有人體姿勢,如下圖5所示。為了結(jié)合LDMs的生成能力與VLMs的推理能力,我們逐步更新潛變量,根據(jù)與互動相關(guān)的邊界框調(diào)整物體的位置和大小。值得注意的是,在的過程中進行去噪,包括交叉注意力和自注意力圖的調(diào)制。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

同時修改物體位置時,需要考慮與人體可能重疊的情況,因為來自不同token的交叉注意力圖可能在同一區(qū)域表現(xiàn)出強值,這將降低圖像質(zhì)量。為了解決這一挑戰(zhàn),引入了消除注意力重疊的機制。具體來說,給定物體的token索引為??,在每個時間步??使用交叉注意力圖構(gòu)建一個逆mask,記為,其中??是與維度相同的張量,所有元素均為1。然后將這個逆注意力圖應(yīng)用于其余的圖,通過逐元素乘積操作定義如下:

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

通過公式(3),可以在更新物體位置時減輕人與物體之間的注意力重疊問題,確保成功生成更新后的物體。

條件空間約束 由于ReCorD是免訓(xùn)練的,并且不涉及用于知識轉(zhuǎn)移的額外可學(xué)習(xí)網(wǎng)絡(luò),采用框約束來規(guī)范去噪器,其公式如下:

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

其中,序列順序中的每一項分別表示內(nèi)框、外框和角點約束。在每個時間步??使用對應(yīng)的權(quán)重應(yīng)用公式(4)來更新潛變量:

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

通過在每一步對進行輕微更新,確保物體與框區(qū)域保持足夠的互信息并符合指定的大小,即,從而準(zhǔn)確糾正物體的位置以表示互動。由于LDM旨在迭代去噪并涉及作為中介的注意力圖,是在操控前的時間步??的擴散過程,該過程會查找相應(yīng)的注意力圖。在通過提出的ReCorD之后,去噪UNet被重復(fù)使用以預(yù)測下一步的潛在表示。正式地,表示采用操控過的注意力圖的擴散模型,結(jié)果為預(yù)測,即。

實驗

實驗設(shè)置

數(shù)據(jù)集。鑒于缺乏專門為HOI生成設(shè)計的標(biāo)準(zhǔn)基準(zhǔn),通過從兩個已建立的HOI檢測數(shù)據(jù)集中提取HOI三元組來評估我們方法的有效性,即HICO-DET和VCOCO,以形成輸入文本提示。HICO-DET包含600個三元組,涵蓋80個物體類別和117個動詞類別,而VCOCO包含228個三元組,跨越80個物體類別和29個動詞類型。為了全面評估,結(jié)合了T2I-CompBench中的非空間關(guān)系類別,該類別包含875個互動術(shù)語。選擇T2I-CompBench中僅涉及HOI的提示。為了增強多樣性,對從數(shù)據(jù)集中提取的每個動詞和物體對應(yīng)用隨機主體增強以形成輸入提示。因此,實驗在三個數(shù)據(jù)集上進行:HICO-DET,有7,650個HOI提示;VCOCO,提供2,550個提示;以及T2I-CompBench的非空間關(guān)系類別,增加465個提示。


Baselines。與九個表現(xiàn)強勁的模型的比較,

  • T2I模型:Stable Diffusion (SD)、Attend-and-Excite (A&E)、SDXL和DALL-E 3。
  • L2I模型:BoxDiff、MultiDiffusion和InteractDiffusion。
  • LLM輔助的T2I模型:LayoutLLM-T2I和LMD。


使用了每個Baseline的官方實現(xiàn)和默認(rèn)設(shè)置。對于L2I模型,除了文本提示外,還提供了來自HICO-DET和VCOCO數(shù)據(jù)集的實際邊界框數(shù)據(jù)。對于LLM輔助的方法,輸入布局完全由LLMs生成,而不是來自數(shù)據(jù)集。


評估指標(biāo)。為了測量生成圖像中的互動情況使用CLIP-Score 來評估輸入文本和生成圖像之間的相似性。雖然這個指標(biāo)通常用于估計對文本提示的忠實度,但注意到它傾向于名詞或物體偏倚,CLIP經(jīng)常無法區(qū)分動詞,而是依賴名詞[40, 66]。為了解決這個問題,專門提取文本提示中的動詞,并計算動詞CLIP-Score 。此外,引入了HOI分類得分來評估互動表現(xiàn)。通過將一個預(yù)訓(xùn)練的最先進HOI檢測器轉(zhuǎn)化為分類器,評估生成圖像中的HOI實例,并將其與HICO-DET和VCOCO的實際情況進行比較。HOI分類的準(zhǔn)確性根據(jù)前三名準(zhǔn)確度進行評估。HOIFull和HOIRare分別表示HICO-DET數(shù)據(jù)集中完整集合和稀有集合的得分。稀有集合是基于數(shù)據(jù)集中實例少于10個的標(biāo)準(zhǔn)選擇的。此外,使用Fréchet Inception Distance (FID)和PickScore來評估圖像質(zhì)量。FID比較真實圖像和生成圖像之間的Inception特征的Fréchet距離分布,而PickScore是一種文本-圖像評分指標(biāo),在預(yù)測用戶偏好方面超越了人類表現(xiàn)。


實現(xiàn)細(xì)節(jié)。選擇Stable Diffusion模型作為默認(rèn)backbone,并將GPT4V作為中的VLM。將無分類器引導(dǎo)的比例設(shè)置為7.5,去噪步驟為,,并在去噪步驟中使用DDIM調(diào)度器。粗略候選的數(shù)量?? = 5,超參數(shù)?? = 5啟動自注意力圖的操控操作。對于評估,HICO-DET和VCOCO數(shù)據(jù)集每個三元組生成一張圖像,而T2I-CompBench每個三元組生成三張圖像。

質(zhì)量結(jié)果

提供了一個定性比較來評估生成的HOI。如下圖6所示,ReCorD在生成符合文本提示的真實人體姿勢和物體位置方面優(yōu)于其他最先進的方法,證明了其在高保真度描繪物體互動方面的能力。相比之下,Baseline方法往往會錯誤地放置物體或無法捕捉預(yù)期動作的細(xì)微差別。對于L2I模型,雖然BoxDiff在物體大小要求方面表現(xiàn)良好,但在準(zhǔn)確描繪互動姿勢方面存在困難;InteractDiffusion即使經(jīng)過微調(diào),仍無法準(zhǔn)確呈現(xiàn)細(xì)微動作,如(a)、(d)、(e)和(f)所示;MultiDiffusion盡力實現(xiàn)精確的物體定位,但生成的圖像大小各異。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

另一方面,盡管LayoutLLM-T2I利用語言模型來改善布局生成,但通常會產(chǎn)生與人類不成比例的物體,這在(e)和(f)中尤為明顯。此外,MultiDiffusion定義了一種新的生成優(yōu)化過程,但它嚴(yán)重依賴于預(yù)訓(xùn)練模型的先驗知識。特別是,SDXL在動作姿勢(a)、(b)、(d)和(e)方面存在困難,而DALL-E 3在物體大小和位置(a)、(c)、(e)和(f)方面存在問題,顯示了ReCorD在超越現(xiàn)有解決方案的局限性方面的關(guān)鍵進展。

定量結(jié)果

生成結(jié)果的定量比較,其中HICO-DET和VCOCO的數(shù)據(jù)提示見下表1,T2I-CompBench數(shù)據(jù)提示見表2。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

CLIP基礎(chǔ)的圖像-文本相似性。CLIP-Score  的結(jié)果顯示,ReCorD在HICO-DET和T2I-CompBench數(shù)據(jù)集上優(yōu)于其他方法,并且在VCOCO數(shù)據(jù)集上與MultiDiffusion相當(dāng)。此外,ReCorD在三個數(shù)據(jù)集中都在動詞CLIP-Score 方面取得了最佳結(jié)果,這確認(rèn)了生成更緊密匹配的互動的能力。


圖像質(zhì)量評估。根據(jù)PickScore評估,ReCorD模型與SDXL模型相當(dāng),并且優(yōu)于其他方法。這表明,在將設(shè)計的互動校正模塊與SD模型結(jié)合后,ReCorD可以保持模型的圖像生成質(zhì)量,同時實現(xiàn)更真實的互動。此外,當(dāng)使用FID分?jǐn)?shù)比較HICO-DET和VCOCO數(shù)據(jù)集中的生成圖像與真實圖像時,ReCorD優(yōu)于其他方法,除了InteractDiffusion。值得注意的是,考慮到InteractDiffusion使用HICO-DET和COCO數(shù)據(jù)集進行了微調(diào),ReCorD在無需訓(xùn)練或額外HOI數(shù)據(jù)的情況下表現(xiàn)尤為突出。


互動準(zhǔn)確性評估。上表1驗證了ReCorD顯著提高了HOI生成的準(zhǔn)確性,顯示了在合成更精確HOI方面的效果。

生成速度和內(nèi)存使用

生成一張圖像時,使用了Nvidia RTX 6000 GPU,當(dāng)使用SD/SDXL作為骨干網(wǎng)時,內(nèi)存消耗分別為14/42 GB,總推理時間為40.66/61.48秒。

比較布局建議的MLLM

評估了BLIP-2,通過隨機調(diào)整HICO-DET中真實邊界框的大小和位置。然而,BLIP-2常常誤解現(xiàn)實世界的分布,提供無關(guān)的答案和無效的mIoU分?jǐn)?shù)。相比之下,GPT-4V達到了49.72%的mIoU分?jǐn)?shù),展示了優(yōu)越的布局建議準(zhǔn)確性,使其非常適合ReCorD。

GPT-4V的評估

根據(jù)T2I-CompBench對非空間關(guān)系的評估,ReCorD取得了98.16的GPT分?jǐn)?shù),優(yōu)于SOTA T2I方法如SDXL(97.87)、MultiDiffusion(97.43)和LayoutLLM-T2I(96.75)。這證明了ReCorD生成與基礎(chǔ)模型知識對齊的準(zhǔn)確HOI圖像的能力。

消融研究

在消融研究中,下圖7展示了集成了ReCorD模塊的SD HOI生成結(jié)果:(a) 僅使用SD,(b) 使用SD和,(c) 使用、 +  + 。僅使用的情況下,生成的輸出效果較差,這可能受到其訓(xùn)練數(shù)據(jù)中固有偏差的影響,導(dǎo)致對文本提示中描述的意圖交互的誤解。從(b)的結(jié)果來看,加入后,由于采用了非及物提示調(diào)整技術(shù),生成的人的動作準(zhǔn)確性顯著提高,這表明簡化提示以專注于核心動作能夠使模型更精確地生成預(yù)期的姿勢。然而,它仍然在準(zhǔn)確定位圖像中的物體方面存在困難,導(dǎo)致交互錯誤。對于ReCorD,有助于選擇合適的姿勢并保留合適的候選項,而則對圖像進行細(xì)化,以獲得正確的對象大小和位置的準(zhǔn)確交互,同時保持所選姿勢。因此,(c)中的完整pipeline的HOI生成展示了最成功的結(jié)果。

ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝!ReCorD:交互場景生成最新SOTA!-AI.x社區(qū)

結(jié)論

本文引入了專門為HOI(人-物體交互)圖像生成量身定制的ReCorD框架。該方法包括三個特定于交互的模塊,這些模塊相互協(xié)作。核心思想圍繞使用基于VLM(視覺語言模型)的agent和LDM(潛在擴散模型)來推理布局和修正注意力圖,以解決這一挑戰(zhàn)。大量實驗證明了本文方法在提高圖像準(zhǔn)確性和語義忠實度方面的有效性,特別是在捕捉復(fù)雜交互概念方面,這是許多Baseline生成模型難以處理的。此外,通過各種協(xié)議和針對HOI生成的用戶調(diào)查量化了我們的改進,提供了有價值的見解,并為該領(lǐng)域未來的探索鋪平了道路。


本文轉(zhuǎn)自 AI生成未來 ,作者:JianYu JiangLin


原文鏈接:??https://mp.weixin.qq.com/s/ZQuxu7ED-5upuXxE9WfX1g??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦