自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力

發(fā)布于 2024-3-27 11:05
瀏覽
0收藏

一、引言

視覺語言模型(VLMs)已在多種多模態(tài)理解和生成任務(wù)中展現(xiàn)了顯著的性能表現(xiàn)。然而,盡管這些多模態(tài)模型在廣泛的任務(wù)中表現(xiàn)出色,但是它們能否有效地捕獲結(jié)構(gòu)化知識(即理解對象間關(guān)系以及對象與其屬性間關(guān)系的能力)仍然是一個未解決的問題。

如圖(a)所示,我們在分析CLIP模型時發(fā)現(xiàn),與圖像不匹配的標(biāo)題(A horse is riding an astronaut)相比,圖像與正確匹配的標(biāo)題(An astronaut is riding a horse)之間的CLIP分?jǐn)?shù)(即語義相似性)表現(xiàn)出較低的數(shù)值。圖(b)展示了當(dāng)交換用來修飾兩個對象的屬性時,模型在準(zhǔn)確區(qū)分它們的語義上可能遇到挑戰(zhàn)。這些發(fā)現(xiàn)表明,CLIP模型產(chǎn)生的通用表征能力無法區(qū)分那些包含相同單詞但在結(jié)構(gòu)化知識方面存在差異的文本段落。換言之,CLIP模型表現(xiàn)出類似于詞袋模型的特點,未能有效理解和捕捉句子中的細(xì)粒度語義。

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力-AI.x社區(qū)

針對上述問題,我們提出了Structure-CLIP,旨在通過場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示。與NegCLIP的隨機(jī)交換方法不同,Structure-CLIP采用了基于場景圖的引導(dǎo)策略來進(jìn)行單詞交換,以更精確地捕捉底層語義意圖。此外,我們提出了一種知識增強(qiáng)編碼器,它利用場景圖來提取關(guān)鍵的結(jié)構(gòu)信息,并通過在輸入層面上融合結(jié)構(gòu)化知識,從而增強(qiáng)結(jié)構(gòu)化表示的能力。在Visual Genome Relation和Visual Genome Attribution兩個數(shù)據(jù)集上的實驗結(jié)果展示了我們的Structure-CLIP模型的卓越性能以及其組件的有效性。此外,我們在MSCOCO數(shù)據(jù)集上進(jìn)行了跨模態(tài)檢索評估,結(jié)果表明Structure-CLIP仍保留了充分的通用表征能力。

總的來說,我們的貢獻(xiàn)點可以總結(jié)成以下三點:

  • 據(jù)我們所知,Structure-CLIP是第一種通過構(gòu)建語義負(fù)樣本來增強(qiáng)細(xì)粒度結(jié)構(gòu)化表示的方法。
  • Structure-CLIP引入了結(jié)構(gòu)化知識增強(qiáng)編碼器,利用結(jié)構(gòu)化知識作為輸入來增強(qiáng)結(jié)構(gòu)化表征能力,實現(xiàn)從結(jié)構(gòu)化信息到文本信息的有效知識轉(zhuǎn)移。
  • 我們進(jìn)行了全面的實驗,證明Structure-CLIP能夠在結(jié)構(gòu)化表示的下游任務(wù)上實現(xiàn)最先進(jìn)的性能,并在結(jié)構(gòu)化表示方面取得了顯著的改進(jìn)。

二、問題設(shè)定和解決思路

給定一個圖像,以及兩個圖像標(biāo)題和,其中圖像標(biāo)題與圖像內(nèi)容匹配,而則與圖像不匹配。重要的是,這兩個文本標(biāo)題由相同的單詞構(gòu)成,但其單詞順序有所不同。細(xì)粒度圖文匹配任務(wù)的核心目標(biāo)是在兩個高度相似的圖像標(biāo)題中準(zhǔn)確識別出與當(dāng)前圖像匹配的標(biāo)題。具體來說,任務(wù)要求模型使得圖像與匹配文本的得分高于圖像與不匹配文本的得分。

如圖所示是我們提出的Structure-CLIP模型的框架圖。在該模型中,我們首先利用場景圖來生成由相同詞匯構(gòu)成但含有不同細(xì)粒度語義的高質(zhì)量語義負(fù)樣本,然后通過對比學(xué)習(xí)的方式來提升細(xì)粒度結(jié)構(gòu)化表示的能力(如圖左側(cè)所示)。其次,我們設(shè)計并實現(xiàn)了一種結(jié)構(gòu)化知識增強(qiáng)的編碼器,該編碼器以場景圖作為輸入,并將結(jié)構(gòu)化知識融入到結(jié)構(gòu)化表示中(如圖右側(cè)所示),從而實現(xiàn)了結(jié)構(gòu)化信息向文本信息的有效知識遷移。

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力-AI.x社區(qū)

三、方法

1.基于場景圖的語義負(fù)采樣對比學(xué)習(xí)策略

  • 場景圖生成

在描述視覺場景時,場景圖通過更細(xì)致地刻畫對象間的屬性和關(guān)系,提供了更精確和全面的語義信息。我們利用場景圖解析工具,將文本句子解析成相應(yīng)的場景圖。以標(biāo)題 Black and white cows sit in a pile of yellow hay 為例,在生成的場景圖中,我們可以關(guān)注到文本中的關(guān)鍵元素,如 cow 和 hay ;相關(guān)屬性,如white和yellow,用于描述對象的顏色或其他屬性;以及關(guān)系,如 sit in ,表示對象之間的空間位置或其他類型的關(guān)系。通過這種方式生成的場景圖能夠?qū)⑽谋拘畔⑥D(zhuǎn)換為更詳細(xì)的對象描述和關(guān)系,從而提供更精細(xì)的結(jié)構(gòu)化知識表達(dá)。這有助于我們更深入地理解句子中表達(dá)的結(jié)構(gòu)化知識,可以增強(qiáng)細(xì)粒度的視覺-語言聯(lián)合表示,從而提高模型的整體性能和效果。

  • 語義負(fù)樣本的選擇

在本研究中,我們采用了一種基于場景圖引導(dǎo)的策略來構(gòu)建高質(zhì)量的語義負(fù)樣本。這一方法與先前隨機(jī)交換句子中單詞位置的方法形成了鮮明對比。我們的語義負(fù)樣本在保持句子的基本結(jié)構(gòu)不變的同時,改變了句子的細(xì)粒度語義。這一策略確保了負(fù)樣本在語義層面上與正樣本存在顯著的差異,同時保持了詞匯的基本組成。因此,借助這些高質(zhì)量的語義負(fù)樣本,我們的模型能夠更有效地學(xué)習(xí)和掌握細(xì)粒度的結(jié)構(gòu)化語義表示。

具體來說,對于文本場景圖中的三元組,我們通過交換文本中的兩個對象主體來生成高質(zhì)量語義負(fù)樣本。例如,通過交換文本 An astronaut is ridding a horse 中的對象 astronaut 和 horse,我們可以得到高質(zhì)量負(fù)樣本``A horse is ridding an astronaut”。

  • 對比學(xué)習(xí)目標(biāo)

在本研究中,我們采用的對比學(xué)習(xí)方法旨在通過靠近圖像Ii與其對應(yīng)原始標(biāo)題Wi,同時將圖像Ii與生成的高質(zhì)量語義負(fù)樣本W(wǎng)i-分離,以此來學(xué)習(xí)高效的多模態(tài)表征。為此,我們設(shè)計了一個多模態(tài)對比學(xué)習(xí)模塊,其損失函數(shù)定義如下:

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力-AI.x社區(qū)

為了確保模型在不同應(yīng)用場景中均能展現(xiàn)出穩(wěn)定的通用表征能力,我們采用了一種聯(lián)合訓(xùn)練策略。該策略結(jié)合了傳統(tǒng)的小批量圖像-文本對比學(xué)習(xí)損失和新提出的損失函數(shù)。具體而言,原始的圖像-文本對比學(xué)習(xí)損失LITCL整合了從圖像到文本的對比損失Li2t以及從文本到圖像的對比損失Lt2i。因此,綜合考慮兩個方向的損失,圖像-文本對比學(xué)習(xí)的總體損失可表示為:

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力-AI.x社區(qū)

因此,我們的方法結(jié)合了hinge損失與InfoNCE損失,從而實現(xiàn)更全面的優(yōu)化。具體地,最終的損失函數(shù)表達(dá)式為:

我們實施的聯(lián)合訓(xùn)練策略一方面有效地保持了模型的通用性,這一點在跨模態(tài)檢索任務(wù)中表現(xiàn)為顯著的性能提升。另一方面,該策略極大地增強(qiáng)了模型在處理結(jié)構(gòu)化表示方面的能力。這種改進(jìn)不僅有效提高了模型在理解句子中細(xì)粒度語義信息的能力,還增強(qiáng)了捕獲深層次語義聯(lián)系的能力,從而在處理復(fù)雜文本和圖像數(shù)據(jù)時表現(xiàn)出更高的準(zhǔn)確性。

2.結(jié)構(gòu)化知識增強(qiáng)框架

編碼器采用場景圖作為文本輸入的輔助信息,旨在通過這種獨特的結(jié)構(gòu)化輸入來增強(qiáng)模型的結(jié)構(gòu)化表征能力,并實現(xiàn)從結(jié)構(gòu)化表征到文本表征的高效知識遷移。我們設(shè)計的知識增強(qiáng)編碼器旨在將知識結(jié)構(gòu)化并整合到模型輸入中。結(jié)構(gòu)化知識包括對象及其屬性和對象間的關(guān)系。通過從生成的場景圖中提取這些結(jié)構(gòu)化信息,我們能夠獲取豐富的語義信息,從而有效地捕捉文本的細(xì)粒度語義。這一過程涉及了對對象及其屬性和對象間關(guān)系的明確建模。

首先,我們?yōu)閮煞N結(jié)構(gòu)化知識(即屬性對和三元組)制定了統(tǒng)一的輸入格式,然后通過三元組編碼方式來獲取三元組向量表示,將 K 個三元組轉(zhuǎn)換為 K 個語義嵌入向量。再然后將三元組語義嵌入向量輸入到Transformer層中來獲得最終的結(jié)構(gòu)化表征。知識增強(qiáng)編碼器能夠從提供的所有三元組輸入中提取豐富的結(jié)構(gòu)化知識。這種結(jié)構(gòu)化知識對于增強(qiáng)模型的表征能力至關(guān)重要,并且對提升模型的整體性能有顯著影響。然而,僅僅依靠結(jié)構(gòu)化知識可能在某種程度上限制模型在捕捉通用語義方面的能力。因此,為了實現(xiàn)更全面的語義理解,我們提出了一種將文本嵌入與結(jié)構(gòu)化知識嵌入結(jié)合的方法,來得到文本側(cè)的整體表征。通過這種方式,我們的模型不僅能夠捕捉到整個句子所蘊含的詞匯級信息,還能夠綜合理解句子中的結(jié)構(gòu)化知識,從而捕獲更詳細(xì)的語義信息。?

四、實驗

1.實驗結(jié)果

我們將Structure-CLIP與八種代表性的現(xiàn)有方法進(jìn)行了比較,這包括多種多模態(tài)模型以及先進(jìn)的大型語言模型。在VG-Relation和VG-Attribution數(shù)據(jù)集上,我們的Structure-CLIP模型展現(xiàn)出了卓越的性能,超越了所有參考的基線模型,實現(xiàn)了最先進(jìn)的性能表現(xiàn)。這一結(jié)果也表明了通過結(jié)合場景圖知識,我們的模型顯著增強(qiáng)了其結(jié)構(gòu)話表示能力。

我們也對Structure-CLIP模型在通用表示任務(wù)上的性能進(jìn)行了詳細(xì)評估。實驗結(jié)果表明,在顯著增強(qiáng)結(jié)構(gòu)化表示能力的同時,Structure-CLIP模型仍然保持了良好的通用表示能力。

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力-AI.x社區(qū)

2.消融實驗

  • 成分分析

我們對CLIP-base模型的多個增強(qiáng)版本進(jìn)行了詳細(xì)的消融研究。在采用語義負(fù)采樣策略的情況下,模型性能相比于傳統(tǒng)的隨機(jī)負(fù)樣本采樣策略實現(xiàn)了顯著提升。當(dāng)知識增強(qiáng)編碼器與語義負(fù)采樣策略結(jié)合使用時,模型性能實現(xiàn)了顯著提升,這表明知識增強(qiáng)編碼器在此組合策略下的效果得到了顯著加強(qiáng)。

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力-AI.x社區(qū)

  • 超參數(shù)分析

我們對Structure-CLIP在不同超參數(shù)和嵌入方法下進(jìn)行了消融實驗。

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力-AI.x社區(qū)

  • 三元組編碼方式分析

我們探索了三種不同的三元組嵌入方法,以有效整合三元組信息。相比之下,我們提出的三元組嵌入方法既考慮了元素的位置,又綜合了它們的組合信息。我們的Structure-CLIP模型在捕捉句子中的細(xì)粒度語義信息方面表現(xiàn)出更強(qiáng)的能力,并顯著增強(qiáng)了多模態(tài)結(jié)構(gòu)化表示的性能。

3.Case分析

這些案例清晰地展示了Structure-CLIP在給定圖像的情況下成功區(qū)分匹配和未匹配的標(biāo)題,且區(qū)分效果非常顯著。CLIP模型在確定這些標(biāo)題與給定圖像之間的語義相似性時面臨了一定的挑戰(zhàn)。特別是在兩個屬性或?qū)ο蟊唤粨Q的情況下,CLIP模型表現(xiàn)出了接近相同的語義相似性判斷,揭示了其在捕捉結(jié)構(gòu)化語義方面的局限性。相較于CLIP模型,Structure-CLIP對細(xì)粒度語義的微小變化展現(xiàn)了更高的敏感性,這突顯了其在結(jié)構(gòu)化知識表征方面的優(yōu)勢。

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力-AI.x社區(qū)

五、總結(jié)

在本文中,我們提出了Structure-CLIP,旨在整合場景圖知識來增強(qiáng)多模態(tài)結(jié)構(gòu)化表示。首先,我們使用場景圖來指導(dǎo)語義否定樣例的構(gòu)建。此外,我們引入了一個知識增強(qiáng)編碼器來利用場景圖知識作為輸入,從而進(jìn)一步增強(qiáng)了結(jié)構(gòu)化表示。我們提出的Structure-CLIP在預(yù)訓(xùn)練任務(wù)和下游任務(wù)上優(yōu)于所有最近的方法,這表明Structure-CLIP可以有效地和魯棒地理解多模態(tài)場景中的細(xì)粒度語義。

本文轉(zhuǎn)載自:??ZJUKG??

作者:黃雨峰


已于2024-3-27 13:17:35修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦