不平衡場(chǎng)景下的多模態(tài)知識(shí)圖譜補(bǔ)全
一、引言
多模態(tài)知識(shí)圖譜補(bǔ)全(MMKGC)通過將實(shí)體的結(jié)構(gòu)、視覺和文本信息納入知識(shí)圖譜的表示學(xué)習(xí)模型中,來預(yù)測(cè)多模態(tài)知識(shí)圖譜中缺失的三元組。在這個(gè)過程中,來自不同模態(tài)的信息將共同用于度量一個(gè)三元組的合理性。現(xiàn)有的MMKGC方法往往默認(rèn)MMKG上的模態(tài)信息是完整的,或者采用簡(jiǎn)單的方法完成缺失模態(tài)信息的補(bǔ)全,忽視了實(shí)體之間模態(tài)信息的不平衡問題,導(dǎo)致模態(tài)信息融合不充分以及原始模態(tài)信息的低效利用。模態(tài)信息的不平衡性主要體現(xiàn)在兩個(gè)方面,首先,在知識(shí)圖譜推理時(shí),不同的模態(tài)信息發(fā)揮著獨(dú)特的作用,應(yīng)該被自適應(yīng)地考慮。然而,現(xiàn)有方法未能充分解決模態(tài)融合問題,因?yàn)槟B(tài)信息通常被不靈活地統(tǒng)一地融入到結(jié)構(gòu)信息的表示空間中。其次,在圖像和文本描述中,有效的特征通常是有限的且難以提取。在實(shí)際場(chǎng)景中,從多個(gè)異構(gòu)數(shù)據(jù)源構(gòu)建的知識(shí)圖譜甚至可能存在模態(tài)缺失,這進(jìn)一步限制了MMKGC中模態(tài)信息的使用。為了實(shí)現(xiàn)更好的MMKGC性能,關(guān)鍵是有效利用基本信息以及獲取更高質(zhì)量的多模態(tài)信息。這種需求可以總結(jié)為釋放不平衡模態(tài)信息的力量以用于MMKGC。為解決上述問題,我們提出了自適應(yīng)多模態(tài)融合和模態(tài)對(duì)抗訓(xùn)練(AdaMF-MAT)來釋放不平衡模態(tài)信息的力量以用于MMKGC。AdaMF-MAT通過自適應(yīng)模態(tài)權(quán)重實(shí)現(xiàn)多模態(tài)融合,并通過模態(tài)對(duì)抗訓(xùn)練進(jìn)一步生成對(duì)抗樣本以增強(qiáng)不平衡模態(tài)信息。我們的方法是MMKGC模型和訓(xùn)練策略的共同設(shè)計(jì),可以優(yōu)于19個(gè)最近的MMKGC方法,并在三個(gè)公共MMKGC基準(zhǔn)測(cè)試上取得了新的最先進(jìn)結(jié)果。
二、方法
論文中提出的方法的總體框架如下圖所示。特征編碼器被設(shè)計(jì)用于分別編碼不同的模態(tài)特征(視覺/文本/結(jié)構(gòu))。每個(gè)FC代表一個(gè)全連接的投影層。自適應(yīng)多模態(tài)融合模塊被設(shè)計(jì)用于自適應(yīng)地獲取融合的聯(lián)合嵌入。模態(tài)對(duì)抗訓(xùn)練模塊采用生成器生成合成的多模態(tài)嵌入以構(gòu)建對(duì)抗樣本。KGC解碼器充當(dāng)對(duì)抗訓(xùn)練過程中的判別器,在訓(xùn)練過程中將通過這些對(duì)抗樣本得到增強(qiáng)。
在模態(tài)對(duì)抗訓(xùn)練的過程中,論文采用了一個(gè)兩層的MLP作為生成器,針對(duì)輸入的實(shí)體結(jié)構(gòu)信息生成其視覺和文本的特征,并進(jìn)一步講這些特征組合成一個(gè)個(gè)"人造實(shí)體",再進(jìn)一步組合成"人造三元組",然后通過在這些人造三元組和真實(shí)的三元組之間進(jìn)行對(duì)抗式的訓(xùn)練,來達(dá)到增強(qiáng)實(shí)體的多模態(tài)信息,緩解其不平衡分布的問題。整個(gè)算法流程的偽代碼如下:
三、實(shí)驗(yàn)與分析
實(shí)驗(yàn)部分,論文采用了三個(gè)MMKG基準(zhǔn)數(shù)據(jù)集DB15K, MKG-W和MKG-Y來進(jìn)行連接預(yù)測(cè)的實(shí)驗(yàn),同時(shí)選取了19個(gè)不同的知識(shí)圖譜補(bǔ)全方法(含單模態(tài)方法、多模態(tài)方法、負(fù)采樣方法等三類)。主要的實(shí)驗(yàn)結(jié)果如下:
從實(shí)驗(yàn)結(jié)果中可以看到本論文提出的方法相比于基線模型有非常大的提升,在MRR和Hit@1等指標(biāo)上分別提升了6%和8%,同時(shí)實(shí)驗(yàn)進(jìn)行了更多的實(shí)驗(yàn)來驗(yàn)證了該方法在不同程度的模態(tài)缺失場(chǎng)景下的能力,結(jié)果表明相比于其他baseline模型,本文提出的模型有明顯的性能提升,同時(shí),模態(tài)對(duì)抗訓(xùn)練可以作為一個(gè)通用的模塊,在不同的MMKGC模型中都起到增強(qiáng)有限模態(tài)信息的作用。
四、總結(jié)
在這篇論文主要討論了在多模態(tài)知識(shí)圖譜補(bǔ)全(MMKGC)中利用模態(tài)信息的問題,并提出了一個(gè)名為AdaMF-MAT的新穎多模態(tài)知識(shí)圖譜補(bǔ)全框架,以解決現(xiàn)有方法的局限性?,F(xiàn)有利用模態(tài)特征的方法相對(duì)粗糙,以一種通用的方式對(duì)待模態(tài)信息。論文中的方法AdaMF-MAT采用自適應(yīng)模態(tài)融合來多樣化利用多模態(tài)信息,并通過模態(tài)對(duì)抗訓(xùn)練來增強(qiáng)多模態(tài)嵌入。實(shí)驗(yàn)表明,AdaMF-MAT能夠勝過所有現(xiàn)有的基線方法,并在MMKGC任務(wù)中達(dá)到最佳狀態(tài)(SOTA)結(jié)果。
本文轉(zhuǎn)載自:??ZJUKG??
作者:張溢弛
