聊一聊生成式視角下的實體對齊
引言
基于知識圖譜嵌入的方法在實體對齊領(lǐng)域取得了巨大成功。本文以生成模型的視角重新解構(gòu)了目前實體對齊方法的范式,展示了其與生成模型間的相似之處,并從理論上揭示了現(xiàn)有的基于生成對抗網(wǎng)絡(luò)的方法的局限性。通過引入新的互變分自編碼器(Mutual-VAE)作為生成模型,本文構(gòu)建了一個生成式實體對齊框架(GEEA)。GEEA實現(xiàn)了知識圖譜之間的實體轉(zhuǎn)換,并且能夠從隨機(jī)噪聲中生成新的實體。通過理論分析、實體對齊實驗,以及實體合成實驗等,系統(tǒng)地展示了生成模型在實體對齊及實體合成任務(wù)上的強(qiáng)大能力。
背景
實體對齊的結(jié)果往往被用于豐富不同的知識圖譜,但不同的知識圖譜中通常存在一些目標(biāo)知識圖譜中沒有的實體,這些實體被稱為“懸掛實體(dangling entity)”。如果可以將這些實體從源知識圖譜轉(zhuǎn)換到目標(biāo)知識圖譜,將在許多任務(wù)中節(jié)省大量時間和精力。
從隨機(jī)變量生成新實體可以應(yīng)用到多個新興領(lǐng)域,如元宇宙、游戲、劇本設(shè)計等。在這些領(lǐng)域中虛擬角色仍依賴于手工編寫或隨機(jī)算法,而豐富、相互聯(lián)系的角色對構(gòu)建沉浸式虛擬世界至關(guān)重要。這些內(nèi)容可以利用知識圖譜來存儲,并通過實體合成生成新的具有豐富關(guān)系的角色信息。
方法
如下圖所示,本文設(shè)計的生成式實體對齊框架可分為5個模塊:
- 變分自編碼器利用不同的變分自編碼器可分別將不同模態(tài)的信息編碼到預(yù)設(shè)的正態(tài)空間,再通過對應(yīng)的解碼器將其重新解釋為輸入向量。通過采用適當(dāng)?shù)膿p失函數(shù),該變分自編碼器模塊可學(xué)習(xí)到生成隨機(jī)樣本的能力。
- 重構(gòu)先驗信息變分自編碼器所輸入輸出的信息均為嵌入向量,與原始的圖結(jié)構(gòu)信息等并不一致。因此框架中還包含一個先驗重構(gòu)層,其目標(biāo)是將不同模態(tài)的嵌入重新轉(zhuǎn)換為原始的輸入特征。
- 知識融合對于不同模態(tài)的輸入嵌入可通過融合層得到一個歸一化的嵌入,這樣就可以利用對應(yīng)的損失函數(shù)來最小化多模態(tài)、不同源的知識間的差異,使得模塊學(xué)習(xí)到知識融合的能力。
- 分布對齊值得注意的是,在第1步中,被變分自編碼器所編碼后的輸出可以通過訓(xùn)練使其服從于正態(tài)分布,這樣便可在生成階段從正態(tài)分布中采樣再經(jīng)過解碼層獲得輸出向量,之后通過第2步重構(gòu)其先驗特征。
- 重構(gòu)后驗信息由于所涉及到多種知識表示,必須保證變分自編碼器所生成的不同模態(tài)的輸出能夠互洽。通過將生成的不同模態(tài)的輸出向量重新輸入至第3步中的融合層,便可得到一個重構(gòu)后的融合向量,這樣就可以對比其與原有向量間的差異來評估自洽性。
實驗
如下圖所示,在多個實體對齊數(shù)據(jù)集上,引入了生成目標(biāo)的GEEA顯著優(yōu)于其他方法。
同時,在實體合成結(jié)果上,本文所提出的GEEA也要優(yōu)于一些生成模型或是生成模型與實體對齊模型的結(jié)合:
下表展示了一些實體合成的結(jié)果,其中輸入的源知識圖譜實體在目標(biāo)知識圖譜中并不存在??梢钥闯?,GEEA所生成的屬性和鄰居甚至包含了一些原本知識圖譜中并不存在但正確的內(nèi)容。對于圖片信息,由于目前方法均采用預(yù)訓(xùn)練的圖片向量而非引入視覺模型的緣故,在GEEA中直接取距離最近的目標(biāo)知識圖譜圖片作為輸出。
總結(jié)
本文對如何利用生成模型進(jìn)行實體對齊與實體合成進(jìn)行了理論分析,并提出GEEA來解決現(xiàn)有基于生成模型方法的局限性。實驗證明,GEEA在實體對齊和實體合成任務(wù)均較現(xiàn)有方法有著顯著優(yōu)勢。未來工作將專注于設(shè)計新的多模態(tài)編解碼器以進(jìn)一步增強(qiáng)模型的生成能力。
本文轉(zhuǎn)載自:??ZJUKG??
作者:郭凌冰
