哈工大提出創(chuàng)新迭代推理框架 DPE-MNER :充分發(fā)揮多模態(tài)表示潛力
該文章的作者團隊來與哈工大社會計算與信息檢索研究中心,作者團隊構(gòu)成:鄭子豪、張梓涵、王澤鑫、付瑞吉、劉銘、王仲遠、秦兵。
多模態(tài)表示
多模態(tài)命名實體識別,作為構(gòu)建多模態(tài)知識圖譜的一項基礎(chǔ)而關(guān)鍵任務(wù),要求研究者整合多種模態(tài)信息以精準地從文本中提取命名實體。盡管以往的研究已經(jīng)在不同層次上探索了多模態(tài)表示的整合方法,但在將這些多模態(tài)表示融合以提供豐富上下文信息、進而提升多模態(tài)命名實體識別的性能方面,它們?nèi)燥@不足。
本文,研究團隊提出了DPE-MNER,一個創(chuàng)新的迭代推理框架,它遵循“分解、優(yōu)先、消除”的策略,動態(tài)地整合了多樣化的多模態(tài)表示。該框架巧妙地將多模態(tài)表示的融合分解為層次化且相互連接的融合層,極大地簡化了處理過程。在整合多模態(tài)信息時,該團隊特別強調(diào)了從“簡單到復(fù)雜”和“宏觀到微觀”的漸進式過渡。此外,通過顯式地建??缒B(tài)的相關(guān)性,研究團隊有效地排除了那些可能對MNER預(yù)測造成誤導(dǎo)的不相關(guān)信息。通過在兩個公共數(shù)據(jù)集上進行的廣泛實驗,研究團隊的方法已被證實在提升多模態(tài)命名實體識別的準確性和效率方面具有顯著效果。本文為LREC-COLING 2024 1558篇錄用論文中的十篇最佳論文候選之一。
動機
多模態(tài)命名實體識別的一個實例。研究團隊展示了對于命名實體識別決策可能有用的多種多模態(tài)表示。人類通常在心中以迭代的方式處理這些信息。
為解決這一問題,研究團隊從復(fù)雜問題解決(Sternberg 和 Frensch,1992)這一領(lǐng)域中獲得靈感。該領(lǐng)域?qū)W⒂谘芯咳祟惡陀嬎銠C在解決包含多個變量、不確定性和高復(fù)雜性的問題時所采用的方法和策略。首先他們認為,當(dāng)面對復(fù)雜問題時,人類一般會采用迭代的處理方式,如圖所示,研究團隊在處理MNER時其實也是個迭代的過程。其次,人類會運用特定策略來簡化這些問題,比如分解、優(yōu)先排序和排除不相關(guān)因素。
該研究團隊認為,將多模態(tài)命名實體識別(MNER)視為一個整合多模態(tài)信息的迭代過程,并運用這些策略,非常適合于MNER任務(wù)。與單一步驟的方法相比,多步驟的方法能夠在迭代優(yōu)化命名實體識別(NER)結(jié)果的過程中,更全面地利用多樣化的多模態(tài)表示。
此外,這三種策略非常適合于多模態(tài)NER中多種表示的整合:
- 分解策略鼓勵我們將多模態(tài)表示的融合拆分為更小、更易于處理的單元,這些單元能夠在不同的粒度級別上探索多模態(tài)交互。
- 優(yōu)先排序策略建議根據(jù)“由易到難”和“由粗到細”的順序來整合多模態(tài)信息;這種漸進式的整合有助于MNER預(yù)測的逐步優(yōu)化。這使得模型能夠逐步將注意力從簡單但粗糙的信息轉(zhuǎn)移到復(fù)雜但精確的細節(jié)上。
- 不相關(guān)性消除策略啟發(fā)我們顯式地篩選并排除不同多模態(tài)表示中的無關(guān)信息;這可以消除那些可能影響MNER性能的無關(guān)信息。
方法
研究團隊設(shè)計了一個迭代的動態(tài)融合多種多模態(tài)特征的多模態(tài)實體抽取框架,其包含一個迭代過程以及預(yù)測網(wǎng)絡(luò)。
迭代建模MNER
研究團隊沿用擴散模型將物體識別,視覺對齊以及文本實體抽取建模為迭代的去噪過程的方式,同樣使用了擴散模型將多模態(tài)實體抽取建模為迭代過程。模型首先隨機初始化一系列的實體區(qū)間,基于一個預(yù)測網(wǎng)絡(luò)編碼多模態(tài)特征來在去噪過程中迭代地去噪得到文本中的正確實體區(qū)間
。
預(yù)測網(wǎng)絡(luò)
如圖所示,研究團隊共獲取了文本中的三種粒度的表示,圖片中的兩種粒度兩種難度(他們認為對齊的表示是簡單的表示,不對齊的是困難的表示)的表示
。該團隊的預(yù)測網(wǎng)絡(luò)AMRN包含一個編碼網(wǎng)絡(luò)(DMMF)以及解碼網(wǎng)絡(luò)(MER)。預(yù)測網(wǎng)絡(luò)的設(shè)計是基于前面所提到的三種策略。
如圖所示,編碼網(wǎng)絡(luò)是一個層次化的融合網(wǎng)絡(luò),將多種多模態(tài)特征融合分解為了一個層次化的過程。自底向上是首先將相同粒度不同難度的圖片特征融合到每個粒度的文本特征中$x_i$, 將不同粒度的圖片特征$Y$融合到每個粒度的文本特征
,最后將不同粒度的圖片特征Y和文本特征X融合,得到最終的多模態(tài)表示。輸入到解碼網(wǎng)絡(luò)中進行解碼,解碼網(wǎng)絡(luò)得到新的區(qū)間,以及每個區(qū)間的實體類型。
底層融合。這一層研究團隊將某一個粒度的圖片特征融合到某一個粒度的文本特征中。根據(jù)擴散過程,研究團隊可以得到一個調(diào)度器,該調(diào)度器可以反映當(dāng)前的迭代的狀態(tài),也是引入優(yōu)先級的關(guān)鍵。研究團隊基于該調(diào)度器將不同難度的圖片特征融合在一起得到與
相關(guān)性rel,用于消除其中的無關(guān)信息。最后結(jié)合該相關(guān)性使用了一個bottleneck transformer來進行
與
的融合,得到了某一粒度的多模態(tài)圖像文本融合表示
。
中層融合。這一層研究團隊將不同粒度的圖片特征融合到某一個粒度的文本特征中,即融合。這一層我們使用了調(diào)度器來對不同粒度的圖片特征進行動態(tài)融合,得到了某一粒度的多模態(tài)文本表示
。
頂層融合。這一層研究團隊將不同粒度的多模態(tài)文本表示融合到區(qū)間的表示中,得到總的多模態(tài)的文本表示
,輸入到解碼網(wǎng)絡(luò)中進行預(yù)測。
實驗結(jié)果
主實驗
作者團隊對比了MNER的一些典型的方法。實驗結(jié)果表明該方法在兩個常用的數(shù)據(jù)集上取得了最佳的性能。
消融實驗
研究者分別去除了我們論文中關(guān)于優(yōu)先級、層次化、以及消除的設(shè)計,來觀察模型性能,結(jié)果表明移除各個設(shè)計均帶來了性能的下降。
與靜態(tài)特征融合方法的對比
他們對比了一些典型的靜態(tài)多模態(tài)融合方法,例如最大池化,平均池化,基于MLP以及MoE的方法,結(jié)果表明他們所提出的動態(tài)融合框架能達到最好的性能。
典型樣例分析
研究團隊選取了兩個有代表性的樣例來表明迭代過程??梢钥吹阶铋_始的迭代步驟里,time square和cubs的類型被錯誤地預(yù)測了;然而根據(jù)圖片中的重要特征線索,迭代地修正為了正確的實體類型。
結(jié)論
本文旨在多模態(tài)命名實體識別(MNER)領(lǐng)域內(nèi),充分地發(fā)揮各種多模態(tài)表示的潛力,以期獲得卓越的識別效果。為此,作者們設(shè)計并提出了一種創(chuàng)新的迭代推理框架——DPE-MNER。DPE-MNER通過將MNER任務(wù)分解為多個階段,巧妙地簡化了對這些豐富多樣的多模態(tài)表示的整合過程。在這一迭代過程中,多模態(tài)表示依據(jù)“分解、優(yōu)先排序和消除”的策略,實現(xiàn)了動態(tài)的融合與整合。通過一系列嚴謹?shù)膶嶒烌炞C,研究團隊充分展示了DPE-MNER框架的顯著效果和優(yōu)越性能。