自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機構聯(lián)合出了篇綜述論文

發(fā)布于 2024-5-8 10:07
瀏覽
0收藏

多模態(tài)融合是多模態(tài)智能中的基礎任務之一。


多模態(tài)融合的動機在于聯(lián)合利用來自不同模態(tài)的有效信息提升下游任務的準確性和穩(wěn)定性。傳統(tǒng)的多模態(tài)融合方法往往依賴高質(zhì)量數(shù)據(jù),難以適應現(xiàn)實應用中的復雜低質(zhì)的多模態(tài)數(shù)據(jù)。


由天津大學、中國人民大學、新加坡科技研究局、四川大學、西安電子科技大學以及哈爾濱工業(yè)大學(深圳)共同發(fā)布的低質(zhì)多模態(tài)數(shù)據(jù)融合綜述《Multimodal Fusion on Low-quality Data:A Comprehensive Survey》從統(tǒng)一視角介紹了多模態(tài)數(shù)據(jù)的融合挑戰(zhàn),并針對低質(zhì)多模態(tài)數(shù)據(jù)的現(xiàn)有融合方式及該領域潛在的發(fā)展方向進行了梳理。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機構聯(lián)合出了篇綜述論文-AI.x社區(qū)


arXiv鏈接:

??http://arxiv.org/abs/2404.18947??

awesome-list鏈接:

??https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning??


傳統(tǒng)多模態(tài)融合模型


人類通過融合多個模態(tài)的信息對世界進行感知。


即使某些模態(tài)的信號不可靠時,人類也具備處理這些低質(zhì)量多模態(tài)數(shù)據(jù)信號并感知環(huán)境的能力。


盡管多模態(tài)學習已取得了長足的發(fā)展,多模態(tài)機器學習模型仍缺乏有效融合真實世界中低質(zhì)量多模態(tài)數(shù)據(jù)的能力。實踐經(jīng)驗中,傳統(tǒng)多模態(tài)融合模型的性能在以下場景下會存在顯著下降:


(1)噪聲多模態(tài)數(shù)據(jù):部分模態(tài)的某些特征受噪聲擾動而丟失了原有的信息。真實世界中,未知的環(huán)境因素、傳感器故障、信號在傳輸過程中的丟失都可能引入噪聲的干擾,進而損害多模態(tài)融合模型的可靠性。


(2)缺失多模態(tài)數(shù)據(jù):由于各種現(xiàn)實因素,實際收集到的多模態(tài)數(shù)據(jù)樣本的某些模態(tài)可能存在缺失。例如在醫(yī)學領域,病人的各項生理檢查結果所構成的多模態(tài)數(shù)據(jù)可能存在嚴重的缺失現(xiàn)象,某些病人可能從未做過某一項檢查。


(3)不平衡多模態(tài)數(shù)據(jù):由于模態(tài)之間的異質(zhì)編碼屬性和信息質(zhì)量差異存在不一致的現(xiàn)象,進而導致模態(tài)間學習不平衡問題的出現(xiàn)。多模態(tài)融合過程中,模型可能過度依賴某些模態(tài),而忽視其他模態(tài)所包含的潛在有效信息。


(4)動態(tài)低質(zhì)的多模態(tài)數(shù)據(jù):由于應用環(huán)境的復雜多變,不同樣本、不同時空,模態(tài)質(zhì)量具有動態(tài)變化特性。低質(zhì)模態(tài)數(shù)據(jù)的出現(xiàn)往往難以提前預知,這為多模態(tài)融合帶來了挑戰(zhàn)。


為了充分刻畫低質(zhì)量多模態(tài)數(shù)據(jù)的性質(zhì)及處理方法,該文章對目前的低質(zhì)量多模態(tài)融合領域的機器學習方法進行了總結,系統(tǒng)回顧了該領域的發(fā)展過程,并進一步展望了需進一步研究的問題。 


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機構聯(lián)合出了篇綜述論文-AI.x社區(qū)


圖1. 低質(zhì)量多模態(tài)數(shù)據(jù)分類示意圖,黃色和藍色代表兩個模態(tài),顏色越深代表質(zhì)量越高


多模態(tài)融合中的去噪方法


問題定義:


噪聲是導致多模態(tài)數(shù)據(jù)質(zhì)量下降的最常見原因之一。


本文主要關注兩類噪聲:


(1)模態(tài)相關的多模態(tài)噪聲。這類噪聲可能是由于傳感器誤差(如醫(yī)療診斷中的儀器誤差)、環(huán)境因素(如自動駕駛中的雨霧天氣)等因素導致,噪聲局限于某個特定的模態(tài)內(nèi)部的某些特征層面上。


(2)語義級別的跨模態(tài)噪聲。這類噪聲是由模態(tài)之間高層語義的不對齊現(xiàn)象導致,相比于特征層的多模態(tài)噪聲更難以處理。幸運的是,由于多模態(tài)數(shù)據(jù)模態(tài)之間的互補性和信息的冗余性,在多模態(tài)融合過程中,聯(lián)合多個模態(tài)的信息進行去噪已被證明是行之有效的策略。


方法分類:


特征級別的多模態(tài)去噪方法高度依賴于實際任務中所涉及到的具體模態(tài)。


本文主要以多模態(tài)圖像融合任務為例進行說明。在多模態(tài)圖像融合中,主流的去噪方法包括加權融合及聯(lián)合變分兩大類。


加權融合方法考慮到特征噪聲具有隨機性而真實數(shù)據(jù)服從特定分布,進而通過加權求和的方式消除噪聲的影響;


聯(lián)合變分方法則是對傳統(tǒng)單模態(tài)圖像變分去噪的拓展,能夠將去噪過程轉化為優(yōu)化問題的求解過程,并利用來自多個模態(tài)的互補性信息來提升去噪效果。語義級別的跨模態(tài)噪聲由弱對齊或不對齊的多模態(tài)樣本對導致。


例如,在聯(lián)合RGB和熱感圖像的多模態(tài)目標檢測任務中,由于傳感器的差異,盡管同一個目標在兩個模態(tài)中都有出現(xiàn),但是其精準的位置和姿態(tài)在不同的模態(tài)中可能略有不同(弱對齊),為精準估計位置信息帶來了挑戰(zhàn)。


在社交媒體的內(nèi)容理解任務中,一個樣本(例如一條微博)的圖像和文本模態(tài)所包含的語義信息可能相差甚遠,甚至毫不相干(完全不對齊),這進一步為多模態(tài)融合帶來更大的挑戰(zhàn)。處理跨模態(tài)語義噪聲的方式包括規(guī)則過濾、模型過濾、噪聲魯棒的模型正則化等方法。


未來展望:


盡管對數(shù)據(jù)噪聲的處理早已在經(jīng)典機器學習任務中得到了廣泛的研究,但在多模態(tài)場景下,如何聯(lián)合利用模態(tài)之間的互補性和一致性以弱化噪聲的影響依然是一個亟待解決的研究問題。


此外,與傳統(tǒng)的特征級別的去噪不同,如何在多模態(tài)大模型的預訓練和推斷過程中解決語義級別的噪聲是有趣且極富挑戰(zhàn)性的問題。



低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機構聯(lián)合出了篇綜述論文-AI.x社區(qū)

表1. 針對噪聲的多模態(tài)融合方法分類


缺失多模態(tài)數(shù)據(jù)融合方法


問題定義:


真實場景下所收集的多模態(tài)數(shù)據(jù)往往是不完整的,由于存儲設備損壞、數(shù)據(jù)傳輸過程的不可靠等各種因素,多模態(tài)數(shù)據(jù)時常不可避免的丟失掉部分模態(tài)的信息。


例如:在推薦系統(tǒng)中,用戶的瀏覽記錄和信用等級等構成了多模態(tài)的數(shù)據(jù),然而,由于權限和隱私問題,往往無法完全收集到用戶所有模態(tài)的信息來構建多模態(tài)學習系統(tǒng)。


在醫(yī)療診斷中,由于某些醫(yī)院的設備有限、特定的檢查成本較高,不同的病人的多模態(tài)診斷數(shù)據(jù)往往也是高度不完整的。


方法分類:


按照「是否需要顯式的對缺失多模態(tài)數(shù)據(jù)進行補全」的分類原則,缺失多模態(tài)數(shù)據(jù)融合方法可分為:


(1)基于補全的多模態(tài)融合方法


基于補全的多模態(tài)融合方法包括模型無關的補全方法:例如直接通過對缺失模態(tài)填充0值或殘余模態(tài)的均值的補全方法;


基于圖或核的補全方法:這類方法不直接學習如何補全原始多模態(tài)數(shù)據(jù),而是為每個模態(tài)構造圖或核,進而學習樣本對之間的相似度或關聯(lián)度信息,進而對缺失數(shù)據(jù)進行補全;


直接在原始特征級別進行補全:部分方法利用生成模型,如生成對抗網(wǎng)絡GAN及其變體直接補全缺失的特征。


(2)無需補全的多模態(tài)融合方法。


與基于補全的方法不同,無需補全的方法重點關注如何利用未缺失的模態(tài)所包含的有用信息融合出盡可能好的表征,這類方法往往對期望學習到的統(tǒng)一表征添加約束,使得此表征能夠體現(xiàn)可觀察到的模態(tài)數(shù)據(jù)的完整信息,以繞開補全過程進行多模態(tài)融合。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機構聯(lián)合出了篇綜述論文-AI.x社區(qū)

圖2. 基于補全的缺失多模態(tài)數(shù)據(jù)融合方法分類


未來展望:


盡管目前國內(nèi)外已提出了許多方法來解決聚類、分類等經(jīng)典機器學習任務中的不完整多模態(tài)數(shù)據(jù)融合問題,但依然存在一些更深層次的挑戰(zhàn)。


例如:關于缺失模態(tài)補全方案中的補全數(shù)據(jù)的質(zhì)量評估通常被忽視。


此外,利用先驗缺失數(shù)據(jù)位置信息屏蔽缺失模態(tài)的策略本身難以彌補模態(tài)缺失帶來的信息鴻溝和信息不平衡問題。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機構聯(lián)合出了篇綜述論文-AI.x社區(qū)

表2. 針對缺失多模態(tài)數(shù)據(jù)的融合方法分類


平衡的多模態(tài)融合方法


問題定義:


在多模態(tài)學習中,通常用聯(lián)合訓練的方式整合不同模態(tài)數(shù)據(jù)以提高模型的整體性能和泛化表現(xiàn)。然而,這類廣泛采用的、使用統(tǒng)一學習目標的聯(lián)合訓練范式忽略了不同模態(tài)數(shù)據(jù)的異質(zhì)性。


一方面,不同模態(tài)在數(shù)據(jù)來源及形式方面的異質(zhì)性,使得它們在收斂速度等方面具有不同的特點,從而使所有模態(tài)難以同時得到很好的處理和學習,給多模態(tài)聯(lián)合學習帶來了困難;


另一方面,這種差異也反映在單模態(tài)數(shù)據(jù)的質(zhì)量上。盡管所有模態(tài)都描述了相同的概念,但它們與目標事件或目標對象相關的信息量卻各不相同。基于最大似然學習目標的深度神經(jīng)網(wǎng)絡具有貪婪學習的特點,導致多模態(tài)模型往往依賴于具有高判別信息的、較易學習的高質(zhì)量模態(tài),而對其他模態(tài)信息建模不足。


為了應對這些挑戰(zhàn)并提高多模態(tài)模型的學習質(zhì)量,平衡多模態(tài)學習的相關研究最近得到了廣泛關注。


方法分類:


按照平衡角度的不同,可將相關方法分為基于特性差異的方法基于質(zhì)量差異的方法。


(1)廣泛使用的多模態(tài)聯(lián)合訓練框架往往忽視了單模態(tài)數(shù)據(jù)固有的學習屬性差異,這可能會對模型的性能產(chǎn)生負面影響?;谔匦圆町惖姆椒ㄊ菑拿糠N模態(tài)在學習特性上的差異入手,在學習目標、優(yōu)化、架構方面嘗試解決這一問題。


(2)最近的研究進一步發(fā)現(xiàn),多模態(tài)模型往往嚴重依賴于某些高質(zhì)量信息模態(tài),而忽略了其他模態(tài),導致對所有模態(tài)學習不足?;谫|(zhì)量差異的方法從這一角度入手,從學習目標、優(yōu)化方法、模型架構和數(shù)據(jù)增強的角度嘗試解決這一問題并促進多模態(tài)模型對不同模態(tài)的均衡利用。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機構聯(lián)合出了篇綜述論文-AI.x社區(qū)

表3. 平衡多模態(tài)數(shù)據(jù)融合方法分類


未來展望:


平衡多模態(tài)學習方法主要針對多模態(tài)數(shù)據(jù)的異質(zhì)性所導致的不同模態(tài)間學習特性或數(shù)據(jù)質(zhì)量上的差異。這些方法從學習目標、優(yōu)化方法、模型架構和數(shù)據(jù)增強等不同角度提出了解決方案。


平衡多模態(tài)學習當前是一個蓬勃發(fā)展的領域,有很多理論和應用方向還沒有得到充分探索。例如,目前的方法主要局限于典型的多模態(tài)任務,其大多是判別性任務和少數(shù)生成性任務。


除此以外,多模態(tài)大模型也需要聯(lián)合具有不同質(zhì)量的模態(tài)數(shù)據(jù),也存在這種客觀上的不平衡問題,據(jù)此期望在多模態(tài)大模型場景中擴展現(xiàn)有研究或設計新的解決方案。


動態(tài)多模態(tài)融合方法


問題定義: 


動態(tài)多模態(tài)數(shù)據(jù)指的是模態(tài)的質(zhì)量隨輸入樣本、場景的不同而動態(tài)改變。例如自動駕駛場景中,系統(tǒng)通過RGB和紅外傳感器獲取路面和目標信息,在光照較好的情況下,RGB攝像頭由于能夠捕捉目標的豐富紋理和色彩信息,可以更好地支持智能系統(tǒng)的決策;


然而在光照不足的夜間,紅外傳感器提供的感知信息則更為可靠。如何使得模型能夠自動感知到不同模態(tài)質(zhì)量的變化,從而進行精準和穩(wěn)定的融合,是動態(tài)多模態(tài)融合方法的核心任務。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機構聯(lián)合出了篇綜述論文-AI.x社區(qū)

表4. 動態(tài)多模態(tài)融合方法分類


方法分類:


動態(tài)多模態(tài)融合方法可以大致分為三類: 


(1)啟發(fā)式動態(tài)融合方法:


啟發(fā)式動態(tài)融合方法依賴算法設計者對多模態(tài)模型應用場景的理解,一般通過針對性地引入動態(tài)融合機制來實現(xiàn)。


例如,在RGB/熱感信號協(xié)同的多模態(tài)目標檢測任務中,研究者啟發(fā)式地設計了光照感知模塊以動態(tài)評估輸入圖像的光照情況,并基于光照強度動態(tài)調(diào)節(jié)RGB和熱感模態(tài)的融合權重進行環(huán)境適應。當亮度較高時,主要依賴RGB模態(tài)進行決策,反之則主要依賴熱感模態(tài)進行決策。


(2)基于注意力機制的動態(tài)融合方法:


基于注意力機制的動態(tài)融合方法主要聚焦于表示層融合。注意力機制本身就具有動態(tài)特性,因此,可以自然地用于多模態(tài)動態(tài)融合任務。


Self-attention、Spatial attention、Channel attention以及Transformer等多種機制被廣泛用于多模態(tài)融合模型的構建。這類方法在任務目標的驅動下自動地學習如何進行動態(tài)融合?;谧⒁饬C制的融合,在缺乏顯式或者啟發(fā)式引導情況下也能夠一定程度上適應動態(tài)低質(zhì)量的多模態(tài)數(shù)據(jù)。


(3)不確定性感知的動態(tài)融合方法:


不確定性感知的動態(tài)融合方法往往具有更加清晰、可解釋的融合機制。與基于注意力機制的復雜融合模式不同,不確定性感知的動態(tài)融合方法依靠對模態(tài)的不確定性估計(如證據(jù)、能量、熵等)來適應低質(zhì)量多模態(tài)數(shù)據(jù)。


具體地,不確定性感知能夠用于刻畫輸入數(shù)據(jù)各個模態(tài)的質(zhì)量變化情況。當輸入樣本的某個模態(tài)質(zhì)量變低時,模型基于該模態(tài)決策的不確定性隨之變高,為后續(xù)融合機制設計提供明確指導。此外,相比于啟發(fā)式和注意力機制,不確定性感知的動態(tài)融合方法可以提供良好的理論保證。


未來展望:


盡管在傳統(tǒng)的多模態(tài)融合任務中,不確定性感知的動態(tài)融合方法的優(yōu)越性已經(jīng)從實驗和理論上得到了證明,但是,在SOTA的多模態(tài)模型(不限于融合模型,如CLIP/BLIP等)中,動態(tài)性的思想還具有較大挖掘和應用潛力。


此外,具有理論保證的動態(tài)融合機制往往局限于決策層面,如何使得其在表征層發(fā)揮作用也值得思考和探索。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/xas1GBNZag-mKBzGN5L9UA??

收藏
回復
舉報
回復
相關推薦