基于MoE的通用圖像融合模型,添加2.8%參數(shù)完成多項(xiàng)任務(wù)
- 論文鏈接:https://arxiv.org/abs/2403.12494
- 代碼鏈接:https://github.com/YangSun22/TC-MoA
- 論文題目:Task-Customized Mixture of Adapters for General Image Fusion
圖 1 不同融合任務(wù)的源圖像對(duì)融合結(jié)果的主導(dǎo)強(qiáng)度變化
研究背景與動(dòng)機(jī)
圖像融合的目的是將同一場(chǎng)景中不同傳感器捕獲的多源圖像的互補(bǔ)信息整合到單個(gè)圖像上。這種方式通常被用于提取圖片重要信息和提高視覺(jué)質(zhì)量。
目前,一般的圖像融合主要包括多模態(tài)、多曝光、多焦圖像融合等。融合任務(wù)表現(xiàn)出不同的融合機(jī)制。多曝光圖像融合(MEF)的重點(diǎn)是將具有多個(gè)曝光程度的圖像序列轉(zhuǎn)換成一個(gè)高質(zhì)量的全曝光圖像。每個(gè)源圖像為融合的圖像提供自己的光照和結(jié)構(gòu)信息??梢?jiàn)紅外圖像融合(VIF)是一種多模態(tài)圖像融合(MMF),旨在融合紅外和可見(jiàn)模態(tài)的互補(bǔ)信息,產(chǎn)生魯棒且信息豐富的融合圖像。紅外圖像提供更多的強(qiáng)度信息,而可見(jiàn)圖像提供更多的紋理和梯度信息。多聚焦圖像融合(MFF)的目的是從一系列部分聚焦的圖像中生成一個(gè)全聚焦的圖像。多聚焦融合圖像的每個(gè)清晰區(qū)域通常只需要學(xué)習(xí)一個(gè)源圖像。因此,可以觀察到,MEF 和 VIF 任務(wù)是多源相對(duì)平等的融合,而 MFF 是多源地位較為極端的任務(wù),對(duì)圖像的某一區(qū)域而言,往往表現(xiàn)出極化的選擇。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,近年來(lái)圖像融合領(lǐng)域取得了很大的進(jìn)展,而現(xiàn)有的方法大多只關(guān)注單一圖像融合場(chǎng)景,通常為單一任務(wù)采用特定策略,如為某任務(wù)設(shè)計(jì)的復(fù)雜網(wǎng)絡(luò)或任務(wù)特定的損失函數(shù),導(dǎo)致無(wú)法直接應(yīng)用在其他任務(wù)上??紤]到不同融合任務(wù)的本質(zhì)相同,即整合來(lái)自多個(gè)源圖像的重要信息,最近提出的一些方法,試圖使用統(tǒng)一的模型處理多種融合任務(wù),構(gòu)建通用的圖像融合。然而,這些方法要么有主導(dǎo)任務(wù)偏差,要么為了多任務(wù)共性而犧牲個(gè)性,導(dǎo)致次優(yōu)的性能。這促使我們探索一個(gè)更兼容的融合范式,它可以自適應(yīng)地動(dòng)態(tài)地兼容不同的融合場(chǎng)景。
為了處理這一挑戰(zhàn),受到預(yù)訓(xùn)練基座模型強(qiáng)大的特征表示能力的啟發(fā),我們引入了基座模型作為一個(gè)凍結(jié)的編碼器來(lái)提取多源圖像的互補(bǔ)特征。與大多數(shù)現(xiàn)有方法不同的是,我們借鑒了混合專家(MoE)的思想,將每個(gè)專家作為一個(gè)高效的微調(diào)適配器,基于基座模型執(zhí)行自適應(yīng)視覺(jué)特征提示融合。任務(wù)特定的路由網(wǎng)絡(luò)定制這些適配器的混合,為不同的源生成任務(wù)特定的融合提示,形成一種新的任務(wù)定制混合適配器(TC-MoA)架構(gòu)。另外,我們?cè)O(shè)計(jì)了互信息正則化來(lái)約束融合提示,從而保證了對(duì)不同來(lái)源的互補(bǔ)性。值得注意的是,融合提示具有顯著的任務(wù)偏差和模態(tài)主導(dǎo)強(qiáng)度差異。如圖 1 所示,MFF 的提示比 VIF 和 MEF 的色差更大,說(shuō)明特征選擇在優(yōu)勢(shì)模態(tài)的強(qiáng)度偏差上具有更多的雙極性。我們的模型有效地感知了單一模型中不同融合任務(wù)之間的融合強(qiáng)度偏差,因此與更廣泛的融合任務(wù)相兼容。
大量的實(shí)驗(yàn)驗(yàn)證了我們?cè)谕ㄓ脠D像融合方面的優(yōu)越性,包括多模態(tài)、多曝光和多焦點(diǎn)融合。更重要的是,我們的 TC-MoA 甚至對(duì)未知的融合任務(wù)顯示出了創(chuàng)造性的可控性和泛化性,充分展示了我們?cè)诟鼜V泛的融合場(chǎng)景中的潛力。
主要貢獻(xiàn)
- 我們提出了一個(gè)統(tǒng)一的通用圖像融合模型,提供了一種新的任務(wù)定制混合適配器(TC-MoA)用于自適應(yīng)多源圖像融合(受益于動(dòng)態(tài)聚合各自模式的有效信息)。
- 我們?yōu)檫m配器提出了一種互信息正則化方法,這使得我們的模型能夠更準(zhǔn)確地識(shí)別不同源圖像的主導(dǎo)強(qiáng)度。
- 據(jù)我們所知,我們首次提出了一種基于 MoE 的靈活適配器。通過(guò)只添加 2.8% 的可學(xué)習(xí)參數(shù),我們的模型可以處理許多融合任務(wù)。大量的實(shí)驗(yàn)證明了我們的競(jìng)爭(zhēng)方法的優(yōu)勢(shì),同時(shí)顯示了顯著的可控性和泛化性。
核心方法
如圖 2 所示,給定一對(duì)源圖像
,網(wǎng)絡(luò)整合來(lái)自不同源的互補(bǔ)信息,獲得融合圖像
。我們將源圖像輸入 ViT 網(wǎng)絡(luò),并通過(guò) patch 編碼層獲得源圖像的 Token。ViT 由一個(gè)用于特征提取的編碼器和一個(gè)用于圖像重建的解碼器組成,這兩者都是由 Transformer 塊組成的。
在編碼器和解碼器中,每
個(gè) Transformer 塊插入一個(gè) TC-MoA。網(wǎng)絡(luò)通過(guò)這些 TC-MoA 逐步調(diào)制融合的結(jié)果。每個(gè) TC-MoA 由一個(gè)特定于任務(wù)的路由器銀行
,一個(gè)任務(wù)共享適配器銀行
和一個(gè)提示融合層F組成。TC-MoA 包括兩個(gè)主要階段:提示生成和提示驅(qū)動(dòng)的融合。為了便于表達(dá),我們以 VIF 為例,假設(shè)輸入來(lái)自 VIF 數(shù)據(jù)集,并使用G來(lái)表示
。
圖 2 TC-MoA 的總體架構(gòu)
提示生成。首先,獲得后續(xù)處理的多源特征。將第 j 個(gè) TC-MoA 之前的網(wǎng)絡(luò)結(jié)構(gòu)定義為
,并提取提示生成特征定義為
。我們將
作為多源 Token 對(duì)的特征表示拼接起來(lái)。這允許來(lái)自不同來(lái)源的 Token 在后續(xù)的網(wǎng)絡(luò)中交換信息。然而,直接計(jì)算高維的拼接特征會(huì)帶來(lái)大量不必要的參數(shù)。因此,我們使用
進(jìn)行特征降維,得到處理后的多源特征
,如下:
然后,根據(jù) Φ 所屬的任務(wù),我們從路由器銀行中選擇一個(gè)任務(wù)特定的路由器來(lái)定制路由方案,即,每對(duì)源 Token 應(yīng)該輸入適配器銀行中的哪個(gè)適配器。
最后,我們對(duì)適配器的輸出進(jìn)行加權(quán)求和,以獲得融合提示。每個(gè)路由器都有任務(wù)偏好來(lái)定制合適的適配器混合,然后通過(guò)適配器混合生成提示,計(jì)算方法如下:
提示驅(qū)動(dòng)的融合。任務(wù)定制的提示受到互信息正則化(MIR)的約束,這保證了對(duì)不同源的互補(bǔ)性。因此,提示可以作為對(duì)每個(gè)來(lái)源中重要信息的比例的估計(jì)。通過(guò)多源特征和提示的點(diǎn)乘,我們?cè)谌コ哂嘈畔⒌耐瑫r(shí)保留了互補(bǔ)信息。然后,考慮到特征表示應(yīng)該包含源相關(guān)的偏置(如可見(jiàn)或紅外圖像),我們?yōu)槊總€(gè)源引入輸入無(wú)關(guān)的可學(xué)習(xí)參數(shù),即源編碼 s。特征在經(jīng)過(guò)提示修飾和源偏置,我們得到細(xì)化的源特征
,然后經(jīng)過(guò)融合層 F 獲得融合特征,過(guò)程如下:
最終,我們通過(guò)任務(wù)定制的提示獲得了一個(gè)融合特征。為了鼓勵(lì)模型逐步地提取重要信息,我們對(duì)輸出到下一個(gè) Transformer 塊的特征定義如下(
是一個(gè)超參數(shù)):
互信息正則。為了保證模型在丟棄多源特征冗余信息的同時(shí),動(dòng)態(tài)地保留互補(bǔ)信息,我們對(duì)提示符施加了正則化約束。假設(shè)特征表示呈線性變化,我們定義 MIR 如下:
實(shí)驗(yàn)效果
定性和定量實(shí)驗(yàn)。如圖 3-5 和表 1-3 所示,在三個(gè)融合任務(wù)上的定性和定量對(duì)比表明我們的方法性能超越以往的通用融合方法。與特定任務(wù)的方法相比,我們的方法在所有任務(wù)上也達(dá)到了先進(jìn)水平,甚至在部分任務(wù)(VIF)上達(dá)到了領(lǐng)先水平。證明了所提方法的優(yōu)越性。
圖 3 VIF 任務(wù) LLVIP 數(shù)據(jù)集上的定性比較實(shí)驗(yàn)
圖 4 MEF 任務(wù) MEFB 數(shù)據(jù)集上的定性比較實(shí)驗(yàn)
圖 5 MFF 任務(wù)數(shù)據(jù)集上的定性比較實(shí)驗(yàn)
表 1 VIF 任務(wù) LLVIP 數(shù)據(jù)集上的定量比較實(shí)驗(yàn)
表 2 MEF 任務(wù) LLVIP 數(shù)據(jù)集上的定量比較實(shí)驗(yàn)
表 3 MFF 任務(wù) LLVIP 數(shù)據(jù)集上的定量比較實(shí)驗(yàn)
圖 6 域內(nèi)任務(wù)的可控性和未知任務(wù)的泛化性
可控性和泛化性。如圖 6 所示,通過(guò)控制融合提示的超參數(shù) α 和 β,我們可以分別控制模型對(duì)源圖像互補(bǔ)信息的特征選擇強(qiáng)度(區(qū)域級(jí))和融合圖像與某個(gè)源圖像的相似度(圖像級(jí))。我們可以通過(guò)線性變換融合提示,最終實(shí)現(xiàn)生成定制的融合圖像。對(duì)于已知的任務(wù),如多曝光融合,我們可以得到定制化的最符合人類感知的融合結(jié)果。對(duì)于未知任務(wù),我們可以調(diào)制出最合適的融合參數(shù),將模型泛化到未知任務(wù)。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
