CVPR‘24:與任務(wù)無關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能|港中文&騰訊
萬萬沒想到,與任務(wù)無直接關(guān)聯(lián)的多模態(tài)數(shù)據(jù)也能提升Transformer模型性能。
比如訓(xùn)練一個圖像分類模型,除了標(biāo)注好類別的圖像數(shù)據(jù)集,增加視頻、音頻、點(diǎn)云等模態(tài)數(shù)據(jù),也能顯著提升模型在圖像分類上的性能。
這樣一來,在AI訓(xùn)練階段就可以減少與特定任務(wù)直接相關(guān)的標(biāo)注數(shù)據(jù)需求,可以節(jié)省大量成本,或在數(shù)據(jù)有限的任務(wù)上提供新解決思路。
這個神奇的發(fā)現(xiàn)來自港中文MMLab和騰訊AI Lab的合作研究,相關(guān)論文已被CVPR 2024接收,引起廣泛關(guān)注。
從無關(guān)數(shù)據(jù)中學(xué)習(xí)有用知識
具體來說,團(tuán)隊(duì)提出了一種稱為多模態(tài)通路(Multimodal Pathway)的新框架。
該框架允許Transformer模型在處理特定模態(tài)的數(shù)據(jù)時,同時利用其他模態(tài)中的無關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練,從而在不增加額外推理成本的前提下顯著提升模型性能。
多模態(tài)通路的核心技術(shù)是跨模態(tài)重參數(shù)化 (Cross-Modal Re-parameterization)*。
這一技術(shù)的創(chuàng)新之處在于,它通過結(jié)構(gòu)上的智能重組,使得模型能夠在保持原有計(jì)算成本的同時,增加從其他模態(tài)學(xué)習(xí)的能力。
對于已經(jīng)被廣泛運(yùn)用到多模態(tài)特征提取的Vision Transformer,團(tuán)隊(duì)關(guān)心的是這些神經(jīng)網(wǎng)絡(luò)中的主要線性層。
具體來說,這一技術(shù)在模型的每一個線性層中引入了輔助模態(tài)的權(quán)重,這些權(quán)重通過可學(xué)習(xí)的參數(shù)進(jìn)行調(diào)節(jié),從而在不增加推理時間的情況下,實(shí)現(xiàn)模態(tài)間的知識遷移。
如圖所示,比如有不同模態(tài)的兩個線性層FC和FC’, 那么跨模態(tài)結(jié)構(gòu)重參數(shù)化就是要通過構(gòu)建一個運(yùn)算完全等價的線性層來承載兩個模態(tài)的運(yùn)算,在這里直接將來自不同模態(tài)的兩部分權(quán)重 (W和W’)做線性組合(W+λW’)來平衡兩個模態(tài)的權(quán)重對于目標(biāo)模態(tài)的貢獻(xiàn)。
實(shí)驗(yàn)結(jié)果:跨模態(tài)增益挖掘Transformer潛力
在論文中,研究團(tuán)隊(duì)詳細(xì)介紹了他們的實(shí)驗(yàn)設(shè)計(jì)和結(jié)果。
在圖像識別、點(diǎn)云處理、視頻理解和音頻分析等多個任務(wù)上應(yīng)用了多模態(tài)通路技術(shù),觀察到多模態(tài)通路能夠在12種不同的模態(tài)相互幫助的關(guān)系中實(shí)現(xiàn)一致的性能提升。
例如,在ImageNet圖像識別任務(wù)中,結(jié)合了點(diǎn)云數(shù)據(jù)的多模態(tài)通路Transformer模型,比傳統(tǒng)的Transformer模型在識別準(zhǔn)確率上提高了0.7%。
與MAE預(yù)訓(xùn)練方法的各種改進(jìn)相比,該方法無需高昂的計(jì)算成本來預(yù)訓(xùn)練1600 Epoch,而是直接在下游任務(wù)中微調(diào),就能顯著地提升模型性能。這充分展示了多模態(tài)學(xué)習(xí)在處理大規(guī)模復(fù)雜數(shù)據(jù)集時的強(qiáng)大潛力。
研究人員還發(fā)現(xiàn),跨模態(tài)知識遷移的效果不僅與模型參數(shù)規(guī)模有關(guān),還可能與層次表示(Hierarchical Representation)能力密切相關(guān)。也就是越擅長學(xué)習(xí)層次化的抽象表示的模型,遷移效果就越好。
更值得注意的是,該方法有效地證明了即使毫不相關(guān)的多模態(tài)數(shù)據(jù)之間,仍能存在著明顯的多模態(tài)增益效果,這充分說明我們現(xiàn)在對多模態(tài)學(xué)習(xí)的理解與認(rèn)知還有很大的提升空間。
總的來說,這項(xiàng)研究不僅能夠啟發(fā)多模態(tài)學(xué)習(xí)在學(xué)術(shù)領(lǐng)域的發(fā)展,也為工業(yè)界提供了新的思路。通過利用現(xiàn)有的海量數(shù)據(jù)資源,即使這些數(shù)據(jù)與當(dāng)前任務(wù)不直接相關(guān),也能夠?yàn)锳I模型的訓(xùn)練帶來積極的影響。
這種方法為數(shù)據(jù)資源有限或難以標(biāo)注的領(lǐng)域提供了新的解決方案,特別是在自動駕駛、醫(yī)療影像分析、自然語言處理等技術(shù)要求極高的領(lǐng)域,多模態(tài)通路技術(shù)的應(yīng)用前景廣闊。
此外,這一研究還揭示了AI跨模態(tài)學(xué)習(xí)的新機(jī)制,推動了學(xué)界對于不同數(shù)據(jù)模態(tài)間交互和協(xié)同處理的深入理解。研究團(tuán)隊(duì)表示,未來他們將探索將多模態(tài)通路技術(shù)應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和其他跨架構(gòu)的AI系統(tǒng),以進(jìn)一步挖掘這一技術(shù)的潛力。
論文地址:??https://arxiv.org/abs/2401.14405???
項(xiàng)目網(wǎng)頁:???https://ailab-cvc.github.io/M2PT/???
開源代碼:???https://github.com/AILab-CVC/M2PT???
講解視頻:???https://www.bilibili.com/video/BV1Sm41127eW/??
本文轉(zhuǎn)自 量子位 ,作者:量子位
原文鏈接:??https://mp.weixin.qq.com/s/Y4LV07qNzRa5MA_lygBiaw??
