首個多模態(tài)連續(xù)學(xué)習(xí)綜述,港中文、清華、UIC聯(lián)合發(fā)布
本文作者來自于港中文、清華和UIC。主要作者包括:余甸之,港中文博士生;張欣妮,港中文博士生;陳焱凱,港中文博士;劉璦瑋,清華大學(xué)博士生;張逸飛,港中文博士;Philip S. Yu,UIC教授;Irwin King,港中文教授。
- 論文標(biāo)題:Recent Advances of Multimodal Continual Learning: A Comprehensive Survey
- 論文鏈接:https://arxiv.org/abs/2410.05352
- GitHub地址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning
多模態(tài)連續(xù)學(xué)習(xí)的最新進(jìn)展
連續(xù)學(xué)習(xí)(CL)旨在增強(qiáng)機(jī)器學(xué)習(xí)模型的能力,使其能夠不斷從新數(shù)據(jù)中學(xué)習(xí),而無需進(jìn)行所有舊數(shù)據(jù)的重新訓(xùn)練。連續(xù)學(xué)習(xí)的主要挑戰(zhàn)是災(zāi)難性遺忘:當(dāng)任務(wù)按順序訓(xùn)練時,新的任務(wù)訓(xùn)練會嚴(yán)重干擾之前學(xué)習(xí)的任務(wù)的性能,因?yàn)椴皇芗s束的微調(diào)會使參數(shù)遠(yuǎn)離舊任務(wù)的最優(yōu)狀態(tài)。盡管連續(xù)學(xué)習(xí)取得了重大進(jìn)展,但大多數(shù)工作都集中在單一數(shù)據(jù)模態(tài)上,如視覺,語言,圖,或音頻等。這種單模態(tài)的關(guān)注忽略了現(xiàn)實(shí)世界環(huán)境的多模態(tài)本質(zhì),因?yàn)楝F(xiàn)實(shí)世界環(huán)境本身就很復(fù)雜,由不同的數(shù)據(jù)模態(tài)而不是單一模態(tài)組成。
隨著多模態(tài)數(shù)據(jù)的快速增長,發(fā)展能夠從多模態(tài)來源中連續(xù)學(xué)習(xí)的 AI 系統(tǒng)勢在必行,因此出現(xiàn)了多模態(tài)連續(xù)學(xué)習(xí)(MMCL)。這些 MMCL 系統(tǒng)需要有效地集成和處理各種多模態(tài)數(shù)據(jù)流,同時還要在連續(xù)學(xué)習(xí)中設(shè)法保留以前獲得的知識。
盡管傳統(tǒng)的單模態(tài) CL 與多模態(tài) CL 之間存在聯(lián)系,但多模態(tài) CL 所面臨的挑戰(zhàn)并不僅僅是簡單地將 CL 方法用于多模態(tài)數(shù)據(jù)。這種直接的嘗試已被證明會產(chǎn)生次優(yōu)性能。具體而言,如圖所示,除了現(xiàn)有的 CL 災(zāi)難性遺忘這一挑戰(zhàn)外,MMCL 的多模態(tài)性質(zhì)還帶來了以下四個挑戰(zhàn)。
- 挑戰(zhàn) 1 模態(tài)失衡:模態(tài)失衡是指多模態(tài)系統(tǒng)中不同模態(tài)的處理或表示不均衡,表現(xiàn)在數(shù)據(jù)和參數(shù)兩個層面。在數(shù)據(jù)層面,不同模態(tài)的數(shù)據(jù)可用性可能會在 CL 過程中發(fā)生顯著變化,出現(xiàn)極度不平衡的情況,如缺乏某些模態(tài)。在參數(shù)層面,不同模態(tài)組件的學(xué)習(xí)可能會以不同的速度收斂,從而導(dǎo)致所有模態(tài)的學(xué)習(xí)過程整體失衡。
- 挑戰(zhàn) 2 復(fù)雜模態(tài)交互:模態(tài)交互發(fā)生在模型組件中,在這些組件中,多模態(tài)輸入信息的表征明確地相互作用。這種交互給 MMCL 帶來了獨(dú)特的挑戰(zhàn),主要體現(xiàn)在兩個交互過程中:模態(tài)對齊和模態(tài)融合。在模態(tài)對齊過程中,單個數(shù)據(jù)樣本的不同模態(tài)特征往往會在連續(xù)學(xué)習(xí)過程中出現(xiàn)分散,這種現(xiàn)象被稱為 MMCL 中的空間紊亂。這種發(fā)散可能會導(dǎo)致更嚴(yán)重的性能下降。在模態(tài)融合方面,在非 CL 環(huán)境中使用的經(jīng)典多模態(tài)融合方法在 MMCL 環(huán)境中可能會表現(xiàn)較差,因?yàn)椴煌娜诤霞夹g(shù)對解決遺忘問題有不同的效果。
- 挑戰(zhàn) 3 高計(jì)算成本:在 MMCL 中加入多種模態(tài)會大大增加計(jì)算成本,無論是在模型層面還是在任務(wù)層面都是如此。在模型層面,增加模態(tài)不可避免地會增加可訓(xùn)練參數(shù)的數(shù)量。許多 MMCL 方法利用預(yù)訓(xùn)練的多模態(tài)模型作為基礎(chǔ)。然而,不斷對這些大規(guī)模模型進(jìn)行整體微調(diào)會帶來沉重的計(jì)算開銷。同樣,在特定任務(wù)層面,MMCL 方法可能會導(dǎo)致特定任務(wù)可訓(xùn)練參數(shù)的持續(xù)積累,這些參數(shù)可能會超過預(yù)訓(xùn)練模型中的參數(shù)數(shù)量,從而抵消了采用連續(xù)學(xué)習(xí)訓(xùn)練模式的效率優(yōu)勢。
- 挑戰(zhàn) 4 預(yù)訓(xùn)練零樣本能力的退化:隨著預(yù)訓(xùn)練模型的進(jìn)步,MMCL 方法可以用這些強(qiáng)大的模型。這些預(yù)先訓(xùn)練好的多模態(tài)模型經(jīng)常會表現(xiàn)出零樣本能力。然而,在訓(xùn)練過程中,該能力可能會減弱。這種退化風(fēng)險(xiǎn)可能導(dǎo)致未來任務(wù)上的嚴(yán)重性能下降,這被稱為 MMCL 中的負(fù)前向知識轉(zhuǎn)移。
MMCL 算法匯總
為了應(yīng)對上述挑戰(zhàn),研究人員越來越關(guān)注 MMCL 方法。作者將 MMCL 方法分為四類主要方法,即基于正則化、基于架構(gòu)、基于重放和基于提示的方法。
- 基于正則化的方法:由于訓(xùn)練中參數(shù)的自由移動導(dǎo)致災(zāi)難性遺忘,基于正則化的方法旨在對參數(shù)施加約束來減少遺忘。
- 基于架構(gòu)的方法:該類方法使用不同的模型參數(shù)處理不同的任務(wù)。基于正則化的方法共享所有參數(shù)來學(xué)習(xí)任務(wù),這使得它們?nèi)菀资艿饺蝿?wù)間干擾:即記住舊任務(wù)會嚴(yán)重干擾新任務(wù)的學(xué)習(xí),導(dǎo)致性能下降,尤其是在前向知識轉(zhuǎn)移為負(fù)時。相比之下,基于架構(gòu)的方法通過引入特定于任務(wù)的組件來減少任務(wù)間干擾。
- 基于重放的方法:該類方法利用一個情節(jié)記憶緩沖區(qū)來重放來自先前任務(wù)的歷史實(shí)例,例如數(shù)據(jù)樣本,從而幫助在學(xué)習(xí)新任務(wù)時保持早期知識。這種重放實(shí)例的方法避免了基于正則化的方法的嚴(yán)格約束,并規(guī)避了在架構(gòu)基于的方法中動態(tài)修改網(wǎng)絡(luò)架構(gòu)的復(fù)雜性。
- 基于提示的方法:隨著大型模型的快速發(fā)展及其在連續(xù)學(xué)習(xí)環(huán)境中的應(yīng)用,基于提示的方法最近應(yīng)運(yùn)而生,以更好地利用預(yù)訓(xùn)練過程中獲得的豐富知識。這些方法的優(yōu)勢在于只需最小的模型調(diào)整,減少了廣泛微調(diào)的需求,而與之前通常需要顯著微調(diào)或架構(gòu)修改的方法不同。基于提示的方法的范式通過在連續(xù)空間中應(yīng)用少量提示參數(shù)來修改輸入,使得模型在學(xué)習(xí)額外的特定任務(wù)信息時能夠保留其原有知識。
這些方法主要集中用于視覺和語言模態(tài),同時也有其他方法關(guān)注圖、音頻等其他模態(tài)。下圖中展示了 MMCL 方法的代表性架構(gòu)。
以下兩張表總結(jié)了 MMCL 方法的詳細(xì)屬性。
數(shù)據(jù)集和基準(zhǔn)
大多數(shù) MMCL 數(shù)據(jù)集是從最初為非連續(xù)學(xué)習(xí)任務(wù)設(shè)計(jì)的知名數(shù)據(jù)集中改編而來的,研究人員通常會利用多個數(shù)據(jù)集或?qū)蝹€數(shù)據(jù)集劃分為多個子集,以模擬 MMCL 環(huán)境中的任務(wù)。此外,也存在一些專門用于 MMCL 的數(shù)據(jù)集,例如 P9D 和 UESTC-MMEA-CL。下表總結(jié)了涵蓋各種連續(xù)學(xué)習(xí)場景、模態(tài)和任務(wù)類型的 MMCL 基準(zhǔn)。
未來方向
多模態(tài)連續(xù)學(xué)習(xí)已成為一個活躍且前景廣闊的研究主題。以下是幾個未來進(jìn)一步探索和研究的方向。
- 提高模態(tài)的數(shù)量與質(zhì)量:表 3 中顯示,只有少數(shù) MMCL 方法關(guān)注視覺和語言以外的模態(tài)。因此,在整合更多模態(tài)方面還有巨大的研究空間。此外,模態(tài)并不限于表 3 中列出的內(nèi)容,還可能包括生物傳感器、基因組學(xué)等,從而增強(qiáng)對新興挑戰(zhàn)的支持,尤其是在科學(xué)研究中的人工智能應(yīng)用(AI for science)。
- 更好的模態(tài)交互策略:許多現(xiàn)有的 MMCL 方法僅僅在網(wǎng)絡(luò)架構(gòu)中融合模態(tài),而沒有深入理解或分析它們在訓(xùn)練中的相互影響。因此,測量這種跨模態(tài)影響將是一個有趣且有前景的研究方向,以實(shí)現(xiàn)更細(xì)粒度的多模態(tài)交互。
- 參數(shù)高效微調(diào)的 MMCL 方法:參數(shù)高效微調(diào)(PEFT)方法提供了一種有效的解決方案,以優(yōu)化訓(xùn)練成本。雖然基于提示的方法是參數(shù)高效的,但在表 2 中可以看到,其他類別中僅有 MoE-Adapters4CL 利用了 PEFT 方法。因此,考慮到近年來涌現(xiàn)出眾多 PEFT 方法,將它們應(yīng)用于減少 MMCL 方法的訓(xùn)練成本是一個值得探索的方向。此外,除了簡單地應(yīng)用現(xiàn)有 PEFT 方法,一個有前景的方向是為 MMCL 設(shè)置提出新的 PEFT 方法,并將其與其他 MMCL 技術(shù)良好集成。
- 更好的預(yù)訓(xùn)練知識維護(hù):由于許多 MMCL 方法使用了強(qiáng)大的多模態(tài)預(yù)訓(xùn)練模型,因此在訓(xùn)練過程中自然希望能夠記住其預(yù)訓(xùn)練知識。遺忘預(yù)訓(xùn)練知識可能會顯著影響未來任務(wù)性能。
- 基于提示的 MMCL 方法:基于提示的 MMCL 方法能有效應(yīng)對挑戰(zhàn) 3:高計(jì)算成本,以及挑戰(zhàn) 4:預(yù)訓(xùn)練零樣本能力退化。然而,如表 2 所示,基于提示的 MMCL 方法目前是最少的一類。鑒于基于提示的方法仍處于起步階段,因此進(jìn)一步研究和發(fā)展的潛力巨大。
- 可信賴的多模態(tài)連續(xù)學(xué)習(xí):隨著人們越來越關(guān)注隱私以及政府實(shí)施更多相關(guān)法規(guī),對可信賴模型的需求正在上升。諸如聯(lián)邦學(xué)習(xí)(FL)等技術(shù)可以被用于使服務(wù)器模型在不共享原始數(shù)據(jù)的情況下學(xué)習(xí)所有客戶端的數(shù)據(jù)知識。隨著眾多聯(lián)邦連續(xù)學(xué)習(xí)(FCL)方法的發(fā)展,將 FCL 方法擴(kuò)展到 MMCL 將是一個有前景的發(fā)展方向,從而增強(qiáng) MMCL 模型的可信賴性。
總結(jié)
本文呈現(xiàn)了一份最新的多模態(tài)連續(xù)學(xué)習(xí)(MMCL)綜述,提供了 MMCL 方法的結(jié)構(gòu)化分類、基本背景知識、數(shù)據(jù)集和基準(zhǔn)的總結(jié)。作者將現(xiàn)有的 MMCL 工作分為四類,即基于正則化、基于架構(gòu)、基于重放和基于提示的方法,還為所有類別提供了代表性的架構(gòu)示意圖。此外,本文討論了在這一快速發(fā)展的領(lǐng)域中有前景的未來研究方向。希望 MMCL 的發(fā)展進(jìn)一步增強(qiáng)模型使其展現(xiàn)出更多人類的能力。這種增強(qiáng)包括在輸入層面處理多模態(tài)的能力以及在任務(wù)層面獲取多樣化技能,從而使人們更接近于在這個多模態(tài)和動態(tài)世界中實(shí)現(xiàn)通用智能的目標(biāo)。