多模態(tài)如何自監(jiān)督?愛丁堡等最新「自監(jiān)督多模態(tài)學(xué)習(xí)」綜述:目標(biāo)函數(shù)、數(shù)據(jù)對齊和模型架構(gòu)
多模態(tài)學(xué)習(xí)旨在理解和分析來自多種模態(tài)的信息,近年來在監(jiān)督機(jī)制方面取得了實(shí)質(zhì)性進(jìn)展。
然而,對數(shù)據(jù)的嚴(yán)重依賴加上昂貴的人工標(biāo)注阻礙了模型的擴(kuò)展。與此同時,考慮到現(xiàn)實(shí)世界中大規(guī)模的未標(biāo)注數(shù)據(jù)的可用性,自監(jiān)督學(xué)習(xí)已經(jīng)成為緩解標(biāo)注瓶頸的一種有吸引力的策略。
基于這兩個方向,自監(jiān)督多模態(tài)學(xué)習(xí)(SSML)提供了從原始多模態(tài)數(shù)據(jù)中利用監(jiān)督的方法。
?
論文地址:https://arxiv.org/abs/2304.01008?
項(xiàng)目地址:https://github.com/ys-zong/awesome-self-supervised-multimodal-learning
在本綜述中,我們對SSML的最先進(jìn)技術(shù)進(jìn)行了全面的回顧,我們沿著三個正交的軸進(jìn)行分類: 目標(biāo)函數(shù)、數(shù)據(jù)對齊和模型架構(gòu)。這些坐標(biāo)軸對應(yīng)于自監(jiān)督學(xué)習(xí)方法和多模態(tài)數(shù)據(jù)的固有特征。
具體來說,我們將訓(xùn)練目標(biāo)分為實(shí)例判別、聚類和掩碼預(yù)測類別。我們還討論了訓(xùn)練期間的多模態(tài)輸入數(shù)據(jù)配對和對齊策略。最后,回顧了模型架構(gòu),包括編碼器、融合模塊和解碼器的設(shè)計,這些是SSML方法的重要組成部分。
回顧了下游的多模態(tài)應(yīng)用任務(wù),報告了最先進(jìn)的圖像-文本模型和多模態(tài)視頻模型的具體性能,還回顧了SSML算法在不同領(lǐng)域的實(shí)際應(yīng)用,如醫(yī)療保健、遙感和機(jī)器翻譯。最后,討論了SSML面臨的挑戰(zhàn)和未來的方向。
1. 引言
人類通過各種感官感知世界,包括視覺、聽覺、觸覺和嗅覺。我們通過利用每個模態(tài)的互補(bǔ)信息來全面了解我們的周圍環(huán)境。AI研究一直致力于開發(fā)模仿人類行為并以類似方式理解世界的智能體。為此,多模態(tài)機(jī)器學(xué)習(xí)領(lǐng)域[1]、[2]旨在開發(fā)能夠處理和整合來自多個不同模態(tài)的數(shù)據(jù)的模型。近年來,多模態(tài)學(xué)習(xí)取得了重大進(jìn)展,導(dǎo)致了視覺和語言學(xué)習(xí)[3]、視頻理解[4]、[5]、生物醫(yī)學(xué)[6]、自動駕駛[7]等領(lǐng)域的一系列應(yīng)用。更根本的是,多模態(tài)學(xué)習(xí)正在推進(jìn)人工智能中長期存在的接地問題[8],使我們更接近更一般的人工智能。
然而,多模態(tài)算法往往仍然需要昂貴的人工標(biāo)注才能進(jìn)行有效的訓(xùn)練,這阻礙了它們的擴(kuò)展。最近,自監(jiān)督學(xué)習(xí)(SSL)[9],[10]已經(jīng)開始通過從現(xiàn)成的標(biāo)注數(shù)據(jù)中生成監(jiān)督來緩解這一問題。單模態(tài)學(xué)習(xí)中自監(jiān)督的定義相當(dāng)完善,僅取決于訓(xùn)練目標(biāo),以及是否利用人工標(biāo)注進(jìn)行監(jiān)督。然而,在多模態(tài)學(xué)習(xí)的背景下,它的定義則更為微妙。在多模態(tài)學(xué)習(xí)中,一種模態(tài)經(jīng)常充當(dāng)另一種模態(tài)的監(jiān)督信號。就消除人工標(biāo)注瓶頸進(jìn)行向上擴(kuò)展的目標(biāo)而言,定義自我監(jiān)督范圍的關(guān)鍵問題是跨模態(tài)配對是否自由獲取。
通過利用免費(fèi)可用的多模態(tài)數(shù)據(jù)和自監(jiān)督目標(biāo),自監(jiān)督多模態(tài)學(xué)習(xí)(SSML)顯著增強(qiáng)了多模態(tài)模型的能力。在本綜述中,我們回顧了SSML算法及其應(yīng)用。我們沿著三個正交的軸分解各種方法:目標(biāo)函數(shù)、數(shù)據(jù)對齊和模型架構(gòu)。這些坐標(biāo)軸對應(yīng)于自監(jiān)督學(xué)習(xí)算法的特點(diǎn)和多模態(tài)數(shù)據(jù)所需的具體考慮。圖1提供了擬議分類法的概述?;谇爸萌蝿?wù),我們將訓(xùn)練目標(biāo)分為實(shí)例判別、聚類和掩碼預(yù)測類別。還討論了將這些方法中的兩種或兩種以上結(jié)合起來的混合方法。
多模態(tài)自監(jiān)督所特有的是多模態(tài)數(shù)據(jù)配對的問題。模態(tài)之間的配對,或者更一般的對齊,可以被SSML算法利用作為輸入(例如,當(dāng)使用一種模態(tài)為另一種模態(tài)提供監(jiān)督時),但也可以作為輸出(例如,從未配對的數(shù)據(jù)中學(xué)習(xí)并將配對作為副產(chǎn)品誘導(dǎo))。我們討論了對齊在粗粒度上的不同作用,這種粗粒度通常被假定在多模態(tài)自監(jiān)督中免費(fèi)可用(例如,網(wǎng)絡(luò)爬取的圖像和標(biāo)題[11]);有時由SSML算法顯式或隱式誘導(dǎo)的細(xì)粒度對齊(例如,標(biāo)題詞和圖像塊[12]之間的對應(yīng)關(guān)系)。此外,我們探索了目標(biāo)函數(shù)和數(shù)據(jù)對齊假設(shè)的交集。
還分析了當(dāng)代SSML模型架構(gòu)的設(shè)計。具體來說,我們考慮編碼器和融合模塊的設(shè)計空間,將特定模式的編碼器(沒有融合或具有后期融合)和具有早期融合的統(tǒng)一編碼器進(jìn)行對比。我們也檢查具有特定解碼器設(shè)計的架構(gòu),并討論這些設(shè)計選擇的影響。
最后,討論了這些算法在多個真實(shí)世界領(lǐng)域的應(yīng)用,包括醫(yī)療保健、遙感、機(jī)器翻譯等,并對SSML的技術(shù)挑戰(zhàn)和社會影響進(jìn)行了深入討論,指出了潛在的未來研究方向。我們總結(jié)了在方法、數(shù)據(jù)集和實(shí)現(xiàn)方面的最新進(jìn)展,為該領(lǐng)域的研究人員和從業(yè)人員提供一個起點(diǎn)。
現(xiàn)有的綜述論文要么只關(guān)注有監(jiān)督的多模態(tài)學(xué)習(xí)[1],[2],[13],[14],或單模態(tài)自監(jiān)督學(xué)習(xí)[9],[10],[15],或SSML的某個子區(qū)域,例如視覺-語言預(yù)訓(xùn)練[16]。最相關(guān)的綜述是[17],但它更側(cè)重于時間數(shù)據(jù),忽略了對齊和架構(gòu)的多模態(tài)自監(jiān)督的關(guān)鍵考慮因素。相比之下,我們提供了一個全面和最新的SSML算法綜述,并提供了一個涵蓋算法、數(shù)據(jù)和架構(gòu)的新分類法。
2. 背景知識
多模態(tài)學(xué)習(xí)中的自監(jiān)督
我們首先描述了本次調(diào)研中所考慮的SSML的范圍,因?yàn)檫@個術(shù)語在之前的文獻(xiàn)中使用不一致。通過調(diào)用不同借口任務(wù)的無標(biāo)簽性質(zhì),在單模態(tài)環(huán)境中定義自監(jiān)督更為直接,例如,著名的實(shí)例辨別[20]或掩蓋預(yù)測目標(biāo)[21]實(shí)現(xiàn)了自監(jiān)督。相比之下,多模態(tài)學(xué)習(xí)中的情況更加復(fù)雜,因?yàn)槟B(tài)和標(biāo)簽的作用變得模糊。例如,在監(jiān)督圖像字幕[22]中,文本通常被視為標(biāo)簽,但在自監(jiān)督多模態(tài)視覺和語言表示學(xué)習(xí)[11]中,文本則被視為輸入模態(tài)。
在多模態(tài)環(huán)境中,術(shù)語自監(jiān)督已被用于指至少四種情況:(1)從自動成對的多模態(tài)數(shù)據(jù)中進(jìn)行無標(biāo)簽學(xué)習(xí)——例如帶有視頻和音頻軌道的電影[23],或來自RGBD攝像機(jī)[24]的圖像和深度數(shù)據(jù)。(2)從多模態(tài)數(shù)據(jù)中學(xué)習(xí),其中一個模態(tài)已經(jīng)被手動標(biāo)注,或者兩個模態(tài)已經(jīng)被手動配對,但這個標(biāo)注已經(jīng)為不同的目的創(chuàng)建,因此可以被認(rèn)為是免費(fèi)的,用于SSML預(yù)訓(xùn)練。例如,從網(wǎng)絡(luò)爬取的匹配圖像-標(biāo)題對,如開創(chuàng)性的CLIP[11]所使用的,實(shí)際上是監(jiān)督度量學(xué)習(xí)[25],[26]的一個例子,其中配對是監(jiān)督。然而,由于模式和配對都是大規(guī)模免費(fèi)提供的,因此它通常被描述為自監(jiān)督的。這種未經(jīng)策劃的偶然創(chuàng)建的數(shù)據(jù)通常比專門策劃的數(shù)據(jù)集(如COCO[22]和Visual Genome[27])質(zhì)量更低,噪音更大。(3)從高質(zhì)量的目的標(biāo)注的多模態(tài)數(shù)據(jù)(例如,COCO[22]中的手動字幕圖像)中學(xué)習(xí),但具有自監(jiān)督的風(fēng)格目標(biāo),例如Pixel-BERT[28]。(4)最后,還有一些“自監(jiān)督”方法,它們混合使用免費(fèi)和手動標(biāo)注的多模態(tài)數(shù)據(jù)[29],[30]。為了本次調(diào)查的目的,我們遵循自監(jiān)督的思想,旨在通過打破手動標(biāo)注的瓶頸來擴(kuò)大規(guī)模。因此,就能夠在免費(fèi)可用的數(shù)據(jù)上進(jìn)行訓(xùn)練而言,我們包括了前面兩類和第四類方法。我們排除了僅顯示用于手動管理數(shù)據(jù)集的方法,因?yàn)樗鼈冊诠芾頂?shù)據(jù)集上應(yīng)用典型的“自監(jiān)督”目標(biāo)(例如,屏蔽預(yù)測)。
(a)監(jiān)督式多模態(tài)學(xué)習(xí)和(b)自監(jiān)督式多模態(tài)學(xué)習(xí)的學(xué)習(xí)范式:無手動標(biāo)注的自監(jiān)督預(yù)訓(xùn)練(上);對下游任務(wù)進(jìn)行監(jiān)督微調(diào)(下)。
3. 目標(biāo)函數(shù)
在本節(jié)中,我們將介紹用于訓(xùn)練三類自監(jiān)督多模態(tài)算法的目標(biāo)函數(shù):實(shí)例判別、聚類和掩蓋預(yù)測。最后我們還討論了混合目標(biāo)。
3.1 實(shí)例判別
在單模學(xué)習(xí)中,實(shí)例判別(instance discrimination, ID)將原始數(shù)據(jù)中的每個實(shí)例視為一個單獨(dú)的類,并對模型進(jìn)行訓(xùn)練,以區(qū)分不同的實(shí)例。在多模態(tài)學(xué)習(xí)的背景下,實(shí)例判別通常旨在確定來自兩個輸入模態(tài)的樣本是否來自同一個實(shí)例,即配對。通過這樣做,它試圖對齊成對模式的表示空間,同時將不同實(shí)例對的表示空間推得更遠(yuǎn)。有兩種類型的實(shí)例識別目標(biāo):對比預(yù)測和匹配預(yù)測,這取決于輸入是如何采樣的。
3.2 聚類
聚類方法假設(shè)應(yīng)用經(jīng)過訓(xùn)練的端到端聚類將導(dǎo)致根據(jù)語義顯著特征對數(shù)據(jù)進(jìn)行分組。在實(shí)踐中,這些方法迭代地預(yù)測編碼表示的聚類分配,并使用這些預(yù)測(也稱為偽標(biāo)簽)作為監(jiān)督信號來更新特征表示。多模態(tài)聚類提供了學(xué)習(xí)多模態(tài)表示的機(jī)會,還通過使用每個模態(tài)的偽標(biāo)簽監(jiān)督其他模態(tài)來改進(jìn)傳統(tǒng)聚類。
3.3 掩碼預(yù)測
掩碼預(yù)測任務(wù)可以采用自動編碼(類似于BERT[101])或自動回歸方法(類似于GPT[102])來執(zhí)行。