南洋理工大學(xué)最新視覺語(yǔ)言模型綜述:預(yù)訓(xùn)練、遷移學(xué)習(xí)和知識(shí)蒸餾啥都有
作為計(jì)算機(jī)視覺(CV)研究中長(zhǎng)期存在的挑戰(zhàn),視覺識(shí)別(如圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割)是自動(dòng)駕駛、遙感等眾多計(jì)算機(jī)視覺應(yīng)用的基石。深度學(xué)習(xí)的出現(xiàn)使得視覺識(shí)別取得了巨大成功。然而,現(xiàn)有的視覺識(shí)別研究大多依賴于昂貴的標(biāo)注數(shù)據(jù)進(jìn)行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,并且通常需要為每個(gè)任務(wù)訓(xùn)練一個(gè)獨(dú)立的網(wǎng)絡(luò),這導(dǎo)致了耗時(shí)費(fèi)力的識(shí)別模式。
為了應(yīng)對(duì)這些挑戰(zhàn),大型視覺語(yǔ)言模型引起了廣泛關(guān)注并得到深入研究。通過學(xué)習(xí)互聯(lián)網(wǎng)上大量圖像-文本對(duì)之間豐富的視覺語(yǔ)言對(duì)應(yīng)關(guān)系,現(xiàn)在可以使用一個(gè)視覺語(yǔ)言模型(如 CLIP、ALIGN)進(jìn)行各種視覺識(shí)別任務(wù)的零樣本預(yù)測(cè)。
本綜述中,來(lái)自新加坡南洋理工大學(xué)的幾位研究者全面研究了針對(duì)視覺識(shí)別任務(wù)的大型視覺語(yǔ)言模型,總結(jié)了最近的發(fā)展。
首先,他們回顧了視覺識(shí)別的發(fā)展背景。接著介紹了視覺語(yǔ)言模型的基礎(chǔ)知識(shí),包括廣泛采用的深度網(wǎng)絡(luò)架構(gòu)、預(yù)訓(xùn)練目標(biāo)以及用于評(píng)估視覺語(yǔ)言模型的下游任務(wù)和常用數(shù)據(jù)集。在此基礎(chǔ)上,對(duì)視覺語(yǔ)言模型的預(yù)訓(xùn)練方法進(jìn)行了總結(jié)和分類。此外,還對(duì)基于視覺語(yǔ)言模型的遷移學(xué)習(xí)和知識(shí)蒸餾方法進(jìn)行了系統(tǒng)分析。最后,對(duì)回顧的方法進(jìn)行了基準(zhǔn)測(cè)試、分析和討論,并提出了多個(gè)研究挑戰(zhàn)和未來(lái)視覺識(shí)別中可能的研究方向。本綜述將持續(xù)關(guān)注針對(duì)視覺識(shí)別任務(wù)的最新視覺語(yǔ)言模型相關(guān)工作。
圖片
- 論文地址:https://arxiv.org/pdf/2304.00685.pdf
- 項(xiàng)目地址:https://github.com/jingyi0000/VLM_survey
綜述動(dòng)機(jī)
1. 視覺語(yǔ)言模型(如 CLIP)的出現(xiàn)顯著簡(jiǎn)化了視覺識(shí)別任務(wù)的訓(xùn)練模式,減少了對(duì)昂貴的精細(xì)標(biāo)注數(shù)據(jù)的依賴。近年來(lái),大量相關(guān)文章證明了研究者對(duì)視覺語(yǔ)言模型的濃厚興趣。
2. 目前缺乏全面的綜述來(lái)梳理基于視覺語(yǔ)言模型的視覺識(shí)別研究,以及面臨的挑戰(zhàn)和未來(lái)的研究方向。
因此,研究者認(rèn)為有必要對(duì)視覺語(yǔ)言模型在各種視覺識(shí)別任務(wù)中的研究進(jìn)行系統(tǒng)總結(jié),以填補(bǔ)這一空白。
綜述特點(diǎn)
1. 系統(tǒng)性:本文從多個(gè)角度對(duì)基于視覺語(yǔ)言模型的視覺識(shí)別進(jìn)行了系統(tǒng)總結(jié),包括背景、基礎(chǔ)、數(shù)據(jù)集、方法、基準(zhǔn)測(cè)試和未來(lái)研究方向。
2. 全面性:本文全面總結(jié)了相關(guān)工作,包括視覺語(yǔ)言模型的預(yù)訓(xùn)練方法,以及視覺語(yǔ)言模型的遷移學(xué)習(xí)和知識(shí)蒸餾方法。
3. 詳細(xì)分類:對(duì)于每個(gè)方法類別,本文進(jìn)行了詳細(xì)分類,總結(jié)類似方法的工作,并進(jìn)行了對(duì)比分析。例如,對(duì)于視覺語(yǔ)言模型的預(yù)訓(xùn)練方法,本文將其分為基于對(duì)比學(xué)習(xí)、基于生成目標(biāo)和基于對(duì)齊目標(biāo)的三大類,并在每個(gè)類別下進(jìn)一步細(xì)(圖 1)。
圖 1. 綜述的分類總覽。
圖 2. 常用的視覺語(yǔ)言模型預(yù)訓(xùn)練數(shù)據(jù)集總結(jié)。
視覺語(yǔ)言模型預(yù)訓(xùn)練方法的總結(jié)與對(duì)比
本文首先對(duì)視覺語(yǔ)言模型的預(yù)訓(xùn)練方法進(jìn)行了總結(jié)和分類對(duì)比,分別為以對(duì)比學(xué)習(xí)為目的的方法、以生成任務(wù)為目的的方法和以對(duì)齊為目的的方法。
1. 基于對(duì)比學(xué)習(xí)的方法(Pre-Training with Contrastive Objectives)。對(duì)比目標(biāo)通過在特征空間中將配對(duì)樣本拉近并將其他樣本推遠(yuǎn)來(lái)訓(xùn)練視覺語(yǔ)言模型學(xué)習(xí)具有識(shí)別力的特征。本章節(jié)根據(jù)對(duì)比學(xué)習(xí)的輸入,進(jìn)一步將方法細(xì)分為基于圖像對(duì)比學(xué)習(xí)的方法,基于圖像-文字對(duì)比學(xué)習(xí)的方法和基于圖像-文字-標(biāo)簽對(duì)比學(xué)習(xí)的方法。
2. 基于生成任務(wù)的方法(Pre-training with Generative Objectives)。基于生成任務(wù)的方法通過訓(xùn)練網(wǎng)絡(luò)進(jìn)行圖像生成、語(yǔ)言生成或跨模態(tài)生成來(lái)學(xué)習(xí)語(yǔ)義特征,進(jìn)一步可細(xì)分為基于掩碼圖像建模的方法、基于掩碼語(yǔ)言建模的方法、基于掩碼跨模態(tài)建模的方法和基于圖像到文本生成的方法。
3. 基于對(duì)齊目的的方法(VLM Pre-training with Alignment Objectives)。對(duì)齊任務(wù)目的是在將圖像和文字的特征進(jìn)行匹配,通常可以分為全局的圖像-文字匹配和局部的圖像區(qū)域-單詞匹配。
視覺語(yǔ)言模型遷移方法的總結(jié)與對(duì)比
除了直接將預(yù)訓(xùn)練的視覺語(yǔ)言模型應(yīng)用于下游任務(wù)的零樣本預(yù)測(cè)之外,視覺語(yǔ)言模型的遷移學(xué)習(xí)同樣吸引了大量的注意。遷移學(xué)習(xí)的目的是使得預(yù)訓(xùn)練過的視覺語(yǔ)言模型可以更好地適應(yīng)下游任務(wù)。
本文將視覺語(yǔ)言模型的遷移方法主要分為了三大類,分別為提示調(diào)整方法、特征適配器方法和其他方法。
1. 提示調(diào)整方法(Prompt Tuning)。受自然語(yǔ)言處理中「提示學(xué)習(xí)」的啟發(fā),提示學(xué)習(xí)方法也被探索并且用于視覺語(yǔ)言模型的遷移中,通過尋找最佳的 prompt,并且不需要微調(diào)全部視覺語(yǔ)言模型的參數(shù)來(lái)適應(yīng)下游任務(wù)。目前的提示調(diào)整方法進(jìn)一步可以被分為文本提示調(diào)整、視覺提示調(diào)整和文本-視覺提示調(diào)整三種方法。
2. 特征適配器方法(Feature Adapter)。特征適配通過額外的輕量級(jí)特征適配器對(duì)視覺語(yǔ)言模型進(jìn)行微調(diào),以適應(yīng)下游任務(wù)的圖像或文本特征。
3. 其他方法。除了提示調(diào)整方法和特征適配器方法,一些研究也通過其他方法對(duì)視覺語(yǔ)言模型進(jìn)行遷移,比如進(jìn)行對(duì)視覺語(yǔ)言模型直接進(jìn)行微調(diào)、更改視覺語(yǔ)言模型的架構(gòu)等。
視覺語(yǔ)言模型知識(shí)蒸餾方法的總結(jié)與對(duì)比
視覺語(yǔ)言模型可以提取到視覺和文本概念的通用知識(shí),因此一些研究探索了如何提煉通用視覺語(yǔ)言知識(shí),來(lái)處理復(fù)雜的密集預(yù)測(cè)任務(wù),例如目標(biāo)檢測(cè)和語(yǔ)義分割。
與視覺語(yǔ)言模型遷移方法不同,對(duì)視覺語(yǔ)言模型進(jìn)行知識(shí)蒸餾的方法通常不受視覺語(yǔ)言模型架構(gòu)的限制,并且大部分研究會(huì)利用當(dāng)前最先進(jìn)的檢測(cè)或者分割架構(gòu)的優(yōu)勢(shì)來(lái)達(dá)到更好的性能。
本文根據(jù)任務(wù)的不同,將知識(shí)蒸餾方法分為了針對(duì)于開放詞匯目標(biāo)檢測(cè)(open-vocabulary object detection)的知識(shí)蒸餾以及針對(duì)于開放詞匯語(yǔ)義分割(open-vocabulary semantic segmentation)的知識(shí)蒸餾。
實(shí)驗(yàn)結(jié)果比較
本文分別對(duì)視覺語(yǔ)言模型的預(yù)訓(xùn)練方法、遷移方法和知識(shí)蒸餾方法在各自的評(píng)估任務(wù)上進(jìn)行了比較,并且對(duì)結(jié)果進(jìn)行了分析(圖 3-5)。
圖 3. 視覺語(yǔ)言模型預(yù)訓(xùn)練方法在圖像分類任務(wù)中零樣本預(yù)測(cè)的性能
未來(lái)方向
最后,本文還分享了一些研究挑戰(zhàn)和潛在的研究方向,可以在未來(lái)的視覺語(yǔ)言模型研究中進(jìn)行探索。
對(duì)于視覺語(yǔ)言模型的預(yù)訓(xùn)練:
- 細(xì)粒度視覺語(yǔ)言關(guān)系建模:通過考慮局部的視覺語(yǔ)言相關(guān)性知識(shí),視覺語(yǔ)言模型可以更好地識(shí)別圖像的區(qū)域和像素點(diǎn),特別對(duì)于密集預(yù)測(cè)任務(wù)如目標(biāo)檢測(cè)和語(yǔ)義分割,在各種視覺識(shí)別任務(wù)中起到重要作用。
- 統(tǒng)一視覺和語(yǔ)言學(xué)習(xí)的架構(gòu):Transformer 的出現(xiàn)使得圖像和文字可以通過相同的方式進(jìn)行學(xué)習(xí),這使得可以采用統(tǒng)一的 Transformer 架構(gòu)處理圖像和文字。與現(xiàn)有采用兩個(gè)獨(dú)立網(wǎng)絡(luò)的視覺語(yǔ)言模型相比,統(tǒng)一視覺和語(yǔ)言學(xué)習(xí)可以實(shí)現(xiàn)跨模態(tài)的有效交流,并有效提升預(yù)訓(xùn)練的效率。
- 多語(yǔ)言適應(yīng)性的視覺語(yǔ)言模型預(yù)訓(xùn)練:目前大多數(shù)視覺語(yǔ)言模型僅使用單一語(yǔ)言進(jìn)行預(yù)訓(xùn)練(如英語(yǔ)),限制了其在非英語(yǔ)地區(qū)的應(yīng)用。通過采用多種語(yǔ)言文本進(jìn)行預(yù)訓(xùn)練,可以學(xué)習(xí)不同語(yǔ)言下相同單詞的文化視覺特征,從而使視覺語(yǔ)言模型能夠在不同語(yǔ)言環(huán)境下高效且有效地工作。
對(duì)于視覺語(yǔ)言模型的遷移:
- 無(wú)監(jiān)督的視覺語(yǔ)言模型遷移:目前的遷移研究大多采用監(jiān)督或少樣本監(jiān)督學(xué)習(xí),需要標(biāo)記數(shù)據(jù),而后者往往容易過擬合到少量樣本上。無(wú)監(jiān)督的遷移可以探索大量未標(biāo)記的數(shù)據(jù),并且降低過度擬合的風(fēng)險(xiǎn)。
- 使用視覺提示 / 適配器進(jìn)行遷移:目前的遷移研究主要集中在文本提示學(xué)習(xí)上。視覺提示學(xué)習(xí)或視覺適配器可以作為文本提示的補(bǔ)充,在各種密集預(yù)測(cè)任務(wù)中實(shí)現(xiàn)像素級(jí)的適應(yīng),從而獲得更好的效果。
對(duì)于視覺語(yǔ)言模型的知識(shí)蒸餾,可以從兩個(gè)方面進(jìn)行進(jìn)一步探索。第一,可以同時(shí)對(duì)多個(gè)視覺語(yǔ)言模型進(jìn)行知識(shí)蒸餾,通過協(xié)調(diào)多個(gè)視覺語(yǔ)言模型的知識(shí)蒸餾來(lái)獲得更好的效果。第二,可以將知識(shí)蒸餾應(yīng)用于其他視覺識(shí)別任務(wù),例如實(shí)例分割、全景分割、行人重新識(shí)別等,以進(jìn)一步擴(kuò)展知識(shí)蒸餾的應(yīng)用領(lǐng)域。