搞多模態(tài)不了解最新進展?中科院自動化所撰文首個視覺-語言預訓練綜述
?讓機器做出與人類相似的反應一直是 AI 研究不懈追求的目標。為了讓機器具有感知和思考的能力,研究人員進行了一系列相關研究,如人臉識別、閱讀理解和人機對話,通過這些任務訓練和評估機器在特定方面的智能。一般來講,領域?qū)<彝ㄟ^手工構(gòu)建標準數(shù)據(jù)集,然后在這些數(shù)據(jù)集上訓練和評估相關模型。然而,由于相關技術的限制,訓練模型往往需要大量的標注數(shù)據(jù),以獲得更好、更強大的模型。
基于 Transformer 架構(gòu)的預訓練模型緩解了這個問題。它們首先通過自監(jiān)督學習進行預訓練,從大規(guī)模未標記數(shù)據(jù)中訓練模型,從而學習通用表示。它們在下游任務上僅使用少量手動標記的數(shù)據(jù)進行微調(diào)就能取得令人驚訝的效果。自 BERT 被應用于 NLP 任務以來,各種預訓練模型在單模態(tài)領域快速發(fā)展,例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作表明它們有利于下游單模態(tài)任務,并避免從頭開始訓練新模型。
與單模態(tài)領域類似,多模態(tài)領域也存在高質(zhì)量標注數(shù)據(jù)較少的問題。我們不禁會問,上述預訓練方法能否應用于多模態(tài)任務?研究人員已經(jīng)對這個問題進行了探索并取得了重大進展。
在本文中,來自中國科學院自動化研究所、中國科學院大學的研究者調(diào)查了視覺 - 語言預訓練(vision-language pre-training,VLP)最新進展和新領域,包括圖像 - 文本預訓練和視頻 - 文本預訓練。VLP 通過對大規(guī)模數(shù)據(jù)的預訓練來學習不同模態(tài)之間語義對應關系。例如,在圖像 - 文本預訓練中,研究者期望模型將文本中的狗與圖像中的狗外觀相關聯(lián)。在視頻 - 文本預訓練中,研究者期望模型將文本中的對象 / 動作映射到視頻中的對象 / 動作。
論文地址:https://arxiv.org/pdf/2202.09061.pdf
為了實現(xiàn)這一目標,研究者需要巧妙地設計 VLP 對象和模型架構(gòu),以允許模型挖掘不同模態(tài)之間的關聯(lián)。
為了讓讀者更好地全面掌握 VLP,該研究首先從特征提取、模型架構(gòu)、預訓練目標、預訓練數(shù)據(jù)集和下游任務五個方面回顧其最近進展。然后,文章詳細總結(jié)了具體的 VLP 模型。最后,文章討論了 VLP 的新領域。據(jù)了解,這是對 VLP 領域的首次調(diào)查。研究者希望這項調(diào)查能夠為 VLP 領域的未來研究提供啟示。
VLP 綜述
VLP 五個方面回顧及其最近進展
在特征處理方面:論文主要介紹了 VLP 模型如何進行預處理和表示圖像、視頻和文本以獲得對應特征。
為了充分利用單模態(tài)預訓練模型,VLP 隨機初始化標準 transformer 編碼器來生成視覺或文本表示。從視覺來講,VLP 利用預訓練視覺 transformer(例如 ViT 和 DeiT)對 ViT-PF 進行編碼。從文本來講,VLP 使用預訓練文本 transformer(例如 BERT)對文本特征進行編碼。為簡單起見,該研究將這些 transformer 命名為 Xformer。
在模型架構(gòu)方面:論文從兩個不同的角度介紹 VLP 模型架構(gòu):(1)從多模態(tài)融合的角度來觀察單流與雙流架構(gòu)(2)從整體架構(gòu)設計來比較編碼器以及編碼器 - 解碼器對比。
單流架構(gòu)是指將文本和視覺特征組合在一起,然后饋入單個 transformer 塊,如下圖 1 (a) 所示。單流架構(gòu)通過合并注意力來融合多模態(tài)輸入。單流架構(gòu)的參數(shù)效率更高,因為兩種模式都使用相同的參數(shù)集。
雙流架構(gòu)是指文本和視覺特征沒有組合在一起,而是獨立饋入到兩個不同的 transformer 塊,如圖 1 (b) 所示。這兩個 transformer 塊不共享參數(shù)。為了獲得更高的性能,交叉注意力(如 圖 1 (b) 中的虛線所示)用于實現(xiàn)跨模態(tài)交互。為了實現(xiàn)更高的效率,視覺 transformer 塊和文本 transformer 塊之間也可以不采用交叉注意力。
許多 VLP 模型只采用編碼器架構(gòu),不同模態(tài)表示直接饋入輸出層。相比之下,其他 VLP 模型提倡使用 transformer 編碼器 - 解碼器架構(gòu),不同模態(tài)表示首先饋入解碼器,然后饋入輸出層。
在預訓練目標方面:論文通過使用不同的預訓練目標來預訓練 VLP 模型,并將預訓練目標總結(jié)為四類:完成、匹配、時間和特定類型。
完成(completion)指的是利用未掩碼部分來重建掩碼元素。以掩碼語言建模 (MLM) 為例,其最早由 taylor 提出,由于 BERT 將其作為預訓練任務而廣為人知。VLP 模型中的 MLM 類似于預訓練語言模型 (PLM) 中的 MLM,它不僅可以通過其余文本 token 來預測掩碼文本 token,還可以通過視覺 token 來預測掩碼文本 token。根據(jù)經(jīng)驗,遵循 BERT 的 VLP 模型以 15% 的掩碼率隨機掩碼每個文本輸入 token,并在 80% 的時間使用特殊 token [MASK]、10% 的時間使用隨機文本 token,剩余 10% 的時間使用原始 token 來替換被掩碼掉的文本。不過在普林斯頓大學陳丹琦等人的論文《Should You Mask 15% in Masked Language Modeling?》中,作者發(fā)現(xiàn):在有效的預訓練方案下,他們可以掩蔽 40-50% 的輸入文本,并獲得比默認的 15% 更好的下游性能。
在掩碼視覺建模 (MVM) 中,與 MLM 一樣,MVM 對視覺(圖像或視頻)區(qū)域或 patch 進行采樣,并且通常以 15% 的概率掩碼其視覺特征。VLP 模型需要在給定剩余的視覺特征和所有文本特征的情況下重建掩碼的視覺特征。
視覺 - 語言匹配 (VLM) 是最常用的預訓練目標,用于對齊視覺和語言。在單流 VLP 模型中,研究者使用特殊 token [CLS] 表示作為兩種模態(tài)的融合表示。在雙流 VLP 模型中,研究者將特殊視覺 token [CLSV] 視覺表示和特殊文本 token [CLST] 文本表示連接起來,作為兩種模態(tài)的融合表示。VLP 模型將兩種模態(tài)的融合表示提供給 FC 層和 sigmoid 函數(shù)以預測 0 到 1 之間的分數(shù),其中 0 表示視覺和語言不匹配,1 表示視覺和語言匹配。在訓練期間,VLP 模型在每一步從數(shù)據(jù)集中采樣正對或負對。
在預訓練數(shù)據(jù)集方面:大多數(shù)用于 VLP 的數(shù)據(jù)集是通過組合跨多模態(tài)任務的公共數(shù)據(jù)集構(gòu)建而成。這里,一些主流語料庫及其詳細信息如下表 1 所示。
在下游任務方面:各種各樣的任務需要視覺和語言知識融合。本小節(jié)論文介紹了此類任務的基本細節(jié)和目標,并將其分為五類:分類、回歸、檢索、生成和其他任務,其中分類、回歸和檢索任務也稱為理解任務。
在分類任務中,其包括視覺問答 (VQA)、視覺推理和合成問答 (GQA)、視覺 - 語言推理 (VLI)、自然語言視覺推理 (NLVR)、視覺常識推理 (VCR) 等。在 VQA 中,提供圖像或視頻視覺輸入,它通常被認為是一個分類任務,模型從一個選擇池中預測出最合適的答案;在 GQA 中,我們可以將 GQA 視為 VQA 的升級版,旨在推進自然場景視覺推理的研究;在 VLI 中,給定具有對齊字幕的視頻剪輯作為前提,并與基于視頻內(nèi)容的自然語言假設配對,模型需要推斷該假設是否與給定視頻剪輯相矛盾。
在回歸任務中,多模態(tài)情感分析 (MSA) 旨在利用多模態(tài)信號(如視覺、語言等)檢測視頻中的情緒。它是作為一個連續(xù)的強度變量來預測話語的情感走向。
在檢索任務中,視覺 - 語言檢索 (VLR) 通過適當?shù)钠ヅ洳呗詠砝斫庖曈X(圖像或視頻)和語言,其包括兩個子任務,視覺到文本檢索和文本到視覺檢索,其中視覺到文本檢索是根據(jù)視覺從更大的描述池中獲取最相關的文本描述,反之亦然。
在生成任務中,視覺字幕 (VC) 旨在為給定的視覺(圖像或視頻)輸入生成語義和語法上合適的文本描述。此外,論文還介紹了其他下游任務,例如多模態(tài)機器翻譯 (MMT)、視覺語言導航 (VLN) 和光學字符識別 (OCR) 等。
SOTA VLP 模型
圖像 - 文本 VLP 模型。VisualBERT 被稱為第一個圖像 - 文本預訓練模型,使用 Faster R-CNN 提取視覺特征,并將視覺特征和文本嵌入連接起來,然后將連接后的特征饋送到單個由 BERT 初始化的 transformer 中。許多 VLP 模型在調(diào)整預訓練目標和預訓練數(shù)據(jù)集時遵循與 VisualBERT 相似的特征提取和架構(gòu)。最近,VLMO 利用圖像 patch 嵌入和文本詞嵌入,將組合嵌入與模態(tài)專家一起輸入到單個 transformer 中,并取得了令人印象深刻的性能。METER 探索了如何使用單模態(tài)預訓練模型,并提出一種雙流架構(gòu)模型來處理多模態(tài)融合,從而在許多下游任務上實現(xiàn)了 SOTA 性能。
視頻 - 文本 VLP 模型。VideoBERT 被稱為第一個視頻 - 文本預訓練模型,其擴展 BERT 模型以同時處理視頻和文本。VideoBERT 使用預訓練的 ConvNet 和 S3D 來提取視頻特征并將它們與文本詞嵌入連接起來,并饋送到以 BERT 進行初始化的 transformer。在訓練 VideoBERT 時,ConvNet 和 S3D 被凍結(jié),這表明該方法不是端到端的。最近,受 ViT 的啟發(fā),F(xiàn)rozen 和 Region-Learner 首先將視頻剪輯處理成幀,并根據(jù) ViT 處理每一幀圖像的方法獲得 patch 嵌入。Frozen 和 Region-Learner 以端到端的方式優(yōu)化自身并實現(xiàn) SOTA 性能。
下表 2 總結(jié)了更多現(xiàn)有的主流 VLP 模型:
未來,在現(xiàn)有工作的基礎上,研究者希望 VLP 可以從以下幾個方面進一步發(fā)展:
- 結(jié)合聲學信息,以往的多模態(tài)預訓練研究大多強調(diào)語言和視覺的聯(lián)合建模,而忽略了隱藏在音頻中的信息;
- 知識學習和認知,盡管現(xiàn)有的 VLP 模型已經(jīng)取得了顯著的性能,但它們本質(zhì)上是擬合大規(guī)模多模態(tài)數(shù)據(jù)集,讓 VLP 模型更有知識對于未來的 VLP 很重要;
- 提示優(yōu)化,通過設計離散或連續(xù)提示并將 MLM 用于特定的下游任務,這些模型可以減少微調(diào)大量參數(shù)的計算成本,彌合預訓練和微調(diào)之間的差距。?