細數(shù)NLP與CV的融合創(chuàng)新:盤點多模態(tài)深度學習這幾年
近年來,NLP 和 CV 領域在方法上突破不斷。不只是單模態(tài)模型有所進展,而大規(guī)模多模態(tài)方法也已經(jīng)成為非常熱門的研究領域。
- 論文地址:https://arxiv.org/pdf/2301.04856v1.pdf
- 項目地址:https://github.com/slds-lmu/seminar_multimodal_dl
在最近的一篇論文中,研究者Matthias A?enmacher回顧梳理了深度學習這兩個子領域當前最先進的研究方法,并嘗試進行全面的概述。此外,還討論了將一種模態(tài)轉(zhuǎn)換為另一種模態(tài)的建??蚣埽ǖ?3.1 章和第 3.2 章),以及利用一種模態(tài)增強另一種模態(tài)的表征學習模型(第 3.3 章和第 3.4 章)。研究者引入了側(cè)重同時處理兩種模態(tài)的架構(第 3.5 章)作為第二部分的尾聲。最后,論文還涵蓋了其他模態(tài)(第 4.1 章和第 4.2 章)以及通用多模態(tài)模型(第 4.3 章),這些模型能夠在一個統(tǒng)一架構中處理不同模態(tài)上的不同任務。一個有趣的應用(「生成藝術」,第 4.4 章)最終成為這篇綜述的錦上添花之筆。
論文章節(jié)目錄如下:
多模態(tài)深度學習簡介
人類有五種基本感官:聽覺、觸覺、嗅覺、味覺和視覺。借由這五種模式,我們得以感知和理解周圍的世界?!付嗄B(tài)」則意味著同時利用多種信息渠道的結(jié)合來理解周圍環(huán)境。例如,當蹣跚學步的孩子學習「貓」這個詞時,他們會用不同的方式大聲說出這個詞,指著貓,發(fā)出類似「喵喵」的聲音。AI 研究人員以人類學習過程為范式,結(jié)合不同模態(tài)來訓練深度學習模型。
從表面上看,深度學習算法通過訓練神經(jīng)網(wǎng)絡以優(yōu)化損失函數(shù)來優(yōu)化定義的目標函數(shù)。優(yōu)化,即將損失最小化,通過稱為梯度下降的數(shù)值優(yōu)化程序完成。因此,深度學習模型只能處理數(shù)字輸入,也只能產(chǎn)生數(shù)字輸出。然而,在多模態(tài)任務中,我們經(jīng)常遇到圖片或文本等非結(jié)構化數(shù)據(jù)。所以,關于多模態(tài)任務的首要問題是如何用數(shù)字表征輸入;其次則是如何恰當?shù)亟M合不同模態(tài)。
例如,訓練深度學習模型來生成一張貓的圖片可能就是一個典型的任務。首先,計算機需要理解文本輸入「貓」,然后以某種方式將這些信息轉(zhuǎn)換成特定圖像。因此,確定輸入文本中單詞間的上下文關系和輸出圖像中像素點間的空間關系很有必要。對幼兒來說可能很容易這件事,對于計算機卻可能是巨大挑戰(zhàn)。二者都必須對「貓」這個詞有一定理解,包括這個動物的內(nèi)涵和外觀。
當前深度學習領域一種常見方法是生成嵌入,用數(shù)字形式將貓表征為某個潛在空間中的向量。為了實現(xiàn)這一點,近年來已經(jīng)開發(fā)出各種方法和算法架構。本文概述了最先進(SOTA)多模態(tài)深度學習中使用的各類方法,以克服非結(jié)構化數(shù)據(jù)和不同模態(tài)輸入組合帶來的挑戰(zhàn)。
章節(jié)介紹?
因為多模態(tài)模型通常以文本和圖像作為輸入或輸出,所以第2章著重介紹了自然語言處理(NLP)和計算機視覺(CV)方法。NLP 領域的方法主要在于文本數(shù)據(jù)處理,而 CV 多進行圖像處理。
關于 NLP(第 2.1 小節(jié))的一個非常重要的概念叫做詞嵌入,幾乎是現(xiàn)在所有多模態(tài)深度學習架構的重要組成部分。這一概念也為基于Transformer的模型奠定了基礎,比如 BERT ,該模型在幾個 NLP 任務中都取得了重大進展。特別是Transformer的自注意力機制徹底改變了 NLP 模型,這也是為什么大多數(shù) NLP 模型將Transformer作為核心。
在計算機視覺(第 2.2 小節(jié))中,作者介紹里不同的網(wǎng)絡架構,即 ResNet、EfficientNet、SimCLR和BYOL。在這兩個領域,比較不同方法及其在富有挑戰(zhàn)性的基準上表現(xiàn)如何是非常有意義的。因此,第 2 章末 2.3 小節(jié)對 CV 和 NLP 的不同數(shù)據(jù)集、預訓練任務和基準進行了全面概括。
第3章側(cè)重于不同的多模態(tài)架構,涵蓋文本和圖像的多種組合方式,提出的模型相組合并推進了 NLP 和 CV 不同方法的研究。首先介紹了 Img2Text 任務(第 3.1 小節(jié))、用于目標識別的 Microsoft COCO 數(shù)據(jù)集和用于圖像捕獲的Meshed-Memory Transformer。
另外,研究人員開發(fā)了基于短文本 prompt 生成圖片的方法(第 3.2 小節(jié))。完成這項任務的第一個模型是生成對抗網(wǎng)絡(GAN)和變分自編碼器(VAE)。近年來,這些方法不斷改進,今天的 SOTA Transformer架構和文本引導的擴散模型如 DALL-E和 GLIDE都取得了顯著成果。另一個有趣的問題是,如何利用圖像來支持語言模型(第 3.3 小節(jié))??赏ㄟ^順序嵌入、更高級的實際嵌入或直接在Transformer內(nèi)部實現(xiàn)。
也可以看一下支持文本的 CV 模型,如 CLIP、ALIGN和 Florence(第 3.4 小節(jié))?;A模型的使用意味著模型重用(例如 DALL-E 2 中的 CLIP),以及文本與圖像連接的對比損失。此外,zero-shot 使得通過微調(diào)就可毫不費力對新的和不可見的數(shù)據(jù)進行分類。特別是用于圖像分類和生成的開源架構 CLIP去年頗受關注。第3章末介紹了同時處理文本和圖像的一些其他架構(第 3.5 小節(jié))。
例如,Data2Sec 用相同的學習方法處理語音、視覺和語言,并嘗試以此找到一種通用方法,能在一個架構中處理不同模態(tài)。此外,VilBert擴展了流行的 BERT 架構,通過實現(xiàn)共同注意力來處理圖像和文本輸入。這種方法也用于谷歌的 Deepmind Flamingo。此外,F(xiàn)lamingo 的目標是通過少樣本學習和凍結(jié)預訓練的視覺和語言模型,用單個視覺語言模型處理多個任務。
最后一章(第 4 章)介紹了能夠處理文本和圖像以外模態(tài)的方法,例如視頻、語音或表格數(shù)據(jù)??傮w目標是探索通用的多模態(tài)架構,并非為模態(tài)而模態(tài),而是為從容應對挑戰(zhàn)。因此還需處理多模態(tài)融合和對齊的問題,決定要使用聯(lián)合表征還是協(xié)調(diào)表征(第 4.1 小節(jié))。此外,還將更詳細地介紹如何精準組合結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù)(第 4.2 小節(jié))。
作者還提出了近年來形成的不同融合策略,本文通過生存分析和經(jīng)濟學中的兩個用例加以說明。除此之外,另一個有趣的研究問題是,如何在一個所謂的多用途模型(第 4.3 小節(jié))中處理不同任務,就像谷歌研究人員在其「Pathway」模型中創(chuàng)建的那樣。最后,文章會展示多模態(tài)深度學習在藝術場景中的一個典型應用,使用 DALL-E等圖像生成模型來創(chuàng)建生成藝術領域的藝術作品(第 4.4 小節(jié))。
了解更多內(nèi)容,請參考原論文。