自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

新聞 人工智能
在這篇論文中,Yang Liu 等幾位研究者全面回顧了用于三個(gè)基本 CV 任務(wù)(分類、檢測(cè)和分割)的 100 多個(gè)視覺 Transfomer。

 [[436989]]

這段時(shí)間,計(jì)算機(jī)視覺圈有點(diǎn)熱鬧。先是何愷明等人用簡(jiǎn)單的掩蔽自編碼器(MAE)證明了 Transformer 擴(kuò)展到 CV 大模型的光明前景;緊接著,字節(jié)跳動(dòng)又推出了部分指標(biāo)超過 MAE 的新方法——iBOT,將十幾項(xiàng)視覺任務(wù)的 SOTA 又往前推了一步。這些進(jìn)展給該領(lǐng)域的研究者帶來了很大的鼓舞。

在這樣一個(gè)節(jié)點(diǎn),我們有必要梳理一下 CV 領(lǐng)域 Transformer 模型的現(xiàn)有進(jìn)展,挖掘其中有價(jià)值的經(jīng)驗(yàn)。因此,我們找到了中國(guó)科學(xué)院計(jì)算技術(shù)研究所等機(jī)構(gòu)剛剛發(fā)布的一篇綜述論文。在這篇論文中,Yang Liu 等幾位研究者全面回顧了用于三個(gè)基本 CV 任務(wù)(分類、檢測(cè)和分割)的 100 多個(gè)視覺 Transfomer,并討論了有關(guān)視覺 Transformer 的一些關(guān)鍵問題以及有潛力的研究方向,是一份研究視覺 Transformer 的詳盡資料。

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

論文鏈接:https://arxiv.org/pdf/2111.06091.pdf

本文是對(duì)該綜述的簡(jiǎn)要介紹。

論文概覽

Transformer 是一種基于注意力的架構(gòu),在序列建模和機(jī)器翻譯等任務(wù)上表現(xiàn)出了驚人的潛力。如下圖 1 所示,Transformer 已經(jīng)逐漸成為 NLP 領(lǐng)域主要的深度學(xué)習(xí)模型。最近流行的 Transformer 模型是一些自監(jiān)督預(yù)訓(xùn)練模型,它們利用充足的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后在特定的下游任務(wù)中進(jìn)行微調(diào) [2]–[9]。生成預(yù)訓(xùn)練 Transformer(GPT)家族 [2]– [4] 利用 Transformer 解碼器來執(zhí)行自回歸語(yǔ)言建模任務(wù);而使用雙向編碼器的 Transformer(BERT)[5]及其變體 [6], [7] 是在 Transformer 編碼器上構(gòu)建的自編碼器語(yǔ)言模型。

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

在計(jì)算機(jī)視覺領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)一直占據(jù)主導(dǎo)地位。受 NLP 領(lǐng)域自注意力機(jī)制成功的啟示,一些基于 CNN 的模型開始嘗試通過空間 [14]–[16] 或通道 [17]–[19]層面的額外自注意力層來捕獲長(zhǎng)程依賴,而另一些模型則試圖用全局 [20] 或局部自注意塊[21]–[25] 來徹底替代傳統(tǒng)的卷積。雖然 Cordonnier 等人在理論上證明了自注意力塊的有效性[26],但在主流基準(zhǔn)上,這些純注意力模型仍然比不上當(dāng)前的 SOTA CNN 模型。

如上所述,在 vanilla Transformer 于 NLP 領(lǐng)域取得巨大成功之際,基于注意力的模型在視覺識(shí)別領(lǐng)域也得到了很多關(guān)注。最近,有大量研究將 Transformer 移植到 CV 任務(wù)中并取得了非常有競(jìng)爭(zhēng)力的結(jié)果。例如,Dosovitskiy et al. [27]提出了一種使用圖像 patch 作為圖像分類輸入的純 Transformer,在許多圖像分類基準(zhǔn)上都實(shí)現(xiàn)了 SOTA。此外,視覺 Transformer 在其他 CV 任務(wù)中也實(shí)現(xiàn)了良好的性能,如檢測(cè) [28]、分割[29]、跟蹤[30]、圖像生成[31]、增強(qiáng)[32] 等。

如圖 1 所示,繼 [27]、[28] 之后,研究者們又針對(duì)各個(gè)領(lǐng)域提出了數(shù)百種基于 Transformer 的視覺模型。因此,我們迫切地需要一篇系統(tǒng)性的文章來梳理一下這些模型,這便是這篇綜述誕生的背景??紤]到讀者可能來自很多不同的領(lǐng)域,綜述作者將分類、檢測(cè)和分割三種基本的視覺任務(wù)都納入了梳理范圍。

如下圖 2 所示,這篇綜述將用于三個(gè)基本 CV 任務(wù)(分類、檢測(cè)和分割)的 100 多種視覺 Transformer 方法按照任務(wù)、動(dòng)機(jī)和結(jié)構(gòu)特性分成了多個(gè)小組。當(dāng)然,這些小組可能存在重疊。例如,其中一些進(jìn)展可能不僅有助于增強(qiáng)圖像分類骨干的表現(xiàn),還能在檢測(cè)、分割任務(wù)中取得不錯(cuò)的結(jié)果。

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

圖 2 :視覺 Transformer 的分類

由于訓(xùn)練設(shè)置和定向任務(wù)各不相同,研究者也在不同配置上對(duì)這些 Transforme 進(jìn)行了評(píng)估,以進(jìn)行方便和直觀的比較。此外,他們還揭示了一系列重要但仍需探索的特點(diǎn),這些特點(diǎn)可能使 Transformer 從眾多架構(gòu)中脫穎而出,例如彌合視覺和序列 Transformer 之間差距的松弛高級(jí)語(yǔ)義嵌入。最后,他們提出了幾個(gè)有前景的研究方向。

用于分類的視覺 Transformer

受 NLP 中 Transfomer 成功的啟發(fā) [2]–[5], [8],不少研究者嘗試將 Transformer 引入圖像分類任務(wù)。Vision Transformer(ViT)[27] 最先在主流分類基準(zhǔn)上達(dá)到了可以媲美傳統(tǒng) CNN 的性能。在論文的第 III 章,研究者對(duì) 2021 年 6 月之前發(fā)布的 40 多個(gè) Transformer 骨干進(jìn)行了全面回顧,并根據(jù)動(dòng)機(jī)和實(shí)現(xiàn)情況將其分成了六類,如下圖 5 所示。

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

根據(jù)這一分類,研究者首先介紹了 ViT——用于圖像分類的 Original Visual Transformer。接下來,他們討論了 Transformer Enhanced CNN 方法,這些方法利用 Transformer 增強(qiáng) CNN 骨干的長(zhǎng)程依賴。Transformer 在全局建模方面能力突出,但在早期階段會(huì)忽略局部信息。因此,CNN Enhanced Transformer 方法利用適當(dāng)?shù)木矸e歸納偏置來增強(qiáng) Transformer,而 Local Attention Enhanced Transformer 方法重新設(shè)計(jì) patch 分區(qū)和注意力塊,以增強(qiáng) Transformer 的局部性并維持一個(gè)無(wú)卷積的架構(gòu)。

此外,CNN 在性能和計(jì)算效率方面都受益于分層和深度結(jié)構(gòu)[93]。受此啟發(fā),研究者們提出了 Hierarchical Transformer 和 Deep Transformer 方法。前者用一個(gè)金字塔 stem 代替分辨率固定的柱狀結(jié)構(gòu),后者可以防止注意力圖過于平滑,并在較深的層中增加其多樣性。此外,他們還回顧了目前可用的自監(jiān)督方法。

下表 I 總結(jié)了以上 Transformer 模型在主流分類基準(zhǔn)上的表現(xiàn):

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

在梳理了這一部分的進(jìn)展之后,研究者得出了以下結(jié)論:

對(duì)于分類任務(wù),一個(gè)深度分層 Transformer 骨干可以有效降低計(jì)算復(fù)雜度 [39],還能避免深層中的特征過于平滑[35], [40], [59], [60]。同時(shí),早期卷積 [37] 足以捕獲低級(jí)特征,從而顯著增強(qiáng)淺層的穩(wěn)健性,降低計(jì)算復(fù)雜度。此外,卷積投影[46], [47] 和局部注意力機(jī)制 [33], [42] 都可以提高 Transformer 的局部性。

用于檢測(cè)的視覺 Transformer

在第 IV 章中,研究者詳細(xì)介紹了用于目標(biāo)檢測(cè)的視覺 Transformer。這些模型可以分為兩類:作為頸部的 Transformer 和作為骨干的 Transformer。頸部檢測(cè)器主要基于為 Transformer 結(jié)構(gòu)指定的一個(gè)新表示,稱為對(duì)象查詢,即一組學(xué)習(xí)到的同等地聚合全局特征的參數(shù)。它們?cè)噲D從加速收斂或提高性能的角度來解決最優(yōu)融合范式。除了專門為檢測(cè)任務(wù)設(shè)計(jì)的各種頸部外,一定比例的主干檢測(cè)器也會(huì)考慮到特定的策略。最后,作者在表 II 和表 III 中比較了它們的性能,并分析了 Transformer 檢測(cè)器的一些潛在改進(jìn)。

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

在梳理了這一部分的進(jìn)展之后,研究者得出了以下結(jié)論:

對(duì)于檢測(cè)任務(wù),Transformer 頸部得益于編碼器 - 解碼器結(jié)構(gòu),比只使用編碼器的 Transformer 檢測(cè)器計(jì)算更少。因此,解碼器是必要的,但是由于收斂緩慢 [72],它需要的 stack 極少[70]。此外,稀疏注意力[67] 有利于降低計(jì)算復(fù)雜度,加速 Transformer 的收斂,而空間先驗(yàn) [67], [69], [71] 有利于提高 Transformer 的性能,稍微提高其收斂速度。

用于分割的視覺 Transformer

論文第 V 章主要介紹了用于分割的 Transformer。按照分割方式的不同,這些 Transformer 可以被分為兩類:基于 patch 的 Transformer 和基于查詢的 Transformer。后者可以進(jìn)一步分解為帶對(duì)象查詢的 Transformer 和帶掩碼嵌入的 Transformer。下面這些表格展示了這些 Transformer 的性能數(shù)據(jù)。

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)
何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)
何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

在梳理了這一部分的進(jìn)展之后,研究者得出了以下結(jié)論:

對(duì)于分割任務(wù),編碼器 - 解碼器 Transformer 模型可以通過一系列可學(xué)習(xí)的掩碼嵌入將三個(gè)分割子任務(wù)統(tǒng)一為一個(gè)掩碼預(yù)測(cè)問題[29], [84], [137]。這種無(wú)框(box-free)方法在多個(gè)基準(zhǔn)上實(shí)現(xiàn)了最新的 SOTA[137]。此外,基于 box 的 Transformer 的特定混合任務(wù)級(jí)聯(lián)模型被證明在實(shí)例分割任務(wù)中達(dá)到了更高的性能。

關(guān)于視覺 Transformer 的幾個(gè)關(guān)鍵問題

Transformer 是如何打通語(yǔ)言和視覺的?

Transformer 最初是為機(jī)器翻譯任務(wù)而設(shè)計(jì)的。在語(yǔ)言模型中,句子中的每一個(gè)詞都被看作表示高級(jí)、高維語(yǔ)義信息的一個(gè)基本單元。這些詞可以被嵌入到低維向量空間表示中,叫做詞嵌入。在視覺任務(wù)中,圖像的每個(gè)像素都是低級(jí)、低維語(yǔ)義信息,與嵌入特征不匹配。因此,將 Transformer 用到視覺任務(wù)中的關(guān)鍵是建立圖像到向量的轉(zhuǎn)換,并保持圖像的特點(diǎn)。例如,ViT[27]借助強(qiáng)松弛條件將圖像轉(zhuǎn)換為包含多個(gè)低水平信息的 patch 嵌入,Early Conv. [50] 和 CoAtNet [37] 利用卷積提取高級(jí)信息,同時(shí)降低 patch 的冗余特征。

Transformer、自注意力和 CNN 之間的關(guān)系

從卷積的角度來看,其歸納偏置主要表現(xiàn)為局部性、平移不變性、權(quán)重共享和稀疏連接。這類簡(jiǎn)單的卷積核可以有效地執(zhí)行模板匹配,但由于歸納偏置強(qiáng),其上界要低于 Transformer。

從自注意力機(jī)制的角度來看,理論上,當(dāng)給定足夠數(shù)量的頭時(shí),它可以表示任何卷積層。這種 fully-attentional 操作可以交替地結(jié)合局部和全局層面的注意力,并根據(jù)特征之間的關(guān)系動(dòng)態(tài)地生成注意力權(quán)重。盡管如此,它的實(shí)用性還是不如 SOTA CNN,因?yàn)槠渚容^低,計(jì)算復(fù)雜度較高。

從 Transformer 的角度來看,Dong 等人證明,當(dāng)在沒有短連接或 FFN 的深層上訓(xùn)練時(shí),自注意力層表現(xiàn)出強(qiáng)大的「token uniformity」歸納偏置。結(jié)果表明,Transformer 由兩個(gè)關(guān)鍵部分組成:一個(gè)聚合 token 之間關(guān)系的自注意力層;一個(gè)提取輸入特征的 position-wise FFN。雖然 Transformer 具有強(qiáng)大的全局建模能力,卷積可以有效地處理低級(jí)特征[37],[50],增強(qiáng) Transformer 的局部性[45],[70],并通過填充(padding)來附加位置特征[48],[49],[102]。

不同視覺任務(wù)中的可學(xué)習(xí)嵌入

Transformer 模型利用可學(xué)習(xí)嵌入來執(zhí)行不同的視覺任務(wù)。從監(jiān)督任務(wù)的視角來看,這些嵌入可以被分為類 token、對(duì)象、查詢和掩碼嵌入。從結(jié)構(gòu)的角度來看,它們之間存在著內(nèi)在的聯(lián)系。最近的 Transformer 方法主要采用兩種不同的模式:僅編碼器和編碼器 - 解碼器結(jié)構(gòu)。每個(gè)結(jié)構(gòu)由三個(gè)層次的嵌入應(yīng)用組成,如下圖 16 所示。

何愷明MAE大火后,想梳理下視覺Transformer?這篇梳理了100多個(gè)

從位置層面來看,在僅編碼器 Transformer 中學(xué)習(xí)的嵌入的應(yīng)用被分解為初始 token 和后期 token,而學(xué)習(xí)的位置編碼和學(xué)習(xí)的解碼器輸入嵌入被用于編碼器 - 解碼器結(jié)構(gòu)。從數(shù)量層面來看,僅編碼器的設(shè)計(jì)應(yīng)用了不同數(shù)量的 token。例如,ViT [27],[38]系列和 YOLOS [73]在初始層中添加了不同的數(shù)字 token,而 CaiT [40]和 Segmenter [84]則利用這些 token 來表示不同任務(wù)中最后幾層的特征。在編碼器 - 解碼器結(jié)構(gòu)中,所學(xué)習(xí)的解碼器的位置編碼 (對(duì)象查詢[28],[70] 或掩碼嵌入 [137]) 被顯式地 [28],[137] 或隱式地 [69],[70] 附加到解碼器輸入中。與恒定輸入不同,可變形 DETR [67]采用學(xué)到的嵌入作為輸入,并關(guān)注編碼器輸出。

受多頭注意力設(shè)計(jì)的啟發(fā),多初始 token 策略被認(rèn)為可以進(jìn)一步提高分類性能。然而,DeiT [38]表明,這些額外的 token 將會(huì)向相同的結(jié)果收斂,這對(duì) ViT 沒有好處。從另一個(gè)角度來看,YOLOS [73]提供了一個(gè)使用多個(gè)初始 token 來統(tǒng)一分類和檢測(cè)的范例,但這種僅編碼器的設(shè)計(jì)會(huì)導(dǎo)致計(jì)算復(fù)雜性很高。根據(jù) CaiT [40]的觀察,后面的類 token 可以稍稍降低 Transformer 的 FLOPs,并略微提升性能(從 79.9% 到 80.5%)。Segmenter[84]也顯示了這種策略在分割任務(wù)中的效率。

與僅使用編碼器的 Transformer 的多個(gè)后期 token 相比,編碼器 - 解碼器結(jié)構(gòu)節(jié)省了更多的計(jì)算。它通過使用一小組對(duì)象查詢(掩碼嵌入)來標(biāo)準(zhǔn)化檢測(cè) [28] 和分割 [137] 領(lǐng)域中的 Transformer 方法。通過組合多個(gè)后期 token 和對(duì)象查詢(掩碼嵌入)的形式,像可變形 DETR [67]這樣的結(jié)構(gòu)(以對(duì)象查詢和可學(xué)習(xí)解碼器嵌入為輸入),可以將基于不同任務(wù)的可學(xué)習(xí)嵌入統(tǒng)一到 Transformer 編碼器 - 解碼器中。

未來的研究方向

視覺 Transformer 方法取得了巨大的進(jìn)展,并顯示出了有希望的結(jié)果,在多個(gè)基準(zhǔn)上接近或超過了 SOTA CNN 方法的記錄。但該技術(shù)尚不成熟,無(wú)法撼動(dòng)卷積在 CV 領(lǐng)域的主導(dǎo)地位?;谡撐闹械囊恍┓治?,作者指出了視覺 Transformer 的一些具有潛力的發(fā)展方向:

集合預(yù)測(cè)

正如論文中所提到的,由于損失函數(shù)的梯度相同,附加的類 token 將始終收斂 [38]。具有二分損失函數(shù)的集合預(yù)測(cè)策略已經(jīng)在許多密集預(yù)測(cè)任務(wù)中廣泛應(yīng)用于視覺 Transformer[28],[137]。如上所述,考慮分類任務(wù)的集合預(yù)測(cè)設(shè)計(jì)是很自然的,例如多類 token Transformer 借助集合預(yù)測(cè)來預(yù)測(cè)混合 patch 圖像,這類似于 LVViT [41] 的數(shù)據(jù)增強(qiáng)策略。此外,集合預(yù)測(cè)策略中的一對(duì)一標(biāo)簽分配導(dǎo)致早期過程中的訓(xùn)練不穩(wěn)定,這可能會(huì)降低最終結(jié)果的準(zhǔn)確性。利用其他標(biāo)簽分配和損失改進(jìn)集合預(yù)測(cè)可能對(duì)新的檢測(cè)框架有所幫助。

自監(jiān)督學(xué)習(xí)

自監(jiān)督 Transformer 預(yù)訓(xùn)練已經(jīng)成為了 NLP 領(lǐng)域的標(biāo)準(zhǔn),并在各種應(yīng)用中取得了巨大成功[2],[5]。卷積孿生網(wǎng)絡(luò)作為 CV 中的自監(jiān)督范例,采用對(duì)比學(xué)習(xí)進(jìn)行自監(jiān)督預(yù)訓(xùn)練,不同于 NLP 中的掩蔽自編碼器。最近,一些研究試圖設(shè)計(jì)一個(gè)自監(jiān)督的視覺 Transformer 來彌補(bǔ)視覺和語(yǔ)言之間預(yù)處理方法的差距。它們大多繼承了 NLP 中的掩蔽自編碼器或 CV 中的對(duì)比學(xué)習(xí)方案。但是,目前還沒有用于視覺 Transformer 的監(jiān)督方法能實(shí)現(xiàn) NLP 中 GPT-3 那樣的革命性。如論文所述,編碼器 - 解碼器結(jié)構(gòu)可能通過學(xué)習(xí)解碼器嵌入和位置編碼來統(tǒng)一視覺任務(wù)。自監(jiān)督學(xué)習(xí)的編碼器 - 解碼器 Transformer 值得進(jìn)一步研究。

 

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2022-05-31 10:34:04

研究訓(xùn)練模型

2024-10-06 12:32:42

2023-07-31 11:20:18

AI研究

2022-03-25 10:22:48

TransformeAI機(jī)器學(xué)習(xí)

2023-03-14 14:11:58

工作領(lǐng)域

2022-06-25 21:15:14

機(jī)器人李飛飛

2021-11-15 09:51:58

模型人工智能論文

2023-11-02 12:37:25

訓(xùn)練數(shù)據(jù)

2024-03-25 10:15:58

AI數(shù)據(jù)

2022-04-01 15:10:28

機(jī)器視覺人工智能目標(biāo)檢測(cè)

2024-10-21 11:15:00

2025-03-24 09:08:00

2021-08-04 11:34:05

設(shè)計(jì)師框架總結(jié)

2024-12-13 15:00:00

AI模型數(shù)據(jù)

2023-12-08 14:14:00

模型訓(xùn)練

2023-07-29 08:28:18

ES開源

2010-09-01 09:45:42

DHCP協(xié)議

2023-03-10 13:05:17

AI就職

2022-09-27 11:36:43

UIUI界面設(shè)計(jì)

2021-09-08 10:31:01

設(shè)計(jì)組件設(shè)計(jì)師界面
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)