自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

淺談視覺(jué)Transformer技術(shù)

發(fā)布于 2024-9-4 12:16
瀏覽
0收藏

1.標(biāo)準(zhǔn)Transformer

淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū)

經(jīng)典Transformer模型(如上圖所示),它是由編碼器(藍(lán)框)和解碼器(綠框)組成,標(biāo)準(zhǔn)Vision Transformer(ViT)[2]主要應(yīng)用了其中的編碼器,編碼器模塊主要由一個(gè)Multi-Head Self-Attention(MHA)和一個(gè)Multilayer Perceptron(MLP)組成。

淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū)


2.視覺(jué)Transformer

標(biāo)準(zhǔn)Transformer編碼器的輸入是一維embedding,為了能將該編碼器應(yīng)用于圖像任務(wù),將尺寸為(H,W,C)的圖像切分成尺寸為(P,P,C)的圖像塊,一共得到 淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū) 個(gè)圖像塊,reshape后得到尺寸為( 淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū) , 淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū)

的輸入embedding,這系列操作將2維圖像數(shù)據(jù)轉(zhuǎn)為1維,使得標(biāo)準(zhǔn)Transformer編碼器能對(duì)其進(jìn)行處理,編碼后將特征送入MLP模塊進(jìn)行分類,這就是標(biāo)準(zhǔn)的ViT(Vision Transformer),ViT在大型數(shù)據(jù)集上預(yù)訓(xùn)練,針對(duì)較小的下游任務(wù)作微調(diào)訓(xùn)練。在ImageNet數(shù)據(jù)集上取得了88.55% Top-1的準(zhǔn)確率,超越了ResNet系列模型,打破了CNN(卷積神經(jīng)網(wǎng)絡(luò))在視覺(jué)任務(wù)上的壟斷,相較于CNN具有更強(qiáng)泛化能力。但是,該模型在小規(guī)模數(shù)據(jù)集的表現(xiàn)不如CNN,并且隨著圖像尺寸的增加,Vision Transformer的計(jì)算量會(huì)成指數(shù)倍的增長(zhǎng),于是有2種流派來(lái)提升Vision Transformer的效果。

一種是改良派,該流派認(rèn)為Transformer缺少CNN的歸納偏置(平移不變性,局部相關(guān)性),改良Transformer編碼器結(jié)構(gòu),在其中加入圖像任務(wù)的歸納偏置。標(biāo)準(zhǔn)的ViT模型的輸出特征是扁平的,其尺寸為輸入圖像尺寸的1/16,這種維度的特征對(duì)于分類任務(wù)是可以接受的,對(duì)于檢測(cè)或者分割任務(wù)通常需要{1/4,1/8,1/16,1/32}尺度的特征,而大尺度的特征圖也會(huì)極大增加Self-Attention模塊的計(jì)算量,所以必須在引入多尺度特征的同時(shí)降低計(jì)算量。Pyramid Vision Transformer(PVT)[3]提出了Spatial-Reduction Attention(SRA)層,如下圖左SRA與MHA一樣接收query Q、key K和value V作為輸入,不同之處在于SRA在attention操作之前降低了K和V的特征維度,這可以將計(jì)算和內(nèi)存的開(kāi)銷減少為之前的 淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū)

淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū)

淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū)

另一種是大模型派,在NLP領(lǐng)域,模型越大,模型對(duì)于零樣本和少樣本任務(wù)的能力越強(qiáng)。增加ViT模型的參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù),再結(jié)合自監(jiān)督訓(xùn)練,也能提升各種下游任務(wù)的表現(xiàn)。ViT比CNN需要更多的訓(xùn)練數(shù)據(jù),自監(jiān)督學(xué)習(xí)的設(shè)計(jì)顯得尤為重要。BEiT-3[5]模型架構(gòu)基于40層的ViT-Giant組成,如下圖左模型共包含19億個(gè)參數(shù)。在預(yù)訓(xùn)練數(shù)據(jù)上,BEiT-3 在單模態(tài)(即圖像與文本)和多模態(tài)數(shù)據(jù)(即圖像-文本對(duì))上通過(guò)統(tǒng)一的掩碼-預(yù)測(cè)任務(wù)進(jìn)行 BEiT-3 預(yù)訓(xùn)練。預(yù)訓(xùn)練期間,會(huì)隨機(jī)掩蓋一定百分比的文本字符或像素塊,模型通過(guò)被訓(xùn)練恢復(fù)掩蓋的文本字符或其視覺(jué)符號(hào),來(lái)學(xué)習(xí)不同模態(tài)的表示及不同模態(tài)間的對(duì)齊,BEiT-3在分類、檢測(cè)、分割多個(gè)基準(zhǔn)上刷新了記錄。22年12月智源開(kāi)源了簡(jiǎn)單又強(qiáng)大的視覺(jué)基礎(chǔ)模型EVA[6],將最強(qiáng)語(yǔ)義學(xué)習(xí)與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)相結(jié)合,在ImageNet分類、COCO檢測(cè)分割、Kinetics視頻分類等廣泛的視覺(jué)感知任務(wù)中取得當(dāng)前最強(qiáng)性能。EVA,如下圖右將ViT規(guī)模擴(kuò)大到十億參數(shù)(1-Billion)ViT-Giant進(jìn)行訓(xùn)練,CLIP[7]模型輸入為完整的圖像,而EVA模型的輸入為有遮蓋的圖像,訓(xùn)練過(guò)程是讓EVA模型遮蓋部分的輸出去重構(gòu)CLIP模型對(duì)應(yīng)位置的輸出。

淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū)

淺談視覺(jué)Transformer技術(shù)-AI.x社區(qū)



3.總結(jié)                           

ViT技術(shù)使得目標(biāo)檢測(cè)、圖像識(shí)別、自動(dòng)駕駛等領(lǐng)域都得到了質(zhì)的飛躍,通過(guò)在預(yù)訓(xùn)練ViT基礎(chǔ)上微調(diào)下游任務(wù),企業(yè)可以快速地將AI技術(shù)應(yīng)用到實(shí)際生產(chǎn)和業(yè)務(wù)中,創(chuàng)造出更多的商業(yè)價(jià)值。筆者在微調(diào)ViT-Giant檢測(cè)模型時(shí)發(fā)現(xiàn),batchszie設(shè)置為1時(shí)顯存達(dá)到25GB以上,P40(22GB)顯卡已經(jīng)無(wú)法容納微調(diào)訓(xùn)練,只能將代碼及數(shù)據(jù)遷移至V100云主機(jī)得以繼續(xù)訓(xùn)練,大型ViT的預(yù)訓(xùn)練則需要更大的算力,這導(dǎo)致只有擁有大量算力的資源和數(shù)據(jù)的企業(yè)才能夠開(kāi)發(fā)和應(yīng)用大型ViT模型,從而加深產(chǎn)業(yè)的技術(shù)壁壘。ViT技術(shù)給AI產(chǎn)業(yè)帶來(lái)了巨大的影響,其影響將持續(xù)深遠(yuǎn)。


參考文獻(xiàn)


[1]Attention is all you need


[2]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE


[3]Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions


[4]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows


[5]Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks


[6]EVA: Exploring the Limits of Masked Visual Representation Learning at Scale


[7]Contrastive Language-Image Pre-Training

本文轉(zhuǎn)載自??AI遇見(jiàn)云??,作者: 周華健 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦