自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta新研究挑戰(zhàn)CV領(lǐng)域基操:ViT根本不用patch,用像素做token效果更佳

人工智能 新聞
下一代視覺模型會(huì)摒棄patch嗎?Meta AI最近發(fā)表的一篇論文就質(zhì)疑了視覺模型中局部關(guān)系的必要性。他們提出了PiT架構(gòu),讓Transformer直接學(xué)習(xí)單個(gè)像素而不是16×16的patch,結(jié)果在多個(gè)下游任務(wù)中取得了全面超越ViT模型的性能。

正如token是文本處理的基本單位,patch也被默認(rèn)是計(jì)算機(jī)視覺領(lǐng)域處理圖像的基本單位。

從CNN誕生,到結(jié)合Transformer架構(gòu)的ViT,雖然模型架構(gòu)發(fā)生了很大的變化,但有一點(diǎn)始終一致——

研究人員們都會(huì)把原始圖像先進(jìn)行切割,模型輸入以patch作為基本單位。

圖片

圖片

這種預(yù)處理方法非常有效,因此有廣泛的影響力,幾乎主導(dǎo)了整個(gè)CV領(lǐng)域。甚至于,Sora等視頻生成模型也沿用了這種方法。

圖片Sora技術(shù)報(bào)告,訓(xùn)練時(shí)將視覺數(shù)據(jù)切割為patch

然而,Meta AI和阿姆斯特丹大學(xué)最近聯(lián)合發(fā)表了一篇文章,對(duì)這個(gè)CV領(lǐng)域的「基操」提出了有理有據(jù)的質(zhì)疑:圖像切成patch,真的有必要嗎?

圖片

https://arxiv.org/abs/2406.09415

首先我們可以做一個(gè)思維實(shí)驗(yàn),將圖片切成patch,究竟會(huì)對(duì)模型的哪方面造成影響?

論文作者提出,將整個(gè)圖像切割為patch再輸入,實(shí)質(zhì)上會(huì)為模型引入一種「歸納偏差」(inductive bias),其背后依據(jù)的是局部性假設(shè):與距離較遠(yuǎn)的像素相比,相鄰像素更相關(guān),能提供更多信息。

然而,回顧近年來的深度學(xué)習(xí)革命,我們似乎一直在通過減少歸納偏差取得進(jìn)步。

比如,從前的研究人員會(huì)手動(dòng)選擇特征,現(xiàn)在則是讓神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中自行學(xué)習(xí)特征。

不僅是數(shù)據(jù),模型架構(gòu)方面也是如此。CNN的核心是不同大小的卷積核,極其擅長提取圖像中的空間層次結(jié)構(gòu)。

在分層學(xué)習(xí)的過程中,卷積網(wǎng)絡(luò)先提取邊緣、顏色、紋理等低級(jí)特征,在此基礎(chǔ)上,隨后提取出更加抽象、復(fù)雜的特征表達(dá),比如面部表情、物體類別等等。

圖片

CNN這種對(duì)圖像特征的空間層次結(jié)構(gòu)的假定,也是另一種形式的歸納偏差。相比之下,Transformer架構(gòu)則擺脫了這種先驗(yàn)假設(shè),選擇用簡單的架構(gòu)對(duì)多個(gè)尺度進(jìn)行建模。

作者認(rèn)為,減少歸納偏差不僅能讓模型泛化到更多任務(wù)上,還可以促進(jìn)不同模態(tài)數(shù)據(jù)之間的更大統(tǒng)一,這也是為什么Transformer架構(gòu)能從處理自然語言逐漸擴(kuò)展到圖像、視頻、代碼、點(diǎn)云等不同領(lǐng)域。

因此,一個(gè)自然的問題出現(xiàn)了:我們能否消除ViT架構(gòu)中剩余的歸納偏差,即局部性假設(shè),從而實(shí)現(xiàn)性能提升?

圖片

由此,論文提出了PiT架構(gòu),引入關(guān)于圖像的2D網(wǎng)格結(jié)構(gòu)的「零先驗(yàn)」,將每個(gè)單獨(dú)的像素作為模型輸入的token(而不是patch),并加上位置編碼。

令人驚訝的結(jié)果出現(xiàn)了,模型不但沒有表現(xiàn)出訓(xùn)練不收斂或性能退化,反而在下游任務(wù)上展現(xiàn)出比ViT更強(qiáng)的性能。

局部性歸納偏差

想要消除模型的局部性偏差,首先要弄清CNN和ViT架構(gòu)分別在哪部分、用什么方式引入了局部性假設(shè)。

在卷積網(wǎng)絡(luò)中,局部性偏差反映在網(wǎng)絡(luò)每層計(jì)算的特征的感受域中,卷積和池化操作都是局部偏置的。

比如,第一層卷積的感受域通常僅對(duì)應(yīng)于一個(gè)小的局部窗口。隨著網(wǎng)絡(luò)變深,該區(qū)域逐漸擴(kuò)展,但窗口仍然是局部的,并且仍以某個(gè)像素位置為中心。

那么ViT呢?

乍一看,ViT和文本模型中所用的Transfomer類模型一樣,都是無局部性的。

因?yàn)榇蠖鄶?shù)Transformer中的操作要么是在全局范圍內(nèi)(如自注意力),要么純粹是在每個(gè)單獨(dú)的token上(比如MLP)。

然而,作者發(fā)現(xiàn),ViT中的兩種設(shè)計(jì)依然會(huì)引入局部性歸納偏差:將圖像切割成patch,以及位置編碼。

將圖像切割為16×16大小的patch并將其作為基本操作單元,意味著patch內(nèi)部和patch之間的計(jì)算量截然不同。

各個(gè)patch之間會(huì)進(jìn)行多次自注意力操作,但patch內(nèi)部256個(gè)像素被編碼為同一個(gè)token,始終「綁定」在一起。雖然第一個(gè)自注意力塊之后會(huì)將感受域擴(kuò)展至全局,但patch化過程已經(jīng)引入了這種鄰域的歸納偏差,「覆水難收」。

位置編碼的情況則更復(fù)雜一些。如果是可學(xué)習(xí)的位置編碼,則沒有引入局部性假設(shè),但實(shí)際上CV領(lǐng)域更常用的是絕對(duì)位置編碼,比如2D sin-cos函數(shù)。

PE(x,y,2i) = sin(x/10000^(4i/D))
PE(x,y,2i+1) = cos(x/10000^(4i/D))
PE(x,y,2j+D/2) = sin(y/10000^(4j/D))
PE(x,y,2j+1+D/2) = cos(y/10000^(4j/D))

Where:
(x,y) is a point in 2d space
i,j is an integer in [0, D/4), where D is the size of the ch dimension

https://github.com/tatp22/multidim-positional-encoding

由于sin-cos函數(shù)的平滑特點(diǎn),它們也往往會(huì)引入局部性偏差,即位置相近的token在編碼空間中也會(huì)更相似。

圖片

https://github.com/tatp22/multidim-positional-encoding

PiT:直接學(xué)習(xí)像素的Transformer

相比CNN,ViT的局部性偏差已經(jīng)大大減少。但想徹底消除,就需要從patch化和位置偏碼兩個(gè)方向同時(shí)入手。

圖片

因此,編碼過程中,PiT將直接把整個(gè)圖像看作一系列無序的像素進(jìn)行學(xué)習(xí),輸入序列可以被表示為如下形式。

圖片

其中,d是隱藏維度,L是序列長度,也就是原始圖像的大小H×W。

圖像的每個(gè)像素通常被表示為三維的RGB值,因此PiT只是通過線性層圖片將每個(gè)像素投影為d維向量,再加上可學(xué)習(xí)的CLS標(biāo)簽和可學(xué)習(xí)的位置編碼圖片就構(gòu)成了輸入的token。

圖片

PiT模型消除了像素空間結(jié)構(gòu)關(guān)系的假設(shè),而是讓模型自行從數(shù)據(jù)中學(xué)習(xí),也因此更加通用——它能對(duì)任意大小的圖像建模,不受卷積核步長或patch大小的限制,甚至可以學(xué)習(xí)形狀不規(guī)則的圖像。

此外,從文本角度來看,以像素作為token的單位還能大大減少詞匯量。比如,對(duì)于[0, 255]范圍的三通道RGB值,p×p大小的patch可能導(dǎo)致2553·p·p的詞匯量,但PiT的詞匯量就只有2553。

然而,PiT最大的缺點(diǎn)就在于,移除patch這個(gè)單位后會(huì)造成輸入序列過長,這對(duì)Transformer架構(gòu)而言是一個(gè)致命問題——計(jì)算成本會(huì)隨序列長度大幅增加。

正因?yàn)檫@個(gè)原因,評(píng)估實(shí)驗(yàn)中只能在較小數(shù)據(jù)規(guī)模上驗(yàn)證PiT的有效性。但作者認(rèn)為,隨著LLM處理序列長度的快速發(fā)展,PiT的這個(gè)缺陷在未來也許不會(huì)成為阻礙。

實(shí)驗(yàn)評(píng)估

論文通過三個(gè)實(shí)驗(yàn)研究了PiT架構(gòu)的有效性,分別是監(jiān)督學(xué)習(xí)、使用MAE(masked autoencoder)的自監(jiān)督學(xué)習(xí),以及使用DiT的圖像生成。

使用的模型是4種不同規(guī)格的PiT和ViT從頭開始訓(xùn)練并進(jìn)行對(duì)比,ViT的patch大小為2×2,模型的參數(shù)配置如下:

圖片

監(jiān)督學(xué)習(xí)

該任務(wù)使用了CIFAR-100和ImageNet兩個(gè)數(shù)據(jù)集,前者包含100個(gè)類別標(biāo)簽和6萬張圖片,后者有1000個(gè)類別標(biāo)簽和128萬張圖片;評(píng)估指標(biāo)則使用驗(yàn)證集上的top-1分類準(zhǔn)確率(Acc@1) 和top-5(Acc@5)準(zhǔn)確率。

圖片

從結(jié)果中可以看到,即使ViT已經(jīng)充分優(yōu)化,各種規(guī)格的PiT在兩個(gè)指標(biāo)上都能取得更優(yōu)的分類準(zhǔn)確度。

圖片

從概念上看,PiT可以看作patch大小為1×1的ViT,因此模型性能隨patch大小的變化趨勢(shì)可以帶來關(guān)于模型架構(gòu)的關(guān)鍵見解。

從上圖中可以看到兩種不同的趨勢(shì)。序列長度固定時(shí),降低patch大小雖然在一開始沒有顯著變化,但隨后由于輸入尺寸下降、信息量減少,模型性能會(huì)迅速退化。

右側(cè)則相反,控制輸入大小不變(相當(dāng)于有固定的信息量),更小的patch會(huì)帶來性能提升,在patch尺寸為1×1時(shí)達(dá)到最優(yōu)。

這表明,patch尺寸雖然能影響模型性能,但輸入信息量是更重要的因素。

自監(jiān)督學(xué)習(xí)

此實(shí)驗(yàn)依舊使用CIFAR-100數(shù)據(jù)集,讓PiT進(jìn)行自監(jiān)督預(yù)訓(xùn)練,隨后針對(duì)監(jiān)督分類進(jìn)行微調(diào),其中MAE預(yù)訓(xùn)練的掩碼比例設(shè)定為75%隨機(jī)掩碼。

圖片

與進(jìn)行縱向比較可以發(fā)現(xiàn),相比從頭開始訓(xùn)練,MAE預(yù)訓(xùn)練可以提高分類準(zhǔn)確性,且PiT的結(jié)果依舊全面優(yōu)于ViT。

圖像生成

此任務(wù)中的基線模型用DiT代替了ViT,使用ImageNet讓模型進(jìn)行以類別為條件的圖像生成,并通過多個(gè)指標(biāo)量化生成質(zhì)量,包括FID、sFID、IS分?jǐn)?shù)和準(zhǔn)確率/召回率。

本實(shí)驗(yàn)中所用的基線模型DiT-L相比之前的研究(最后兩行)已經(jīng)有了顯著增益,但PiT-L依舊能在前三個(gè)指標(biāo)上超越DiT-L的表現(xiàn),且準(zhǔn)確率/召回率達(dá)到同等水平。

圖片

這篇論文對(duì)PiT的探索證明了一個(gè)令人驚訝的結(jié)果——Transformer可以使用單個(gè)像素作為token。這就意味著,可能有一種干凈的、潛在可擴(kuò)展的、無需局部性假設(shè)的架構(gòu)。

作者提出,提出PiT的目的并不是要將其推廣并取代ViT,因?yàn)閷⒚總€(gè)像素視為token將導(dǎo)致序列長度大幅增加。以目前Transformer類模型的效率,PiT仍不如ViT實(shí)用。

考慮到二次計(jì)算的復(fù)雜性,PiT更多的是一種研究方法,ViT依舊是以效率換質(zhì)量的最佳選擇。

然而,論文希望借助PiT的有效性挑戰(zhàn)一下CV領(lǐng)域長久以來的「局部性假設(shè)」。這并不是一個(gè)「必選項(xiàng)」或者Transformer的本質(zhì)屬性,而只是一種啟發(fā)式方法。

下一代的視覺模型也許不需要引入patch這個(gè)概念,從局部歸納偏差中解放出來,或許能取得更好的性能。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-01-22 08:17:03

2022-12-05 16:55:01

AI模型

2016-11-10 20:50:20

微軟開源

2022-12-01 17:17:09

React開發(fā)

2024-09-30 14:35:00

2014-09-29 09:38:10

BASHBUG

2023-01-02 13:33:25

2023-08-05 12:54:32

2013-02-28 09:32:02

私有云資源池自服務(wù)

2021-09-10 16:50:35

對(duì)比學(xué)習(xí)深度學(xué)習(xí)人工智能

2023-02-28 13:13:51

AI智能

2023-03-09 14:41:37

元宇宙知識(shí)產(chǎn)權(quán)

2013-12-02 15:12:23

諾基亞安卓

2009-11-23 08:47:36

2009-06-25 14:16:19

Hibernate

2025-01-10 10:30:00

大模型統(tǒng)計(jì)評(píng)估

2022-03-09 08:22:43

項(xiàng)目開發(fā)分布式微服務(wù)

2022-03-07 08:13:06

MQ消息可靠性異步通訊

2014-05-16 10:52:06

2017-11-23 14:54:27

京東云系統(tǒng)設(shè)計(jì)以用戶為中心的系統(tǒng)設(shè)計(jì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)