自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="a4aw0"><p id="a4aw0"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Meta新研究挑戰(zhàn)CV領(lǐng)域基操：ViT根本不用patch，用像素做token效果更佳

作者：新智元 2024-07-09 13:06:52

人工智能新聞

下一代視覺模型會(huì)摒棄patch嗎？Meta AI最近發(fā)表的一篇論文就質(zhì)疑了視覺模型中局部關(guān)系的必要性。他們提出了PiT架構(gòu)，讓Transformer直接學(xué)習(xí)單個(gè)像素而不是16×16的patch，結(jié)果在多個(gè)下游任務(wù)中取得了全面超越ViT模型的性能。

正如token是文本處理的基本單位，patch也被默認(rèn)是計(jì)算機(jī)視覺領(lǐng)域處理圖像的基本單位。

從CNN誕生，到結(jié)合Transformer架構(gòu)的ViT，雖然模型架構(gòu)發(fā)生了很大的變化，但有一點(diǎn)始終一致——

研究人員們都會(huì)把原始圖像先進(jìn)行切割，模型輸入以patch作為基本單位。

這種預(yù)處理方法非常有效，因此有廣泛的影響力，幾乎主導(dǎo)了整個(gè)CV領(lǐng)域。甚至于，Sora等視頻生成模型也沿用了這種方法。

Sora技術(shù)報(bào)告，訓(xùn)練時(shí)將視覺數(shù)據(jù)切割為patch

然而，Meta AI和阿姆斯特丹大學(xué)最近聯(lián)合發(fā)表了一篇文章，對(duì)這個(gè)CV領(lǐng)域的「基操」提出了有理有據(jù)的質(zhì)疑：圖像切成patch，真的有必要嗎？

https://arxiv.org/abs/2406.09415

首先我們可以做一個(gè)思維實(shí)驗(yàn)，將圖片切成patch，究竟會(huì)對(duì)模型的哪方面造成影響？

論文作者提出，將整個(gè)圖像切割為patch再輸入，實(shí)質(zhì)上會(huì)為模型引入一種「歸納偏差」（inductive bias），其背后依據(jù)的是局部性假設(shè)：與距離較遠(yuǎn)的像素相比，相鄰像素更相關(guān)，能提供更多信息。

然而，回顧近年來的深度學(xué)習(xí)革命，我們似乎一直在通過減少歸納偏差取得進(jìn)步。

比如，從前的研究人員會(huì)手動(dòng)選擇特征，現(xiàn)在則是讓神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中自行學(xué)習(xí)特征。

不僅是數(shù)據(jù)，模型架構(gòu)方面也是如此。CNN的核心是不同大小的卷積核，極其擅長提取圖像中的空間層次結(jié)構(gòu)。

在分層學(xué)習(xí)的過程中，卷積網(wǎng)絡(luò)先提取邊緣、顏色、紋理等低級(jí)特征，在此基礎(chǔ)上，隨后提取出更加抽象、復(fù)雜的特征表達(dá)，比如面部表情、物體類別等等。

CNN這種對(duì)圖像特征的空間層次結(jié)構(gòu)的假定，也是另一種形式的歸納偏差。相比之下，Transformer架構(gòu)則擺脫了這種先驗(yàn)假設(shè)，選擇用簡單的架構(gòu)對(duì)多個(gè)尺度進(jìn)行建模。

作者認(rèn)為，減少歸納偏差不僅能讓模型泛化到更多任務(wù)上，還可以促進(jìn)不同模態(tài)數(shù)據(jù)之間的更大統(tǒng)一，這也是為什么Transformer架構(gòu)能從處理自然語言逐漸擴(kuò)展到圖像、視頻、代碼、點(diǎn)云等不同領(lǐng)域。

因此，一個(gè)自然的問題出現(xiàn)了：我們能否消除ViT架構(gòu)中剩余的歸納偏差，即局部性假設(shè)，從而實(shí)現(xiàn)性能提升？

由此，論文提出了PiT架構(gòu)，引入關(guān)于圖像的2D網(wǎng)格結(jié)構(gòu)的「零先驗(yàn)」，將每個(gè)單獨(dú)的像素作為模型輸入的token（而不是patch），并加上位置編碼。

令人驚訝的結(jié)果出現(xiàn)了，模型不但沒有表現(xiàn)出訓(xùn)練不收斂或性能退化，反而在下游任務(wù)上展現(xiàn)出比ViT更強(qiáng)的性能。

局部性歸納偏差

想要消除模型的局部性偏差，首先要弄清CNN和ViT架構(gòu)分別在哪部分、用什么方式引入了局部性假設(shè)。

在卷積網(wǎng)絡(luò)中，局部性偏差反映在網(wǎng)絡(luò)每層計(jì)算的特征的感受域中，卷積和池化操作都是局部偏置的。

比如，第一層卷積的感受域通常僅對(duì)應(yīng)于一個(gè)小的局部窗口。隨著網(wǎng)絡(luò)變深，該區(qū)域逐漸擴(kuò)展，但窗口仍然是局部的，并且仍以某個(gè)像素位置為中心。

那么ViT呢？

乍一看，ViT和文本模型中所用的Transfomer類模型一樣，都是無局部性的。

因?yàn)榇蠖鄶?shù)Transformer中的操作要么是在全局范圍內(nèi)（如自注意力），要么純粹是在每個(gè)單獨(dú)的token上（比如MLP）。

然而，作者發(fā)現(xiàn)，ViT中的兩種設(shè)計(jì)依然會(huì)引入局部性歸納偏差：將圖像切割成patch，以及位置編碼。

將圖像切割為16×16大小的patch并將其作為基本操作單元，意味著patch內(nèi)部和patch之間的計(jì)算量截然不同。

各個(gè)patch之間會(huì)進(jìn)行多次自注意力操作，但patch內(nèi)部256個(gè)像素被編碼為同一個(gè)token，始終「綁定」在一起。雖然第一個(gè)自注意力塊之后會(huì)將感受域擴(kuò)展至全局，但patch化過程已經(jīng)引入了這種鄰域的歸納偏差，「覆水難收」。

位置編碼的情況則更復(fù)雜一些。如果是可學(xué)習(xí)的位置編碼，則沒有引入局部性假設(shè)，但實(shí)際上CV領(lǐng)域更常用的是絕對(duì)位置編碼，比如2D sin-cos函數(shù)。

PE(x,y,2i) = sin(x/10000^(4i/D))
PE(x,y,2i+1) = cos(x/10000^(4i/D))
PE(x,y,2j+D/2) = sin(y/10000^(4j/D))
PE(x,y,2j+1+D/2) = cos(y/10000^(4j/D))

Where:
(x,y) is a point in 2d space
i,j is an integer in [0, D/4), where D is the size of the ch dimension

https://github.com/tatp22/multidim-positional-encoding

由于sin-cos函數(shù)的平滑特點(diǎn)，它們也往往會(huì)引入局部性偏差，即位置相近的token在編碼空間中也會(huì)更相似。

https://github.com/tatp22/multidim-positional-encoding

PiT：直接學(xué)習(xí)像素的Transformer

相比CNN，ViT的局部性偏差已經(jīng)大大減少。但想徹底消除，就需要從patch化和位置偏碼兩個(gè)方向同時(shí)入手。

因此，編碼過程中，PiT將直接把整個(gè)圖像看作一系列無序的像素進(jìn)行學(xué)習(xí)，輸入序列可以被表示為如下形式。

其中，d是隱藏維度，L是序列長度，也就是原始圖像的大小H×W。

圖像的每個(gè)像素通常被表示為三維的RGB值，因此PiT只是通過線性層將每個(gè)像素投影為d維向量，再加上可學(xué)習(xí)的CLS標(biāo)簽和可學(xué)習(xí)的位置編碼就構(gòu)成了輸入的token。

PiT模型消除了像素空間結(jié)構(gòu)關(guān)系的假設(shè)，而是讓模型自行從數(shù)據(jù)中學(xué)習(xí)，也因此更加通用——它能對(duì)任意大小的圖像建模，不受卷積核步長或patch大小的限制，甚至可以學(xué)習(xí)形狀不規(guī)則的圖像。

此外，從文本角度來看，以像素作為token的單位還能大大減少詞匯量。比如，對(duì)于[0, 255]范圍的三通道RGB值，p×p大小的patch可能導(dǎo)致255^3·p·p的詞匯量，但PiT的詞匯量就只有255³。

然而，PiT最大的缺點(diǎn)就在于，移除patch這個(gè)單位后會(huì)造成輸入序列過長，這對(duì)Transformer架構(gòu)而言是一個(gè)致命問題——計(jì)算成本會(huì)隨序列長度大幅增加。

正因?yàn)檫@個(gè)原因，評(píng)估實(shí)驗(yàn)中只能在較小數(shù)據(jù)規(guī)模上驗(yàn)證PiT的有效性。但作者認(rèn)為，隨著LLM處理序列長度的快速發(fā)展，PiT的這個(gè)缺陷在未來也許不會(huì)成為阻礙。

實(shí)驗(yàn)評(píng)估

論文通過三個(gè)實(shí)驗(yàn)研究了PiT架構(gòu)的有效性，分別是監(jiān)督學(xué)習(xí)、使用MAE（masked autoencoder）的自監(jiān)督學(xué)習(xí)，以及使用DiT的圖像生成。

使用的模型是4種不同規(guī)格的PiT和ViT從頭開始訓(xùn)練并進(jìn)行對(duì)比，ViT的patch大小為2×2，模型的參數(shù)配置如下：

監(jiān)督學(xué)習(xí)

該任務(wù)使用了CIFAR-100和ImageNet兩個(gè)數(shù)據(jù)集，前者包含100個(gè)類別標(biāo)簽和6萬張圖片，后者有1000個(gè)類別標(biāo)簽和128萬張圖片；評(píng)估指標(biāo)則使用驗(yàn)證集上的top-1分類準(zhǔn)確率(Acc@1) 和top-5(Acc@5)準(zhǔn)確率。

從結(jié)果中可以看到，即使ViT已經(jīng)充分優(yōu)化，各種規(guī)格的PiT在兩個(gè)指標(biāo)上都能取得更優(yōu)的分類準(zhǔn)確度。

從概念上看，PiT可以看作patch大小為1×1的ViT，因此模型性能隨patch大小的變化趨勢(shì)可以帶來關(guān)于模型架構(gòu)的關(guān)鍵見解。

從上圖中可以看到兩種不同的趨勢(shì)。序列長度固定時(shí)，降低patch大小雖然在一開始沒有顯著變化，但隨后由于輸入尺寸下降、信息量減少，模型性能會(huì)迅速退化。

右側(cè)則相反，控制輸入大小不變（相當(dāng)于有固定的信息量），更小的patch會(huì)帶來性能提升，在patch尺寸為1×1時(shí)達(dá)到最優(yōu)。

這表明，patch尺寸雖然能影響模型性能，但輸入信息量是更重要的因素。

自監(jiān)督學(xué)習(xí)

此實(shí)驗(yàn)依舊使用CIFAR-100數(shù)據(jù)集，讓PiT進(jìn)行自監(jiān)督預(yù)訓(xùn)練，隨后針對(duì)監(jiān)督分類進(jìn)行微調(diào)，其中MAE預(yù)訓(xùn)練的掩碼比例設(shè)定為75%隨機(jī)掩碼。

與進(jìn)行縱向比較可以發(fā)現(xiàn)，相比從頭開始訓(xùn)練，MAE預(yù)訓(xùn)練可以提高分類準(zhǔn)確性，且PiT的結(jié)果依舊全面優(yōu)于ViT。

圖像生成

此任務(wù)中的基線模型用DiT代替了ViT，使用ImageNet讓模型進(jìn)行以類別為條件的圖像生成，并通過多個(gè)指標(biāo)量化生成質(zhì)量，包括FID、sFID、IS分?jǐn)?shù)和準(zhǔn)確率/召回率。

本實(shí)驗(yàn)中所用的基線模型DiT-L相比之前的研究（最后兩行）已經(jīng)有了顯著增益，但PiT-L依舊能在前三個(gè)指標(biāo)上超越DiT-L的表現(xiàn)，且準(zhǔn)確率/召回率達(dá)到同等水平。

這篇論文對(duì)PiT的探索證明了一個(gè)令人驚訝的結(jié)果——Transformer可以使用單個(gè)像素作為token。這就意味著，可能有一種干凈的、潛在可擴(kuò)展的、無需局部性假設(shè)的架構(gòu)。

作者提出，提出PiT的目的并不是要將其推廣并取代ViT，因?yàn)閷⒚總€(gè)像素視為token將導(dǎo)致序列長度大幅增加。以目前Transformer類模型的效率，PiT仍不如ViT實(shí)用。

考慮到二次計(jì)算的復(fù)雜性，PiT更多的是一種研究方法，ViT依舊是以效率換質(zhì)量的最佳選擇。

然而，論文希望借助PiT的有效性挑戰(zhàn)一下CV領(lǐng)域長久以來的「局部性假設(shè)」。這并不是一個(gè)「必選項(xiàng)」或者Transformer的本質(zhì)屬性，而只是一種啟發(fā)式方法。

下一代的視覺模型也許不需要引入patch這個(gè)概念，從局部歸納偏差中解放出來，或許能取得更好的性能。

責(zé)任編輯：張燕妮來源：新智元

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<bdo id="d9kac"></bdo>

<p id="d9kac"><li id="d9kac"></li></p>

<sub id="d9kac"></sub>