自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

新聞 深度學(xué)習(xí)
結(jié)合作者最近讀過(guò)的上述三篇 MLP 論文,單對(duì)神經(jīng)網(wǎng)絡(luò)模型相關(guān)的圖像分類(lèi)任務(wù)做一個(gè)簡(jiǎn)單的發(fā)展梳理,之后針對(duì)近期提出的三篇論文,將其所提到的方法進(jìn)行概述和觀點(diǎn)提煉,并嘗試總結(jié)此類(lèi)研究所帶來(lái)的的意義和未來(lái)潛力。

 圖像分類(lèi)(image classification)一直都是計(jì)算機(jī)視覺(jué)研究中非?;A(chǔ)且重要的一類(lèi)任務(wù),在深度學(xué)習(xí)為主導(dǎo)的近十年中已經(jīng)普遍繼承了通用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基本范式,大部分思路多著眼于不同網(wǎng)絡(luò)模型的設(shè)計(jì)和模塊創(chuàng)新,少有直接對(duì)卷積神經(jīng)網(wǎng)絡(luò)本身既定框架的顛覆性工作。Transformer 在自然語(yǔ)言處理任務(wù)上獲得成功之后,注意力機(jī)制(attention)在視覺(jué)任務(wù)方向也獲得很多關(guān)注和應(yīng)用,它們中的大多數(shù)工作也被認(rèn)為是十分有效的性能提升部分。

然而近期 Google brain, Oxford, 清華大學(xué)等研究機(jī)構(gòu)分別發(fā)表了自己對(duì)多層感知機(jī)(MLP)在視覺(jué)分類(lèi)中起到作用的重定位,引起了廣泛的學(xué)界思考:深度學(xué)習(xí)網(wǎng)絡(luò)是否經(jīng)歷了從 CNN 開(kāi)始一系列的主干變化之后,重新收斂于普通簡(jiǎn)明的多層 MLP 范式了?MLP 框架是否存在普適性,潛在的科研和商用價(jià)值有多高?新的框架提出又會(huì)對(duì)之后的視覺(jué)研究和技術(shù)應(yīng)用提供哪些潛在的可能性和創(chuàng)新啟發(fā)呢?

本文基于以上的問(wèn)題,結(jié)合作者最近讀過(guò)的上述三篇 MLP 論文,單對(duì)神經(jīng)網(wǎng)絡(luò)模型相關(guān)的圖像分類(lèi)任務(wù)做一個(gè)簡(jiǎn)單的發(fā)展梳理,之后針對(duì)近期提出的三篇論文,將其所提到的方法進(jìn)行概述和觀點(diǎn)提煉,并嘗試總結(jié)此類(lèi)研究所帶來(lái)的的意義和未來(lái)潛力。

0. 神經(jīng)網(wǎng)絡(luò)圖像分類(lèi)發(fā)展簡(jiǎn)述

其實(shí)早在 20 世紀(jì),使用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類(lèi)就有 Neocognitron,ConvNet,以及 LeNet 等早期的雛形,如 LeNet 非常有效地完成了受限于數(shù)字識(shí)別的任務(wù),且卷積的概念也早早出現(xiàn),然而因?yàn)橛?jì)算機(jī)算力的不足在較長(zhǎng)一段時(shí)間內(nèi)并沒(méi)有取得更多的進(jìn)展。

大部分人更加熟悉的在于 2012 年 AlexNet 利用 GPU 在當(dāng)年的視覺(jué)圖像分類(lèi)挑戰(zhàn)賽(ImageNet)上取得了非常驚人的 Top-1 準(zhǔn)確度,之后以卷積層為范式的卷積神經(jīng)網(wǎng)絡(luò)(CNN)發(fā)展出多種經(jīng)典模型。

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

在 2014 到 2017 年間,Inception, ResNet, VGG 等模型均達(dá)到了非常好的 SOTA 性能,其設(shè)計(jì)的小卷積核感受野,多路跨層鏈接等等模塊設(shè)計(jì)都被證明非常的有效。在很長(zhǎng)一段時(shí)間內(nèi) CNN 作為骨干是處理深度視覺(jué)任務(wù)的不二之選,可參考下圖各個(gè)經(jīng)典 CNN 網(wǎng)絡(luò)模型的提出和演變過(guò)程:

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

接下來(lái)便是 2017 年附近,人們發(fā)現(xiàn)注意力機(jī)制在捕捉及加強(qiáng)視覺(jué)特征提取過(guò)程中也非常有效,并有了少量工作進(jìn)行嘗試。2018 年左右,本用于自然語(yǔ)言處理的 Transofmer 被發(fā)現(xiàn)其在視覺(jué)分類(lèi)等等任務(wù)方面也有非常強(qiáng)的可遷移性,于是 Transformer 成為了近兩年來(lái)炙手可熱的視覺(jué)研究主題,人們前所未有的關(guān)注圖像局部塊之間的上下文關(guān)系,將卷積網(wǎng)絡(luò)時(shí)期的感受野學(xué)習(xí)進(jìn)一步改善為特征或圖像塊之間的關(guān)聯(lián)學(xué)習(xí)。注意力相關(guān)的工作也有了井噴式發(fā)展,比如 Vit[9], Deit[10] 就是最初有效融合 Transformer 思想的工作,DeepViT[11] 則是嘗試混合多個(gè)注意力模塊(attention head mixing),CaiT[12]將原 Transformer 中的注意力層分化為兩個(gè)階段進(jìn)行學(xué)習(xí),CrossViT[13],PiT[14],LeViT[15],CvT[16]以及其他更多相關(guān)工作都把 Transformer 對(duì)于全局長(zhǎng)依賴捕捉的優(yōu)點(diǎn)更近一步發(fā)揚(yáng),且嘗試與之前的 CNN 中被證明非常有效的模塊如池化(pooling)相結(jié)合,引領(lǐng)了 CNN 之后的另一輪模型革新潮流。

1. 注意力是分類(lèi)性能的保障嗎?

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet

在引入當(dāng)前激烈討論的 MLP-Mixer 模型之前,我們首先來(lái)看這篇牛津大學(xué)的 4 頁(yè)研究報(bào)告,一定程度上它簡(jiǎn)明地回答了一個(gè)問(wèn)題:注意力機(jī)制是保障圖像分類(lèi)任務(wù)性能的關(guān)鍵嗎?我們知道自從 Transformer 被證明在視覺(jué)任務(wù)上同樣可行后,許多視覺(jué)相關(guān)的任務(wù)也隨之應(yīng)用該范式,且普遍都將性能提升歸功于注意力機(jī)制,聲稱注意力機(jī)制為網(wǎng)絡(luò)引入了全局感受野(global receptive field),并在不同的工作中致力于提升注意力模塊的效率及有效性。于是該文章在 ImageNet 數(shù)據(jù)集上做了一個(gè) “嚴(yán)格控制變量” 的圖像分類(lèi)實(shí)驗(yàn):在不改動(dòng)注意力分類(lèi)網(wǎng)絡(luò)其他結(jié)構(gòu)和參數(shù)設(shè)置的情況下,單純將每個(gè)注意力網(wǎng)絡(luò)層替換為一個(gè)簡(jiǎn)單的前傳網(wǎng)絡(luò)層(feed-forward layer),由此原先的 Transformer 模型可被看為由多層前傳網(wǎng)絡(luò)層構(gòu)成的一個(gè) MLP 分層網(wǎng)絡(luò),如左下圖所示。

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

在實(shí)驗(yàn)部分,論文作者采用了目前 Transformer 分類(lèi)器中的代表作 ViT 以及 DeiT,繼承其所有的模型結(jié)構(gòu)與超參設(shè)置,并依據(jù) ViT,Deit 的 Tiny, Base, Large 三個(gè)網(wǎng)絡(luò)結(jié)構(gòu),在 ImageNet 數(shù)據(jù)集上訓(xùn)練了三個(gè) feed-forward only 模型(FF only)。參照右上圖訓(xùn)練結(jié)果,Tiny 網(wǎng)絡(luò)中 FF only 模型表現(xiàn)相比于 attention 模型,參數(shù)數(shù)目較多的情況下性能也并不占優(yōu)。然而當(dāng)模型增大為 Base 與 Large 時(shí),僅有前傳層的 FF only 表現(xiàn)就非常的驚艷了,在參數(shù)數(shù)目相比也較少的情況下,純前傳層構(gòu)成的 MLP 模型 FF only 取得了幾乎持平甚至占優(yōu)的 Top-1 分類(lèi)精確度,這從側(cè)面也說(shuō)明了MLP 模型在較復(fù)雜較大的網(wǎng)絡(luò)中有不俗的表征能力。

為了更加公平的比較,論文作者也試圖將所有前傳層都替換為注意力層,類(lèi)比實(shí)現(xiàn)一個(gè) attention only 的模型來(lái)進(jìn)一步探究注意力機(jī)制的表現(xiàn)力,然而注意力網(wǎng)絡(luò)在 tiny 模型上訓(xùn)練了 100 個(gè) epochs 之后也只能達(dá)到 28.2% 的 top-1 準(zhǔn)確度。由以上實(shí)驗(yàn),論文作者推斷一個(gè)好的 Transformer 分類(lèi)器并不一定需要注意力模塊來(lái)保障性能,可能是圖片塊的映射嵌入(embedding)或者 Transformer 本身自成體系的訓(xùn)練流程保證了性能的優(yōu)越性。

下圖附上 FF only 模型中替換注意力模塊的線性前傳模塊,可以看出實(shí)現(xiàn)直觀簡(jiǎn)單,感興趣的讀者同樣可以根據(jù)此做更多的擴(kuò)展性探索和實(shí)驗(yàn)。

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

總體來(lái)說(shuō)這篇文章提出的問(wèn)題非常鮮明,提出的論證過(guò)程本身也非常有趣。論證的過(guò)程雖然實(shí)驗(yàn)設(shè)置相對(duì)有限,但也在一定程度上回答了開(kāi)頭的疑問(wèn):特定的注意力模塊并不一定就是性能保證,同時(shí)文章非常吸引人的一點(diǎn)在于,它為業(yè)界指出了一種可能性:當(dāng)你面臨較大模型的需求時(shí),根據(jù)實(shí)驗(yàn)中 MLP 模型的表現(xiàn)力來(lái)看,它很有可能成為一個(gè)保證性能同時(shí)節(jié)省性能的不錯(cuò)替代方案。

2. MLP 有望成為新的視覺(jué)范式

MLP-Mixer: An all-MLP Architecture for Vision

通過(guò)牛津大學(xué)的文章我們了解到多層感知機(jī)(MLP)的表現(xiàn)能力不俗,在替換了視覺(jué) Transformer 模型中的注意力模塊之后依然能夠?qū)崿F(xiàn)優(yōu)秀的分類(lèi)性能,而被持續(xù)關(guān)注多時(shí)的注意力模塊似乎并不能獨(dú)當(dāng)一面——在單獨(dú)存在時(shí)作為一種新的計(jì)算范式去支撐一個(gè)高精度的模型,其本身也更多還是依托于一個(gè)好的骨干模型。谷歌大腦近期提出的 MLP-Mixer 就更進(jìn)一步,讓我們看到 MLP 模型完全有機(jī)會(huì)成為與傳統(tǒng)卷積網(wǎng)絡(luò)(CNN),Transformer 之后的下一種視覺(jué)研究范式。

自從深度學(xué)習(xí)興起,它一直傾向于直接從原始數(shù)據(jù)中學(xué)習(xí)所需要的視覺(jué)特征,盡可能避免認(rèn)為構(gòu)造特征或設(shè)置歸納偏置, CNN 一直默認(rèn)為此種學(xué)習(xí)思想下的一種標(biāo)準(zhǔn),一兩年前視覺(jué)的 Transformer 取得了 SOTA 的成績(jī),成為了另一個(gè)可選項(xiàng)。不同于前兩者,谷歌提出的 MLP-Mixer 結(jié)構(gòu)完全摒棄了卷積或是注意力機(jī)制,完全基于多層感知機(jī)結(jié)構(gòu),只依賴基礎(chǔ)的矩陣相乘,重復(fù)地在空間特征或者通道特征上計(jì)算抽取。

MLP-Mixer 的結(jié)構(gòu)如下圖所示:

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

首先將大小為 HxW 的的輸入圖像切割為不重合的 S 個(gè)小方塊(Patch),每個(gè)方塊的分辨率均為 PxP,隨之所有圖像方塊經(jīng)過(guò)統(tǒng)一的線性映射變?yōu)殡[藏維度是 C 的張量,由此輸入 MLP-Mixer 的數(shù)據(jù)就轉(zhuǎn)換為一個(gè)維度 SxC 的二維矩陣表 X,X 在之后的計(jì)算流程會(huì)經(jīng)過(guò)多個(gè) Mixer 層,其包含兩類(lèi) MLP 計(jì)算層:a.token-mixing MLPs 和 b.channel-mixing MLPs, X 首先通過(guò) token-mixing MLP 計(jì)算不同方塊張量之間的聯(lián)系,獲得特征 U,之后再經(jīng)過(guò) channel-mixing MLPs 來(lái)計(jì)算通道之間的特征 Y:

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

在模型的最后 MLP-Mixer 也接了一個(gè)常見(jiàn)的全連接分類(lèi)模塊,來(lái)完成最終的類(lèi)別預(yù)測(cè)。除此之外,MLP-Mixer 由于采用的 token-mixing MLP,導(dǎo)致它并不需要輸入圖片的位置編碼信息,本身就對(duì)每個(gè)圖像塊的位置有了一定的敏感度,同時(shí)其采用的參數(shù)綁定(parameter tying) 也使得參數(shù)體量能夠大幅度的減少。

實(shí)驗(yàn)部分作者采用了三個(gè)規(guī)格的模型大小分別為 base(B),large(L), huge(H), 對(duì)應(yīng)的 MLP-Mixer 模型不僅在 ImageNet 與 JFT-300M 這幾個(gè)大數(shù)據(jù)集上進(jìn)行了 pre-train,也同時(shí)通過(guò)在中小數(shù)據(jù)集上微調(diào)(fine-tune)來(lái)進(jìn)一步測(cè)試 MLP-Mixer 的遷移學(xué)習(xí)能力。與此同時(shí)與 MLP-Mixer 對(duì)比的模型均為 CNN 類(lèi)別或者 Transformer 類(lèi)別中實(shí)現(xiàn) SOTA 性能的模型,例如 HaloNet,ViT。

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

通過(guò)實(shí)驗(yàn)結(jié)果匯總,也可以看出無(wú)論是預(yù)訓(xùn)練或是微調(diào)遷移,MLP-Mixer 雖然沒(méi)有能達(dá)到 SOTA 的精度,但是各方面已經(jīng)可以與當(dāng)今的兩個(gè)主流 SOTA 模型相當(dāng),同時(shí)在效率吞吐方面也存在著不錯(cuò)的優(yōu)勢(shì)。

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

更進(jìn)一步,文章將每個(gè)輸入圖片方塊的權(quán)重進(jìn)行了可視化,可以觀察的出來(lái)由粗到細(xì)、由輪廓到慢慢具象化的一個(gè)演變過(guò)程其實(shí)與 CNN 中提取視覺(jué)特征的過(guò)程也是有異曲同工之妙的。

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

總的來(lái)說(shuō),這篇文章提出了一個(gè)非常新穎但是有效的網(wǎng)絡(luò)結(jié)構(gòu),涉及的方法理論并不復(fù)雜且模型結(jié)構(gòu)直觀,實(shí)驗(yàn)全面詳實(shí),是一篇非常有啟發(fā)性的的 MLP 分類(lèi)開(kāi)山之作。尤其需要指出的是,在 MLP-Mixer 的結(jié)構(gòu)描述中,對(duì)于如何設(shè)置各個(gè) MLP 模塊的順序,以及如何進(jìn)行圖像映射,包括同樣沿用了一個(gè)非常經(jīng)典的 skip-connection 結(jié)構(gòu)等方面看,是否也從某個(gè)側(cè)面呼應(yīng)了第一篇中 FF only 的部分猜想:怎樣進(jìn)行特征的嵌入映射,與一個(gè)合理的訓(xùn)練計(jì)算流程,或許才是一個(gè)高精度模型背后的支撐面。

從學(xué)術(shù)研究的角度看,MLP-Mixer 的提出啟發(fā)更多學(xué)者關(guān)注到 MLP 網(wǎng)絡(luò)結(jié)構(gòu)是有潛能成為繼 CNN,Transformer 之后的第三種范式的,更加先進(jìn)有效的網(wǎng)絡(luò)結(jié)構(gòu)甚至微調(diào)延伸,也會(huì)不斷出現(xiàn)并幫助完善這個(gè)研究分支。工業(yè)化部署的方面看,MLP 模型也確實(shí)為不少在性能和效率的 trade-off 之間掙扎的企業(yè)和工程師提供了新的思路,盡管目前的 MLP-Mixer 并不是精確度最優(yōu)的解,但是其在效率利用甚至內(nèi)存節(jié)省方面似乎看起來(lái)會(huì)比注意力機(jī)制為主的 Transformer 有更多的想象空間。

希望詳細(xì)了解 MLP-Mixer 計(jì)算細(xì)節(jié)的讀者可以參考我們之前的文章[7],[8]。

3. MLP 與 CNN 的結(jié)合

RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition

清華的這篇 RepMLP 是一種 MLP 與 CNN 進(jìn)行結(jié)合的新嘗試,它嘗試將各自網(wǎng)絡(luò)模塊的優(yōu)勢(shì)進(jìn)行混合來(lái)實(shí)現(xiàn)更好的性能提升,并不限于分類(lèi),而是在多個(gè)視覺(jué)任務(wù)方面都給了我們一些全新的啟發(fā)。已知全連接層通常來(lái)說(shuō)更加擅長(zhǎng)于建立特征的長(zhǎng)依賴關(guān)系與空間關(guān)系,但是并不擅長(zhǎng)于捕捉局部的特征或模式識(shí)別,這也一定程度上解釋了 ViT 之類(lèi)的模型為何需要數(shù)量更加龐大的訓(xùn)練集或者充分的數(shù)據(jù)擴(kuò)增(data augmentation),二者都有類(lèi)似難以建立局部特征的毛病。于是文章提出了 RepMLP,模型主體利用多層神經(jīng)網(wǎng)絡(luò)提取長(zhǎng)期依賴關(guān)系與空間信息,同時(shí)利用結(jié)構(gòu)化的重參數(shù)化(re-parameterization),在網(wǎng)絡(luò)訓(xùn)練時(shí)候?qū)⒍鄠€(gè)卷積模塊與全連接并行,用其抽取對(duì)應(yīng)的局部先驗(yàn)知識(shí)并最后進(jìn)行信息融合匯總。且 RepMLP 還巧妙地利用重參數(shù)化將推理時(shí)的參數(shù)與訓(xùn)練時(shí)的參數(shù)進(jìn)行了再度轉(zhuǎn)化,從而實(shí)現(xiàn)推理模型精簡(jiǎn)的目的。

RepMLP 模型總的來(lái)說(shuō)并不復(fù)雜可參考其結(jié)構(gòu)圖如下:

MLP給視覺(jué)研究帶來(lái)潛在驚喜?近期MLP圖像分類(lèi)工作概覽分析

 

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2021-05-11 14:40:36

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2024-05-07 13:07:18

模型訓(xùn)練

2022-04-18 15:56:49

AI模型系統(tǒng)

2020-12-02 13:28:56

勒索軟件漏洞網(wǎng)絡(luò)攻擊

2022-07-24 12:42:43

AR交互VR

2024-11-21 16:06:02

2020-08-04 10:24:50

計(jì)算機(jī)視覺(jué)人工智能AI

2012-05-03 15:14:38

Firefox 13Beta

2024-05-20 08:35:00

模型定理

2015-12-02 11:06:20

2021-09-08 07:44:26

人工智能keras神經(jīng)網(wǎng)絡(luò)

2024-06-11 14:53:19

2021-09-18 15:35:00

模型人工智能深度學(xué)習(xí)

2009-12-31 11:02:48

ADO類(lèi)

2009-02-27 10:01:26

思科協(xié)同工作網(wǎng)絡(luò)發(fā)展

2024-08-21 12:56:14

網(wǎng)絡(luò)架構(gòu)KAN

2016-11-01 15:34:07

2021-08-04 10:17:19

開(kāi)發(fā)技能代碼

2012-10-08 09:51:33

PowerShell IT管理員Windows Ser

2010-04-22 14:55:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)