自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

新聞
最近普林斯頓的一項(xiàng)研究認(rèn)為,Transformer的運(yùn)作方式更接近人類,連犯錯(cuò)的方式都和人類一樣。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

這是你眼里的一只貓:

[[413194]]

這是CNN眼里的一只貓:

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

這是ViT (Vision Transformer)眼里的一只貓:

[[413195]]

從去年起,Transformer忙著跨界CV,如ViT在圖像分類上準(zhǔn)確率已超過CNN,大有取代之勢(shì)。

這背后的原因是什么?

最近普林斯頓的一項(xiàng)研究認(rèn)為,Transformer的運(yùn)作方式更接近人類,連犯錯(cuò)的方式都和人類一樣。

研究團(tuán)隊(duì)在圖像分類的準(zhǔn)確率之外,增加了對(duì)錯(cuò)誤類型的分析。

結(jié)果發(fā)現(xiàn),與CNN相比,ViT更擅長(zhǎng)判斷形狀。

此前在ICLR2019上發(fā)表的一篇論文提出,用ImageNet訓(xùn)練的CNN模型更傾向于通過紋理分類圖像。

如下圖中混合了大象皮膚紋理的貓被判斷成了大象。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

△來(lái)自arXiv:1811.12231

雖然說(shuō)這更可能和ImageNet的數(shù)據(jù)紋理信息更豐富有關(guān)。

但ViT模型,使用相同數(shù)據(jù)集訓(xùn)練,就傾向于通過形狀分類圖像,并且表現(xiàn)比CNN更好。

用形狀分類物體也是人類的傾向。不信的話,試試回答下圖的問題:右面的三個(gè)物體中哪個(gè)與左邊的是同類?

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

△來(lái)自DOI: 10.1016/0749-596X(92)90040-5

這意味著,使用ViT不僅能建立更高效的視覺神經(jīng)網(wǎng)絡(luò),甚至對(duì)理解人類視覺的運(yùn)作方式都有幫助。

這么神奇?

下面來(lái)看看CNN與Transformer與人腦的聯(lián)系分別在哪里。

CNN:從貓身上獲得靈感

大腦的不同區(qū)域?qū)σ曈X信息有不同的處理方式,CNN主要模仿的是“腹側(cè)流 (Ventral Stream)”在物體識(shí)別、分類上的運(yùn)作方式。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

1981年獲得諾貝爾生理和醫(yī)學(xué)獎(jiǎng),由神經(jīng)科學(xué)家Hubel和Wiesel發(fā)現(xiàn)貓的視覺皮層中有簡(jiǎn)單細(xì)胞復(fù)雜細(xì)胞兩種。

每個(gè)簡(jiǎn)單細(xì)胞對(duì)一個(gè)特定角度的長(zhǎng)條物體反應(yīng)最強(qiáng)烈,而復(fù)雜細(xì)胞接受許多個(gè)簡(jiǎn)單細(xì)胞傳出的信號(hào),就能做到將不同角度的長(zhǎng)條物體識(shí)別成同一個(gè)。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

在CNN中,這兩種細(xì)胞的工作被分配給了卷積層池化層。

卷積層中的神經(jīng)元像簡(jiǎn)單細(xì)胞一樣,僅和上一層的部分區(qū)域相連接,學(xué)習(xí)局部特征。

最大池化 (Max Pooling)操作就是模仿復(fù)雜細(xì)胞,對(duì)簡(jiǎn)單細(xì)胞中信號(hào)最強(qiáng)的作出反應(yīng)。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

這就是CNN從動(dòng)物視覺中學(xué)到的第一個(gè)重要特性“局部連接”。

在卷積層和池化層中使用局部連接,僅在最后輸出結(jié)果前加入全連接層,使CNN獲得了“平移不變性”。

也就是把圖像稍微挪動(dòng)位置,也可以識(shí)別成相同的特征。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

另外,與全連接的神經(jīng)網(wǎng)絡(luò)相比,局部連接的方式還大大減少了需要的參數(shù)量,降低訓(xùn)練成本。

為了進(jìn)一步節(jié)省資源、提高效率,CNN在此基礎(chǔ)上發(fā)展出另一個(gè)特性“權(quán)重共享”。

隱藏層中的每個(gè)神經(jīng)元都使用相同的過濾器,也就是卷積核。

就像這樣:

△來(lái)自freecodecamp

卷積核中的相同的參數(shù)使用在每一次卷積操作中,進(jìn)一步降低了需要的參數(shù)量。

不過,與生物視神經(jīng)的不同之處也隨之出現(xiàn)了。

ViT: 擁有多個(gè)注意力中心

讓我們?cè)賮?lái)看看人眼的注意力機(jī)制

人是不能同時(shí)看清視野左右兩端邊緣上的物體的。

當(dāng)你把目光聚焦到一邊時(shí),另一邊只能模糊地感覺到有無(wú)物體存在,看不清具體的形狀或顏色。

不信的話現(xiàn)在就可以試一試。

這是因?yàn)楦泄饧?xì)胞在視網(wǎng)膜上的分布并是不均勻的。

人眼的感光細(xì)胞分為視桿細(xì)胞(Rods)和視錐細(xì)胞(Cones)兩種。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

視桿細(xì)胞主要負(fù)責(zé)感知光的亮度,不能很好地分辨細(xì)節(jié)。

而在光亮度足夠時(shí)能分辨顏色和形狀的視錐細(xì)胞,集中分布在視網(wǎng)膜中心處。

只有在目光聚焦的位置上可以看清細(xì)節(jié),所以我們觀察時(shí)要不停地轉(zhuǎn)動(dòng)眼球,將目光聚焦在視野上的不同位置,這就產(chǎn)生了注意力機(jī)制。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

不過比人眼更先進(jìn)的是,神經(jīng)網(wǎng)絡(luò)可以擁有多個(gè)注意力,被稱為多頭注意力(Multi-Head Attention)機(jī)制。

一句話是一個(gè)序列

在NLP任務(wù)中,Transformer將文本作為一個(gè)序列來(lái)處理。

有了注意力機(jī)制,就可以在長(zhǎng)序列中注意到每個(gè)詞與其他詞間的關(guān)系,實(shí)現(xiàn)上下文關(guān)聯(lián)的機(jī)器翻譯。

一張圖也是一個(gè)序列

谷歌大腦團(tuán)隊(duì)進(jìn)一步提出,圖像在分解成小塊之后,再配合位置編碼,也可以當(dāng)作一個(gè)序列來(lái)處理。

就像在NLP領(lǐng)域Transformer可以有效注意到一個(gè)詞與上下文的關(guān)系一樣,在CV領(lǐng)域也可以匯總圖像的全局特征進(jìn)行學(xué)習(xí)。

用于圖像分類的ViT就此誕生,開啟了Transformer的跨界刷屏之旅。

犯錯(cuò)的方式都和人一樣

在普林斯頓大學(xué)對(duì)比CNN和ViT的這篇論文中,還建立了錯(cuò)誤一致性這個(gè)指標(biāo)來(lái)對(duì)各個(gè)模型進(jìn)行評(píng)判。

從WordNet中選取了16個(gè)概念(如飛機(jī)、熊、鍵盤等)來(lái)衡量CNN和ViT犯錯(cuò)的類型。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

從結(jié)果可以看出,ViT和人類一樣,更傾向于通過形狀判斷物體。

未來(lái)趨勢(shì)

ViT問世之初來(lái)勢(shì)洶洶,以至于很多人都在問,注意力機(jī)制這是要取代卷積嗎?

從最近的趨勢(shì)看來(lái),Transformer在CV領(lǐng)域的應(yīng)用,反倒是刺激了二者的結(jié)合統(tǒng)一。

卷積擅長(zhǎng)提取細(xì)節(jié),要掌握全局信息往往需要堆疊很多個(gè)卷積層。

注意力善于把握整體,但又需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。

如果把兩者結(jié)合起來(lái),是不是能夠取長(zhǎng)補(bǔ)短?

把注意力引入CNN的有谷歌推出的BoTNet就是簡(jiǎn)單把ResNet的最后瓶頸塊中的3x3卷積替換成全局自注意力,沒有別的改變,就在減少開銷的情況下提高了性能。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

之后麥吉爾大學(xué)和微軟又把卷積引入Transformer架構(gòu)的CvT(Convolutional vision Transformers),去除了Transformer中的位置編碼,提升對(duì)于高分辨率視覺任務(wù)的效果。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

最近,谷歌大腦Quoc Le團(tuán)隊(duì)利用簡(jiǎn)單的相對(duì)注意力把兩大架構(gòu)自然地統(tǒng)一起來(lái),提出了混合模型CoAtNet

看來(lái),強(qiáng)強(qiáng)聯(lián)合果然不錯(cuò)。

這還沒結(jié)束,除了卷積與注意力的協(xié)作以外,甚至有人從更高的層面開始嘗試將二者統(tǒng)一。

上海交大和華為的研究,用對(duì)卷積特征的變換操作達(dá)到近似自注意力的效果,提出全新的算子X-Volution,可以在任何現(xiàn)代神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中使用。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

港中文提出更是將CNN、Transformer以及MLP都統(tǒng)一在一起,提出了用于多頭上下文聚合的通用結(jié)構(gòu)Container,取得了超越三大架構(gòu)及混合架構(gòu)的成績(jī)。

正面剛CNN,Transformer居然連犯錯(cuò)都像人類

ViT:
https://arxiv.org/abs/2010.11929

ViT比CNN更像人類:
https://arxiv.org/abs/2105.07197

CNN紋理偏差的來(lái)源:
https://arxiv.org/abs/1911.09071

BoTNet:
https://arxiv.org/abs/2101.11605

CvT:
https://arxiv.org/abs/2103.15808

CoAtNet:
https://arxiv.org/abs/2106.04803

X-Volution:
https://arxiv.org/abs/2106.02253

Container:
https://arxiv.org/abs/2106.01401

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-08-27 15:03:51

PythonC語(yǔ)言數(shù)組

2018-09-04 08:33:41

WindowsLinux操作系統(tǒng)

2020-10-05 22:00:59

深度學(xué)習(xí)編程人工智能

2021-11-08 07:27:19

黑客網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2019-05-10 16:25:24

出海西雅圖

2021-03-18 15:29:10

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-01-15 09:35:00

Linux瀏覽器Java

2024-05-15 09:58:06

谷歌大模型

2023-04-03 10:28:53

人工智能機(jī)器人

2021-03-30 11:40:48

計(jì)算數(shù)據(jù) 技術(shù)

2022-07-22 07:25:12

模型人工智能

2024-04-01 07:10:00

內(nèi)存泄漏C++編程

2025-01-24 15:30:00

2021-09-18 15:35:00

模型人工智能深度學(xué)習(xí)

2024-07-10 10:19:26

2021-07-20 10:16:24

人工智能自然語(yǔ)言技術(shù)

2024-03-25 07:45:00

AI視頻

2024-03-29 12:49:00

AI訓(xùn)練開源

2023-02-17 07:28:49

ARMx86PC

2021-07-13 17:59:13

人工智能機(jī)器學(xué)習(xí)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)