自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer跨界超越CNN,還解決了計算復(fù)雜度難題

新聞 人工智能
談到Transformer,你可能會想到一眾NLP模型。Transformer其實(shí)還能替CNN把活給干了,并且干得還不賴。

[[390500]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

 談到Transformer,你可能會想到一眾NLP模型。

但現(xiàn)在,Transformer其實(shí)還能替CNN把活給干了,并且干得還不賴。

比如微軟亞研院最新提出的Swin Transformer,就在COCO數(shù)據(jù)集的分割檢測任務(wù)上來了個跨領(lǐng)域超車,一舉達(dá)到SOTA。

Transformer跨界超越CNN,還解決了計算復(fù)雜度難題

那么,問題來了。

關(guān)注NLP的盆友想必就會問,用Transformer做CV任務(wù),這個想法早已有之,也沒見對CNN的地位有什么動搖,Swin Transformer又有何不同?

這就涉及到Transformer的CV應(yīng)用存在的兩個主要問題:

  • 首先,基于Transformer的模型,token的長度是固定的。這對于NLP里的單詞當(dāng)然沒有什么問題,但到了CV領(lǐng)域,視覺元素的比例各異,比如同一個場景中會存在大小不同的物體。
  • 其次,圖像中的像素與文本中的文字相比,對分辨率的要求更高。而常規(guī)的自注意力的計算復(fù)雜度,是圖像大小的平方,這就導(dǎo)致其在像素級別進(jìn)行密集預(yù)測時會出現(xiàn)問題。

而Swin Transformer,就旨在解決這些NLP和CV之間差異帶來的問題。

通過移動窗口計算的分層Transformer

Transformer跨界超越CNN,還解決了計算復(fù)雜度難題

Swin Transformer的訣竅,核心是兩板斧:

  • 基于分層特征圖,利用特征金字塔網(wǎng)絡(luò)(FPN)或U-Net等技術(shù)進(jìn)行密集預(yù)測
  • 將自注意力計算限制在不重疊的局部窗口中,同時允許跨窗口連接,從而帶來更高的效率。
Transformer跨界超越CNN,還解決了計算復(fù)雜度難題

這第二板斧,也就是基于移動窗口的自注意力

如上圖所示,在l層,采用常規(guī)的窗口分區(qū)方案,在每個窗口內(nèi)計算自注意力。

在下一層l+1,窗口分區(qū)會被移動,產(chǎn)生新的窗口。新窗口中的自注意力計算跨越了l層中窗口的邊界,提供了新的關(guān)聯(lián)信息。

Transformer跨界超越CNN,還解決了計算復(fù)雜度難題

具體而言,Swin Transformer的整體架構(gòu)是醬嬸的:

  • 將RGB圖像分割成不重疊的圖像塊(token);
  • 應(yīng)用MLP(多層感知機(jī))將原始特征轉(zhuǎn)化為任意維度;
  • 應(yīng)用多個修改了自注意力計算的Swin Transformer塊,并保持token的數(shù)量;
  • 下采樣層:通過合并2×2窗口中的相鄰圖像塊來減少token的數(shù)量,并將特征深度增加一倍。

實(shí)驗結(jié)果

研究人員讓Swin Transformer分別挑戰(zhàn)了ImageNet-1K、COCO和ADE20K上的圖像分類、對象檢測和語義分割任務(wù)。

其中,用于預(yù)訓(xùn)練的是ImageNet-22K數(shù)據(jù)集,ImageNet-1K數(shù)據(jù)集則用于微調(diào)。

結(jié)果顯示,在COCO的分割和檢測任務(wù),以及ADE20K的語義分割任務(wù)上,Swin Transformer都超越了CNN,達(dá)到了SOTA。

而在ImageNet-1K的分類任務(wù)上,雖然沒能超越EfficientNet,但效果相當(dāng)且速度更快。

Transformer跨界超越CNN,還解決了計算復(fù)雜度難題

論文筆記就分享到這里,如果想要了解更多細(xì)節(jié),請戳文末傳送門。

也期待你的讀后感分享喲~

傳送門

論文地址:
https://arxiv.org/abs/2103.14030

開源地址:
https://github.com/microsoft/Swin-Transformer

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2020-10-05 22:00:59

深度學(xué)習(xí)編程人工智能

2024-04-25 08:33:25

算法時間復(fù)雜度空間復(fù)雜度

2021-12-01 15:16:32

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2021-01-05 10:41:42

算法時間空間

2021-09-17 10:44:50

算法復(fù)雜度空間

2023-03-03 08:43:08

代碼重構(gòu)系統(tǒng)

2024-05-20 09:04:29

時間復(fù)雜度代碼

2009-07-09 10:45:16

C#基本概念復(fù)雜度遞歸與接口

2018-12-18 10:11:37

軟件復(fù)雜度軟件系統(tǒng)軟件開發(fā)

2020-12-30 09:20:27

代碼

2015-10-13 09:43:43

復(fù)雜度核心

2019-12-24 09:46:00

Linux設(shè)置密碼

2022-08-16 09:04:23

代碼圈圈復(fù)雜度節(jié)點(diǎn)

2020-02-06 13:59:48

javascript算法復(fù)雜度

2014-07-01 15:49:33

數(shù)據(jù)結(jié)構(gòu)

2020-06-01 08:42:11

JavaScript重構(gòu)函數(shù)

2019-11-18 12:41:35

算法Python計算復(fù)雜性理論

2021-10-15 09:43:12

希爾排序復(fù)雜度

2022-08-25 11:00:19

編程系統(tǒng)

2024-06-05 09:35:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號