自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

新聞 前端
屠榜各大 CV 任務(wù)的微軟 Swin Transformer,近日開源了代碼和預(yù)訓(xùn)練模型。

  [[393557]]

自 2017 年 6 月谷歌提出 Transformer 以來,它便逐漸成為了自然語言處理領(lǐng)域的主流模型。最近一段時(shí)間,Transformer 更是開啟了自己的跨界之旅,開始在計(jì)算機(jī)視覺領(lǐng)域大展身手,涌現(xiàn)出了多個(gè)基于 Transformer 的新模型,如谷歌用于圖像分類的 ViT 以及復(fù)旦、牛津、騰訊等機(jī)構(gòu)的 SETR 等。由此,「Transformer 是萬能的嗎?」也一度成為機(jī)器學(xué)習(xí)社區(qū)的熱門話題。

不久前,微軟亞研的研究者提出了一種通過移動(dòng)窗口(shifted windows)計(jì)算的分層視覺 Transformer,他們稱之為 Swin Transformer。相比之前的 ViT 模型,Swin Transformer 做出了以下兩點(diǎn)改進(jìn):其一,引入 CNN 中常用的層次化構(gòu)建方式構(gòu)建分層 Transformer;其二,引入局部性(locality)思想,對(duì)無重合的窗口區(qū)域內(nèi)進(jìn)行自注意力計(jì)算。

論文鏈接:

https://arxiv.org/pdf/2103.14030.pdf

首先來看 Swin Transformer 的整體工作流,下圖 3a 為 Swin Transformer 的整體架構(gòu),圖 3b 為兩個(gè)連續(xù)的 Swin Transformer 塊。

霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

該研究的亮點(diǎn)在于利用移動(dòng)窗口對(duì)分層 Transformer 的表征進(jìn)行計(jì)算。通過將自注意力計(jì)算限制在不重疊的局部串口,同時(shí)允許跨窗口連接。這種分層結(jié)構(gòu)可以靈活地在不同尺度上建模,并具有圖像大小的線性計(jì)算復(fù)雜度。下圖 2 為在 Swin Transformer 架構(gòu)中利用移動(dòng)窗口計(jì)算自注意力的工作流:

霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

模型本身具有的特性使其在一系列視覺任務(wù)上都實(shí)現(xiàn)了頗具競(jìng)爭(zhēng)力的性能表現(xiàn)。其中,在 ImageNet-1K 數(shù)據(jù)集上實(shí)現(xiàn)了 86.4% 的圖像分類準(zhǔn)確率、在 COCO test-dev 數(shù)據(jù)集上實(shí)現(xiàn)了 58.7% 的目標(biāo)檢測(cè) box AP 和 51.1% 的 mask AP。目前,在 COCO minival 和 COCO test-dev 兩個(gè)數(shù)據(jù)集上,Swin-L(Swin Transformer 的變體)在目標(biāo)檢測(cè)和實(shí)例分割任務(wù)中均實(shí)現(xiàn)了 SOTA。

霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

此外,在 ADE20K val 和 ADE20K 數(shù)據(jù)集上,Swin-L 也在語義分割任務(wù)中實(shí)現(xiàn)了 SOTA。

開源代碼和預(yù)訓(xùn)練模型

Swin Transformer 論文公開沒多久之后,微軟官方于近日在 GitHub 上開源了代碼和預(yù)訓(xùn)練模型,涵蓋圖像分類、目標(biāo)檢測(cè)以及語義分割任務(wù)。上線僅僅兩天,該項(xiàng)目已收獲 1900 星。

霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

項(xiàng)目地址:

https://github.com/microsoft/Swin-Transformer

首先圖像分類任務(wù),Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ImageNet-1K 和 ImageNet-22K 數(shù)據(jù)集上的準(zhǔn)確率結(jié)果如下:

霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

其次目標(biāo)檢測(cè)任務(wù):Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 COCO 目標(biāo)檢測(cè)(2017 val)數(shù)據(jù)集上的結(jié)果如下:

霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

最后語義分割任務(wù):Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ADE20K 語義分割(val)數(shù)據(jù)集上的結(jié)果如下。目前,Swin-L 取得了 53.50% 的 SOTA 驗(yàn)證 mIoU 分?jǐn)?shù)。

霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

 

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)