自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="o36fm"></sup>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

用Transformer進(jìn)行圖像語義分割，性能超最先進(jìn)的卷積方法

作者：豐色 2021-05-21 10:06:01

新聞人工智能

Transformer跨界計(jì)算機(jī)視覺領(lǐng)域真是越來越頻繁了、效果也越來越成功了！

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

正如大家所知，在進(jìn)行圖像語義分割時(shí)，圖像被編碼成一系列補(bǔ)丁后往往很模糊，需要借助上下文信息才能被正確分割。

因此上下文建模對圖像語義分割的性能至關(guān)重要！

而與以往基于卷積網(wǎng)絡(luò)的方法不同，來自法國的一個(gè)研究團(tuán)隊(duì)另辟蹊徑，提出了一種只使用Transformer的語義分割方法。

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

該方法“效果拔群”，可以很好地捕捉圖像全局上下文信息！

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

要知道，就連取得了驕人成績的FCN（完全卷積網(wǎng)絡(luò)）都有“圖像全局信息訪問限制”的問題。（卷積結(jié)構(gòu)在圖像語義分割方面目前有無法打破的局限）

而這次這個(gè)方法在具有挑戰(zhàn)性的ADE20K數(shù)據(jù)集上，性能都超過了最先進(jìn)的卷積方法！

最先進(jìn)的卷積方法">

不得不說，Transformer跨界計(jì)算機(jī)視覺領(lǐng)域真是越來越頻繁了、效果也越來越成功了！

那這次表現(xiàn)優(yōu)異的Transformer語義分割，用了什么不一樣的“配方”嗎？

使用Vision Transformer

沒錯(cuò)，這次這個(gè)最終被命名為Segmenter的語義分割模型，主要基于去年10月份才誕生的一個(gè)用于計(jì)算機(jī)視覺領(lǐng)域的“新秀”Transformer：Vision Transformer，簡稱ViT。

ViT有多“秀”呢？

ViT采用純Transformer架構(gòu)，將圖像分成多個(gè)patches進(jìn)行輸入，在很多圖像分類任務(wù)中表現(xiàn)都不輸最先進(jìn)的卷積網(wǎng)絡(luò)。

缺點(diǎn)就是在訓(xùn)練數(shù)據(jù)集較小時(shí)，性能不是很好。

Segmenter作為一個(gè)純Transformer的編碼-解碼架構(gòu)，利用了模型每一層的全局圖像上下文。

基于最新的ViT研究成果，將圖像分割成塊（patches），并將它們映射為一個(gè)線性嵌入序列，用編碼器進(jìn)行編碼。再由Mask Transformer將編碼器和類嵌入的輸出進(jìn)行解碼，上采樣后應(yīng)用Argmax給每個(gè)像素一一分好類，輸出最終的像素分割圖。

下面是該模型的架構(gòu)示意圖：

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

解碼階段采用了聯(lián)合處理圖像塊和類嵌入的簡單方法，解碼器Mask Transformer可以通過用對象嵌入代替類嵌入來直接進(jìn)行全景分割。

效果如何

多說無益，看看實(shí)際效果如何？

首先他們在ADE20K數(shù)據(jù)集上比較不同Transformer變體，研究不同參數(shù)（正則化、模型大小、圖像塊大小、訓(xùn)練數(shù)據(jù)集大小，模型性能，不同的解碼器等），全方面比較Segmenter與基于卷積的語義分割方法。

其中ADE20K數(shù)據(jù)集，包含具有挑戰(zhàn)性的細(xì)粒度（fine-grained）標(biāo)簽場景，是最具挑戰(zhàn)性的語義分割數(shù)據(jù)集之一。

下表是不同正則化方案的比較結(jié)果：

他們發(fā)現(xiàn)隨機(jī)深度（Stochastic Depth）方案可獨(dú)立提高性能，而dropout無論是單獨(dú)還是與隨機(jī)深度相結(jié)合，都會損耗性能。

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

不同圖像塊大小和不同transformer的性能比較發(fā)現(xiàn)：

增加圖像塊的大小會導(dǎo)致圖像的表示更粗糙，但會產(chǎn)生處理速度更快的小序列。

減少圖像塊大小是一個(gè)強(qiáng)大的改進(jìn)方式，不用引入任何參數(shù)！但需要在較長的序列上計(jì)算Attention，會增加計(jì)算時(shí)間和內(nèi)存占用。

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

Segmenter在使用大型transformer模型或小規(guī)模圖像塊的情況下更優(yōu)：

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

（表中間是帶有線性解碼器的不同編碼器，表底部是帶有Mask Transformer作為解碼器的不同編碼器）

下圖也顯示了Segmenter的明顯優(yōu)勢，其中Seg/16模型（圖像塊大小為16x16）在性能與準(zhǔn)確性方面表現(xiàn)最好。

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

最后，我們再來看看Segmenter與SOTA的比較：

在最具挑戰(zhàn)性的ADE20K數(shù)據(jù)集上，Segmenter兩項(xiàng)指標(biāo)均高于所有SOTA模型！

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

（中間太長已省略）

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

在Cityscapes數(shù)據(jù)集上與大多數(shù)SOTA不相上下，只比性能最好的Panoptic-Deeplab低0.8。

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

在Pascal Context數(shù)據(jù)集上的表現(xiàn)也是如此。

用Transformer進(jìn)行圖像語義分割，性能超<span><span><span><i style=

最先進(jìn)的卷積方法">

剩余參數(shù)比較，大家有興趣的可按需查看論文細(xì)節(jié)。

論文地址：
https://www.arxiv-vanity.com/papers/2105.05633/

責(zé)任編輯：張燕妮來源：量子位

人工智能神經(jīng)網(wǎng)絡(luò)技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="4ec05"></sub>

<legend id="4ec05"><track id="4ec05"></track></legend>

<blockquote id="4ec05"></blockquote>