自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

美團(tuán)提出基于隱式條件位置編碼,性能優(yōu)于ViT和DeiT

開發(fā) 前端
Transformer 跨界計(jì)算機(jī)視覺的熱潮之下,有一個(gè)問題需要解決:如何像 CNN 一樣直接處理不同尺寸的輸入?對(duì)此,美團(tuán)提出了一種新型隱式條件位置編碼方法,基于該方法的 CPVT 模型性能優(yōu)于 ViT 和 DeiT。

 隨著 Facebook 的 DETR (ECCV 2020)[2] 和谷歌的 ViT (ICLR 2021)[3] 的提出,Transformer 在視覺領(lǐng)域的應(yīng)用開始迅速升溫,成為當(dāng)下視覺研究的第一熱點(diǎn)。但視覺 Transformer 受限于固定長(zhǎng)度的位置編碼,不能像 CNN 一樣直接處理不同的輸入尺寸,這在很大程度上限制了視覺 Transformer 的應(yīng)用,因?yàn)楹芏嘁曈X任務(wù),如檢測(cè),需要在測(cè)試時(shí)動(dòng)態(tài)改變輸入大小。

一種解決方案是對(duì) ViT 中位置編碼進(jìn)行插值,使其適應(yīng)不同的圖片大小,但這種方案需要重新 fine-tune 模型,否則結(jié)果會(huì)變差。

最近,美團(tuán)提出了一種用于視覺 Transformer 的隱式條件位置編碼 CPE [1],放寬了顯式位置編碼給輸入尺寸帶來的限制,使得 Transformer 便于處理不同尺寸的輸入。實(shí)驗(yàn)表明,應(yīng)用了 CPE 的 Transformer 性能優(yōu)于 ViT 和 DeiT。

論文地址:https://arxiv.org/pdf/2102.10882.pdf

項(xiàng)目地址:https://github.com/Meituan-AutoML/CPVT(即將開源)

背景

谷歌的 ViT 方法通常將一幅 224×224 的圖片打散成 196 個(gè) 16×16 的圖片塊(patch),依次對(duì)其做線性編碼,從而得到一個(gè)輸入序列(input sequence),使 Transformer 可以像處理字符序列一樣處理圖片。同時(shí),為了保留各個(gè)圖片塊之間的位置信息,加入了和輸入序列編碼維度等長(zhǎng)的位置編碼。DeiT [4] 提高了 ViT 的訓(xùn)練效率,不再需要把大數(shù)據(jù)集(如 JFT-300M)作為預(yù)訓(xùn)練的限制,Transformer 可以直接在 ImageNet 上訓(xùn)練。

對(duì)于視覺 Transformer,位置編碼不可或缺

在 ViT 和 CPVT 的實(shí)驗(yàn)中,我們可以發(fā)現(xiàn)沒有位置編碼的 Transformer 性能會(huì)出現(xiàn)明顯下降。除此之外,在 Table 1 中,可學(xué)習(xí)(learnable)的位置編碼和正余弦(sin-cos)編碼效果接近,2D 的相對(duì)編碼(2D RPE)性能較差,但仍然優(yōu)于去掉位置編碼的情形。

美團(tuán)提出基于隱式條件位置編碼,性能優(yōu)于ViT和DeiT

美團(tuán)、阿德萊德大學(xué)提出新型位置編碼方法

位置編碼的設(shè)計(jì)要求

顯式的位置編碼限制了輸入尺寸,因此美團(tuán)這項(xiàng)研究考慮使用隱式的根據(jù)輸入而變化的變長(zhǎng)編碼方法。此外,它還需要滿足以下要求:

保持很好的性能;

避免排列不變性(permutation equivariance);

易于實(shí)現(xiàn)。

基于上述要求,該研究提出了條件編碼生成器 PEG(Positional Encoding Generator),來生成隱式的位置編碼。

生成隱式的條件位置編碼

在 PEG 中,將上一層 Encoder 的 1D 輸出變形成 2D,再使用變換模塊學(xué)習(xí)其位置信息,最后重新變形到 1D 空間,與之前的 1D 輸出相加之后作為下一個(gè) Encoder 的輸入,如 Figure 2 所示。這里的變換單元(Transoformation unit)可以是 Depthwise 卷積、Depthwise Separable 卷積或其他更為復(fù)雜的模塊。

美團(tuán)提出基于隱式條件位置編碼,性能優(yōu)于ViT和DeiT

將 PEG 插入到模型中(如 Figure 1 中添加在第一個(gè) Encoder 后),即可對(duì)各個(gè) Encoder 添加位置編碼信息。這種編碼好處在于不需要顯式指定,長(zhǎng)度可以依輸入變化而變化,因此被稱為隱式的條件位置編碼。

美團(tuán)提出基于隱式條件位置編碼,性能優(yōu)于ViT和DeiT

實(shí)驗(yàn)

ImageNet 數(shù)據(jù)集

該研究將添加了 PEG 的 Vision Transformer 模型命名為 CPVT(Conditional Position encodings Visual Transformer)。在 ImageNet 數(shù)據(jù)集上,相同量級(jí)的 CPVT 模型性能優(yōu)于 ViT 和 DeiT。得益于隱式條件編碼可以根據(jù)輸入動(dòng)態(tài)調(diào)整的特性,基于 224×224 輸入訓(xùn)練好的模型可以直接處理 384×384 輸入(Table 3 最后一列),無需 fine-tune 就能直接獲得性能提升。相比之下,其他顯式編碼沒有 fine-tune 則會(huì)出現(xiàn)性能損失。

美團(tuán)提出基于隱式條件位置編碼,性能優(yōu)于ViT和DeiT

與其他編碼方式的對(duì)比

Table 5 給出了 CPVT-Ti 模型在不同編碼策略下的表現(xiàn)。其中在從第 0 個(gè)到第 5 個(gè) Encoder 各插入一個(gè) PEG 的性能最優(yōu),Top-1 準(zhǔn)確率達(dá)到 73.4%。CPVT 單獨(dú)使用 PEG 或與可學(xué)習(xí)編碼相結(jié)合也優(yōu)于 DeiT-tiny 在各種編碼策略下的表現(xiàn)。

美團(tuán)提出基于隱式條件位置編碼,性能優(yōu)于ViT和DeiT

PEG 在不同位置的作用

ViT 主干由 12 個(gè) Encoder 組成,CPVT 對(duì)比了 PEG 位于 -1、0、3、6、10 等處的結(jié)果。實(shí)驗(yàn)表明,PEG 用于第一個(gè) Encoder 之后表現(xiàn)最好 (idx 0)。該研究認(rèn)為,放在第一個(gè) encoder 之后不僅可以提供全局的接受域,也能夠保證模型盡早地利用到位置信息。

美團(tuán)提出基于隱式條件位置編碼,性能優(yōu)于ViT和DeiT

結(jié)論

CPVT 提出的隱式位置編碼是一個(gè)即插即用的通用方法。它放寬了對(duì)輸入尺寸的限制,因而有望促進(jìn) Vision Transformer 在分割、檢測(cè)、超分辨率等任務(wù)中的進(jìn)一步應(yīng)用,提升其性能。這項(xiàng)研究對(duì)后續(xù) Vision Transformer 的發(fā)展將產(chǎn)生積極的影響。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2024-03-07 12:51:08

模型訓(xùn)練

2017-09-18 01:21:05

美團(tuán)IDC集群銳捷網(wǎng)絡(luò)

2022-02-23 21:24:21

索引SQL字符

2024-06-11 07:38:00

2018-04-04 09:30:23

美團(tuán)點(diǎn)評(píng)響應(yīng)式架構(gòu)

2015-05-28 09:54:33

美團(tuán)docker容器

2018-08-03 09:42:01

人工智能深度學(xué)習(xí)人臉識(shí)別

2018-10-19 14:16:09

Flink數(shù)據(jù)倉庫數(shù)據(jù)系統(tǒng)

2016-11-27 20:43:26

云計(jì)算迭代

2024-09-20 10:02:13

2023-12-27 08:22:34

框架3D檢測(cè)

2013-08-20 13:11:58

技術(shù)美團(tuán)

2022-02-08 15:43:08

AITransforme模型

2010-11-16 15:11:52

Oracle隱式游標(biāo)

2017-06-01 10:52:35

互聯(lián)網(wǎng)

2023-09-01 14:49:09

AI微軟

2018-04-23 09:50:54

2022-10-21 15:02:36

DeepFake技術(shù)

2022-03-03 16:45:02

美團(tuán)述職反饋

2024-11-21 16:06:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)