自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無監(jiān)督為每個像素都打上標簽!再也不用為1小時視頻花800個小時了

人工智能 新聞
MIT新算法無需標簽,精細分割圖像,不放過每個像素點!人類數(shù)據(jù)標注師瑟瑟發(fā)抖:我要畢業(yè)了?

趁著ICLR 2022頒獎之際,MIT、康奈爾、谷歌和微軟「炫耀」了一篇全新的SOTA——

給世界上每一個像素都打上標簽,而且無需人工!

論文地址:https://arxiv.org/abs/2203.08414

從對比圖的效果來看,這個方法有時候甚至比人工還細致啊,甚至連陰影都做了標注。

不過遺憾是的是,雖然看著十分酷炫,但并沒有入圍獲獎名單(包括提名)。

不放過任何一個像素!

說回到CV領(lǐng)域,其實,給數(shù)據(jù)做標注這個問題已經(jīng)困擾了學界很久。

對于人類來說,不管是牛油果還是土豆泥,甚至是「外星母艦」,只需要看一眼,就能認出來。

但是對于機器,就沒這么簡單了。

想制作一個用于訓練的數(shù)據(jù)集,就需要在圖像中把特定的內(nèi)容框出來,而這件事目前來說基本只能靠人工手動進行。

比如,一只坐在草地上的狗,這時你就需要先把這只狗圈出來,并備注上——「狗」,然后再給后面那片地備注上「草」。

基于此,訓練出的模型才能將「狗」和「草地」區(qū)分開。

而且,這件事情非常令人頭疼。

你不去做吧,模型就很難識別出物體、人類或其他重要的圖像特征。

做吧,又非常麻煩。

對人類標注者而言,分割圖像比分類或目標檢測要花費約100倍的精力。

僅僅是標注1個小時的數(shù)據(jù)就需要花費800個小時。

數(shù)據(jù)標注打工人:我也要畢業(yè)了?

為了讓人類不用再去忍受「標注」的折磨(當然主要還是為了推進技術(shù)的進步),剛才提到的這群科學家便提出了一種新的基于Transformer的方法「STEGO」,從而在無監(jiān)督的情況下完成圖像語義分割任務。

無監(jiān)督語義分割的目的是在圖像語料庫中發(fā)現(xiàn)并定位具有語義意義的類別,而無需任何形式的標注。

為了解決這一問題,STEGO算法必須為每個像素生成具有重要意義且足夠緊湊的特征,以形成不同的簇。

與以往的端到端的模型不同,STEGO提出了將特征學習與聚類分離的方法,會尋找出現(xiàn)在整個數(shù)據(jù)集中的相似圖像,然后,它將這些相似的對象關(guān)聯(lián)在一起,以做到像素級別的標簽預測。

在CocoStuff數(shù)據(jù)集上,27種類別的無監(jiān)督語義分割任務(包括地面、天空、建筑、草坪、機動車、人、動物等)。

基線方法對比Cho等人2021年提出的PiCIE方法,圖片結(jié)果顯示,STEGO的語義分割預測結(jié)果在沒有忽略關(guān)鍵對象的同時,保留了局部細節(jié)特征。

STEGO是怎么做到在沒有標記的情況下,為每個像素分配標簽的呢?

STEGO原理和結(jié)構(gòu)

STEGO使用2021年Caron等人提出的DINO模型作為特征提取器,圖片顯示了原圖像(左圖)中的標記的藍色、紅色和綠色點是如何進行像素特征關(guān)聯(lián)學習的。

藍色為天空,綠色表示草坪、紅色表示騎摩托的人

STEGO的核心是一種新的損失函數(shù),它鼓勵特征形成緊湊的簇,同時保留它們在整個圖像語料庫中的關(guān)系。

使用下式中損失函數(shù)進行訓練,以提取圖像與自身、其K近鄰(KNN)像素點和其他隨機圖像之間的特征關(guān)系,對應下圖中的三個灰色部分。

下圖顯示了STEGO結(jié)構(gòu)。STEGO的訓練網(wǎng)絡由一個無需進行微調(diào)和預訓練的網(wǎng)絡構(gòu)成,使用此結(jié)構(gòu)通過全局平均池(GAP)提取全局圖像特征。然后在特征空間構(gòu)造每個圖像的K近鄰查找表。

這種Frozen Visual Backbone結(jié)構(gòu)相比其他方法,訓練耗時非常短,在一張NVIDIA V100 GPU卡上只需要不到2小時。

預測結(jié)構(gòu)的最后一個組件是聚類和CRF細化步驟,STEGO的分割特征往往會形成清晰的聚類,使用MacQueen等人1967年提出的基于acosine距離的小批量K-均值算法來提取這些聚類簇,并根據(jù)STEGO的連續(xù)特征計算為形成的簇分配類別。聚類后,使用CRF對這些標簽進行細化,以進一步提高其空間分辨率。

STEGO的整個損失函數(shù)如下:

實驗結(jié)果

每個驗證圖像的大小為320×320像素,使用均交并比「mIoU」作為評測指標。

左圖表示在Cityscapes數(shù)據(jù)集上標簽圖片與STEGO語義分割結(jié)果對比,右圖表示在CocoStuff 數(shù)據(jù)集上預測標簽和真實標簽的混淆矩陣。

在CocoStuff數(shù)據(jù)集上,無監(jiān)督語義分割任務對比結(jié)果顯示,STEGO明顯優(yōu)于之前的方法。

在Cityscapes(27個類別)的預測結(jié)果顯示。STEGO在accuracy和mIoU的所有基線上都有顯著提高。

實驗結(jié)果表明STEGO在CocoStuff(+14mIoU)和Cityscapes(+9mIoU)數(shù)據(jù)集上的精細語義分割任務上都取得了良好的表現(xiàn)。

盡管有了改進,STEGO仍然面臨某些挑戰(zhàn):

比如,在CocoStuff數(shù)據(jù)集中,香蕉和雞翅是「食品」,而玉米糝和意大利面是「食材」。但是這兩樣東西在STEGO眼里并沒有什么區(qū)別。

甚至,如果你把一個香蕉放在了電話聽筒上,這個聽筒都可能會被標注為「食品」。

作者介紹

論文二作Zhoutong Zhang現(xiàn)在是MIT的在讀博士生,本科就讀于清華大學電子工程專業(yè),師從劉燁斌教授。

此前,曾在2021年以一作身份在SIGGRAPH上發(fā)表論文「Consistent Depth of Moving Objects in Video」。

? 無監(jiān)督為每個像素都打上標簽!再也不用為1小時視頻花800個小時了 ?

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-08-26 00:01:00

前端性能優(yōu)化

2021-12-21 09:05:46

命令Linux敲錯

2022-11-07 08:58:41

搜索數(shù)據(jù)索引

2024-04-15 00:08:00

MySQLInnoDB數(shù)據(jù)庫

2015-05-29 09:01:48

2020-06-15 08:03:17

大文件OOM內(nèi)存

2017-11-05 18:59:53

JavaScript

2023-07-29 22:02:06

MyBatis數(shù)據(jù)庫配置

2018-10-11 15:51:32

ChromeGoogle瀏覽器

2023-11-27 17:11:02

數(shù)據(jù)庫oracle

2021-09-07 16:15:07

微信視頻號移動應用

2022-06-01 10:09:39

Linux網(wǎng)絡延遲

2020-12-18 08:23:16

安卓手機系統(tǒng)谷歌

2024-01-26 07:00:11

Python工具無向圖

2021-08-13 22:38:36

大數(shù)據(jù)互聯(lián)網(wǎng)技術(shù)

2025-04-25 10:00:00

2019-09-04 10:00:07

手機人臉識別

2015-05-11 10:38:50

程序員編程問題

2015-10-22 10:38:43

Wi-Fi燃氣報警器

2009-05-05 09:23:59

微軟軟件架構(gòu)師計算機專家
點贊
收藏

51CTO技術(shù)棧公眾號