自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CMU&FAIR ICCV論文:通過傳遞不變性實(shí)現(xiàn)自監(jiān)督視覺表征學(xué)習(xí)

開發(fā) 開發(fā)工具
本文提出可通過不變性的傳遞實(shí)現(xiàn)視覺表征自監(jiān)督學(xué)習(xí),該網(wǎng)絡(luò)在多種識(shí)別任務(wù)中均表現(xiàn)不俗,在表面正常評估任務(wù)中的表現(xiàn)甚至優(yōu)于 ImageNet 網(wǎng)絡(luò)。

通過自監(jiān)督學(xué)習(xí)學(xué)習(xí)視覺表征在計(jì)算機(jī)視覺領(lǐng)域逐漸開始流行。本文提出可通過不變性的傳遞實(shí)現(xiàn)視覺表征自監(jiān)督學(xué)習(xí),該網(wǎng)絡(luò)在多種識(shí)別任務(wù)中均表現(xiàn)不俗,在表面正常評估任務(wù)中的表現(xiàn)甚至優(yōu)于 ImageNet 網(wǎng)絡(luò)。

論文:Transitive Invariance for Self-supervised Visual Representation Learning

論文地址:https://arxiv.org/abs/1708.02901

通過自監(jiān)督學(xué)習(xí)學(xué)習(xí)視覺表征在計(jì)算機(jī)視覺領(lǐng)域逐漸開始流行。該方法是為了設(shè)計(jì)可隨意獲取標(biāo)簽的輔助任務(wù)。大多數(shù)輔助任務(wù)最終將提供數(shù)據(jù)來學(xué)習(xí)特定種類的有助于識(shí)別的不變性(invariance)。在本論文中,我們提出利用不同的自監(jiān)督方法學(xué)習(xí)表征,這些表征與 (i) 實(shí)例間變體(inter-instance variation,相同類別的兩個(gè)對象應(yīng)該具備相似的特征)、(ii) 實(shí)例內(nèi)變體(intra-instance variation,視角、姿勢、變形、亮度等)無關(guān)。我們沒有將這兩種方法與多任務(wù)學(xué)習(xí)聯(lián)結(jié)起來,而是組織和推理具備多種不變性的數(shù)據(jù)。具體來說,我們提出使用從成百上千個(gè)視頻中挖掘出的數(shù)百萬個(gè)對象生成一個(gè)圖。這些對象由分別對應(yīng)兩種不變性的兩種邊緣(edge)聯(lián)結(jié)起來:「具備相似的觀點(diǎn)和類別的不同實(shí)例」和「相同實(shí)例的不同觀點(diǎn)」。通過將簡單的傳遞性(transitivity)應(yīng)用到帶有這些邊緣的圖上,我們能夠獲取具備更加豐富視覺不變性的成對圖像。我們使用這些數(shù)據(jù)訓(xùn)練帶有 VGG16 的 Triplet-Siamese 網(wǎng)絡(luò)作為基礎(chǔ)架構(gòu),將學(xué)得的表征應(yīng)用到不同的識(shí)別任務(wù)中。關(guān)于物體檢測,我們使用 Fast R-CNN 在 PASCAL VOC 2007 數(shù)據(jù)集上達(dá)到了 63.2% mAP(ImageNet 的預(yù)訓(xùn)練結(jié)果是 67.3%)。而對于有難度的 COCO 數(shù)據(jù)集,使用我們的方法得出的結(jié)果(23.5%)與 ImageNet-監(jiān)督的結(jié)果(24.4%)驚人地接近。我們還證明了我們的網(wǎng)絡(luò)在表面正常評估(surface normal estimation)任務(wù)中的表現(xiàn)優(yōu)于 ImageNet 網(wǎng)絡(luò)。

使用簡單的傳遞關(guān)系獲取豐富的不變性

圖 1:我們提出使用簡單的傳遞關(guān)系獲取豐富的不變性。在該示例中,兩輛不同的汽車 A 和 B 被有利于實(shí)例間不變性的特征聯(lián)結(jié)起來;每輛車通過視覺追蹤與另一個(gè)視角(A′和 B′)聯(lián)系起來。之后,我們能夠借助傳遞性從物體對〈A, B′〉、〈A′, B〉和〈A′, B′〉中獲取新的不變性。

圖構(gòu)建描述

圖 2:圖構(gòu)建描述。我們首先將物體節(jié)點(diǎn)聚集到更加粗糙的集群(叫作「父」集群),然后我們在每個(gè)集群內(nèi)執(zhí)行最近鄰搜索(nearest-neighbor search)來得到包含 4 個(gè)樣本的「子」集群。每個(gè)子集群內(nèi)的樣本通過「實(shí)例內(nèi)」邊緣互相聯(lián)結(jié)。我們通過視覺追蹤增加新樣本,并通過「實(shí)例間」邊緣將其與原始物體聯(lián)結(jié)起來。

圖 5:訓(xùn)練網(wǎng)絡(luò)所用樣本。每一列是一系列圖像塊 {A, B, A′, B′}。這里,A 和 B 通過實(shí)例間邊緣聯(lián)結(jié),而 A′/B′與 A/B 通過實(shí)例內(nèi)邊緣聯(lián)結(jié)。

Triplet-Siamese 網(wǎng)絡(luò)

圖 6:我們的 Triplet-Siamese 網(wǎng)絡(luò)。我們向該網(wǎng)絡(luò)輸入樣本的不同聯(lián)結(jié)。

PASCAL VOC 數(shù)據(jù)集上的最近鄰搜索

圖 7:PASCAL VOC 數(shù)據(jù)集上的最近鄰搜索。我們抽取三種特征:(a)語境預(yù)測網(wǎng)絡(luò),(b)使用我們的自監(jiān)督方法訓(xùn)練的網(wǎng)絡(luò),(c)標(biāo)注 ImageNet 數(shù)據(jù)集中預(yù)訓(xùn)練的網(wǎng)絡(luò)。我們證明我們的網(wǎng)絡(luò)可以展示出相同類別物體的更多種類(如視角)。

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2021-10-13 17:28:33

AI 數(shù)據(jù)人工智能

2012-06-14 10:17:54

ibmdw

2017-09-26 09:50:18

2021-03-22 17:16:04

AI 數(shù)據(jù)人工智能

2024-12-23 10:20:50

2021-04-30 15:16:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-02-08 10:49:56

深度學(xué)習(xí)模型

2019-07-10 05:47:37

GAN無監(jiān)督表征學(xué)習(xí)機(jī)器學(xué)習(xí)

2025-01-09 11:14:13

2024-06-13 11:44:43

2024-07-30 11:20:00

圖像視覺

2024-05-24 15:53:20

視覺圖像

2023-03-28 16:01:01

PytorchSimCLR算法

2021-07-27 06:49:15

Final不變性Person

2018-04-23 14:49:31

表征句子深度學(xué)習(xí)自然語言

2022-04-26 09:44:29

算法庫EasyCV開源

2024-08-06 12:00:00

監(jiān)督學(xué)習(xí)視覺

2023-04-06 07:30:02

2021-10-21 09:24:06

模型人工智能3D

2025-04-07 04:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)