半監(jiān)督輔助目標(biāo)檢測(cè):自訓(xùn)練+數(shù)據(jù)增強(qiáng)提升精度
論文:https://arxiv.org/pdf/2005.04757.pdf
1 簡(jiǎn)要
半監(jiān)督學(xué)習(xí) (SSL) 有可能提高使用未標(biāo)記數(shù)據(jù)的機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能。盡管最近取得了顯著進(jìn)展,但SSL的演示范圍主要是圖像分類任務(wù)。
在今天分享中,有研究者提出了STAC,這是一種用于視覺目標(biāo)檢測(cè)的簡(jiǎn)單而有效的SSL框架以及數(shù)據(jù)增強(qiáng)策略。STAC從未標(biāo)記的圖像中部署本地化目標(biāo)的高度可信的偽標(biāo)簽,并通過數(shù)據(jù)增強(qiáng)提升一致性來更新模型。
2 背景
引用《論文解讀】【半監(jiān)督學(xué)習(xí)】【Google教你水論文】A Simple Semi-Supervised Learning Framework for Object Detection》
https://www.lbyxlz.com/%e3%80%90%e8%ae%ba%e6%96%87%e8%a7%a3%e8%af%bb%e3%80%91%e3%80%90%e5%8d%8a%e7%9b%91%e7%9d%a3%e5%ad%a6%e4%b9%a0%e3%80%91%e3%80%90google%e6%95%99%e4%bd%a0%e6%b0%b4%e8%ae%ba%e6%96%87%e3%80%91a-simple-semi
主要介紹了一種半監(jiān)督學(xué)習(xí)策略(包括模型+數(shù)據(jù)增強(qiáng)方法),開創(chuàng)性的在目標(biāo)檢測(cè)領(lǐng)域使用半監(jiān)督學(xué)習(xí),提出了STAC(自訓(xùn)練和一致正則化驅(qū)動(dòng)的增強(qiáng)策略,簡(jiǎn)單來說就是用偽標(biāo)簽做自訓(xùn)練,訓(xùn)練中加入了一致正則化為原理的數(shù)據(jù)增強(qiáng),很多小伙伴可能不理解什么是一致正則化?通俗點(diǎn)就是說圖像和圖像+干擾應(yīng)該在網(wǎng)絡(luò)的輸出結(jié)果是相同的,即抗噪聲干擾的能力,也可以理解為魯棒性,那么這個(gè)一致正則化很厲害嗎?)
半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)
半監(jiān)督學(xué)習(xí)在訓(xùn)練階段結(jié)合了大量未標(biāo)記的數(shù)據(jù)和少量標(biāo)簽數(shù)據(jù)。與使用所有標(biāo)簽數(shù)據(jù)的模型相比,使用訓(xùn)練集的訓(xùn)練模型在訓(xùn)練時(shí)可以更為準(zhǔn)確,而且訓(xùn)練成本更低。
為什么使用未標(biāo)記數(shù)據(jù)有時(shí)可以幫助模型更準(zhǔn)確,關(guān)于這一點(diǎn)的體會(huì)就是:即使你不知道答案,但你也可以通過學(xué)習(xí)來知曉,有關(guān)可能的值是多少以及特定值出現(xiàn)的頻率。
3 新框架
STAC流程:
- 用已有的標(biāo)簽圖像訓(xùn)練一個(gè)教師模型(teacher model)用來生成偽標(biāo)簽(有點(diǎn)知識(shí)蒸餾那味了,這個(gè)模型是Faster-RCNN)。
- 用訓(xùn)練好的模型推理剩余的未標(biāo)注的圖像,生成偽標(biāo)簽。
- 對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行增強(qiáng),同步偽標(biāo)簽(圖像旋轉(zhuǎn)的時(shí)候也要將標(biāo)簽的坐標(biāo)同步呀,不然不都錯(cuò)位了嗎)。
- 使用半監(jiān)督Loss來訓(xùn)練檢測(cè)器
訓(xùn)練教師模型
研究者在Faster RCNN上進(jìn)行我們的實(shí)驗(yàn),因?yàn)樗殉蔀樽罹叽硇缘臋z測(cè)框架之一。Faster RCNN具有分類器(CLS)和區(qū)域提議網(wǎng)絡(luò)(RPN)在共享骨干網(wǎng)之上。每個(gè)Head有兩個(gè)模塊,分別是區(qū)域分類器和邊界框回歸器。為簡(jiǎn)化起見, 研究者提出監(jiān)督和無監(jiān)督的RPN的損失。監(jiān)督損失的寫法如下:
生成偽標(biāo)簽
執(zhí)行教師模型檢測(cè)器生成偽標(biāo)簽。偽標(biāo)記的生成不僅涉及主干網(wǎng)絡(luò),RPN和CLS網(wǎng)絡(luò)的前向,而且還涉及諸如非極大抑制(NMS)之類的后處理。這不同于傳統(tǒng)的分類方法,置信度分?jǐn)?shù)是根據(jù)原始預(yù)測(cè)概率計(jì)算得出的。 研究者使用NMS之后每個(gè)返回的邊界框的分?jǐn)?shù),該分?jǐn)?shù)匯總anchor框的預(yù)測(cè)概率。NMS能消除重復(fù)檢測(cè)框, 但是不會(huì)過濾掉位置錯(cuò)誤的框。
數(shù)據(jù)增強(qiáng)策略
consistency-based SSL方法(例如UDA [58]或FixMatch [49])的關(guān)鍵因素是強(qiáng)大的數(shù)據(jù)增強(qiáng)。而有監(jiān)督和半監(jiān)督的擴(kuò)充策略在圖像分類領(lǐng)域已被廣泛研究,沒有太多論文對(duì)物體檢測(cè)進(jìn)行研究。我們使用最近提出的RandAugment以及Cutout [10],如下:
基于一致性的SSL方法(例如UDA和FixMatch)成功的關(guān)鍵因素是強(qiáng)大的數(shù)據(jù)增強(qiáng)方法。雖然監(jiān)督和半監(jiān)督圖像分類的增強(qiáng)策略已被廣泛研究,但尚未為目標(biāo)檢測(cè)做出太多努力。 研究者使用最近提出的增強(qiáng)搜索空間(例如,框級(jí)變換)和Cutout擴(kuò)展了用于目標(biāo)檢測(cè)的RandAugment。 研究者探索了轉(zhuǎn)換操作的不同變體并確定了一組有效的組合。每個(gè)操作都有一個(gè)大小,決定了強(qiáng)度的增強(qiáng)程度。
4 實(shí)驗(yàn)及可視化
盡管SSL取得顯著進(jìn)展,但SSL方法主要應(yīng)用于圖像分類,今天分享的框架提出了一個(gè)簡(jiǎn)單而有效的SSL檢測(cè)框架——STAC。STAC從一個(gè)未標(biāo)記的圖像得到highly confident的偽標(biāo)簽,并通過strong data augmentations確保一致性來更新模型。