自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="q1fjl"></style>

<cite id="q1fjl"></cite>

<style id="q1fjl"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

預(yù)訓(xùn)練后性能反而變差，自訓(xùn)練要取代預(yù)訓(xùn)練了嗎？

作者：JocelynWang 2020-07-29 12:16:12

人工智能深度學(xué)習(xí)

近期，谷歌大腦的研究團(tuán)隊(duì)對(duì)這個(gè)概念進(jìn)行了擴(kuò)展，在新論文《Rethinking Pre-training and Self-training》中，不僅討論了預(yù)訓(xùn)練，還研究了自訓(xùn)練，比較了在同一組任務(wù)當(dāng)中自訓(xùn)練與監(jiān)督預(yù)訓(xùn)練、自監(jiān)督預(yù)訓(xùn)練之間的差異。

早在2018年底，F(xiàn)AIR的研究人員就發(fā)布了一篇名為《Rethinking ImageNet Pre-training》的論文，這篇論文隨后發(fā)表在ICCV2019。該論文提出了一些關(guān)于預(yù)訓(xùn)練的非常有趣的結(jié)論。

近期，谷歌大腦的研究團(tuán)隊(duì)對(duì)這個(gè)概念進(jìn)行了擴(kuò)展，在新論文《Rethinking Pre-training and Self-training》中，不僅討論了預(yù)訓(xùn)練，還研究了自訓(xùn)練，比較了在同一組任務(wù)當(dāng)中自訓(xùn)練與監(jiān)督預(yù)訓(xùn)練、自監(jiān)督預(yù)訓(xùn)練之間的差異。

論文地址：https://arxiv.org/abs/2006.06882

作者通過(guò)實(shí)驗(yàn)得出了以下結(jié)論：

如果預(yù)訓(xùn)練任務(wù)和目標(biāo)任務(wù)存在差異，則預(yù)訓(xùn)練(包括監(jiān)督和自監(jiān)督)可能損害目標(biāo)任務(wù)準(zhǔn)確率;
自訓(xùn)練適用不同規(guī)模數(shù)據(jù)集和不同強(qiáng)度增強(qiáng)數(shù)據(jù)的訓(xùn)練;
自訓(xùn)練并且可以看作對(duì)預(yù)訓(xùn)練的補(bǔ)充，聯(lián)合預(yù)訓(xùn)練和自訓(xùn)練可以獲得更大的增益。

以下是機(jī)器學(xué)習(xí)研究工程師Aakash Nain對(duì)《Rethinking Pre-training and Self-training》這篇論文的解讀，文章發(fā)表在Medium上，AI科技評(píng)論對(duì)文章進(jìn)行了編譯。

一、序言

在進(jìn)一步探討論文細(xì)節(jié)之前，我們先了解一些術(shù)語(yǔ)。預(yù)訓(xùn)練是運(yùn)用在不同領(lǐng)域(例如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音處理)的一種非常普遍的做法。在計(jì)算機(jī)視覺(jué)任務(wù)中，我們通常使用在某個(gè)數(shù)據(jù)集上經(jīng)過(guò)預(yù)訓(xùn)練并可直接運(yùn)用到另一個(gè)數(shù)據(jù)集的模型。例如，利用ImageNet預(yù)訓(xùn)練就是一種可廣泛運(yùn)用到目標(biāo)分割和目標(biāo)檢測(cè)任務(wù)的初始化方法。為實(shí)現(xiàn)此目的，我們常使用遷移學(xué)習(xí)和微調(diào)這兩種技術(shù)。另一方面，自訓(xùn)練也嘗試在訓(xùn)練期間結(jié)合模型對(duì)未標(biāo)記數(shù)據(jù)的預(yù)測(cè)結(jié)果，以獲得其他可用的信息來(lái)改善模型性能。例如，使用ImageNet來(lái)改進(jìn)COCO目標(biāo)檢測(cè)模型。首先在COCO數(shù)據(jù)集上訓(xùn)練模型，然后將該模型用于生成ImageNet的偽標(biāo)簽(我們將丟棄原始的ImageNet標(biāo)簽)，最后將帶有偽標(biāo)簽的ImageNet數(shù)據(jù)集和有標(biāo)簽的COCO數(shù)據(jù)集結(jié)合來(lái)訓(xùn)練一個(gè)新的模型。自監(jiān)督學(xué)習(xí)是另一種常用的預(yù)訓(xùn)練方法。自監(jiān)督學(xué)習(xí)的目的不僅僅是學(xué)習(xí)高級(jí)特征。相反，我們希望模型學(xué)習(xí)的更好，有更好的魯棒性以適用于各種不同的任務(wù)和數(shù)據(jù)集。

二、研究動(dòng)機(jī)

作者希望能解決以下問(wèn)題：

預(yù)訓(xùn)練對(duì)訓(xùn)練結(jié)果有多大程度的幫助?
什么情況下使用預(yù)訓(xùn)練是無(wú)效的?
與預(yù)訓(xùn)練相比，我們可以使用自訓(xùn)練并獲得相似或更好的結(jié)果嗎?
如果自訓(xùn)練優(yōu)于預(yù)訓(xùn)練(暫做這樣的假設(shè))，那它在多大的程度上比預(yù)訓(xùn)練好?
在什么情況下自訓(xùn)練比預(yù)訓(xùn)練更好?
自訓(xùn)練的靈活性和可擴(kuò)展性如何?

三、設(shè)置

1、數(shù)據(jù)集和模型

目標(biāo)檢測(cè)：作者使用COCO數(shù)據(jù)集(11.8萬(wàn)張圖片 )進(jìn)行監(jiān)督學(xué)習(xí)下的目標(biāo)檢測(cè)訓(xùn)練。ImageNet數(shù)據(jù)集(120萬(wàn)張圖片 )和OpenImage數(shù)據(jù)集(170萬(wàn)張圖片 )用作未標(biāo)記的數(shù)據(jù)集。使用以EfficientNet - B7為主干網(wǎng)絡(luò)的RetinaNet目標(biāo)檢測(cè)器。圖像的分辨率保持在640 x 640，金字塔等級(jí)為P3到P7，每個(gè)像素使用9個(gè)錨點(diǎn)。
語(yǔ)義分割：使用 PASCAL VOC 2012分割訓(xùn)練集(1500張圖片)進(jìn)行監(jiān)督學(xué)習(xí)下的語(yǔ)義分割訓(xùn)練。對(duì)于自訓(xùn)練，作者使用了增強(qiáng)的PASCAL圖像數(shù)據(jù)集(9000張圖片)，標(biāo)記以及未標(biāo)記的COCO(24萬(wàn)張圖片)和ImageNet(120萬(wàn)張圖片)數(shù)據(jù)集。使用以EfficientNet-B7和EfficientNet-L2為主干網(wǎng)絡(luò)的NAS-FPN模型。

2、數(shù)據(jù)增強(qiáng)

在所有實(shí)驗(yàn)中都使用了四種不同強(qiáng)度的增強(qiáng)策略來(lái)進(jìn)行檢測(cè)和分割。這四種策略按強(qiáng)度從低到高依次為：1)Augment-S1：這是標(biāo)準(zhǔn)“ 翻轉(zhuǎn)和裁剪”增強(qiáng)操作，包括水平翻轉(zhuǎn)和縮放裁剪。2)Augment-S2: 這包括論文《AutoAugment: Learning Augmentation Strategies from Data》中使用的AutoAugment，以及翻轉(zhuǎn)和裁剪。3)Augment-S3：它包括大規(guī)模縮放、AutoAugment、翻轉(zhuǎn)和裁剪?？s放范圍比Augment-S1:更大。4)Augment-S4: 結(jié)合論文《RandAugment: Practical automated data augmentation with a reduced search space》中提出的RandAugment，翻轉(zhuǎn)和裁剪，以及大規(guī)?？s放操作。此處的縮放等級(jí)與Augment-S2/S3相同。

3、預(yù)訓(xùn)練

為了研究預(yù)訓(xùn)練的有效性，作者使用了ImageNet預(yù)訓(xùn)練的檢查點(diǎn)。使用EfficientNet-B7作為架構(gòu)用于評(píng)估，對(duì)此模型，設(shè)置了兩個(gè)不同的檢查點(diǎn)，如下所示：1)ImageNet：通過(guò)AutoAugment在檢查點(diǎn)上訓(xùn)練EfficientNet-B7，在ImageNet上達(dá)到84.5%了的top-1準(zhǔn)確率。2)ImageNet ++：采用論文《Self-training with Noisy Student improves ImageNet classification》中提出的Noisy Student方法在檢查點(diǎn)上訓(xùn)練EfficientNet-B7，其中利用了額外3億張未標(biāo)記的圖像，并達(dá)到了86.9%的top-1準(zhǔn)確率。采用隨機(jī)初始化訓(xùn)練的結(jié)果標(biāo)記為Rand Init。

4、自訓(xùn)練

自訓(xùn)練是基于Noisy Student方法實(shí)現(xiàn)的，有三個(gè)步驟：

在標(biāo)記的數(shù)據(jù)(例如COCO數(shù)據(jù)集)上訓(xùn)練teacher model。
使用teacher model在未標(biāo)記的數(shù)據(jù)(例如ImageNet數(shù)據(jù)集)上生成偽標(biāo)記。
訓(xùn)練一個(gè)student model，以聯(lián)合優(yōu)化人工標(biāo)簽和偽標(biāo)簽上的損失。

四、實(shí)驗(yàn)

1、增強(qiáng)和標(biāo)記數(shù)據(jù)集大小對(duì)預(yù)訓(xùn)練的影響

作者使用ImageNet進(jìn)行監(jiān)督預(yù)訓(xùn)練，并改變帶標(biāo)簽的COCO數(shù)據(jù)集大小以研究預(yù)訓(xùn)練對(duì)結(jié)果的影響。實(shí)驗(yàn)過(guò)程中，不僅會(huì)改變標(biāo)記數(shù)據(jù)的大小，而且還使用不同增強(qiáng)強(qiáng)度的數(shù)據(jù)集，使用以EfficientNet-B7為主干網(wǎng)絡(luò)的RetinaNe模型來(lái)進(jìn)行訓(xùn)練。作者觀察到以下幾點(diǎn)：

使用高強(qiáng)度的數(shù)據(jù)增強(qiáng)時(shí)，監(jiān)督預(yù)訓(xùn)練會(huì)損害性能：作者注意到，當(dāng)他們使用如上所述的標(biāo)準(zhǔn)增強(qiáng)方法Augment-S1時(shí)，預(yù)訓(xùn)練會(huì)對(duì)結(jié)果有所幫助。但是隨著增加增強(qiáng)的強(qiáng)度，預(yù)訓(xùn)練并未對(duì)結(jié)果有太大幫助。實(shí)際上，他們觀察到，在使用最強(qiáng)的數(shù)據(jù)增強(qiáng)(Augment-S3)時(shí)，預(yù)訓(xùn)練會(huì)嚴(yán)重?fù)p害性能。
更多帶標(biāo)簽的數(shù)據(jù)會(huì)降低監(jiān)督預(yù)訓(xùn)練的價(jià)值：這不是一個(gè)新發(fā)現(xiàn)。我們都知道，當(dāng)數(shù)據(jù)量較小時(shí)，預(yù)訓(xùn)練會(huì)對(duì)結(jié)果有所幫助。但是有足夠數(shù)量的標(biāo)記數(shù)據(jù)時(shí)，從頭開(kāi)始訓(xùn)練也不會(huì)得到很差的結(jié)果。作者發(fā)現(xiàn)了相同的結(jié)論，這一觀點(diǎn)與FAIR的論文《Rethinking ImageNet Pre-training》相一致。

我的看法：在ImageNet上訓(xùn)練的大多數(shù)模型都沒(méi)有使用很高強(qiáng)度的增強(qiáng)方法。高強(qiáng)度增強(qiáng)數(shù)據(jù)后，模型可能無(wú)法正確收斂。實(shí)際上，模型有時(shí)可能會(huì)對(duì)增強(qiáng)過(guò)擬合，當(dāng)然這還需要進(jìn)行適當(dāng)?shù)募?xì)節(jié)研究。

2、增強(qiáng)和標(biāo)記數(shù)據(jù)集大小對(duì)自訓(xùn)練的影響

作者使用相同的模型(使用帶有EfficientNet-B7主干的RetinaNet檢測(cè)器)和相同的任務(wù)(COCO數(shù)據(jù)集目標(biāo)檢測(cè))來(lái)研究自訓(xùn)練的影響。作者使用ImageNet數(shù)據(jù)集進(jìn)行自訓(xùn)練(這種情況下將丟棄ImageNet的原始標(biāo)簽)。作者觀察到以下幾點(diǎn)：

即使預(yù)訓(xùn)練對(duì)結(jié)果產(chǎn)生了負(fù)面影響，自訓(xùn)練也有助于大規(guī)模數(shù)據(jù)集和高強(qiáng)度增強(qiáng)的情況：作者發(fā)現(xiàn)，當(dāng)使用大量數(shù)據(jù)增強(qiáng)時(shí)將自訓(xùn)練應(yīng)用到隨機(jī)初始化模型中，這樣不僅可以提高基線(xiàn)結(jié)果，并且超過(guò)了同情況下預(yù)訓(xùn)練的結(jié)果。該實(shí)驗(yàn)結(jié)果如下：

自訓(xùn)練適用于各種不同大小的數(shù)據(jù)集，并且可以看作對(duì)預(yù)訓(xùn)練的補(bǔ)充：作者發(fā)現(xiàn)自訓(xùn)練另一個(gè)有趣的方面是，它可以作為預(yù)訓(xùn)練的補(bǔ)充。簡(jiǎn)而言之，當(dāng)將自訓(xùn)練與隨機(jī)初始化模型或預(yù)訓(xùn)練模型結(jié)合使用時(shí)，它始終可以提高性能。在不同數(shù)據(jù)大小下，性能增益是一致的。

但，使用ImageNet ++ 預(yù)訓(xùn)練時(shí)，與使用隨機(jī)初始化和ImageNet預(yù)訓(xùn)練相比，增益相對(duì)更小。這有什么具體原因嗎?是的，ImageNet ++初始化是從檢查點(diǎn)獲得的，在該檢查點(diǎn)使用了另外3億張未標(biāo)記的圖像。

3、自監(jiān)督預(yù)訓(xùn)練 vs 自訓(xùn)練

有監(jiān)督的 ImageNet預(yù)訓(xùn)練會(huì)損害最大規(guī)模數(shù)據(jù)集和高強(qiáng)度數(shù)據(jù)增強(qiáng)下的訓(xùn)練效果。但是自監(jiān)督的預(yù)訓(xùn)練呢?自監(jiān)督學(xué)習(xí)(不帶標(biāo)簽的預(yù)訓(xùn)練)的主要目標(biāo)是構(gòu)建一種通用的表征，這種表征可以遷移到更多類(lèi)型的任務(wù)和數(shù)據(jù)集中。為研究自監(jiān)督學(xué)習(xí)的效果，作者使用了完整的COCO數(shù)據(jù)集和最高強(qiáng)度的增強(qiáng)。目的是將隨機(jī)初始化與使用了SOTA自監(jiān)督算法預(yù)訓(xùn)練的模型進(jìn)行比較。在實(shí)驗(yàn)中使用SimCLR的檢查點(diǎn)，然后在ImageNet上對(duì)其進(jìn)行微調(diào)。由于SimCLR僅使用ResNet-50，因此RetinaNet檢測(cè)器的主干網(wǎng)絡(luò)用ResNet-50替換。結(jié)果如下：

在這種情況下，我們觀察到自監(jiān)督下的預(yù)訓(xùn)練會(huì)損害訓(xùn)練效果，但自訓(xùn)練仍可以提高性能。

五、學(xué)到了什么?

1、預(yù)訓(xùn)練和通用的特征表征

我們看到，預(yù)訓(xùn)練(監(jiān)督以及自監(jiān)督)并不總可以給結(jié)果帶來(lái)更好的效果。實(shí)際上，與自訓(xùn)練相比，預(yù)訓(xùn)練總是表現(xiàn)不佳。這是為什么?為什么ImageNet預(yù)訓(xùn)練的模型對(duì)COCO數(shù)據(jù)集的目標(biāo)檢測(cè)效果反而不好?為什么通過(guò)自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)表征無(wú)法提高性能?預(yù)訓(xùn)練并不能理解當(dāng)下的任務(wù)，并可能無(wú)法適應(yīng)。分類(lèi)問(wèn)題比目標(biāo)檢測(cè)問(wèn)題容易得多。在分類(lèi)任務(wù)上預(yù)訓(xùn)練的網(wǎng)絡(luò)是否可以獲得目標(biāo)檢測(cè)任務(wù)所需要的所有信息?用我喜歡的表達(dá)方式來(lái)說(shuō)：即使這些任務(wù)只是彼此的子集，不同的任務(wù)也需要不同級(jí)別的粒度。

2、聯(lián)合訓(xùn)練

正如作者所言，自訓(xùn)練范式的優(yōu)勢(shì)之一是它可以聯(lián)合監(jiān)督和自訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練，從而解決它們之間不匹配的問(wèn)題。為了解決任務(wù)間由于差異導(dǎo)致的不匹配問(wèn)題呢，我們也可以考慮聯(lián)合訓(xùn)練的方法，例如聯(lián)合訓(xùn)練ImageNet和COCO這兩個(gè)數(shù)據(jù)集?作者在實(shí)驗(yàn)中使用了與自訓(xùn)練相同的參數(shù)設(shè)置，發(fā)現(xiàn)ImageNet的預(yù)訓(xùn)練可獲得+ 2.6AP的增益，但使用隨機(jī)初始化和聯(lián)合訓(xùn)練可獲得+ 2.9AP的更大增益。而且，預(yù)訓(xùn)練、聯(lián)合訓(xùn)練和自訓(xùn)練都是加性的。使用相同的ImageNet數(shù)據(jù)集，ImageNet的預(yù)訓(xùn)練獲得+ 2.6AP的增益，預(yù)訓(xùn)練+聯(lián)合訓(xùn)練再獲得+ 0.7AP的增益，而預(yù)訓(xùn)練+聯(lián)合訓(xùn)練+自訓(xùn)練則獲得+ 3.3AP的增益。

3、任務(wù)調(diào)整的重要性

正如我們?cè)谏衔乃?jiàn)，任務(wù)調(diào)整對(duì)于提高性能非常重要。論文《Objects365: A Large-scale, High-quality Dataset for Object Detection》指出了類(lèi)似的發(fā)現(xiàn)，在Open Images數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練會(huì)損害COCO的性能，盡管兩者都帶有邊框標(biāo)記。這意味著，我們不僅希望任務(wù)是相同的，而且標(biāo)記最好也是相同的，以使預(yù)訓(xùn)練對(duì)結(jié)果真正帶來(lái)益處。同時(shí)，作者指出了另外兩個(gè)有趣的現(xiàn)象：

ImageNet的預(yù)訓(xùn)練模型，即使帶有額外的人工標(biāo)簽，其效果也比自訓(xùn)練差。
借助高強(qiáng)度的數(shù)據(jù)增強(qiáng)方法(Augment-S4)，使用PASCAL(訓(xùn)練+ 增強(qiáng)數(shù)據(jù)集)進(jìn)行訓(xùn)練實(shí)際上會(huì)損害準(zhǔn)確率。同時(shí)，通過(guò)對(duì)同一數(shù)據(jù)集進(jìn)行自訓(xùn)練而生成的偽標(biāo)簽可提高準(zhǔn)確性。

4、自訓(xùn)練的可擴(kuò)展性、通用性和靈活性

從作者進(jìn)行的所有實(shí)驗(yàn)中，我們可以得出以下結(jié)論：

在靈活性方面，自訓(xùn)練在每種條件設(shè)置下均能很好地發(fā)揮作用，無(wú)論是少數(shù)據(jù)狀態(tài)、多數(shù)據(jù)狀態(tài)、弱數(shù)據(jù)增強(qiáng)還是強(qiáng)數(shù)據(jù)增強(qiáng)。
自訓(xùn)練不依賴(lài)于模型架構(gòu)也不依賴(lài)于數(shù)據(jù)集。它可以與ResNets、EfficientNets、SpineNet等不同架構(gòu)以及ImageNet、COCO、PASCAL等不同數(shù)據(jù)集很好地結(jié)合使用。
一般意義上來(lái)看，無(wú)論預(yù)訓(xùn)練是失敗還是成功，自訓(xùn)練效果都是很好的。

在可擴(kuò)展性方面，當(dāng)我們擁有更多帶標(biāo)簽的數(shù)據(jù)和更好的模型時(shí)，自訓(xùn)練被證明表現(xiàn)良好。

5、自訓(xùn)練的局限性

盡管自訓(xùn)練可以帶來(lái)好處，但它也有一些局限性：

與在預(yù)訓(xùn)練模型上進(jìn)行微調(diào)相比，自訓(xùn)練需要消耗更多的計(jì)算量。
預(yù)訓(xùn)練的加速范圍是1.3倍至8倍，具體取決于預(yù)訓(xùn)練模型的質(zhì)量、數(shù)據(jù)增強(qiáng)的強(qiáng)度和數(shù)據(jù)集的大小。
自訓(xùn)練并不能完全替代遷移學(xué)習(xí)和微調(diào)，這兩種技術(shù)將來(lái)也會(huì)被大量使用。

六、總結(jié)

《Rethinking Pre-training and Self-training》這篇論文提出了很多有關(guān)預(yù)訓(xùn)練、聯(lián)合訓(xùn)練、任務(wù)調(diào)整和普遍表征的基本問(wèn)題。解決這些問(wèn)題比建立具有數(shù)十億參數(shù)的模型更為重要，可以幫助我們獲得更好的直覺(jué)，以了解深度神經(jīng)網(wǎng)絡(luò)做出的決策。

責(zé)任編輯：未麗燕來(lái)源：雷鋒網(wǎng)

預(yù)訓(xùn)練自訓(xùn)練神經(jīng)網(wǎng)絡(luò)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="xk5kf"><track id="xk5kf"></track></cite>

<p id="xk5kf"></p>

^{<blockquote id="xk5kf"></blockquote>}