自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

預(yù)訓(xùn)練后性能反而變差,自訓(xùn)練要取代預(yù)訓(xùn)練了嗎?

人工智能 深度學(xué)習(xí)
近期,谷歌大腦的研究團(tuán)隊(duì)對(duì)這個(gè)概念進(jìn)行了擴(kuò)展,在新論文《Rethinking Pre-training and Self-training》中,不僅討論了預(yù)訓(xùn)練,還研究了自訓(xùn)練,比較了在同一組任務(wù)當(dāng)中自訓(xùn)練與監(jiān)督預(yù)訓(xùn)練、自監(jiān)督預(yù)訓(xùn)練之間的差異。

早在2018年底,F(xiàn)AIR的研究人員就發(fā)布了一篇名為《Rethinking ImageNet Pre-training》的論文 ,這篇論文隨后發(fā)表在ICCV2019。該論文提出了一些關(guān)于預(yù)訓(xùn)練的非常有趣的結(jié)論。

[[335543]]

近期,谷歌大腦的研究團(tuán)隊(duì)對(duì)這個(gè)概念進(jìn)行了擴(kuò)展,在新論文《Rethinking Pre-training and Self-training》中,不僅討論了預(yù)訓(xùn)練,還研究了自訓(xùn)練,比較了在同一組任務(wù)當(dāng)中自訓(xùn)練與監(jiān)督預(yù)訓(xùn)練、自監(jiān)督預(yù)訓(xùn)練之間的差異。

 

論文地址:https://arxiv.org/abs/2006.06882

 

作者通過(guò)實(shí)驗(yàn)得出了以下結(jié)論:

  1. 如果預(yù)訓(xùn)練任務(wù)和目標(biāo)任務(wù)存在差異,則預(yù)訓(xùn)練(包括監(jiān)督和自監(jiān)督)可能損害目標(biāo)任務(wù)準(zhǔn)確率;
  2. 自訓(xùn)練適用不同規(guī)模數(shù)據(jù)集和不同強(qiáng)度增強(qiáng)數(shù)據(jù)的訓(xùn)練;
  3. 自訓(xùn)練并且可以看作對(duì)預(yù)訓(xùn)練的補(bǔ)充,聯(lián)合預(yù)訓(xùn)練和自訓(xùn)練可以獲得更大的增益。

以下是機(jī)器學(xué)習(xí)研究工程師Aakash Nain對(duì)《Rethinking Pre-training and Self-training》這篇論文的解讀,文章發(fā)表在Medium上,AI科技評(píng)論對(duì)文章進(jìn)行了編譯。

一、序言

在進(jìn)一步探討論文細(xì)節(jié)之前,我們先了解一些術(shù)語(yǔ)。預(yù)訓(xùn)練是運(yùn)用在不同領(lǐng)域(例如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音處理)的一種非常普遍的做法。在計(jì)算機(jī)視覺(jué)任務(wù)中,我們通常使用在某個(gè)數(shù)據(jù)集上經(jīng)過(guò)預(yù)訓(xùn)練并可直接運(yùn)用到另一個(gè)數(shù)據(jù)集的模型。例如,利用ImageNet預(yù)訓(xùn)練就是一種可廣泛運(yùn)用到目標(biāo)分割和目標(biāo)檢測(cè)任務(wù)的初始化方法。為實(shí)現(xiàn)此目的,我們常使用遷移學(xué)習(xí)和微調(diào)這兩種技術(shù)。另一方面,自訓(xùn)練也嘗試在訓(xùn)練期間結(jié)合模型對(duì)未標(biāo)記數(shù)據(jù)的預(yù)測(cè)結(jié)果,以獲得其他可用的信息來(lái)改善模型性能。例如,使用ImageNet來(lái)改進(jìn)COCO目標(biāo)檢測(cè)模型。首先在COCO數(shù)據(jù)集上訓(xùn)練模型,然后將該模型用于生成ImageNet的偽標(biāo)簽(我們將丟棄原始的ImageNet標(biāo)簽),最后將帶有偽標(biāo)簽的ImageNet數(shù)據(jù)集和有標(biāo)簽的COCO數(shù)據(jù)集結(jié)合來(lái)訓(xùn)練一個(gè)新的模型。自監(jiān)督學(xué)習(xí)是另一種常用的預(yù)訓(xùn)練方法。自監(jiān)督學(xué)習(xí)的目的不僅僅是學(xué)習(xí)高級(jí)特征。相反,我們希望模型學(xué)習(xí)的更好,有更好的魯棒性以適用于各種不同的任務(wù)和數(shù)據(jù)集。

二、研究動(dòng)機(jī)

作者希望能解決以下問(wèn)題:

  1. 預(yù)訓(xùn)練對(duì)訓(xùn)練結(jié)果有多大程度的幫助?
  2. 什么情況下使用預(yù)訓(xùn)練是無(wú)效的?
  3. 與預(yù)訓(xùn)練相比,我們可以使用自訓(xùn)練并獲得相似或更好的結(jié)果嗎?
  4. 如果自訓(xùn)練優(yōu)于預(yù)訓(xùn)練(暫做這樣的假設(shè)),那它在多大的程度上比預(yù)訓(xùn)練好?
  5. 在什么情況下自訓(xùn)練比預(yù)訓(xùn)練更好?
  6. 自訓(xùn)練的靈活性和可擴(kuò)展性如何?

三、設(shè)置

1、數(shù)據(jù)集和模型

  • 目標(biāo)檢測(cè):作者使用COCO數(shù)據(jù)集(11.8萬(wàn)張圖片 )進(jìn)行監(jiān)督學(xué)習(xí)下的目標(biāo)檢測(cè)訓(xùn)練。ImageNet數(shù)據(jù)集(120萬(wàn)張圖片 )和OpenImage數(shù)據(jù)集(170萬(wàn)張圖片 )用作未標(biāo)記的數(shù)據(jù)集。使用以EfficientNet - B7為主干網(wǎng)絡(luò)的RetinaNet目標(biāo)檢測(cè)器。圖像的分辨率保持在640 x 640,金字塔等級(jí)為P3到P7,每個(gè)像素使用9個(gè)錨點(diǎn)。
  • 語(yǔ)義分割:使用 PASCAL VOC 2012分割訓(xùn)練集(1500張圖片)進(jìn)行監(jiān)督學(xué)習(xí)下的語(yǔ)義分割訓(xùn)練。對(duì)于自訓(xùn)練,作者使用了增強(qiáng)的PASCAL圖像數(shù)據(jù)集(9000張圖片),標(biāo)記以及未標(biāo)記的COCO(24萬(wàn)張圖片)和ImageNet(120萬(wàn)張圖片)數(shù)據(jù)集。使用以EfficientNet-B7和EfficientNet-L2為主干網(wǎng)絡(luò)的NAS-FPN模型。

2、數(shù)據(jù)增強(qiáng)

在所有實(shí)驗(yàn)中都使用了四種不同強(qiáng)度的增強(qiáng)策略來(lái)進(jìn)行檢測(cè)和分割。這四種策略按強(qiáng)度從低到高依次為:1)Augment-S1:這是標(biāo)準(zhǔn)“ 翻轉(zhuǎn)和裁剪”增強(qiáng)操作,包括水平翻轉(zhuǎn)和縮放裁剪。2)Augment-S2: 這包括論文《AutoAugment: Learning Augmentation Strategies from Data》中使用的AutoAugment,以及翻轉(zhuǎn)和裁剪。3)Augment-S3:它包括大規(guī)模縮放、AutoAugment、翻轉(zhuǎn)和裁剪??s放范圍比Augment-S1:更大。4)Augment-S4: 結(jié)合論文《RandAugment: Practical automated data augmentation with a reduced search space》中提出的RandAugment,翻轉(zhuǎn)和裁剪,以及大規(guī)??s放操作。此處的縮放等級(jí)與Augment-S2/S3相同。

3、預(yù)訓(xùn)練

為了研究預(yù)訓(xùn)練的有效性,作者使用了ImageNet預(yù)訓(xùn)練的檢查點(diǎn)。使用EfficientNet-B7作為架構(gòu)用于評(píng)估,對(duì)此模型,設(shè)置了兩個(gè)不同的檢查點(diǎn),如下所示:1)ImageNet:通過(guò)AutoAugment在檢查點(diǎn)上訓(xùn)練EfficientNet-B7,在ImageNet上達(dá)到84.5%了的top-1準(zhǔn)確率。2)ImageNet ++:采用論文《Self-training with Noisy Student improves ImageNet classification》中提出的Noisy Student方法在檢查點(diǎn)上訓(xùn)練EfficientNet-B7,其中利用了額外3億張未標(biāo)記的圖像,并達(dá)到了86.9%的top-1準(zhǔn)確率。采用隨機(jī)初始化訓(xùn)練的結(jié)果標(biāo)記為Rand Init。

4、自訓(xùn)練

自訓(xùn)練是基于Noisy Student方法實(shí)現(xiàn)的,有三個(gè)步驟:

  • 在標(biāo)記的數(shù)據(jù)(例如COCO數(shù)據(jù)集)上訓(xùn)練teacher model。
  • 使用teacher model在未標(biāo)記的數(shù)據(jù)(例如ImageNet數(shù)據(jù)集)上生成偽標(biāo)記。
  • 訓(xùn)練一個(gè)student model,以聯(lián)合優(yōu)化人工標(biāo)簽和偽標(biāo)簽上的損失。

四、實(shí)驗(yàn)

1、增強(qiáng)和標(biāo)記數(shù)據(jù)集大小對(duì)預(yù)訓(xùn)練的影響

作者使用ImageNet進(jìn)行監(jiān)督預(yù)訓(xùn)練,并改變帶標(biāo)簽的COCO數(shù)據(jù)集大小以研究預(yù)訓(xùn)練對(duì)結(jié)果的影響。實(shí)驗(yàn)過(guò)程中,不僅會(huì)改變標(biāo)記數(shù)據(jù)的大小,而且還使用不同增強(qiáng)強(qiáng)度的數(shù)據(jù)集,使用以EfficientNet-B7為主干網(wǎng)絡(luò)的RetinaNe模型來(lái)進(jìn)行訓(xùn)練。作者觀察到以下幾點(diǎn):

  • 使用高強(qiáng)度的數(shù)據(jù)增強(qiáng)時(shí),監(jiān)督預(yù)訓(xùn)練會(huì)損害性能:作者注意到,當(dāng)他們使用如上所述的標(biāo)準(zhǔn)增強(qiáng)方法Augment-S1時(shí),預(yù)訓(xùn)練會(huì)對(duì)結(jié)果有所幫助。但是隨著增加增強(qiáng)的強(qiáng)度,預(yù)訓(xùn)練并未對(duì)結(jié)果有太大幫助。實(shí)際上,他們觀察到,在使用最強(qiáng)的數(shù)據(jù)增強(qiáng)(Augment-S3)時(shí),預(yù)訓(xùn)練會(huì)嚴(yán)重?fù)p害性能。
  • 更多帶標(biāo)簽的數(shù)據(jù)會(huì)降低監(jiān)督預(yù)訓(xùn)練的價(jià)值:這不是一個(gè)新發(fā)現(xiàn)。我們都知道,當(dāng)數(shù)據(jù)量較小時(shí),預(yù)訓(xùn)練會(huì)對(duì)結(jié)果有所幫助。但是有足夠數(shù)量的標(biāo)記數(shù)據(jù)時(shí),從頭開(kāi)始訓(xùn)練也不會(huì)得到很差的結(jié)果。作者發(fā)現(xiàn)了相同的結(jié)論,這一觀點(diǎn)與FAIR的論文《Rethinking ImageNet Pre-training》相一致。

我的看法:在ImageNet上訓(xùn)練的大多數(shù)模型都沒(méi)有使用很高強(qiáng)度的增強(qiáng)方法。高強(qiáng)度增強(qiáng)數(shù)據(jù)后,模型可能無(wú)法正確收斂。實(shí)際上,模型有時(shí)可能會(huì)對(duì)增強(qiáng)過(guò)擬合,當(dāng)然這還需要進(jìn)行適當(dāng)?shù)募?xì)節(jié)研究。

2、增強(qiáng)和標(biāo)記數(shù)據(jù)集大小對(duì)自訓(xùn)練的影響

作者使用相同的模型(使用帶有EfficientNet-B7主干的RetinaNet檢測(cè)器)和相同的任務(wù)(COCO數(shù)據(jù)集目標(biāo)檢測(cè))來(lái)研究自訓(xùn)練的影響。作者使用ImageNet數(shù)據(jù)集進(jìn)行自訓(xùn)練(這種情況下將丟棄ImageNet的原始標(biāo)簽)。作者觀察到以下幾點(diǎn):

  • 即使預(yù)訓(xùn)練對(duì)結(jié)果產(chǎn)生了負(fù)面影響,自訓(xùn)練也有助于大規(guī)模數(shù)據(jù)集和高強(qiáng)度增強(qiáng)的情況:作者發(fā)現(xiàn),當(dāng)使用大量數(shù)據(jù)增強(qiáng)時(shí)將自訓(xùn)練應(yīng)用到隨機(jī)初始化模型中,這樣不僅可以提高基線(xiàn)結(jié)果,并且超過(guò)了同情況下預(yù)訓(xùn)練的結(jié)果。該實(shí)驗(yàn)結(jié)果如下:

  • 自訓(xùn)練適用于各種不同大小的數(shù)據(jù)集,并且可以看作對(duì)預(yù)訓(xùn)練的補(bǔ)充:作者發(fā)現(xiàn)自訓(xùn)練另一個(gè)有趣的方面是,它可以作為預(yù)訓(xùn)練的補(bǔ)充。簡(jiǎn)而言之,當(dāng)將自訓(xùn)練與隨機(jī)初始化模型或預(yù)訓(xùn)練模型結(jié)合使用時(shí),它始終可以提高性能。在不同數(shù)據(jù)大小下,性能增益是一致的。

但,使用ImageNet ++ 預(yù)訓(xùn)練時(shí),與使用隨機(jī)初始化和ImageNet預(yù)訓(xùn)練相比,增益相對(duì)更小。這有什么具體原因嗎?是的,ImageNet ++初始化是從檢查點(diǎn)獲得的,在該檢查點(diǎn)使用了另外3億張未標(biāo)記的圖像。

3、自監(jiān)督預(yù)訓(xùn)練 vs 自訓(xùn)練

有監(jiān)督的 ImageNet預(yù)訓(xùn)練會(huì)損害最大規(guī)模數(shù)據(jù)集和高強(qiáng)度數(shù)據(jù)增強(qiáng)下的訓(xùn)練效果。但是自監(jiān)督的預(yù)訓(xùn)練呢?自監(jiān)督學(xué)習(xí)(不帶標(biāo)簽的預(yù)訓(xùn)練)的主要目標(biāo)是構(gòu)建一種通用的表征,這種表征可以遷移到更多類(lèi)型的任務(wù)和數(shù)據(jù)集中。為研究自監(jiān)督學(xué)習(xí)的效果,作者使用了完整的COCO數(shù)據(jù)集和最高強(qiáng)度的增強(qiáng)。目的是將隨機(jī)初始化與使用了SOTA自監(jiān)督算法預(yù)訓(xùn)練的模型進(jìn)行比較。在實(shí)驗(yàn)中使用SimCLR的檢查點(diǎn),然后在ImageNet上對(duì)其進(jìn)行微調(diào)。由于SimCLR僅使用ResNet-50,因此RetinaNet檢測(cè)器的主干網(wǎng)絡(luò)用ResNet-50替換。結(jié)果如下:

在這種情況下,我們觀察到自監(jiān)督下的預(yù)訓(xùn)練會(huì)損害訓(xùn)練效果,但自訓(xùn)練仍可以提高性能。

五、學(xué)到了什么?

1、預(yù)訓(xùn)練和通用的特征表征

我們看到,預(yù)訓(xùn)練(監(jiān)督以及自監(jiān)督)并不總可以給結(jié)果帶來(lái)更好的效果。實(shí)際上,與自訓(xùn)練相比,預(yù)訓(xùn)練總是表現(xiàn)不佳。這是為什么?為什么ImageNet預(yù)訓(xùn)練的模型對(duì)COCO數(shù)據(jù)集的目標(biāo)檢測(cè)效果反而不好?為什么通過(guò)自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)表征無(wú)法提高性能?預(yù)訓(xùn)練并不能理解當(dāng)下的任務(wù),并可能無(wú)法適應(yīng)。分類(lèi)問(wèn)題比目標(biāo)檢測(cè)問(wèn)題容易得多。在分類(lèi)任務(wù)上預(yù)訓(xùn)練的網(wǎng)絡(luò)是否可以獲得目標(biāo)檢測(cè)任務(wù)所需要的所有信息?用我喜歡的表達(dá)方式來(lái)說(shuō):即使這些任務(wù)只是彼此的子集,不同的任務(wù)也需要不同級(jí)別的粒度。

2、聯(lián)合訓(xùn)練

正如作者所言,自訓(xùn)練范式的優(yōu)勢(shì)之一是它可以聯(lián)合監(jiān)督和自訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練,從而解決它們之間不匹配的問(wèn)題。為了解決任務(wù)間由于差異導(dǎo)致的不匹配問(wèn)題呢,我們也可以考慮聯(lián)合訓(xùn)練的方法,例如聯(lián)合訓(xùn)練ImageNet和COCO這兩個(gè)數(shù)據(jù)集?作者在實(shí)驗(yàn)中使用了與自訓(xùn)練相同的參數(shù)設(shè)置,發(fā)現(xiàn)ImageNet的預(yù)訓(xùn)練可獲得+ 2.6AP的增益,但使用隨機(jī)初始化和聯(lián)合訓(xùn)練可獲得+ 2.9AP的更大增益。而且,預(yù)訓(xùn)練、聯(lián)合訓(xùn)練和自訓(xùn)練都是加性的。使用相同的ImageNet數(shù)據(jù)集,ImageNet的預(yù)訓(xùn)練獲得+ 2.6AP的增益,預(yù)訓(xùn)練+聯(lián)合訓(xùn)練再獲得+ 0.7AP的增益,而預(yù)訓(xùn)練+聯(lián)合訓(xùn)練+自訓(xùn)練則獲得+ 3.3AP的增益。

3、任務(wù)調(diào)整的重要性

正如我們?cè)谏衔乃?jiàn),任務(wù)調(diào)整對(duì)于提高性能非常重要。論文《Objects365: A Large-scale, High-quality Dataset for Object Detection》指出了類(lèi)似的發(fā)現(xiàn),在Open Images數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練會(huì)損害COCO的性能,盡管兩者都帶有邊框標(biāo)記。這意味著,我們不僅希望任務(wù)是相同的,而且標(biāo)記最好也是相同的,以使預(yù)訓(xùn)練對(duì)結(jié)果真正帶來(lái)益處。同時(shí),作者指出了另外兩個(gè)有趣的現(xiàn)象:

  • ImageNet的預(yù)訓(xùn)練模型,即使帶有額外的人工標(biāo)簽,其效果也比自訓(xùn)練差。
  • 借助高強(qiáng)度的數(shù)據(jù)增強(qiáng)方法(Augment-S4),使用PASCAL(訓(xùn)練+ 增強(qiáng)數(shù)據(jù)集)進(jìn)行訓(xùn)練實(shí)際上會(huì)損害準(zhǔn)確率。同時(shí),通過(guò)對(duì)同一數(shù)據(jù)集進(jìn)行自訓(xùn)練而生成的偽標(biāo)簽可提高準(zhǔn)確性。

4、自訓(xùn)練的可擴(kuò)展性、通用性和靈活性

從作者進(jìn)行的所有實(shí)驗(yàn)中,我們可以得出以下結(jié)論:

  • 在靈活性方面,自訓(xùn)練在每種條件設(shè)置下均能很好地發(fā)揮作用,無(wú)論是少數(shù)據(jù)狀態(tài)、多數(shù)據(jù)狀態(tài)、弱數(shù)據(jù)增強(qiáng)還是強(qiáng)數(shù)據(jù)增強(qiáng)。
  • 自訓(xùn)練不依賴(lài)于模型架構(gòu)也不依賴(lài)于數(shù)據(jù)集。它可以與ResNets、EfficientNets、SpineNet等不同架構(gòu)以及ImageNet、COCO、PASCAL等不同數(shù)據(jù)集很好地結(jié)合使用。
  • 一般意義上來(lái)看,無(wú)論預(yù)訓(xùn)練是失敗還是成功,自訓(xùn)練效果都是很好的。

在可擴(kuò)展性方面,當(dāng)我們擁有更多帶標(biāo)簽的數(shù)據(jù)和更好的模型時(shí),自訓(xùn)練被證明表現(xiàn)良好。

5、自訓(xùn)練的局限性

盡管自訓(xùn)練可以帶來(lái)好處,但它也有一些局限性:

  • 與在預(yù)訓(xùn)練模型上進(jìn)行微調(diào)相比,自訓(xùn)練需要消耗更多的計(jì)算量。
  • 預(yù)訓(xùn)練的加速范圍是1.3倍至8倍,具體取決于預(yù)訓(xùn)練模型的質(zhì)量、數(shù)據(jù)增強(qiáng)的強(qiáng)度和數(shù)據(jù)集的大小。
  • 自訓(xùn)練并不能完全替代遷移學(xué)習(xí)和微調(diào),這兩種技術(shù)將來(lái)也會(huì)被大量使用。

六、總結(jié)

《Rethinking Pre-training and Self-training》這篇論文提出了很多有關(guān)預(yù)訓(xùn)練、聯(lián)合訓(xùn)練、任務(wù)調(diào)整和普遍表征的基本問(wèn)題。解決這些問(wèn)題比建立具有數(shù)十億參數(shù)的模型更為重要,可以幫助我們獲得更好的直覺(jué),以了解深度神經(jīng)網(wǎng)絡(luò)做出的決策。

責(zé)任編輯:未麗燕 來(lái)源: 雷鋒網(wǎng)
相關(guān)推薦

2022-01-06 09:57:02

數(shù)據(jù)計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)

2023-06-26 07:10:51

2022-11-28 14:00:24

人工智能

2023-09-06 09:59:12

雷達(dá)技術(shù)

2023-03-28 16:01:01

PytorchSimCLR算法

2021-11-03 10:58:26

系統(tǒng)自然語(yǔ)言人工智能

2017-12-26 13:53:31

深度學(xué)習(xí)遷移學(xué)習(xí)

2023-10-25 09:50:07

自動(dòng)駕駛訓(xùn)練

2022-09-30 15:28:05

BERT語(yǔ)言模型自然語(yǔ)言

2024-12-16 08:20:00

AI工具

2023-06-15 15:45:42

自然語(yǔ)言語(yǔ)言模型

2017-08-09 10:02:12

NMT神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理

2024-01-29 00:24:07

圖像模型預(yù)訓(xùn)練

2022-05-30 15:44:33

模型訓(xùn)練GAN

2020-03-17 09:42:00

谷歌開(kāi)源機(jī)器學(xué)習(xí)

2023-06-12 07:50:45

2024-11-04 00:24:56

2022-03-04 19:07:03

模型視覺(jué)人工智能

2021-09-26 10:47:12

預(yù)訓(xùn)練模型GPT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)