Facebook利用hashtag解決訓練數(shù)據(jù)難題
人工標注數(shù)據(jù)需要耗費大量人力成本和時間,對模型訓練數(shù)據(jù)集的規(guī)模擴大帶來限制。Facebook 在圖像識別方面的最新研究利用帶有 hashtag 的大規(guī)模公共圖像數(shù)據(jù)集解決了該問題,其最佳模型的性能超越了之前最優(yōu)的模型。
圖像識別是 AI 研究的重要分支之一,也是 Facebook 的研究重心。Facebook 的研究人員和工程師旨在擴展計算機視覺的邊界,造福現(xiàn)實世界。例如,使用 AI 生成圖像的音頻字幕幫助視覺受損的用戶。為了改善這些計算機視覺系統(tǒng),訓練它們識別和分類大量對象,F(xiàn)acebook 需要包含數(shù)十億張圖像的數(shù)據(jù)集,如今常見的數(shù)百萬張圖像的數(shù)據(jù)集已經(jīng)不足夠了。
由于當前模型通常在人類標注者手動標注的數(shù)據(jù)上進行訓練,因此提升識別準確率不只是向系統(tǒng)輸入更多圖像那么簡單。這種勞動密集型的監(jiān)督學習過程通常獲得最好的性能,但是手動標注的數(shù)據(jù)集在規(guī)模方面已經(jīng)接近其函數(shù)極限。Facebook 正在多達五千萬張圖像的數(shù)據(jù)集上訓練模型,即使是在提供所有監(jiān)督的情況下,數(shù)十億張圖像的訓練也是不可行的。
Facebook 研究人員和工程師通過在帶有標簽(hashtag)的公共圖像數(shù)據(jù)集上訓練圖像識別網(wǎng)絡解決了該問題,其中最大的數(shù)據(jù)集包含 35 億張圖像和 17000 個 hashtag。該方法的關(guān)鍵是使用現(xiàn)有公開的、用戶提供的 hashtag 作為標注,取代手動標注。該方法在測試過程中表現(xiàn)良好。通過使用包含 10 億圖像的此類數(shù)據(jù)集訓練計算機視覺系統(tǒng),F(xiàn)acebook 得到了一個歷史最高得分——在 ImageNet 上達到了 85.4% 的準確率。伴隨著這一圖像識別任務中的突破,該研究為如何從監(jiān)督訓練轉(zhuǎn)向弱監(jiān)督訓練提供了重要洞見。在弱監(jiān)督訓練中,研究者使用現(xiàn)有標注(在本文中指 hashtag)而不是專為 AI 訓練而選擇的標注。Facebook 計劃開源這些模型的嵌入,這樣研究社區(qū)就可以使用這些表征,基于它們完成更高級別的任務。
大規(guī)模使用 hashtag
由于人們通常使用 hashtag 描述照片,所以 Facebook 研究人員認為它們可以作為模型訓練數(shù)據(jù)的完美來源。這允許研究人員使用 hashtag 來完成一直以來的目標:基于人們自己標注的 hashtag 獲取更多圖像。
但是 hashtag 通常指非視覺概念,如 #tbt 表示「throwback Thursday」。或者它們比較模糊,如 #party 可以描述活動、設置,或者 both。對于圖像識別來說,tag 的作用是弱監(jiān)督數(shù)據(jù),而模糊和/或不相關(guān)的 hashtag 是標簽噪聲,可能會混淆深度學習模型。
這些噪聲標簽是大規(guī)模訓練工作的重點,因此研究人員開發(fā)了一種新方法,專為使用 hashtag 監(jiān)督執(zhí)行圖像識別實驗而準備。該方法包括處理每個圖像的多個標簽(加 hashtag 的用戶通常會添加多個 hashtag)、整理 hashtag 同義詞、平衡經(jīng)常出現(xiàn)的 hashtag 和出現(xiàn)頻率較低的 hashtag 的影響力。為了使這些標簽有助于圖像識別訓練,F(xiàn)acebook 研究團隊訓練了一個大規(guī)模 hashtag 預測模型。該方法顯示出優(yōu)秀的遷移學習結(jié)果,表明該模型的圖像分類結(jié)果可廣泛應用于其他 AI 系統(tǒng)。這一新研究基于 Facebook 之前的研究,包括基于用戶評論、hashtag 和視頻的圖像分類研究。這一對弱監(jiān)督學習的全新探索是一次廣泛的合作,F(xiàn)acebook 應用機器學習團隊(AML)和 Facebook 人工智能研究院(FAIR)均參與其中。
在規(guī)模和性能方面開辟新天地
由于單個機器完成模型訓練需要一年多時間,因此 Facebook 在多達 336 個 GPU 上進行分布式訓練,將總訓練時間縮短至幾周。在如此大的模型規(guī)模面前(該研究中最大的模型是具備超過 86.1 千萬個參數(shù)的 ResNeXt 101-32x48d),使用分布式訓練方法尤其重要。此外,F(xiàn)acebook 設計了一種方法來移除重復項,確保不會在評估數(shù)據(jù)上進行訓練,這個問題在此類研究中經(jīng)常出現(xiàn)。
Facebook 希望能看到圖像識別方面的性能提升,不過對實驗結(jié)果仍然感到驚訝。在 ImageNet 圖像識別基準上,其最佳模型達到了 85.4% 的準確率,該模型在 10 億張圖像上進行訓練,訓練數(shù)據(jù)一共包括 1500 個 hashtag。這是截至目前最高的 ImageNet 基準準確率,比之前最優(yōu)模型高 2%。研究者將卷積神經(jīng)網(wǎng)絡架構(gòu)的影響力進行分解,觀測到的性能提升更加顯著:將數(shù)十億圖像(以及大量 hashtag)用于深度學習導致高達 22.5% 的性能提升。
在另一個主要基準 COCO 上,研究者發(fā)現(xiàn)使用 hashtag 進行預訓練可以將模型的平均準確率提高 2% 以上。

這些是圖像識別和目標檢測領(lǐng)域的基礎改進,表示計算機視覺又前進了一步。但是研究者的實驗還揭示了大規(guī)模訓練和噪聲標簽的優(yōu)勢和面臨的挑戰(zhàn)。
例如,盡管擴大訓練數(shù)據(jù)集規(guī)模是值得的,但選擇匹配特定圖像識別任務的 hashtag 集也具備同等的重要性。研究者通過在 10 億張圖像、1500 個匹配 ImageNet 數(shù)據(jù)集類別的 hashtag 上的訓練結(jié)果優(yōu)于在同樣大小的數(shù)據(jù)集、但使用全部 17000 個 hashtag 的訓練結(jié)果。另一方面,對于類別較多的任務,使用 17000 個 hashtag 進行訓練的模型性能更好,這表明研究者應該在未來訓練中增加 hashtag 的數(shù)量。
增加訓練數(shù)據(jù)規(guī)模通常有利于圖像識別。但是它也會產(chǎn)生新的問題,包括定位圖像中對象位置的能力下降。Facebook 研究者還發(fā)現(xiàn)其最大的模型仍未充分利用 35 億張圖像數(shù)據(jù)集的優(yōu)勢,這表明研究者應該在更大的模型上進行訓練。
大規(guī)模自標注數(shù)據(jù)集是圖像識別的未來
這項研究的一個重要成果(甚至超越了圖像識別的廣泛成果)就是證實了在 hashtag 上訓練計算機視覺模型是完全可行的。雖然使用了一些基礎技術(shù)來合并相似標簽、降低其他標簽的權(quán)重,但是該方法不需要復雜的「清理」過程來消除標簽噪聲。相反,研究者能夠使用 hashtag 訓練模型,而且只需對訓練過程做出很少的修改。規(guī)模似乎是一大優(yōu)勢,因為在數(shù)十億張圖像上訓練的網(wǎng)絡對標簽噪聲具備更好的穩(wěn)健性。
我們設想了在不遠的未來,hashtag 作為計算機視覺標簽的其他使用方向,可能包括使用 AI 更好地理解視頻片段,或改變圖像在 Facebook feed 流中的排序方式。Hashtag 還可以幫助系統(tǒng)識別圖像何時不僅屬于總類別,還屬于更具體的子類別。例如,照片的音頻說明提及「樹上的一只鳥」是有用信息,但是如果音頻說明可以具體到物種(如:糖槭樹上的一只主紅雀),就可以為視覺受損的用戶提供更好的描述。

Hashtag 可以幫助計算機視覺系統(tǒng)超越一般分類條目,以識別圖像中的特定子類別和其他元素。除了 hashtag 的具體用途之外,該研究還指出了可能影響新產(chǎn)品和現(xiàn)有產(chǎn)品的廣泛圖像識別方面取得的進展。例如,更精確的模型可能會改善在 Facebook 上重現(xiàn)記憶的方式。該研究指出了使用弱監(jiān)督數(shù)據(jù)的長期影響。隨著訓練數(shù)據(jù)集變得越來越大,對弱監(jiān)督學習的需求——以及從長遠來看,對無監(jiān)督學習的需求——將變得越來越顯著。了解如何彌補噪聲大、標注不準確的缺陷對于構(gòu)建和使用大規(guī)模訓練集至關(guān)重要。
本研究在 Dhruv Mahajan、Ross Girshick、Vignesh Ramanathan、Kaiming He、Manohar Paluri、Yixuan Li、Ashwin Bharambe 和 Laurens van der Maaten 的《Exploring the Limits of Weakly Supervised Pretraining》一文中有更詳細的描述。由于該研究涉及到的規(guī)模史無前例,此論文詳細的論述將為一系列新研究方向鋪平道路,包括開發(fā)新一代足夠復雜的深度學習模型,從而有效地從數(shù)十億張圖像中學習。
該研究還表明,為了更好地衡量當今圖像識別系統(tǒng)以及未來規(guī)模更大、監(jiān)督更少的圖像識別系統(tǒng)的質(zhì)量和局限性,開發(fā)類似 ImageNet 的廣泛使用的新型基準很有必要。
論文:Exploring the Limits of Weakly Supervised Pretraining

論文鏈接:https://research.fb.com/publications/exploring-the-limits-of-weakly-supervised-pretraining/