模仿人類舉一反三,數(shù)據(jù)集擴增新范式GIF框架來了
- 論文鏈接:https://browse.arxiv.org/pdf/2211.13976.pdf
- GitHub:https://github.com/Vanint/DatasetExpansion
眾所周知,深度神經(jīng)網(wǎng)絡(luò)的性能很大程度上依賴于訓練數(shù)據(jù)的數(shù)量和質(zhì)量,這使得深度學習難以廣泛地應(yīng)用在小數(shù)據(jù)任務(wù)上。例如,在醫(yī)療等領(lǐng)域的小數(shù)據(jù)應(yīng)用場景中,人力收集和標注大規(guī)模的數(shù)據(jù)集往往費時費力。為了解決這一數(shù)據(jù)稀缺問題并最小化數(shù)據(jù)收集成本,該論文探索了一個數(shù)據(jù)集擴增新范式,旨在自動生成新數(shù)據(jù)從而將目標任務(wù)的小數(shù)據(jù)集擴充為更大且更具信息量的大數(shù)據(jù)集。這些擴增后的數(shù)據(jù)集致力于提升模型的性能和泛化能力,并能夠用于訓練不同的網(wǎng)絡(luò)結(jié)構(gòu)。
該工作發(fā)現(xiàn)只是利用現(xiàn)存方法無法很好地擴充數(shù)據(jù)集。(1)隨機數(shù)據(jù)增強主要改變圖片的表面視覺特征,但不能創(chuàng)造具有新物體內(nèi)容的圖片(如下圖的荷花依然是同一個,沒有新荷花的生成),因此所引入的信息量有限。更為嚴重的是,隨機數(shù)據(jù)增強可能會裁剪醫(yī)學圖像的病灶(變)位置,導致樣本的重要信息減少,甚至產(chǎn)生噪聲數(shù)據(jù)。(2)直接利用預訓練的生成(擴散)模型進行數(shù)據(jù)集擴增也不能很好地提升模型在目標任務(wù)上的性能。這是因為這些生成模型的預訓練數(shù)據(jù)往往與目標數(shù)據(jù)存在較大的分布差異,這導致它們所生成的數(shù)據(jù)與目標任務(wù)存在一定的分布和類別差距,無法確保所生成的樣本帶有正確的類別標簽且對模型訓練有益。
為了更有效地進行數(shù)據(jù)集擴增,該工作探究了人類的聯(lián)想學習:給定一個物體,人類可以利用他們累積的先驗知識輕易地想象物體的不同變體,例如下圖狗子在不同種類、不同顏色、不同形狀或不同背景下的變體。這一想象學習的過程對于數(shù)據(jù)集擴增非常有啟發(fā)性,因為它不僅是簡單地擾動圖片中動物體的外觀,而是應(yīng)用豐富的先驗知識來創(chuàng)造具有新信息量的變體圖片。
然而,我們無法直接建模人類作為先驗模型來進行數(shù)據(jù)想象。但幸運地是,近期的生成模型(如 Stable Diffusion,DALL-E2)已經(jīng)展現(xiàn)了強大的擬合大規(guī)模數(shù)據(jù)集分布的能力,能夠生成內(nèi)容豐富且逼真的圖片。這啟發(fā)了該論文使用預訓練的生成模型作為先驗模型,利用它們強大的先驗知識來對小數(shù)據(jù)集進行高效地數(shù)據(jù)聯(lián)想和擴增。
基于上述想法,該工作提出了一個新的指導式想象擴增框架(Guided Imagination Framework, GIF)。該方法能夠有效提升深度神經(jīng)網(wǎng)絡(luò)在自然和醫(yī)療圖片任務(wù)上的分類性能和泛化能力,并極大地減少因人工數(shù)據(jù)收集和標注所帶來的巨大成本。同時,所擴增的數(shù)據(jù)集也有助于促進模型的遷移學習,并緩解長尾問題。
接下來讓我們看看,這一數(shù)據(jù)集擴增新范式是怎么設(shè)計的。
方法
數(shù)據(jù)集擴增的挑戰(zhàn)和指導標準 設(shè)計數(shù)據(jù)集擴增方法會有兩個關(guān)鍵挑戰(zhàn):(1)如何使生成的樣本帶有正確的類別標簽?(2)如何確保生成的樣本帶有新的信息量,從而促進模型訓練?為了解決這兩個挑戰(zhàn),該工作通過大量的實驗發(fā)現(xiàn)了兩個擴增指導標準:(1)類別一致的信息增強;(2)樣本多樣性提升。
方法框架 基于所發(fā)現(xiàn)擴增指導標準,該工作提出了指導式想象擴增框架(GIF)。對于每個輸入的種子樣本 x,GIF 首先利用先驗生成模型的特征提取器提取樣本特征 f,并對該特征進行噪音擾動:。設(shè)置噪音(z,b)最簡單的方式是采用高斯隨機噪聲,但是它無法確保所生成的樣本具有正確的類別標簽并帶來更多的信息量。因此,為了進行有效的數(shù)據(jù)集擴增,GIF 基于其發(fā)現(xiàn)的擴增指導標準對噪聲擾動進行優(yōu)化,即
。
所用到的擴增指導標準實現(xiàn)如下。類一致的信息量指標:;樣本多樣性指標:
。通過最大化這兩個指標,GIF 能夠有效優(yōu)化噪聲擾動,從而生成既保持類別一致性,又帶來更大信息量的樣本。
實驗
擴增有效性 GIF 具有更強的擴增有效性:GIF-SD 在 6 個自然數(shù)據(jù)集上平均提高了 36.9% 分類精度,并在 3 個醫(yī)療數(shù)據(jù)集上平均提高了 13.5% 分類精度。
擴增效率 GIF 具有更強的擴增有效率:在 Cars 和 DTD 數(shù)據(jù)集上,使用 GIF-SD 進行 5 倍擴增的效果甚至超過了使用隨機數(shù)據(jù)增強進行 20 倍擴增的效果。
可視化結(jié)果 現(xiàn)有的數(shù)據(jù)增強方法無法生成新的圖像內(nèi)容,而 GIF 可以較好地生成帶有新內(nèi)容的樣本。
現(xiàn)有的增強方法甚至裁剪醫(yī)學圖像的病變位置,導致樣本信息減少甚至產(chǎn)生噪聲,而 GIF 可以更好地保持它們的類別語義。
計算和時間成本 與人工數(shù)據(jù)收集和標注相比,GIF 能夠極大地降低數(shù)據(jù)集擴增的時間和成本。
擴增數(shù)據(jù)的通用性 一旦完成擴增,這些數(shù)據(jù)集可以直接用于訓練各種不同的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。
提升模型泛化能力 GIF 有助于提升模型的分布外泛化性能(OOD generalization)。
緩解長尾問題 GIF 有助于緩解長尾問題。
安全性檢測 GIF 生成的圖像是安全且無害的。
基于上述實驗結(jié)果,我們有理由相信通過模擬人類的類比與想象學習,該論文所設(shè)計的方法能夠有效地擴增小數(shù)據(jù)集,從而提升深度神經(jīng)網(wǎng)絡(luò)在小數(shù)據(jù)任務(wù)場景上的落地和應(yīng)用。