傳統(tǒng)GAN修改后可解釋,并保證卷積核可解釋性和生成圖像真實性
- 論文地址:https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
- 作者單位:中國科學院計算技術研究所、上海交通大學、之江實驗室
研究背景及研究任務
生成對抗網(wǎng)絡(GAN)已經(jīng)在生成高分辨率圖像方面取得了巨大成功,而關于其可解釋性的研究也在近年來引起了廣泛關注。
在這一領域,如何令 GAN 學習出一個解耦的表征仍是一項重大挑戰(zhàn)。所謂 GAN 的解耦表征,即該表征每個部分只影響生成圖像的特定方面。此前關于 GAN 解耦表征的研究關注于不同的角度。
例如,在下圖 1 中,方法 1 解耦了圖像的結(jié)構和風格。方法 2 學習了圖像中局部對象的特征。方法 3 學習了圖像中屬性的解耦特征,例如人臉圖像的年齡屬性和性別屬性。然而,這些研究未能在 GAN 中為不同的視覺概念(例如人臉的眼睛、鼻子和嘴巴等部分)提供一個清晰且符號化的表征。
圖 1:與其他 GAN 解耦表征方法的視覺對比
為此,研究者提出了一種將傳統(tǒng) GAN 修改為可解釋 GAN 的通用方法,該方法確保生成器中間層中的卷積核可以學習到解耦的局部視覺概念。具體地,如下圖 2 所示,與傳統(tǒng) GAN 相比,可解釋 GAN 中間層中的每個卷積核在生成不同圖像時始終代表一個特定的視覺概念,不同的卷積核則代表不同的視覺概念。
圖 2:可解釋 GAN 與傳統(tǒng) GAN 編碼表征的視覺對比
建模方法
可解釋 GAN 的學習應滿足以下兩個目標:卷積核的可解釋性和生成圖像的真實性。
- 卷積核的可解釋性:研究者希望中間層的卷積核能夠自動學習有意義的視覺概念,而無需對任何視覺概念進行人工標注。具體來說,每個卷積核在生成不同圖像時都應該穩(wěn)定地生成對應于相同視覺概念的圖像區(qū)域。不同的卷積核則應該生成對應于不同視覺概念的圖像區(qū)域;
- 生成圖像的真實性:可解釋 GAN 的生成器仍然能夠生成逼真的圖像。
為了確保目標層中卷積核的可解釋性,研究者注意到當多個卷積核生成與某個視覺概念對應的相似區(qū)域時,它們通常聯(lián)合代表了這一視覺概念。
因此,他們使用一組卷積核來共同表示一個特定的視覺概念,并使用不同組的卷積核來分別表示不同的視覺概念。
為了同時確保生成圖像的真實性,研究者設計下述損失函數(shù)來將傳統(tǒng)的 GAN 修改為可解釋的 GAN。
- 傳統(tǒng) GAN 的損失:該損失用于確保生成圖像的真實性;
- 卷積核劃分損失:給定生成器,該損失用于找到卷積核的劃分方式,使得同一組中的卷積核生成相似的圖像區(qū)域。具體地,他們使用高斯混合模型 (GMM) 來學習卷積核的劃分方式,以確保每組中卷積核的特征圖具有相似的神經(jīng)激活;
- 能量模型真實性損失:給定目標層卷積核的劃分方式,強制同一組中的每個卷積核生成相同的視覺概念可能會降低生成圖像的質(zhì)量。為了進一步確保生成圖像的真實性,他們使用能量模型來輸出目標層中特征圖的真實性概率,并采用極大似然估計來學習能量模型的參數(shù);
- 卷積核可解釋性損失:給定目標層的卷積核劃分方式,該損失用于進一步提升卷積核的可解釋性。具體地,該損失會使得同一組中的每個卷積核唯一地生成相同的圖像區(qū)域,而不同組的卷積核則分別負責生成不同的圖像區(qū)域。
實驗結(jié)果
在實驗中,研究者分別定性和定量地評估了他們的可解釋 GAN。
對于定性分析,他們將每個卷積核的特征圖可視化,以評估卷積核在不同圖像上所表示的視覺概念的一致性。如下圖 3 所示,在可解釋 GAN 中,每個卷積核在生成不同圖像時始終生成對應于相同視覺概念的圖像區(qū)域,而不同的卷積核生成對應于不同視覺概念的圖像區(qū)域。
圖 3:可解釋 GAN 中特征圖的可視化
實驗中還比較了每組卷積核的組別中心和卷積核之間的感受野的區(qū)別,如下圖 4(a)所示。圖 4(b)給出了可解釋 GAN 中不同視覺概念對應卷積核的數(shù)目比例。圖 4(c)則表明,當選擇劃分的卷積核組數(shù)不同時,組數(shù)越多的可解釋 GAN 學習到的視覺概念越詳盡。
圖 4:可解釋 GAN 的定性評估
可解釋 GAN 還支持修改生成圖像上特定的視覺概念。例如,可以通過交換可解釋層中相應的特征圖,來實現(xiàn)圖像之間特定視覺概念的交互,即完成局部 / 全局換臉。
下圖 5 給出了在成對圖像之間交換嘴、頭發(fā)和鼻子的結(jié)果。最后一列給出了修改后的圖像和原始圖像之間的差異。該結(jié)果表明,研究者的方法只修改了局部的視覺概念,而沒有改變其他不相關的區(qū)域。
圖 5:交換生成圖片的特定視覺概念
此外,下圖 6 還給出了他們的方法在交換整張人臉時的效果。
圖 6:交換生成圖片的整張人臉
對于定量分析,研究者采用人臉驗證實驗來評估人臉交換結(jié)果的準確性。具體而言,給定一對人臉圖像,將原始圖像的人臉替換為源圖像的人臉以生成修改后的圖像。然后,測試修改后圖像的人臉和源圖像的人臉是否具有相同的身份。
下表 1 給出了不同方法人臉驗證結(jié)果的準確性,他們的方法在身份保持方面優(yōu)于其他的面部交換方法。
表 1:換臉身份的準確性評估
此外,實驗中還評估了方法在修改特定視覺概念時的局部性。具體來說,研究者計算了 RGB 空間中原始圖像和修改后圖像之間的均方誤差 (MSE),并以特定視覺概念的區(qū)域外 MSE 和區(qū)域內(nèi) MSE 的比值,作為局部性評估的實驗指標。
結(jié)果如下表 2 所示,研究者的修改方法具有更好的局部性,即所修改視覺概念之外的圖片區(qū)域變化較少。
表 2:修改視覺概念的局部性評估
更多的實驗結(jié)果參見論文。
總結(jié)
本工作提出了一種通用方法,可以在無需任何視覺概念的人工標注下,將傳統(tǒng)的 GAN 修改為可解釋的 GAN。在可解釋的 GAN 中,生成器中間層中的每個卷積核在生成不同圖像時可以穩(wěn)定地生成相同的視覺概念。
實驗表明,可解釋 GAN 還使得人們能夠在生成的圖像上修改特定的視覺概念,為 GAN 生成圖像的可控編輯方法提供了一個新的角度。