使用紋理對比度檢測檢測AI生成的圖像
在本篇文章中我們將介紹如何開發(fā)一個深度學(xué)習(xí)模型來檢測人工智能生成的圖像。
大多數(shù)用于檢測人工智能生成圖像的深度學(xué)習(xí)方法取決于生成圖像的方法,或者取決于圖像的性質(zhì)/語義,其中模型只能檢測人工智能生成的人、臉、汽車等特定對象。
但是這篇論文“Rich and Poor Texture Contrast: A Simple yet Effective Approach for AI-generated Image Detection”所提出的方法克服了上述問題,適用范圍更廣。我們將解釋這篇論文,以及它是如何解決許多其他檢測人工智能生成圖像的方法所面臨的問題的。
泛化性問題
當(dāng)我們訓(xùn)練一個模型(如ResNet-50)來檢測人工智能生成的圖像時,模型會從圖像的語義中學(xué)習(xí)。如果訓(xùn)練一個通過使用真實(shí)圖像和人工智能生成的不同汽車圖像來檢測人工智能生成的汽車圖像的模型,那么目前的模型只能從該數(shù)據(jù)中獲得有關(guān)汽車的信息,而對于其他的物體就無法進(jìn)行判別
雖然可以在各種對象的數(shù)據(jù)上進(jìn)行訓(xùn)練,但當(dāng)我們嘗試這樣做時,這種方法慢得多,并且只能夠在未見過的數(shù)據(jù)上給出大約72%的準(zhǔn)確率。雖然可以通過更多的訓(xùn)練和更多的數(shù)據(jù)來提高準(zhǔn)確率,但我們不可能找到無窮無盡的數(shù)據(jù)進(jìn)行訓(xùn)練。
也就是說目前檢測模型的泛化性有很大的問題,為了解決這個問題,論文提出了以下的方法
Smash&Reconstruction
這篇論文提出了一種獨(dú)特的方法來防止模型從圖像的形狀(在訓(xùn)練期間)學(xué)習(xí)人工智能生成的特征。它通過一個名為Smash&Reconstruction的方法來實(shí)現(xiàn)這一點(diǎn)。
在該方法將圖像分成預(yù)定大小的小塊,并對它們進(jìn)行打亂洗牌生成形成新圖像。這只是一個簡單的解釋,因?yàn)樵谛紊赡P妥罱K的輸入圖像之前還有一個額外的步驟。
將圖像分割成小塊后,我們將小塊分成兩組,一組是紋理豐富的小塊,另一組是紋理較差的小塊。
圖像中細(xì)節(jié)豐富的區(qū)域,如物體或兩個對比色區(qū)域之間的邊界,就成為一個豐富的紋理塊。與主要是背景的紋理區(qū)域(如天空或靜止的水)相比,豐富的紋理區(qū)域在像素上有很大的變化。
計算紋理豐富的指標(biāo)
首先將圖像分成預(yù)先確定大小的小塊,如上圖所示。然后找到這些圖像塊的像素梯度(即找出水平方向、對角線方向和反對角線方向上的像素值之差并將它們相加),并將它們分離成豐富紋理塊和紋理較差塊。
與紋理較差的塊相比,紋理豐富的塊具有更高的像素梯度值,計算圖像梯度值得公式如下:
在像素對比度的基礎(chǔ)上對圖像進(jìn)行分離,得到兩幅合成圖像。這一過程是本文稱之為“Smash&Reconstruction”的完整過程。
這樣就讓模型學(xué)習(xí)到得是紋理的細(xì)節(jié),而不是物體的內(nèi)容表征
fingerprint
大多數(shù)基于指紋的方法受到圖像生成技術(shù)的限制,這些模型/算法只能檢測由特定方法/類似方法(如擴(kuò)散、GAN或其他基于CNN的圖像生成方法)生成的圖像。
為了精確地解決這個問題,論文已經(jīng)將這些圖像塊劃分為豐富或貧乏的紋理。然后作者又提出了一種識別人工智能生成圖像指紋的新方法,這也就是論文的標(biāo)題。他們提出在應(yīng)用30個高通濾波器后,找到圖像中豐富和貧乏紋理斑塊之間的對比度。
豐富和貧乏的紋理塊之間的對比度有什么幫助呢?
為了更好理解,我們將圖像并排比較,真實(shí)圖像和人工智能生成的圖像。
這兩張圖像使用肉眼觀看也是很難查看他們的去別的對吧
論文首先使用Smash&Reconstruction 過程:
在每個圖像上應(yīng)用30個高通濾波器后,它們之間的對比度:
從這些結(jié)果中我們可以看到,人工智能生成的圖像與真實(shí)圖像的對比度相比,紋理斑塊豐富和貧乏的對比度要高得多。
這樣我們用肉眼就可以看到區(qū)別了,所以可以將對比度的結(jié)果放入可訓(xùn)練模型,并將結(jié)果數(shù)據(jù)輸入分類器,這樣就是我們這篇論文的模型架構(gòu):
分類器的結(jié)構(gòu)如下:
論文中提到了30個高通濾波器,這些濾波器最初是為隱寫分析而引入的。
注:圖片隱寫的方式有很多種。廣義上,只要通過某種方式將信息隱藏到圖片中而難以通過普通方式發(fā)現(xiàn),就可以稱為圖片隱寫,對于隱寫分析有很多相關(guān)的研究,有興趣的可以查閱相關(guān)資料。
這里的過濾器是使用卷積方法應(yīng)用于圖像的矩陣值,所使用的濾波器是高通濾波器,它只允許圖像的高頻特征通過它。高頻特征通常包括邊緣、精細(xì)細(xì)節(jié)和強(qiáng)度或顏色的快速變化。
除(f)和(g)外,所有濾波器在重新應(yīng)用于圖像之前都以一定角度旋轉(zhuǎn),因此總共形成30個濾波器。這些矩陣的旋轉(zhuǎn)是用仿射變換完成的,而仿射變換是用SciPy完成的。
總結(jié)
論文的結(jié)果已經(jīng)達(dá)到了92%的驗(yàn)證精度,并且據(jù)說如果訓(xùn)練的更多還會有更好的結(jié)果,這是一個非常有意思的研究,我還找到了訓(xùn)練的代碼,有興趣的可以深入研究:
論文:https://arxiv.org/abs/2311.12397
代碼:https://github.com/hridayK/Detection-of-AI-generated-images