自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

KDD2025|小紅書聯(lián)合中科大提出1.44M輕量高效AI圖像檢測(cè)模型,超SOTA 4.5個(gè)點(diǎn)

人工智能
小紅書聯(lián)合中國(guó)科學(xué)技術(shù)大學(xué)給出了解決方案,僅用 1.44M 參數(shù)量實(shí)現(xiàn)了通用 AI 圖片檢測(cè),在 33 個(gè)測(cè)試子集上達(dá)到 96.7% 的準(zhǔn)確率,超 SOTA 模型 4.5 個(gè)百分點(diǎn)。這項(xiàng)研究目前已經(jīng)被 KDD 2025 接收。

當(dāng)下,AI 生成圖像的技術(shù)足以以假亂真,在社交媒體肆意傳播。如何對(duì)不同生成模型實(shí)現(xiàn)通用檢測(cè)?小紅書聯(lián)合中國(guó)科學(xué)技術(shù)大學(xué)給出了解決方案,僅用 1.44M 參數(shù)量實(shí)現(xiàn)了通用 AI 圖片檢測(cè),在 33 個(gè)測(cè)試子集上達(dá)到 96.7% 的準(zhǔn)確率,超 SOTA 模型 4.5 個(gè)百分點(diǎn)。這項(xiàng)研究目前已經(jīng)被 KDD 2025 接收。

論文鏈接:

https://arxiv.org/abs/2408.06741

代碼鏈接:

https://github.com/Ouxiang-Li/SAFE


圖片

01 AI圖像共性:源于成像機(jī)制

要實(shí)現(xiàn)通用的 AI 圖像檢測(cè),核心問(wèn)題是如何泛化到未知的生成模型上去,現(xiàn)在主流的生成模型包括生成對(duì)抗網(wǎng)絡(luò) GANs 和擴(kuò)散模型 DMs。

研究團(tuán)隊(duì)從生成模型架構(gòu)的共性出發(fā),期望從 AI 圖像和真實(shí)圖像的成像機(jī)制的差異中找到突破口。

圖片

在 GANs 中,先通過(guò)全連接層把低分辨率的潛在特征變成高分辨率,然后用上采樣和卷積操作合成圖像。DMs 呢,先把有噪圖像通過(guò)池化和卷積操作降維,再通過(guò)同樣的操作升維預(yù)測(cè)噪聲。

這兩種模型在合成圖像時(shí),都大量使用上采樣和卷積,而這兩個(gè)操作在數(shù)值計(jì)算上相當(dāng)于對(duì)像素值加權(quán)平均,會(huì)讓合成圖像相鄰像素的局部相關(guān)性變強(qiáng),留下獨(dú)特的 “偽影特征”,這就是 AI 圖像檢測(cè)的關(guān)鍵線索。

02 檢測(cè)方法”跑偏“:錯(cuò)在訓(xùn)練策略

想象一下,你要在一堆真假難辨的畫作里找出贗品,如果用來(lái)鑒定的方法本身就有缺陷,那肯定很難完成任務(wù)。

現(xiàn)有的 AI 圖像檢測(cè)方法,就面臨著這樣的困境。

當(dāng)前的 AI 圖像檢測(cè)方法大多將重點(diǎn)放在挖掘真實(shí)圖像與 AI 圖像之間的通用差異,,也就是“通用偽影特征”,卻忽略了訓(xùn)練過(guò)程中的關(guān)鍵問(wèn)題。

研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前的訓(xùn)練模式存在兩大問(wèn)題。

圖片

第一個(gè)問(wèn)題是“弱化的偽影特征”。

AI 圖像在生成過(guò)程中,由于使用了上采樣和卷積等操作,圖像像素之間的聯(lián)系變得更加緊密,從而留下了可供檢測(cè)的痕跡。然而,許多檢測(cè)方法在對(duì)圖像進(jìn)行預(yù)處理時(shí),常常采用下采樣操作來(lái)統(tǒng)一圖像尺寸,這一操作會(huì)“抹除”那些細(xì)微的痕跡,大大增加了檢測(cè)的難度。


第二個(gè)問(wèn)題是“過(guò)擬合的偽影特征”。

現(xiàn)有的檢測(cè)方法在訓(xùn)練時(shí),數(shù)據(jù)增強(qiáng)方式較為單一,比如僅僅進(jìn)行水平翻轉(zhuǎn)操作。這就使得模型過(guò)度適應(yīng)了訓(xùn)練數(shù)據(jù)中的特定特征,出現(xiàn)過(guò)擬合現(xiàn)象。一旦遇到未曾見過(guò)的 AI 圖像,模型就無(wú)法準(zhǔn)確識(shí)別,泛化性能較差。

03 簡(jiǎn)單圖像變換:有效去偏

為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了 SAFE,它憑借三種簡(jiǎn)單的圖像變換直擊難題。

第一是痕跡保留(Artifact Preservation)。

SAFE 在圖像預(yù)處理階段,舍棄了傳統(tǒng)的下采樣(Resize)操作,改為采用裁剪(Crop)操作。在訓(xùn)練過(guò)程中進(jìn)行隨機(jī)裁剪(RandomCrop),測(cè)試時(shí)則使用中心裁剪(CenterCrop)。這樣一來(lái),AI 圖像中的細(xì)節(jié)以及像素之間的微妙聯(lián)系得以保留,方便檢測(cè)器發(fā)現(xiàn)那些細(xì)微的“破綻”,顯著提升了捕捉 AI 偽影的能力。

第二是不變性增強(qiáng)(Invariant Augmentation)。

SAFE 引入了 ColorJitter 和 RandomRotation 兩種數(shù)據(jù)增強(qiáng)方式。ColorJitter 通過(guò)在色彩空間中對(duì)圖像進(jìn)行調(diào)整,能夠有效減少因顏色模式差異而帶來(lái)的偏差。RandomRotation 則讓模型在不同旋轉(zhuǎn)角度下依然能夠聚焦于像素之間的聯(lián)系,避免受到與旋轉(zhuǎn)相關(guān)的無(wú)關(guān)特征的干擾,增強(qiáng)了模型對(duì)圖像旋轉(zhuǎn)的適應(yīng)能力。

第三是局部感知(Local Awareness)。

SAFE 提出了基于 Patch 的隨機(jī)掩碼策略(RandomMask)。在訓(xùn)練時(shí),按照一定概率對(duì)圖像實(shí)施隨機(jī)掩碼,引導(dǎo)模型將注意力集中在局部區(qū)域,進(jìn)而提升模型的局部感知能力。令人驚喜的是,即使圖像的大部分區(qū)域被掩蔽,模型依然能夠依據(jù)剩余的未掩蔽部分準(zhǔn)確判斷圖像的真?zhèn)巍?/p>

此外,SAFE 利用簡(jiǎn)單的離散小波變換(DWT)來(lái)提取高頻特征,并將其作為檢測(cè)的偽影特征。由于 AI 圖像與自然圖像在高頻分量上存在明顯差異,DWT 能夠很好地保留圖像的空間結(jié)構(gòu),有效提取這些差異特征。

04 實(shí)驗(yàn)對(duì)比:輕量且高效

研究團(tuán)隊(duì)開展了大量實(shí)驗(yàn),以驗(yàn)證 SAFE 的實(shí)際效果。

在實(shí)驗(yàn)設(shè)置上,訓(xùn)練數(shù)據(jù)選用 ProGAN 生成的 AI 圖像以及對(duì)應(yīng)的真實(shí)圖像,測(cè)試數(shù)據(jù)則廣泛涵蓋了多種來(lái)源的自然圖像,以及由 26 種不同生成模型所生成的 AI 圖像,包括常見的 GANs 和 DMs 等。并且選取了 10 種極具代表性的方法作為基線進(jìn)行對(duì)比,通過(guò)精確的分類準(zhǔn)確率(ACC)和平均精度(AP)來(lái)衡量檢測(cè)效果。

4.1 泛化性能對(duì)比

SAFE 在 33 個(gè)測(cè)試子集上達(dá)到了平均 96.7% 的準(zhǔn)確率,超過(guò) SOTA 方法 4.5 個(gè)點(diǎn)。

值得注意的是,SAFE只有 1.44M 的參數(shù)量,在實(shí)際推理時(shí)的 FLOPs 僅為 2.30B,相比于 SOTA 方法有 50 多倍的效率提升,便于工業(yè)部署。

圖片

針對(duì)最新的基于 DiTs 的生成器,研究團(tuán)隊(duì)構(gòu)建了 DiTFake 測(cè)試集,包含最新的生成模型Flux、SD3 以及 PixArt。SAFE 在 DiTFake 上表現(xiàn)堪稱卓越,平均準(zhǔn)確率達(dá)到 99.4%,對(duì)新型生成器的泛化能力極強(qiáng)。

圖片

4.2 即插即用的特性

值得一提的是,由于 SAFE 具有模型無(wú)關(guān)的特性,研究人員將其提出的圖像變換作為一個(gè)即插即用的模塊,應(yīng)用到現(xiàn)有的檢測(cè)方法之中。從 GenImage 測(cè)試集的對(duì)比結(jié)果來(lái)看,這一應(yīng)用帶來(lái)了令人驚喜的效果,檢測(cè)性能得到了一致提升。

圖片


4.3 消融實(shí)驗(yàn)

研究團(tuán)隊(duì)還進(jìn)行了充分的消融實(shí)驗(yàn),深入探究模型各個(gè)組成部分的具體作用。

在圖像預(yù)處理環(huán)節(jié),重點(diǎn)聚焦于裁剪(Crop)操作的效能探究。實(shí)驗(yàn)數(shù)據(jù)有力地證實(shí),在訓(xùn)練進(jìn)程中,裁剪操作相較于傳統(tǒng)的下采樣(Resize),具有不可替代的關(guān)鍵作用。

即使測(cè)試圖片在傳輸過(guò)程中不可避免地經(jīng)歷了下采樣操作,基于裁剪方法比基于下采樣方法訓(xùn)練出的模型仍表現(xiàn)出更好的檢測(cè)效果。

圖片

對(duì)于數(shù)據(jù)增強(qiáng)技術(shù),分別對(duì) ColorJitter、RandomRotation 和 RandomMask 進(jìn)行了單獨(dú)和組合的效果評(píng)估。這三種數(shù)據(jù)增強(qiáng)技術(shù)不僅各自都能發(fā)揮有效的作用,而且當(dāng)它們共同作用時(shí),效果更加顯著,能夠進(jìn)一步提升檢測(cè)性能。

圖片

在特征提取方面,研究團(tuán)隊(duì)對(duì)不同的圖像處理算子進(jìn)行了消融,包括用原圖(Naive)、頻域變換算子(FFT、DCT、DWT)、邊緣提取算子(Sobel、Laplace)以及不同的頻帶(LL、LH、HL、HH)。

圖片

因?yàn)?AI 圖像在高頻部分的擬合能力相對(duì)較弱,通過(guò)高頻信息的差異進(jìn)行判別展現(xiàn)出了卓越的性能。在高頻信息提取上,F(xiàn)FT 和 DCT 仍表現(xiàn)出和 DWT 相當(dāng)?shù)男阅?,說(shuō)明簡(jiǎn)單的頻域變換已經(jīng)能夠很好地進(jìn)行 AI 圖像檢測(cè)。

SAFE 為 AI 圖像檢測(cè)領(lǐng)域開辟了新的方向。它促使我們重新思考復(fù)雜的人工設(shè)計(jì)特征的必要性,也啟發(fā)后續(xù)研究可以從優(yōu)化訓(xùn)練模式入手,減少訓(xùn)練偏差。

05 結(jié)論與展望

本論文通過(guò)對(duì)現(xiàn)有 AI 生成圖像檢測(cè)方法的重新審視,提出了一個(gè)新的問(wèn)題設(shè)定,構(gòu)建了更具挑戰(zhàn)性的 Chameleon 數(shù)據(jù)集,并設(shè)計(jì)了一個(gè)融合多專家特征的檢測(cè)器 AIDE。實(shí)驗(yàn)結(jié)果表明,AIDE 在現(xiàn)有的兩個(gè)流行基準(zhǔn)(AIGCDetectBenchmark 和GenImage)上取得了顯著的性能提升,分別比現(xiàn)有的最先進(jìn)方法提高了 3.5% 和 4.6% 的準(zhǔn)確率。然而,在我們提出的 Chameleon 基準(zhǔn)上,盡管 AIDE 取得了最好的性能,但與現(xiàn)有基準(zhǔn)相比,仍存在較大的差距。

這表明,檢測(cè) AI 生成圖像的任務(wù)仍然具有很大的挑戰(zhàn)性,需要未來(lái)進(jìn)一步的研究和改進(jìn)。我們希望我們的工作能夠?yàn)檫@一領(lǐng)域的研究提供新的思路和方向,推動(dòng) AI 生成圖像檢測(cè)技術(shù)的發(fā)展。

盡管AIDE模型在AI生成圖像檢測(cè)領(lǐng)域取得了顯著進(jìn)展,但研究者們?nèi)杂?jì)劃在未來(lái)的工作中進(jìn)一步優(yōu)化模型架構(gòu),此外,研究者們還計(jì)劃擴(kuò)大Chameleon數(shù)據(jù)集的規(guī)模,涵蓋更多類別、更多場(chǎng)景、更多生成模型的圖像,以推動(dòng)AI生成圖像檢測(cè)技術(shù)的進(jìn)一步發(fā)展,敬請(qǐng)期待!

同時(shí)團(tuán)隊(duì)還有一篇 AI 圖像鑒別的相關(guān)工作,提出了行業(yè)稀缺的全手工標(biāo)注“幻像熔爐” Chameleon基準(zhǔn)和行業(yè)領(lǐng)先的“超級(jí)偵探” AIDE檢測(cè)方法,歡迎閱讀。

責(zé)任編輯:龐桂玉 來(lái)源: 小紅書技術(shù)REDtech
相關(guān)推薦

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2024-11-04 13:30:00

模型AI

2025-02-25 10:04:10

2024-10-12 10:57:39

2025-02-20 13:50:00

AI生成訓(xùn)練

2023-03-17 07:59:57

AI數(shù)字化

2024-11-04 08:30:00

2023-07-14 15:46:00

圖像語(yǔ)言

2021-12-06 09:53:09

自然語(yǔ)言神經(jīng)網(wǎng)絡(luò)人工智能

2025-04-03 09:27:44

2024-12-02 10:40:00

AI模型

2025-04-01 09:32:00

模型訓(xùn)練AI

2024-06-17 07:10:00

2024-12-04 09:15:00

AI模型

2024-12-23 15:30:00

模型AI測(cè)試

2024-09-26 10:04:20

2025-01-16 10:20:00

AI生成動(dòng)畫

2024-01-08 08:23:08

OpenCV機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺

2023-08-21 13:49:00

圖像技術(shù)

2025-04-01 09:20:00

模型預(yù)測(cè)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)