一眼假!GPT4V可有效識(shí)別DeepFake圖像! 精華
引言:AI時(shí)代的信息真?zhèn)伪孀R(shí)
在人工智能迅猛發(fā)展的今天,我們面臨著前所未有的信息真?zhèn)伪孀R(shí)挑戰(zhàn)。AI技術(shù),尤其是深度學(xué)習(xí)模型,已經(jīng)能夠生成極其逼真的圖片、音頻和視頻內(nèi)容,這些內(nèi)容被統(tǒng)稱為DeepFakes。DeepFakes的出現(xiàn)給信息的可信度和數(shù)字媒體的信任帶來了嚴(yán)重的挑戰(zhàn)。因此,識(shí)別DeepFakes成為了媒體取證領(lǐng)域中一個(gè)緊迫且關(guān)鍵的任務(wù)。
這篇論文研究了多模態(tài)大語言模型(LLMs)在DeepFakes檢測上的作用。通過定性和定量實(shí)驗(yàn),表明這些模型可以在不需要編程的情況下,揭示人工智能生成的圖像。同時(shí),討論了這些模型在媒體取證任務(wù)中的局限性,并提出了可能的改進(jìn)方法。
論文標(biāo)題:
Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics
論文鏈接:
???https://arxiv.org/pdf/2403.14077.pdf??
多模態(tài)大語言模型在DeepFake檢測中的應(yīng)用
1. 多模態(tài)LLMs在文本和圖像理解中的作用
多模態(tài)大語言模型(LLMs)是基于大規(guī)模神經(jīng)網(wǎng)絡(luò)的模型,具有數(shù)十億參數(shù),能夠執(zhí)行與自然語言相關(guān)的任務(wù)。這些模型通常采用變壓器架構(gòu),特別是其注意力機(jī)制,能夠評(píng)估不同單詞對(duì)理解文本的重要性。LLMs通過在大量未標(biāo)記文本上的訓(xùn)練,捕捉人類語言的統(tǒng)計(jì)模式,并可針對(duì)其他應(yīng)用進(jìn)行調(diào)整。最新的LLMs集成了視覺-語言模型,使其具備了多模態(tài)理解能力,能夠接受圖像作為輸入并對(duì)其進(jìn)行文本提示,從而在圖像和視頻內(nèi)容的理解上展現(xiàn)出強(qiáng)大的能力。
2. DeepFake的定義及其對(duì)信息可信度的影響
DeepFake是指使用人工智能生成的媒體內(nèi)容,它們因被用作散布虛假信息的手段而引起了人們的關(guān)注。DeepFake面部圖像是最早也是最著名的例子,它們使用生成對(duì)抗網(wǎng)絡(luò)(GANs)和擴(kuò)散模型創(chuàng)建,具有極高的細(xì)節(jié)真實(shí)性,挑戰(zhàn)了人類辨別真實(shí)人臉圖像的能力。DeepFake的使用嚴(yán)重破壞了信息的可信度和數(shù)字媒體中的信任。
實(shí)驗(yàn)設(shè)計(jì)與評(píng)估
1. 實(shí)驗(yàn)?zāi)繕?biāo)與過程
本研究的目標(biāo)是全面且定量地評(píng)估多模態(tài)LLMs檢測DeepFakes的能力。實(shí)驗(yàn)設(shè)計(jì)旨在展示多模態(tài)LLMs在揭露AI生成的人臉圖像方面的可行性和性能。實(shí)驗(yàn)過程包括為輸入的人臉圖像配上文本提示,并要求模型給出是或否的回答,以此來判斷伴隨的圖像是否為AI生成。
2. 數(shù)據(jù)集和文本提示選擇
實(shí)驗(yàn)基于FFHQ數(shù)據(jù)集的1000張真實(shí)人臉圖像和數(shù)據(jù)集的2000張AI生成圖像。考慮了兩種AI生成模型,即StyleGAN2和Latent Diffusion,并采用了數(shù)據(jù)集的兩種評(píng)估協(xié)議。文本提示是實(shí)驗(yàn)的關(guān)鍵,因?yàn)樗怯脩襞c多模態(tài)LLM聊天機(jī)器人進(jìn)行媒體取證任務(wù)交互的唯一接口。實(shí)驗(yàn)中考慮了不同豐富程度的文本提示,以有效地引導(dǎo)LLMs給出有意義的回應(yīng)。
3. 性能評(píng)價(jià)指標(biāo)與模型參數(shù)設(shè)置
性能評(píng)價(jià)指標(biāo)包括分類準(zhǔn)確率和接收者操作特征曲線(ROC)下的面積(AUC)得分。AUC得分是[0,1]之間的實(shí)數(shù),數(shù)值越高代表性能越好。模型參數(shù)設(shè)置方面,所有批量測試都通過API調(diào)用進(jìn)行。對(duì)于Gemini模型,使用了免費(fèi)的Gemini-1.0-pro-vision,支持每分鐘最多60個(gè)請(qǐng)求。
實(shí)驗(yàn)結(jié)果:多模態(tài)LLMs在DeepFake檢測中的表現(xiàn)
1. 定性和定量結(jié)果展示
在對(duì)多模態(tài)大語言模型(LLMs)進(jìn)行DeepFake檢測的實(shí)驗(yàn)中,觀察到了一些關(guān)鍵的定性和定量結(jié)果。定性結(jié)果表明,多模態(tài)LLMs能夠在一定程度上區(qū)分真實(shí)和AI生成的圖像,這一能力是基于它們的語義理解。我們能夠在一些案例中成功識(shí)別出AI生成的面孔和真實(shí)面孔。然而,這種識(shí)別能力并不是絕對(duì)的,也存在一些失敗的案例。
定量結(jié)果顯示,多模態(tài)LLMs在識(shí)別AI生成的圖像方面的表現(xiàn)是令人滿意的,其AUC(曲線下面積)得分約為75%。但是,它們?cè)谧R(shí)別真實(shí)圖像方面的準(zhǔn)確性明顯較低。這種差異產(chǎn)生的原因是,從LLMs的角度來看,缺乏語義不一致并不自動(dòng)證實(shí)圖像的真實(shí)性。
2. GPT4V與Gemini 1.0 Pro性能對(duì)比
在對(duì)比GPT4V和Gemini 1.0 Pro在DeepFake檢測方面的性能時(shí),發(fā)現(xiàn)GPT4V在原始數(shù)據(jù)上的AUC得分為79.5%,而在StyleGAN生成的面孔圖像上的AUC得分為77.2%。相比之下,Gemini 1.0 Pro在性能上略有下降。在實(shí)際應(yīng)用中,盡管Gemini 1.0 Pro在某些案例中能夠準(zhǔn)確地給出是/否的結(jié)果,但其支持證據(jù)并不充分。
3. 與現(xiàn)有DeepFake檢測方法的比較
將多模態(tài)LLMs的性能與現(xiàn)有的DeepFake檢測方法進(jìn)行比較時(shí),發(fā)現(xiàn)GPT4V和Gemini 1.0 pro的性能與早期的方法相當(dāng)或略好,但與更近期的檢測方法相比則不具競爭力?,F(xiàn)有的有效DeepFake檢測方法能夠捕捉到訓(xùn)練真實(shí)和AI生成圖像之間的信號(hào)級(jí)統(tǒng)計(jì)差異。與之相反,多模態(tài)LLMs的決策主要基于語義級(jí)異常,這通過自然語言中的額外解釋反映出來。因此,即使LLM沒有專門為DeepFake面部檢測設(shè)計(jì)和訓(xùn)練,其包含的知識(shí)也可以轉(zhuǎn)移到這項(xiàng)任務(wù)上。
提升多模態(tài)LLMs檢測能力的策略
1. 文本提示的質(zhì)量對(duì)性能的影響
文本提示的質(zhì)量對(duì)多模態(tài)LLMs在DeepFake檢測中的性能有著重要影響。研究發(fā)現(xiàn),與直接圖像取證相關(guān)的提示導(dǎo)致了高拒絕率,尤其是那些基于可能性評(píng)估和要求在真實(shí)或偽造之間做出選擇的提示。而那些要求模型識(shí)別合成跡象的提示,導(dǎo)致了較少的拒絕,并且預(yù)測準(zhǔn)確性相當(dāng)。
2. 查詢次數(shù)和數(shù)據(jù)集大小對(duì)結(jié)果的影響
查詢次數(shù)的增加與AUC得分的提高呈正相關(guān),這表明重復(fù)查詢可能作為一種增強(qiáng)性能的集成方法。此外,數(shù)據(jù)集大小對(duì)GPT4V檢測性能的影響表明,隨著數(shù)據(jù)集的增大,對(duì)StyleGAN2和Latent Diffusion模型的性能趨于收斂。
3. 鏈?zhǔn)剿伎寂c少數(shù)樣本提示的初步探索
研究者還探索了使用鏈?zhǔn)剿伎继崾竞蜕贁?shù)樣本提示來提高多模態(tài)LLMs的性能。這些提示通過提供逐步指導(dǎo),在與LLM的交互對(duì)話中引出更相關(guān)的響應(yīng)。初步結(jié)果表明,使用更精心設(shè)計(jì)的提示可以提高性能。但是,研究者等待LLMs支持一致的API調(diào)用以進(jìn)一步探索這些策略。
結(jié)論與展望
盡管多模態(tài)LLMs在識(shí)別AI生成圖像方面取得了一定的成效,但它們?cè)谧R(shí)別真實(shí)圖像的準(zhǔn)確性方面表現(xiàn)較差。這種差異源于缺乏語義不一致并不自動(dòng)確認(rèn)圖像的真實(shí)性。此外,多模態(tài)LLMs目前還沒有結(jié)合信號(hào)線索或數(shù)據(jù)驅(qū)動(dòng)方法來執(zhí)行這項(xiàng)任務(wù)。雖然它們不依賴信號(hào)線索,可以識(shí)別任何生成模型創(chuàng)建的AI圖像,但其性能仍然落后于最新的檢測方法。
未來的研究將探索更復(fù)雜的提示策略,并將這些模型與傳統(tǒng)的信號(hào)或數(shù)據(jù)驅(qū)動(dòng)檢測技術(shù)相結(jié)合,以提高多模態(tài)LLMs在媒體取證中的性能。此外,還將擴(kuò)展多模態(tài)LLMs的應(yīng)用范圍,包括更廣泛的媒體形式,特別是視頻分析,并提高對(duì)圖像-文本錯(cuò)配的檢測能力。
本文轉(zhuǎn)載自夕小瑤科技說,作者:芒果
原文鏈接:??https://mp.weixin.qq.com/s/wOJ4WF2KQorhOgFeeweydQ??
