自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="mg6aw"></sub>

<cite id="mg6aw"></cite>

<blockquote id="mg6aw"><p id="mg6aw"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

多模態(tài)大模型改造人臉?lè)纻螜z測(cè)，廈大騰訊優(yōu)圖等研究入選CVPR 2025

作者：量子位 2025-04-22 09:22:00

人工智能新聞

語(yǔ)言模態(tài)讓偽造檢測(cè)任務(wù)不止停留在“看得見(jiàn)”，更能“講得清”。

近年來(lái)，人臉合成技術(shù)在快速發(fā)展，相關(guān)檢測(cè)任務(wù)也逐漸從“看得出來(lái)”向“說(shuō)明白為什么”演進(jìn)。除了判斷一張臉是真還是假，更需要模型能“說(shuō)出個(gè)所以然”。

在CVPR 2025的工作《Towards General Visual-Linguistic Face Forgery Detection》中，研究團(tuán)隊(duì)嘗試從視覺(jué)+語(yǔ)言的多模態(tài)視角來(lái)改進(jìn)偽造檢測(cè)方法。

本文提出了一種簡(jiǎn)單有效的訓(xùn)練范式，并圍繞數(shù)據(jù)標(biāo)注問(wèn)題，構(gòu)建了一個(gè)高質(zhì)量的文本生成流程。

為什么要引入語(yǔ)言模態(tài)？

在偽造檢測(cè)任務(wù)中加入語(yǔ)言，有兩個(gè)直接的好處：

第一，提升可解釋性。比起真和假的這種二元黑盒輸出，如果模型能進(jìn)一步說(shuō)明“假在哪里”“怎么假”，無(wú)論是用于分析溯源，還是輔助下游任務(wù)，都更有價(jià)值；
第二，激活預(yù)訓(xùn)練知識(shí)?，F(xiàn)有的一些視覺(jué)backbone（如CLIP、LLaVA）等被證明能力已經(jīng)高于很多純視覺(jué)預(yù)訓(xùn)練模型，而這些模型在下游任務(wù)的潛在的知識(shí)需要語(yǔ)言模態(tài)來(lái)激活。所以我們希望它們的語(yǔ)言模態(tài)不僅能輔助理解圖像細(xì)節(jié)，還能提高模型的遷移能力和泛化表現(xiàn)。

因此，團(tuán)隊(duì)提出了如圖所示的一個(gè)新的多模態(tài)訓(xùn)練框架：

△圖1：視覺(jué)語(yǔ)言偽造檢測(cè)訓(xùn)練范式

該方法的關(guān)鍵在于：不再直接用圖像做二分類(lèi)判斷，而是先為偽造圖像生成文本描述，再通過(guò)這些圖文對(duì)來(lái)聯(lián)合微調(diào)多模態(tài)模型，比如CLIP或mLLM。這樣訓(xùn)練后的模型不僅能判斷偽造，還能在語(yǔ)言中“指出問(wèn)題所在”。

但問(wèn)題也隨之而來(lái)——

數(shù)據(jù)從哪里來(lái)？

多模態(tài)任務(wù)的關(guān)鍵是高質(zhì)量標(biāo)注數(shù)據(jù)。而偽造檢測(cè)任務(wù)相比于傳統(tǒng)的圖文匹配，難度在于：

它是一種更偏底層的任務(wù)，涉及的偽造往往是非常微妙的局部特征（比如鼻梁稍微歪了一點(diǎn)、嘴角顏色糊了一點(diǎn)）；
要準(zhǔn)確地用語(yǔ)言描述這些細(xì)節(jié)，遠(yuǎn)沒(méi)有那么容易。

目前社區(qū)主流的做法大概有兩類(lèi)：

人工眾包標(biāo)注（如DD-VQA）；
利用大模型（如GPT-4o）生成偽造描述。

但實(shí)驗(yàn)發(fā)現(xiàn)，兩種方式都存在較明顯的問(wèn)題，尤其在高質(zhì)量偽造圖像中，容易出現(xiàn)“看花眼”的情況——模型或者標(biāo)注人可能會(huì)誤判沒(méi)有問(wèn)題的區(qū)域，產(chǎn)生所謂的“語(yǔ)言幻覺(jué)”。

如下圖所示，僅嘴部被修改的偽造圖，GPT和人工標(biāo)注都錯(cuò)誤地指出了鼻子區(qū)域：

△圖2：現(xiàn)有偽造文本標(biāo)注容易出現(xiàn)幻覺(jué)

此外，真實(shí)圖像該怎么標(biāo)注？要不要也寫(xiě)一段文字描述？怎么寫(xiě)才不誤導(dǎo)模型？這些問(wèn)題都說(shuō)明：需要一個(gè)系統(tǒng)化的、高可信度的標(biāo)注流程。

FFTG偽造文本生成流程

針對(duì)上述挑戰(zhàn)，研究團(tuán)隊(duì)提出了FFTG（人臉偽造文本生成器），這是一種新穎的標(biāo)注流程，通過(guò)結(jié)合偽造掩碼指導(dǎo)和結(jié)構(gòu)化提示策略，生成高精度的文本標(biāo)注。

△圖3：FFTG標(biāo)注流程

FFTG 標(biāo)注流程主要分為兩個(gè)核心階段：原始標(biāo)注生成 (Raw Annotation Generation) 和標(biāo)注優(yōu)化 (Annotation Refinement)。

第一階段：原始標(biāo)注生成

在這一階段，F(xiàn)FTG利用真實(shí)圖像和對(duì)應(yīng)的偽造圖像，通過(guò)精確的計(jì)算分析生成高準(zhǔn)確度的初始標(biāo)注：

1、掩碼生成 (Mask Generation)：

通過(guò)計(jì)算真實(shí)圖像和偽造圖像之間的像素級(jí)差異，生成偽造掩碼 M

掩碼值被歸一化到 [0,1] 范圍，突顯操作強(qiáng)度較大的區(qū)域

2、偽造區(qū)域提取 (Forgery Region Extraction)：

基于面部特征點(diǎn)將人臉劃分為四個(gè)關(guān)鍵區(qū)域：嘴部、鼻子、眼睛和整個(gè)臉部

計(jì)算每個(gè)區(qū)域內(nèi)掩碼 M 的平均值，并設(shè)置閾值 θ 判斷該區(qū)域是否被篡改
形成偽造區(qū)域列表，并從中隨機(jī)選擇一個(gè)區(qū)域進(jìn)行下一步分析

3、偽造類(lèi)型判定 (Forgery Type Decision)：設(shè)計(jì)了五種典型的偽造類(lèi)型判斷標(biāo)準(zhǔn)：

顏色差異 (Color Difference)：通過(guò) Lab 色彩空間中的均值和方差差異檢測(cè)

模糊 (Blur)：使用拉普拉斯算子量化局部模糊程度
結(jié)構(gòu)異常 (Structure Abnormal)：使用 SSIM 指數(shù)衡量結(jié)構(gòu)變形
紋理異常 (Texture Abnormal)：通過(guò)灰度共生矩陣 (GLCM) 對(duì)比度衡量紋理清晰度
邊界融合 (Blend Boundary)：分析融合邊界的梯度變化、邊緣過(guò)渡和頻域特征

4、自然語(yǔ)言描述轉(zhuǎn)換：

將識(shí)別出的偽造區(qū)域和類(lèi)型轉(zhuǎn)換為自然語(yǔ)言表達(dá)

如”Texture Abnormal”轉(zhuǎn)換為”lacks natural texture”，”Color Difference”轉(zhuǎn)換為”has inconsistent colors”

此階段生成的原始標(biāo)注雖然結(jié)構(gòu)相對(duì)固定，但準(zhǔn)確度極高，為后續(xù)優(yōu)化提供了可靠基礎(chǔ)。

第二階段：標(biāo)注優(yōu)化

為增加標(biāo)注的多樣性和自然流暢性，F(xiàn)FTG 使用多模態(tài)大語(yǔ)言模型（如 GPT-4o-mini）進(jìn)行標(biāo)注優(yōu)化，同時(shí)設(shè)計(jì)了全面的提示策略防止幻覺(jué)：

1、視覺(jué)提示 (Visual Prompt)：

將真實(shí)和偽造人臉圖像作為配對(duì)輸入提供給大模型

這種對(duì)比方式使模型能通過(guò)直接比較識(shí)別偽造痕跡，減少幻覺(jué)
保持偽造檢測(cè)視角，避免生成與偽造無(wú)關(guān)的描述

2、指導(dǎo)提示 (Guide Prompt)：

將前一階段生成的原始標(biāo)注作為指導(dǎo)提供給大模型

附帶詳細(xì)解釋每種偽造類(lèi)型的判定標(biāo)準(zhǔn)（如紋理異常是如何通過(guò) GLCM 分析確定的）
強(qiáng)化技術(shù)依據(jù)，減少主觀(guān)臆斷

3、任務(wù)描述提示 (Task Description Prompt)：

設(shè)定專(zhuān)家級(jí)偽造檢測(cè)任務(wù)情境

提供分析視覺(jué)證據(jù)和生成綜合描述的具體要求
引導(dǎo)模型進(jìn)行逐步推理

4、預(yù)定義提示 (Pre-defined Prompt)：

規(guī)定輸出格式（如 JSON 結(jié)構(gòu)）

要求包含特定短語(yǔ)（如”This is a real/fake face”）
確保不同樣本的標(biāo)注格式一致

下游微調(diào)：雙路模型訓(xùn)練策略

有了高質(zhì)量的圖文標(biāo)注數(shù)據(jù)，接下來(lái)的問(wèn)題是：如何充分利用這些數(shù)據(jù)來(lái)訓(xùn)練模型？研究團(tuán)隊(duì)提出了兩種不同的訓(xùn)練策略，分別針對(duì)CLIP架構(gòu)和多模態(tài)大語(yǔ)言模型（MLLM），注意本文的目的主要是驗(yàn)證數(shù)據(jù)的有效性，所以才去了相對(duì)簡(jiǎn)單的微調(diào)方式：

CLIP三分支訓(xùn)練架構(gòu)

對(duì)于CLIP這類(lèi)經(jīng)典的雙塔結(jié)構(gòu)模型，團(tuán)隊(duì)設(shè)計(jì)了一種三分支聯(lián)合訓(xùn)練框架，如圖4所示。

這種訓(xùn)練方法結(jié)合了單模態(tài)和多模態(tài)的學(xué)習(xí)目標(biāo)：

1、圖像特征分類(lèi)（Image Feature Classification）：直接使用圖像編碼器提取的特征進(jìn)行真?zhèn)味诸?lèi)，保證模型在純視覺(jué)輸入下的基本檢測(cè)能力。

2、多模態(tài)特征對(duì)齊（Multimodal Feature Alignment）：通過(guò)對(duì)比學(xué)習(xí)，使圖像特征和對(duì)應(yīng)的文本特征在表示空間中對(duì)齊，并且激活CLIP預(yù)訓(xùn)練時(shí)獲得的跨模態(tài)理解能力。

3、多模態(tài)特征融合分類(lèi)（Multimodal Feature Classification）：通過(guò)注意力機(jī)制融合視覺(jué)和文本特征，引導(dǎo)模型學(xué)習(xí)跨模態(tài)的偽造證據(jù)整合能力

這三個(gè)分支的損失函數(shù)共同優(yōu)化，使模型既能獨(dú)立運(yùn)行，又能充分利用文本信息來(lái)增強(qiáng)檢測(cè)能力。

MLLM微調(diào)方法

對(duì)于如LLaVA這類(lèi)多模態(tài)大語(yǔ)言模型，采用了一種更為直接的微調(diào)方法：

△圖4：MLLM微調(diào)架構(gòu)

MLLM通常由三部分組成：視覺(jué)編碼器、對(duì)齊投影器和大語(yǔ)言模型。策略是：

固定預(yù)訓(xùn)練好的視覺(jué)編碼器參數(shù)，專(zhuān)注于微調(diào)對(duì)齊投影器和大語(yǔ)言模型部分
設(shè)計(jì)簡(jiǎn)潔有效的提示模板：”Do you think this image is of a real face or a fake one? Please provide your reasons.”
這種雙部分提示不僅引導(dǎo)模型做出二分判斷，還要求提供可解釋的理由。

實(shí)驗(yàn)：多維度驗(yàn)證FFTG的有效性

為了全面評(píng)估提出的方法，團(tuán)隊(duì)在多個(gè)偽造檢測(cè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn)，包括FaceForensics++、DFDC-P、DFD、CelebDF等。

標(biāo)注質(zhì)量評(píng)估

首先，比較了不同標(biāo)注方法的質(zhì)量：

△表1：不同標(biāo)注方法的質(zhì)量對(duì)比

結(jié)果表明，F(xiàn)FTG在所有指標(biāo)上都顯著優(yōu)于現(xiàn)有方法。特別是在精度上，F(xiàn)FTG比人工標(biāo)注高出27個(gè)百分點(diǎn)，比直接使用GPT-4o-mini高出28個(gè)百分點(diǎn)，證明了該研究的掩碼引導(dǎo)和結(jié)構(gòu)化提示策略能有效減少”幻覺(jué)”問(wèn)題。

跨數(shù)據(jù)集泛化能力評(píng)估

在FF++數(shù)據(jù)集上訓(xùn)練模型，并在其他四個(gè)未見(jiàn)過(guò)的數(shù)據(jù)集上測(cè)試，評(píng)估方法的泛化能力：

△表2：跨數(shù)據(jù)集泛化性能對(duì)比

在所有未見(jiàn)過(guò)的數(shù)據(jù)集上，該研究的方法都取得了性能提升。

可視化分析

團(tuán)隊(duì)對(duì)模型的注意力機(jī)制進(jìn)行了可視化分析，進(jìn)一步驗(yàn)證了FFTG的有效性：

△圖5：不同方法的注意力可視化對(duì)比

可以看到，使用FFTG標(biāo)注訓(xùn)練的模型能夠更精確地關(guān)注真正的偽造區(qū)域，而基線(xiàn)方法的注意力更為分散或錯(cuò)位。例如，在NeuralTextures的例子中，該方法準(zhǔn)確聚焦在嘴部區(qū)域的微妙變化，而其他方法則在未被篡改的區(qū)域產(chǎn)生錯(cuò)誤激活。

總結(jié)

語(yǔ)言模態(tài)讓偽造檢測(cè)任務(wù)不止停留在“看得見(jiàn)”，更能“講得清”。

如果你也關(guān)注偽造檢測(cè)的可解釋性和泛化性，歡迎進(jìn)一步了解。為了方便社區(qū)復(fù)現(xiàn)與研究，團(tuán)隊(duì)已經(jīng)將標(biāo)注流程和生成數(shù)據(jù)集開(kāi)放：https://github.com/skJack/VLFFD

責(zé)任編輯：張燕妮來(lái)源：量子位

模型檢測(cè)AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="i46yw"><i id="i46yw"></i></sub>

<u id="i46yw"></u>

<cite id="i46yw"></cite>

<cite id="i46yw"></cite>