自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="m8iwt"><big id="m8iwt"></big></ruby>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

哈工大南洋理工提出全球首個(gè)「多模態(tài)DeepFake檢測(cè)定位」模型：讓AIGC偽造無(wú)處可藏

作者：新智元 2023-04-10 16:34:46

人工智能新聞

為了應(yīng)對(duì)多模態(tài)假新聞，本文提出檢測(cè)并定位多模態(tài)媒體篡改任務(wù)（DGM）。與現(xiàn)有的單模態(tài)DeepFake檢測(cè)任務(wù)相比，DGM不僅判斷輸入圖像-文本對(duì)的真假，也嘗試定位篡改內(nèi)容（例如圖像篡改區(qū)域和文本篡改單詞）。

由于如Stable Diffusion等視覺(jué)生成模型的快速發(fā)展，高保真度的人臉圖片可以自動(dòng)化地偽造，制造越來(lái)越嚴(yán)重的DeepFake問(wèn)題。

隨著如ChatGPT等大型語(yǔ)言模型的出現(xiàn)，大量假本文也可以容易地生成并惡意地傳播虛假信息。

為此，一系列單模態(tài)檢測(cè)模型被設(shè)計(jì)出來(lái)，去應(yīng)對(duì)以上AIGC技術(shù)在圖片和文本模態(tài)的偽造。但是這些方法無(wú)法較好應(yīng)對(duì)新型偽造場(chǎng)景下的多模態(tài)假新聞篡改。

具體而言，在多模態(tài)媒體篡改中，各類新聞報(bào)道的圖片中重要人物的人臉（如圖 1 中法國(guó)總統(tǒng)人臉）被替換，文字中關(guān)鍵短語(yǔ)或者單詞被篡改（如圖 1 中正面短語(yǔ)「is welcome to」被篡改為負(fù)面短語(yǔ)「is forced to resign」）。

這將改變或掩蓋新聞關(guān)鍵人物的身份，以及修改或誤導(dǎo)新聞文字的含義，制造出互聯(lián)網(wǎng)上大規(guī)模傳播的多模態(tài)假新聞。?

圖1. 本文提出檢測(cè)并定位多模態(tài)媒體篡改任務(wù)（DGM⁴）。與現(xiàn)有的單模態(tài)DeepFake檢測(cè)任務(wù)不同，DGM⁴不僅對(duì)輸入圖像-文本對(duì)預(yù)測(cè)真假二分類，也試圖檢測(cè)更細(xì)粒度的篡改類型和定位圖像篡改區(qū)域和文本篡改單詞。除了真假二分類之外，此任務(wù)對(duì)篡改檢測(cè)提供了更全面的解釋和更深入的理解。

表1: 所提出的DGM⁴與現(xiàn)有的圖像和文本偽造檢測(cè)相關(guān)任務(wù)的比較

檢測(cè)并定位多模態(tài)媒體篡改任務(wù)

為了解此新挑戰(zhàn)，來(lái)自哈工大（深圳）和南洋理工的研究人員提出了檢測(cè)并定位多模態(tài)媒體篡改任務(wù)（DGM⁴）、構(gòu)建并開(kāi)源了DGM⁴數(shù)據(jù)集，同時(shí)提出了多模態(tài)層次化篡改推理模型。目前，該工作已被CVPR 2023收錄。

論文地址：?https://arxiv.org/abs/2304.02556?

GitHub：https://github.com/rshaojimmy/MultiModal-DeepFake

項(xiàng)目主頁(yè)：https://rshaojimmy.github.io/Projects/MultiModal-DeepFake

如圖1和表1所示，檢測(cè)并定位多模態(tài)媒體篡改任務(wù)（Detecting and Grounding Multi-Modal Media Manipulation （DGM⁴））和現(xiàn)有的單模態(tài)篡改檢測(cè)的區(qū)別在于：

1）不同于現(xiàn)有的DeepFake圖像檢測(cè)與偽造文本檢測(cè)方法只能檢測(cè)單模態(tài)偽造信息，DGM⁴要求同時(shí)檢測(cè)在圖像-文本對(duì)中的多模態(tài)篡改；

2）不同于現(xiàn)有DeepFake檢測(cè)專注于二分類，DGM⁴進(jìn)一步考慮了定位圖像篡改區(qū)域和文本篡改單詞。這要求檢測(cè)模型對(duì)于圖像-文本模態(tài)間的篡改進(jìn)行更全面和深入的推理。

檢測(cè)并定位多模態(tài)媒體篡改數(shù)據(jù)集

為了支持對(duì)DGM⁴研究，如圖2所示，本工作貢獻(xiàn)了全球首個(gè)檢測(cè)并定位多模態(tài)媒體篡改（DGM⁴）數(shù)據(jù)集。

圖2. DGM⁴數(shù)據(jù)集

DGM⁴數(shù)據(jù)集調(diào)查了4種篡改類型，人臉替換篡改（FS）、人臉屬性篡改（FA）、文本替換篡改（TS）、文本屬性篡改（TA）。

圖2展示了 DGM⁴ 整體統(tǒng)計(jì)信息，包括（a）篡改類型的數(shù)量分布；（b）大多數(shù)圖像的篡改區(qū)域是小尺寸的，尤其是對(duì)于人臉屬性篡改；（c）文本屬性篡改的篡改單詞少于文本替換篡改；（d）文本情感分?jǐn)?shù)的分布；（e）每種篡改類型的樣本數(shù)。

此數(shù)據(jù)共生成23萬(wàn)張圖像-文本對(duì)樣本，包含了包括77426個(gè)原始圖像-文本對(duì)和152574個(gè)篡改樣本對(duì)。篡改樣本對(duì)包含66722個(gè)人臉替換篡改，56411個(gè)人臉屬性篡改，43546個(gè)文本替換篡改和18588個(gè)文本屬性篡改。

多模態(tài)層次化篡改推理模型

本文認(rèn)為多模態(tài)的篡改會(huì)造成模態(tài)間細(xì)微的語(yǔ)義不一致性。因此通過(guò)融合與推理模態(tài)間的語(yǔ)義特征，檢測(cè)到篡改樣本的跨模態(tài)語(yǔ)義不一致性，是本文應(yīng)對(duì)DGM⁴的主要思路。

圖3. 提出的多模態(tài)層次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)

基于此想法，如圖3所示，本文提出了多模態(tài)層次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)。

此模型建立在基于雙塔結(jié)構(gòu)的多模態(tài)語(yǔ)義融合與推理的模型架構(gòu)上，并將多模態(tài)篡改的檢測(cè)與定位細(xì)粒度層次化地通過(guò)淺層與深層篡改推理來(lái)實(shí)現(xiàn)。

具體而言，如圖3所示，HAMMER模型具有以下兩個(gè)特點(diǎn)：

1）在淺層篡改推理中，通過(guò)篡改感知的對(duì)比學(xué)習(xí)（Manipulation-Aware Contrastive Learning）來(lái)對(duì)齊圖像編碼器和文本編碼器提取出的圖像和文本單模態(tài)的語(yǔ)義特征。同時(shí)將單模態(tài)嵌入特征利用交叉注意力機(jī)制進(jìn)行信息交互，并設(shè)計(jì)局部塊注意力聚合機(jī)制（Local Patch Attentional Aggregation）來(lái)定位圖像篡改區(qū)域；

2）在深層篡改推理中，利用多模態(tài)聚合器中的模態(tài)感知交叉注意力機(jī)制進(jìn)一步融合多模態(tài)語(yǔ)義特征。在此基礎(chǔ)上，進(jìn)行特殊的多模態(tài)序列標(biāo)記（multi-modal sequence tagging）和多模態(tài)多標(biāo)簽分類（multi-modal multi-label classification）來(lái)定位文本篡改單詞并檢測(cè)更細(xì)粒度的篡改類型。

實(shí)驗(yàn)結(jié)果

如下圖，實(shí)驗(yàn)結(jié)果表明研究團(tuán)隊(duì)提出的HAMMER與多模態(tài)和單模態(tài)檢測(cè)方法相比，都能更準(zhǔn)確地檢測(cè)并定位多模態(tài)媒體篡改。

圖4. 多模態(tài)篡改檢測(cè)和定位結(jié)果可視化

圖5. 關(guān)于篡改文本的模型篡改檢測(cè)注意力可視化

圖4提供了一些多模態(tài)篡改檢測(cè)和定位的可視化結(jié)果，說(shuō)明了HAMMER可以準(zhǔn)確地同時(shí)進(jìn)行篡改檢測(cè)與定位任務(wù)。圖5提供了關(guān)于篡改單詞的模型注意力可視化結(jié)果，進(jìn)一步展示了HAMMER是通過(guò)關(guān)注與篡改文本語(yǔ)義不一致性的圖像區(qū)域來(lái)進(jìn)行多模態(tài)篡改檢測(cè)和定位。

總結(jié)

本工作提出了一個(gè)新的研究課題：檢測(cè)并定位多模態(tài)媒體篡改任務(wù)，來(lái)應(yīng)對(duì)多模態(tài)假新聞。
本工作貢獻(xiàn)了首個(gè)大規(guī)模的檢測(cè)并定位多模態(tài)媒體篡改數(shù)據(jù)集，并提供了詳細(xì)豐富的篡改檢測(cè)與定位的標(biāo)注。團(tuán)隊(duì)相信它可以很好地幫助未來(lái)多模態(tài)假新聞檢測(cè)的研究。
本工作提出了一個(gè)強(qiáng)大的多模態(tài)層次化篡改推理模型作為此新課題很好的起始方案。

本工作的代碼和數(shù)據(jù)集鏈接都已分享在本項(xiàng)目的GitHub上，歡迎大家Star這個(gè)GitHub Repo，使用DGM⁴數(shù)據(jù)集和HAMMER來(lái)研究DGM⁴問(wèn)題。DeepFake領(lǐng)域不只有圖像單模態(tài)檢測(cè)，還有更廣闊的多模態(tài)篡改檢測(cè)問(wèn)題亟待大家解決！

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<u id="3jcus"></u>

<legend id="3jcus"><track id="3jcus"><dfn id="3jcus"></dfn></track></legend><sub id="3jcus"><p id="3jcus"></p></sub>