騙人還是文字強(qiáng)！MIT最新研究：DeepFake換臉還不如編輯動(dòng)動(dòng)筆

作者：新智元 2022-03-09 09:45:06

人工智能機(jī)器學(xué)習(xí)

最近MIT的一項(xiàng)研究顯示，費(fèi)時(shí)費(fèi)力的DeepFake換臉大法甚至還不如單純的文字假消息能唬人。

?DeepFake，自面世以來就被列為了潛在的「壞AI」。

不論是著名的「加朵換頭色情片」，還是各種用DeepFake變聲的銀行轉(zhuǎn)賬騙局，DeepFake的相關(guān)消息似乎都擺脫不了負(fù)面背景。

不過MIT的最新研究表明，偽造文字信息的破壞力要遠(yuǎn)高過偽造的圖片或視頻。

這與傳播領(lǐng)域的舊觀點(diǎn)相反，過往學(xué)界認(rèn)為當(dāng)同一版本的內(nèi)容以視頻而不是文本形式呈現(xiàn)時(shí)，人們會(huì)更容易被假消息欺騙。

DeepFake還是太「年輕」

超現(xiàn)實(shí)視覺效果技術(shù)的最新進(jìn)展引發(fā)了人們的擔(dān)憂，即政治演講的DeepFake視頻很快將與真實(shí)的視頻在視覺上無法區(qū)分。

然而，視聽信息如何影響人們對假消息的易感性，針對此項(xiàng)目的實(shí)證研究很少。

最近，MIT媒體實(shí)驗(yàn)室的科學(xué)家向5727人展示了16篇真實(shí)的政治演講片段和16篇被DeepFake加工篡改過的演講片段。

聲音片段以文本、視頻和音頻的排列形式呈現(xiàn)，例如帶有字幕的視頻等。

論文鏈接：https://arxiv.org/pdf/2202.12883.pdf

受試者被告知其中一半的內(nèi)容是假的，并被詢問他們認(rèn)為其中哪些片段是偽造的。

在僅顯示文本時(shí)，受訪者在識(shí)別謊言（57% 的準(zhǔn)確率）方面僅比隨機(jī)猜測好一點(diǎn)。

當(dāng)給出帶字幕的視頻時(shí)，受訪者的猜測更準(zhǔn)確（66%），而在同時(shí)顯示視頻和音頻時(shí)更成功（82%）。

也就是說，受試者在觀看視頻或聽音頻時(shí)比閱讀文字記錄時(shí)更能識(shí)別事件是否真的發(fā)生。

這些發(fā)現(xiàn)還表明，普通人有時(shí)（但并非總是）能夠識(shí)別出由DeepFake同步變造產(chǎn)生的視覺失真效果。

按照論文作者的解釋，受試者的判斷基礎(chǔ)更多依賴于內(nèi)容表達(dá)的方式而非內(nèi)容本身。

受試者在帶音軌視頻上的判斷率比無聲視頻更準(zhǔn)確、在無聲視頻上的判斷率又比文字更準(zhǔn)確，是因?yàn)橛啊⒁?、文字三種載體中，影、音除了內(nèi)容本身，還有說話人的各種微小表情、動(dòng)作、語音模式等方面的細(xì)微差異。

如果旁觀者無法觀察這些細(xì)微差異，光從書面文字上判定何為真實(shí)演講、何為AI生成，準(zhǔn)確率是只能達(dá)到一半一半的拋硬幣程度。

論文作者稱：「偽造的政治演講視頻比偽造的文字記錄更容易識(shí)別，這一發(fā)現(xiàn)強(qiáng)調(diào)了重新讓人們憶起常被遺忘的『眼見為實(shí)』格言的必要性?！?/span>

不過此研究有明顯局限：研究者生成的DeepFake材料并不是真實(shí)性超級(jí)出眾的。

研究者自己都警告：「真正危險(xiǎn)的偽造視頻，可能并不是普通算法隨便生成的DeepFake視頻，而是經(jīng)過精加工、極引人入信的單一視頻?！?/span>

總統(tǒng)DeepFake數(shù)據(jù)集中的32個(gè)視頻

在當(dāng)下時(shí)局中，這一警示尤有現(xiàn)實(shí)意義。公眾一直在懷疑東歐沖突中的一方會(huì)制造另一方總統(tǒng)宣布投降的DeepFake視頻。

這些擔(dān)憂可以理解，不過當(dāng)下散播的各種假消息還幾乎沒用到DeepFake技術(shù)。

按《今日美國》事實(shí)核查組的成員稱，在動(dòng)蕩時(shí)局中，造假者搜索、剪裁舊的影音材料，安上時(shí)下新消息的名目再貼出，這種造假行為的難度比DeepFake低多了。

例如，一段TikTok視頻聲稱展示了最近在烏克蘭發(fā)生的爆炸，但實(shí)際來源在1月份就已經(jīng)有了。

正如本研究所揭示的，DeepFake可能會(huì)影響公眾事件的結(jié)果，但徹頭徹尾的謊言和簡單剪切編輯，是傳播假消息的更為突出的形式。

當(dāng)然，這并不意味著DeepFake沒有危險(xiǎn)。

只不過更原始的欺騙技術(shù)可能威脅更大。

補(bǔ)充實(shí)驗(yàn)

與不同演講和模式條件下準(zhǔn)確性的高變異性相比，受試者的確信程度變化較小。

在文字記錄中，受試者的平均確信度為81%。在視頻和音頻呈現(xiàn)的演講上，受試者的確信度分別提高了6%和9%。如果把所有內(nèi)容都提供給受試者，則可以讓確信度提高12%。

也就是說當(dāng)受試者通過視頻和音頻接收到更多的信息時(shí)，受試者的加權(quán)準(zhǔn)確性、確信度、對捏造的演講的辨別力和對真實(shí)演講的辨別力都會(huì)平均增加。

不過，研究人員發(fā)現(xiàn)字幕似乎對結(jié)果并沒有明顯的影響。

受試者反應(yīng)時(shí)間的中位數(shù)是24秒，比視頻的平均長度長3秒。無聲的、有字幕的視頻的反應(yīng)時(shí)間中位數(shù)是31秒，比其他所有模式條件的反應(yīng)時(shí)間略長。

在所有7種模式條件下，受試者對偽造內(nèi)容的反應(yīng)時(shí)間比真實(shí)內(nèi)容要短。其中，文字、視頻和音頻分別為3.8秒、2.5秒和3.7秒。

此外研究人員發(fā)現(xiàn)，相對于所有其他模式的條件，受試者對識(shí)別文字記錄的真實(shí)性有更大的偏差。

下圖a顯示，受試者對文字稿的準(zhǔn)確度大多低于無聲的字幕視頻。同樣地，c顯示受試者對有聲視頻的準(zhǔn)確率始終高于無聲字幕視頻。與此相反，b顯示了受試者在有字幕和無字幕的情況下表現(xiàn)的異質(zhì)性。

受試者對32個(gè)演講中的每個(gè)演講的文字記錄、無聲視頻和有聲視頻判斷的準(zhǔn)確性

總的來說，信息載體的確影響辨別準(zhǔn)確性：受試者在判斷有音頻的視頻時(shí)，比無聲視頻更準(zhǔn)確；在判斷無聲視頻時(shí)，比文本記錄更準(zhǔn)確。同時(shí)，研究者發(fā)現(xiàn)受試者更多地依賴于說話人的語言方式、微表情、動(dòng)作等視聽線索，而非內(nèi)容本身來判斷。

評(píng)估偽造和非偽造演講之間的這種難度上的不對稱加劇了「說謊者的紅利」，即消息會(huì)被偽造的普遍可能性，會(huì)讓公眾質(zhì)疑所有消息都是偽造的，從而使撒謊者能夠避免對真實(shí)的負(fù)面新聞負(fù)責(zé)。

不過，研究者發(fā)現(xiàn)當(dāng)演講與政治家固有的公眾印象不符時(shí)，會(huì)降低參與者對視覺線索的依賴。演講者所說的話與受試者對說話者的期望相匹配的程度，被研究者稱為「期望違反啟發(fā)式」。

而且，研究者發(fā)現(xiàn)反思性推理會(huì)影響受試者依靠視覺信息的程度：受試者「認(rèn)知反思測試」的低分?jǐn)?shù)，與對視覺線索的依賴不足、對內(nèi)容的同時(shí)過度依賴是正相關(guān)的。

用白話說，越笨、越不動(dòng)腦子的人，越容易單純?nèi)⌒庞谡脱葜v的內(nèi)容，而不觀察政客說話時(shí)的表情與動(dòng)作。

如何辨別

MIT的研究人員從100,000個(gè)DeepFake視頻和19,154個(gè)在公開的Kaggle競賽中，訓(xùn)練了一系列神經(jīng)網(wǎng)絡(luò)來檢測DeepFake。

根據(jù)機(jī)器學(xué)習(xí)模型的表現(xiàn)，研究人員篩選出了3000個(gè)最容易被誤判的視頻。這些視頻不僅僅是機(jī)器學(xué)習(xí)模型難以辨別的，而且對許多人來說也很難辨別真假。

研究人員認(rèn)為，多接觸接觸被DeepFake編輯了的視頻可以提高人們的判斷力。于是便建立了之前提到的「Detect Fakes」網(wǎng)站，并公開展示了數(shù)千個(gè)高質(zhì)量的DeepFake和真實(shí)視頻。

雖然不能靠著單一的線索來辨別哪個(gè)是假的，不過可以留意一下以下這8個(gè)要點(diǎn)。

注意臉部：DeepFake幾乎都是面部改造。
注意臉頰和額頭：皮膚是否顯得太光滑或皺紋過多？皮膚的老化程度是否與頭發(fā)和眼睛的老化程度相似？DeepFake在某些方面往往是不協(xié)調(diào)的。
請注意眼睛和眉毛：陰影是否出現(xiàn)在應(yīng)該出現(xiàn)的地方？DeepFake往往不能對真實(shí)的物理學(xué)進(jìn)行重現(xiàn)。
注意眼鏡：是否存在眩光，還是炫光過多？移動(dòng)時(shí)，眩光的角度是否改變？再一次，DeepFake表現(xiàn)出了物理學(xué)方面的弱點(diǎn)。
注意面部的毛發(fā)：看起來是否真實(shí)？DeepFake可能會(huì)添加或去掉鬢角或胡須，但通常會(huì)有違和感。
注意面部的痣：看起來真實(shí)嗎？
注意眨眼：次數(shù)是否正常還是過多？
注意嘴唇的大小和顏色：是否與此人面部的其他部分相匹配？?

責(zé)任編輯：張燕妮來源：新智元