騙人還是文字強(qiáng)!MIT最新研究:DeepFake換臉還不如編輯動(dòng)動(dòng)筆
?DeepFake,自面世以來就被列為了潛在的「壞AI」。
不論是著名的「加朵換頭色情片」,還是各種用DeepFake變聲的銀行轉(zhuǎn)賬騙局,DeepFake的相關(guān)消息似乎都擺脫不了負(fù)面背景。
不過MIT的最新研究表明,偽造文字信息的破壞力要遠(yuǎn)高過偽造的圖片或視頻。
這與傳播領(lǐng)域的舊觀點(diǎn)相反,過往學(xué)界認(rèn)為當(dāng)同一版本的內(nèi)容以視頻而不是文本形式呈現(xiàn)時(shí),人們會(huì)更容易被假消息欺騙。
DeepFake還是太「年輕」
超現(xiàn)實(shí)視覺效果技術(shù)的最新進(jìn)展引發(fā)了人們的擔(dān)憂,即政治演講的DeepFake視頻很快將與真實(shí)的視頻在視覺上無法區(qū)分。
然而,視聽信息如何影響人們對假消息的易感性,針對此項(xiàng)目的實(shí)證研究很少。
最近,MIT媒體實(shí)驗(yàn)室的科學(xué)家向5727人展示了16篇真實(shí)的政治演講片段和16篇被DeepFake加工篡改過的演講片段。
聲音片段以文本、視頻和音頻的排列形式呈現(xiàn),例如帶有字幕的視頻等。
論文鏈接:https://arxiv.org/pdf/2202.12883.pdf
受試者被告知其中一半的內(nèi)容是假的,并被詢問他們認(rèn)為其中哪些片段是偽造的。
在僅顯示文本時(shí),受訪者在識(shí)別謊言(57% 的準(zhǔn)確率)方面僅比隨機(jī)猜測好一點(diǎn)。
當(dāng)給出帶字幕的視頻時(shí),受訪者的猜測更準(zhǔn)確(66%),而在同時(shí)顯示視頻和音頻時(shí)更成功(82%)。
也就是說,受試者在觀看視頻或聽音頻時(shí)比閱讀文字記錄時(shí)更能識(shí)別事件是否真的發(fā)生。
這些發(fā)現(xiàn)還表明,普通人有時(shí)(但并非總是)能夠識(shí)別出由DeepFake同步變造產(chǎn)生的視覺失真效果。
按照論文作者的解釋,受試者的判斷基礎(chǔ)更多依賴于內(nèi)容表達(dá)的方式而非內(nèi)容本身。
受試者在帶音軌視頻上的判斷率比無聲視頻更準(zhǔn)確、在無聲視頻上的判斷率又比文字更準(zhǔn)確,是因?yàn)橛啊⒁?、文字三種載體中,影、音除了內(nèi)容本身,還有說話人的各種微小表情、動(dòng)作、語音模式等方面的細(xì)微差異。
如果旁觀者無法觀察這些細(xì)微差異,光從書面文字上判定何為真實(shí)演講、何為AI生成,準(zhǔn)確率是只能達(dá)到一半一半的拋硬幣程度。
論文作者稱:「偽造的政治演講視頻比偽造的文字記錄更容易識(shí)別,這一發(fā)現(xiàn)強(qiáng)調(diào)了重新讓人們憶起常被遺忘的『眼見為實(shí)』格言的必要性?!?/span>
不過此研究有明顯局限:研究者生成的DeepFake材料并不是真實(shí)性超級(jí)出眾的。
研究者自己都警告:「真正危險(xiǎn)的偽造視頻,可能并不是普通算法隨便生成的DeepFake視頻,而是經(jīng)過精加工、極引人入信的單一視頻?!?/span>
總統(tǒng)DeepFake數(shù)據(jù)集中的32個(gè)視頻
在當(dāng)下時(shí)局中,這一警示尤有現(xiàn)實(shí)意義。公眾一直在懷疑東歐沖突中的一方會(huì)制造另一方總統(tǒng)宣布投降的DeepFake視頻。
這些擔(dān)憂可以理解,不過當(dāng)下散播的各種假消息還幾乎沒用到DeepFake技術(shù)。
按《今日美國》事實(shí)核查組的成員稱,在動(dòng)蕩時(shí)局中,造假者搜索、剪裁舊的影音材料,安上時(shí)下新消息的名目再貼出,這種造假行為的難度比DeepFake低多了。
例如,一段TikTok視頻聲稱展示了最近在烏克蘭發(fā)生的爆炸,但實(shí)際來源在1月份就已經(jīng)有了。
正如本研究所揭示的,DeepFake可能會(huì)影響公眾事件的結(jié)果,但徹頭徹尾的謊言和簡單剪切編輯,是傳播假消息的更為突出的形式。
當(dāng)然,這并不意味著DeepFake沒有危險(xiǎn)。
只不過更原始的欺騙技術(shù)可能威脅更大。
補(bǔ)充實(shí)驗(yàn)
與不同演講和模式條件下準(zhǔn)確性的高變異性相比,受試者的確信程度變化較小。
在文字記錄中,受試者的平均確信度為81%。在視頻和音頻呈現(xiàn)的演講上,受試者的確信度分別提高了6%和9%。如果把所有內(nèi)容都提供給受試者,則可以讓確信度提高12%。
也就是說當(dāng)受試者通過視頻和音頻接收到更多的信息時(shí),受試者的加權(quán)準(zhǔn)確性、確信度、對捏造的演講的辨別力和對真實(shí)演講的辨別力都會(huì)平均增加。
不過,研究人員發(fā)現(xiàn)字幕似乎對結(jié)果并沒有明顯的影響。
受試者反應(yīng)時(shí)間的中位數(shù)是24秒,比視頻的平均長度長3秒。無聲的、有字幕的視頻的反應(yīng)時(shí)間中位數(shù)是31秒,比其他所有模式條件的反應(yīng)時(shí)間略長。
在所有7種模式條件下,受試者對偽造內(nèi)容的反應(yīng)時(shí)間比真實(shí)內(nèi)容要短。其中,文字、視頻和音頻分別為3.8秒、2.5秒和3.7秒。
此外研究人員發(fā)現(xiàn),相對于所有其他模式的條件,受試者對識(shí)別文字記錄的真實(shí)性有更大的偏差。
下圖a顯示,受試者對文字稿的準(zhǔn)確度大多低于無聲的字幕視頻。同樣地,c顯示受試者對有聲視頻的準(zhǔn)確率始終高于無聲字幕視頻。與此相反,b顯示了受試者在有字幕和無字幕的情況下表現(xiàn)的異質(zhì)性。
受試者對32個(gè)演講中的每個(gè)演講的文字記錄、無聲視頻和有聲視頻判斷的準(zhǔn)確性
總的來說,信息載體的確影響辨別準(zhǔn)確性:受試者在判斷有音頻的視頻時(shí),比無聲視頻更準(zhǔn)確;在判斷無聲視頻時(shí),比文本記錄更準(zhǔn)確。同時(shí),研究者發(fā)現(xiàn)受試者更多地依賴于說話人的語言方式、微表情、動(dòng)作等視聽線索,而非內(nèi)容本身來判斷。
評(píng)估偽造和非偽造演講之間的這種難度上的不對稱加劇了「說謊者的紅利」,即消息會(huì)被偽造的普遍可能性,會(huì)讓公眾質(zhì)疑所有消息都是偽造的,從而使撒謊者能夠避免對真實(shí)的負(fù)面新聞負(fù)責(zé)。
不過,研究者發(fā)現(xiàn)當(dāng)演講與政治家固有的公眾印象不符時(shí),會(huì)降低參與者對視覺線索的依賴。演講者所說的話與受試者對說話者的期望相匹配的程度,被研究者稱為「期望違反啟發(fā)式」。
而且,研究者發(fā)現(xiàn)反思性推理會(huì)影響受試者依靠視覺信息的程度:受試者「認(rèn)知反思測試」的低分?jǐn)?shù),與對視覺線索的依賴不足、對內(nèi)容的同時(shí)過度依賴是正相關(guān)的。
用白話說,越笨、越不動(dòng)腦子的人,越容易單純?nèi)⌒庞谡脱葜v的內(nèi)容,而不觀察政客說話時(shí)的表情與動(dòng)作。
如何辨別
MIT的研究人員從100,000個(gè)DeepFake視頻和19,154個(gè)在公開的Kaggle競賽中,訓(xùn)練了一系列神經(jīng)網(wǎng)絡(luò)來檢測DeepFake。
根據(jù)機(jī)器學(xué)習(xí)模型的表現(xiàn),研究人員篩選出了3000個(gè)最容易被誤判的視頻。這些視頻不僅僅是機(jī)器學(xué)習(xí)模型難以辨別的,而且對許多人來說也很難辨別真假。
研究人員認(rèn)為,多接觸接觸被DeepFake編輯了的視頻可以提高人們的判斷力。于是便建立了之前提到的「Detect Fakes」網(wǎng)站,并公開展示了數(shù)千個(gè)高質(zhì)量的DeepFake和真實(shí)視頻。
雖然不能靠著單一的線索來辨別哪個(gè)是假的,不過可以留意一下以下這8個(gè)要點(diǎn)。
- 注意臉部:DeepFake幾乎都是面部改造。
- 注意臉頰和額頭:皮膚是否顯得太光滑或皺紋過多?皮膚的老化程度是否與頭發(fā)和眼睛的老化程度相似?DeepFake在某些方面往往是不協(xié)調(diào)的。
- 請注意眼睛和眉毛:陰影是否出現(xiàn)在應(yīng)該出現(xiàn)的地方?DeepFake往往不能對真實(shí)的物理學(xué)進(jìn)行重現(xiàn)。
- 注意眼鏡:是否存在眩光,還是炫光過多?移動(dòng)時(shí),眩光的角度是否改變?再一次,DeepFake表現(xiàn)出了物理學(xué)方面的弱點(diǎn)。
- 注意面部的毛發(fā):看起來是否真實(shí)?DeepFake可能會(huì)添加或去掉鬢角或胡須,但通常會(huì)有違和感。
- 注意面部的痣:看起來真實(shí)嗎?
- 注意眨眼:次數(shù)是否正常還是過多?
- 注意嘴唇的大小和顏色:是否與此人面部的其他部分相匹配??