譯者 | 陳峻
審校 | 重樓
不知您是否聽(tīng)說(shuō)過(guò)深度偽造(Deepfakes)這種欺詐應(yīng)用?由它產(chǎn)生的各種虛假信息已威脅到了人類(lèi)社會(huì)的方方面面。隨著人工智能技術(shù)的進(jìn)步,我們亟待提升識(shí)別虛假內(nèi)容的能力。那么在實(shí)際檢測(cè)假新聞可信度等用例時(shí),到底是人類(lèi)還是機(jī)器更勝任此類(lèi)任務(wù)呢?
深度偽造的危害
不可否認(rèn),深度偽造的危險(xiǎn)隨著人工智能技術(shù)的快速發(fā)展,正在與日俱增,我們可以將其危害大體總結(jié)為如下方面:
- 虛假信息:由深度偽造產(chǎn)生的視頻和音頻,可以廣泛地傳播假新聞等虛構(gòu)信息。
- 冒名頂替:通過(guò)冒充個(gè)體,深度偽造者可以損害他人的聲譽(yù),以及欺騙他們所認(rèn)識(shí)的任何人。
- 國(guó)家安全:深度偽造不但會(huì)炮制末日?qǐng)鼍埃夷軌蚓幵鞌硨?duì)國(guó)領(lǐng)導(dǎo)人煽動(dòng)沖突的視頻或音頻。
- 內(nèi)亂:沖突各方也可能利用欺騙性的鏡頭和音頻,在特定的群體中煽動(dòng)憤怒和內(nèi)亂。
- 網(wǎng)絡(luò)安全:網(wǎng)絡(luò)犯罪分子已經(jīng)在使用人工智能語(yǔ)音克隆工具,向受害個(gè)體發(fā)送貌似熟人的、令人信服的信息。
- 隱私侵犯:惡意使用深度偽造技術(shù),會(huì)在未經(jīng)個(gè)人同意的情況下,獲取其肖像特征。
- 真假難辨:正所謂:假作真時(shí)真亦假,我們甚至無(wú)法分辨準(zhǔn)確的信息是否真實(shí)可信。
可見(jiàn),面對(duì)越來(lái)越令人信服的深度偽造信息,我們需要強(qiáng)大的工具和流程來(lái)檢測(cè)與識(shí)破。而旨在識(shí)別人工智能生成式內(nèi)容的算法,完全可以作為檢測(cè)工具運(yùn)用于該領(lǐng)域,并作為人類(lèi)判斷力的有力補(bǔ)充。
算法能比人類(lèi)更好地檢測(cè)深度偽造嗎?
目前,各國(guó)的技術(shù)巨頭和研究團(tuán)體,已經(jīng)投入了大量資源,來(lái)研究和開(kāi)發(fā)應(yīng)對(duì)深度偽造所帶來(lái)的嚴(yán)重威脅。2019年,Meta、微軟和亞馬遜等公司曾在針對(duì)深度偽造的檢測(cè)挑戰(zhàn)賽中,為那些最準(zhǔn)確的檢測(cè)模型提供了100萬(wàn)美元獎(jiǎng)金。
在針對(duì)已公開(kāi)的視頻數(shù)據(jù)集進(jìn)行測(cè)試后,其中表現(xiàn)最好的模型的準(zhǔn)確率可達(dá)82.56%。然而,相同的模型在對(duì)由10,000個(gè)新成生成視頻組成的“黑盒數(shù)據(jù)集”進(jìn)行測(cè)試時(shí),其中表現(xiàn)最好的模型準(zhǔn)確率僅為65.18%。作為對(duì)比,一般來(lái)說(shuō),人類(lèi)檢測(cè)的準(zhǔn)確率要么與AI深度檢測(cè)工具持平,要么高于后者。
2021年發(fā)表在《美國(guó)國(guó)家科學(xué)院院刊,PNAS》上的一項(xiàng)研究發(fā)現(xiàn):普通人類(lèi)檢測(cè)者的準(zhǔn)確率會(huì)略高于業(yè)界領(lǐng)先的深度偽造檢測(cè)工具。不過(guò),該研究也發(fā)現(xiàn):人類(lèi)檢測(cè)者和人工智能模型容易犯錯(cuò)的類(lèi)型并不相同。
此外,悉尼大學(xué)的一項(xiàng)有趣的研究發(fā)現(xiàn),我們?nèi)四X在無(wú)意識(shí)的情況下,會(huì)比有意識(shí)地去識(shí)別深度偽造要更加有效。
檢測(cè)深度偽造中的視覺(jué)線(xiàn)索
作為一門(mén)新興的科學(xué),深度偽造檢測(cè)的原理比較復(fù)雜,它們所需的分析方法也各不相同,具體主要取決于視頻的性質(zhì)。例如,2020年一段針對(duì)朝鮮領(lǐng)導(dǎo)人的惡搞深度偽造視頻曾風(fēng)靡全球。對(duì)此,最有效的檢測(cè)方法是分析其嘴部動(dòng)作(visemes)和語(yǔ)音(phonemes),進(jìn)而找出不一致之處。
為了方便人類(lèi)專(zhuān)家、普通用戶(hù)、以及AI算法進(jìn)行分析,麻省理工學(xué)院(MIT)定義了八條可以用來(lái)協(xié)助識(shí)別深度偽造視頻的建議:
- 注意面部。高端的深度偽造幾乎都是從面部改造開(kāi)始的。
- 注意臉頰和前額。皮膚是否看起來(lái)太光滑或太褶皺?皮膚的老化程度是否與頭發(fā)和眼睛的老化程度相似?深度偽造的人面可能會(huì)在某些方面顯得不協(xié)調(diào)。
- 注意眼睛和眉毛。陰影是否出現(xiàn)在您期望看到的位置?畢竟深度偽造可能無(wú)法完全表現(xiàn)出自然場(chǎng)景的物理特性。
- 注意眼鏡。是否有眩光點(diǎn)?眩光點(diǎn)是否太強(qiáng)?人物移動(dòng)時(shí),眩光點(diǎn)的角度是否會(huì)發(fā)生變化?同樣,深度偽造可能無(wú)法完全表現(xiàn)自然照明的物理特性。
- 注意面部毛發(fā)是否真實(shí)。人物的面部毛發(fā)看起來(lái)真實(shí)嗎?深度偽造可能會(huì)添加或去除胡子、鬢角、以及胡須等毛發(fā),進(jìn)而導(dǎo)致面部毛發(fā)的變化不那么自然。
- 注意面部的痣。臉上的痣看起來(lái)真實(shí)嗎?
- 注意眨眼。眨眼次數(shù)是過(guò)少還是過(guò)頻?
- 注意嘴唇的動(dòng)作。那些基于嘴唇同步的深度偽造是否能夠使得嘴唇的動(dòng)作看起來(lái)自然?
其實(shí),最新的人工智能深度防偽檢測(cè)工具也無(wú)非是綜合分析了上述因素,只不過(guò)不同產(chǎn)品的成功率各不相同罷了。當(dāng)然,數(shù)據(jù)科學(xué)家們也在不斷開(kāi)發(fā)新的方法,例如:檢測(cè)屏幕上發(fā)言者面部的血液自然流動(dòng)。而這些新的方法顯然是人類(lèi)專(zhuān)家無(wú)法一眼識(shí)別,或者至少?zèng)]有注意到的地方。
檢測(cè)深度偽造中的音頻線(xiàn)索
相對(duì)前面提到的視覺(jué)線(xiàn)索,深度偽造的音頻檢測(cè)完全是另一個(gè)領(lǐng)域的挑戰(zhàn)。除了由視頻提供的視覺(jué)線(xiàn)索,深度偽造檢測(cè)在很大程度上也需要依賴(lài)于音頻分析。當(dāng)然,在某些情況下,元數(shù)據(jù)驗(yàn)證(Metadata Verification)等其他方法也能提供相關(guān)幫助。
倫敦大學(xué)學(xué)院于2023年發(fā)表的一項(xiàng)研究發(fā)現(xiàn):人類(lèi)專(zhuān)家檢測(cè)出針對(duì)英語(yǔ)和普通話(huà)的深度偽造語(yǔ)音的準(zhǔn)確率可以達(dá)到73%。與深層偽造的視頻類(lèi)似,人類(lèi)專(zhuān)家往往能夠憑借直覺(jué),來(lái)檢測(cè)在人工智能生成的語(yǔ)音中,那些不自然的語(yǔ)音模式,縱然他們可能根本無(wú)法清晰地說(shuō)明,到底是哪些地方聽(tīng)起來(lái)不對(duì)勁。下面是我為您總結(jié)了最為常見(jiàn)音頻跡象與線(xiàn)索:
- 口齒不清
- 缺乏順暢的表達(dá)
- 背景或干擾噪音
- 聲音或語(yǔ)言不一致
- 聲音缺乏“飽和”感
- 過(guò)度腳本化的交付形式
- 看似沒(méi)有瑕疵(包括:假動(dòng)作、用詞糾正、清嗓子等)
同樣,各種算法也可以基于上述方面,有效地分析語(yǔ)音的深度偽造信號(hào)。USENIX的一份研究發(fā)現(xiàn):人工智能聲道的重建,是無(wú)法模擬自然語(yǔ)音模式的。該研究總結(jié)道:由人工智能語(yǔ)音生成器生成的音頻只能與狹窄的聲道(大致相當(dāng)于一根飲用水吸管的大?。┫嗥ヅ?,卻沒(méi)有人類(lèi)語(yǔ)音的自然動(dòng)作。同時(shí),霍斯特-戈?duì)柎难芯克?/span>(Horst G?rtz Institute)在早前的研究中,也分析了英語(yǔ)和日語(yǔ)中混雜的真假音頻,并揭示了真假語(yǔ)音在高頻率上的細(xì)微差別。
雖然人類(lèi)專(zhuān)家和人工智能檢測(cè)模型都可以察覺(jué)到聲帶和高頻上的不一致,但是就高頻差異而言,人工智能模型的準(zhǔn)確度在理論上會(huì)越來(lái)越高。
人類(lèi)和算法都會(huì)被深度偽造所迷惑,只是方式各不相同
有研究表明,根據(jù)測(cè)試參數(shù)的不同,人類(lèi)和最新的人工智能檢測(cè)工具的識(shí)別準(zhǔn)確率,通常是在50%到90%之間。也就是說(shuō),人類(lèi)和機(jī)器也可能會(huì)被深度偽造所欺騙,主要區(qū)別只是易受干擾的方式有所不同。例如,麻省理工學(xué)院(MIT)的研究發(fā)現(xiàn),由于認(rèn)知的不同,人類(lèi)比人工智能模型更善于識(shí)別各國(guó)領(lǐng)導(dǎo)人和名人的深度偽造圖像。該研究也發(fā)現(xiàn),在處理有多人出現(xiàn)的鏡頭場(chǎng)景時(shí),人工智能模型明顯不及人類(lèi)。究其根源,該研究認(rèn)為,這可能是由于算法往往是在以單個(gè)發(fā)言人鏡頭為基礎(chǔ)特征被訓(xùn)練出來(lái)的緣故。
相反,同一項(xiàng)研究還發(fā)現(xiàn),人工智能模型在處理可能被故意用來(lái)欺騙人類(lèi)觀(guān)眾的低質(zhì)量鏡頭(如:模糊、顆粒狀、環(huán)境暗淡等)時(shí),其表現(xiàn)優(yōu)于人類(lèi)。同樣,上文提到的最新的人工智能檢測(cè)方法,也能夠監(jiān)測(cè)特定面部區(qū)域的血流狀況。這可能是人類(lèi)所不具備的分析能力。
小結(jié)
如您所見(jiàn),隨著人工智能深度偽造檢測(cè)工具的不斷迭代,深度偽造內(nèi)容本身的質(zhì)量也將不斷提升。在某些極端的場(chǎng)景中,一旦人工智能的欺騙能力超過(guò)了我們現(xiàn)在所掌握的對(duì)其檢測(cè)的能力,那么可能就只剩下人類(lèi)的判斷力,可以作為我們對(duì)抗深度偽造的唯一工具了。
如今,我們每個(gè)人都有責(zé)任了解虛假信息的跡象,以及該如何識(shí)別它們。除了保護(hù)自己免受AI詐騙和安全威脅之外,我們也有義務(wù)在網(wǎng)上討論和分享自己對(duì)于虛假信息的洞察與發(fā)現(xiàn)。
譯者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn),善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控,專(zhuān)注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。
原文標(biāo)題:Who Detects Deepfakes Better: Man or Machine?,作者:AARON BROOKS