AI換臉背后的技術(shù)攻防戰(zhàn)
經(jīng)過一個(gè)周末的集中爆發(fā),換臉軟件ZAO的熱度終于有所降溫。它應(yīng)用的技術(shù)并不新鮮,卻讓人臉合成視頻第一次離普通用戶這么近。
廣被詬病的用戶協(xié)議、合成視頻存在的安全問題使得ZAO深陷輿論漩渦——從爆紅到質(zhì)疑纏身,只用了不到24小時(shí)。
但是,對(duì)ZAO的擔(dān)憂與抵制并不能解決普通人隱私、安全存在風(fēng)險(xiǎn)的問題。從人臉合成技術(shù)誕生的那一天開始,人們就沒有停止過對(duì)技術(shù)被人利用去作惡的憂慮。
人臉合成只是當(dāng)下備受追捧的人工智能領(lǐng)域的一個(gè)分支,技術(shù)在為人類帶來諸多新奇體驗(yàn)、便利的同時(shí),也給個(gè)體帶來對(duì)于自身諸多權(quán)益被侵犯的擔(dān)憂。
當(dāng)人類制造的技術(shù)越來越強(qiáng)大,甚至無所不能,人類本身的領(lǐng)地和獨(dú)特性如何維護(hù)便成為值得思考的問題。如今,人工智能的發(fā)展?jié)u成加速之勢,這個(gè)情況甚至超出了不少人最樂觀的估計(jì),潘多拉的盒子已被打開。
因此,對(duì)ZAO的擔(dān)憂,折射出的是一個(gè)潛藏于每個(gè)人內(nèi)心的最基礎(chǔ)的疑問:如果人工智能越來越無所不能,人類該如何自處?在新一輪的產(chǎn)業(yè)變革中,人類的隱私和其他權(quán)益究竟如何保護(hù)?
如何讓技術(shù)被正確的使用,這是一個(gè)始終沒有標(biāo)準(zhǔn)答案的問題,卻又是解答以上問題的關(guān)鍵。
「被引爆的隱私擔(dān)憂」
曾經(jīng)刷屏的應(yīng)用軟件不止ZAO一款
在朋友圈刷屏,ZAO有許多前輩:臉萌、足記、天天P圖……與ZAO一樣,這些曾經(jīng)刷屏的應(yīng)用大多與圖像相關(guān),許多也需要用戶上傳個(gè)人照片,但是從未引起如此規(guī)模的爭議和質(zhì)疑。
能夠合成視頻是ZAO引爆公眾討論的關(guān)鍵:在此之前,圖像APP的玩法都是基于靜態(tài)的照片,ZAO則是第一次將視頻換臉帶到了每一個(gè)普通用戶身邊。
在一位從事計(jì)算機(jī)視覺研究的業(yè)界人士看來,ZAO應(yīng)用的技術(shù)難度并不大:“如果說計(jì)算機(jī)視覺技術(shù)零分是最容易,十分是最難的話,原來你給我一張人臉圖像,我能生成另一張姿勢的圖像,可能那個(gè)難度是三分、四分,而合成視頻就是要生成一系列圖片,不再只是一張,難度也就五分、六分,實(shí)際上并沒有進(jìn)階的突破。”
事實(shí)上,在計(jì)算機(jī)視覺領(lǐng)域,生成一張圖片的技術(shù)早已有之:把A的臉摳出來貼在B的臉上,Photoshop也可以完成。只是在深度學(xué)習(xí)的幫助下,程序可以快速、大量的P圖。而視頻人臉合成,實(shí)際上就是先生成一個(gè)視頻序列的所有幀,之后加入檢測或視頻序列技術(shù),進(jìn)而生成人臉合成視頻。
合成視頻,這觸達(dá)了許多人的心理底線:當(dāng)視頻也可以被偽造,還有什么可以甄別真實(shí)?
無論是今年6月被篡改的馬克•扎克伯格的視頻,還是被嫁接了美國女星面孔的色情視頻,都足夠引發(fā)大眾對(duì)于視頻真實(shí)、安全性的擔(dān)憂。比如犯罪分子偽裝子女聲音向父母勒索的案例已經(jīng)發(fā)生,在人臉合成的幫助下,視頻驗(yàn)真也已經(jīng)無法確定事實(shí)的真相,正如有些網(wǎng)友提醒的:“有手機(jī)號(hào),有面部圖像,通過技術(shù)合成,犯罪分子可以替你和家人通話。”
大部分人并不會(huì)遇到上述極端情況,但人臉識(shí)別的廣泛應(yīng)用使得人臉合成有了更多可以想象的發(fā)揮空間。當(dāng)人臉合成被裝進(jìn)手機(jī)應(yīng)用中,成為每一個(gè)人都觸手可及的技術(shù)時(shí),類似的擔(dān)憂無疑會(huì)被放大,在安防、支付、考勤、刑偵等領(lǐng)域,愈加真實(shí)、無破綻的人臉合成技術(shù),的確會(huì)帶來不少安全隱患。
好在,圍繞人臉識(shí)別的攻防戰(zhàn)早已拉開帷幕,多次交手后,技術(shù)升級(jí)后的人臉識(shí)別并不那么容易被攻破。
「技術(shù)攻防戰(zhàn)」
人臉合成只是計(jì)算機(jī)視覺研究的一個(gè)細(xì)分方向,作為一門致力于讓機(jī)器看懂物體的科學(xué),計(jì)算機(jī)視覺研究誕生已久。1966年,人工智能學(xué)家Minsky給學(xué)生布置了一個(gè)作業(yè):編寫一個(gè)程序讓計(jì)算機(jī)告訴我們它通過攝像頭看到了什么,這被認(rèn)為是計(jì)算機(jī)視覺最早的任務(wù)描述。而計(jì)算機(jī)視覺之所以在今天能誕生如此多新奇有趣的應(yīng)用,與深度學(xué)習(xí)的發(fā)展密不可分。
2006年,深度學(xué)習(xí)泰斗Geofrey Hinton在《Science》發(fā)表了論文《A fast learning algorithm for deep belief nets》,推動(dòng)了持續(xù)至今的人工智能浪潮。
深度學(xué)習(xí)在國內(nèi)業(yè)界的普及則與百度密切相關(guān)。
2013年1月,百度正式對(duì)外宣布成立深度學(xué)習(xí)研究院(IDL),李彥宏親自出任院長,中國“千人計(jì)劃”國家特聘專家、現(xiàn)地平線創(chuàng)始人余凱任副院長。2014年,IDL的Deep Speech項(xiàng)目將嘈雜環(huán)境下的語音識(shí)別準(zhǔn)確率提高至81%——彼時(shí)同樣環(huán)境下Bing、Google以及Wit.AI等的最高識(shí)別率也只有65%。這是深度學(xué)習(xí)在國內(nèi)工業(yè)界應(yīng)用的典范,引發(fā)了人們對(duì)深度學(xué)習(xí)的重視。
得益于此,人工智能相關(guān)應(yīng)用在過去幾年迅猛增長。其中,人臉識(shí)別是應(yīng)用范圍比較廣的技術(shù)之一。如今,在金融、安防、考勤等領(lǐng)域,人臉識(shí)別已被大量應(yīng)用。比如,當(dāng)用戶向互聯(lián)網(wǎng)金融公司借貸時(shí),平臺(tái)首先需要做的是“驗(yàn)證你是你”,由于與錢直接相關(guān),攔截偽造的人臉攻擊就變得至為重要。
ZAO應(yīng)用的人臉合成技術(shù)引發(fā)人們憂慮的一個(gè)場景便是:合成人臉是否會(huì)引發(fā)安全問題?這個(gè)問題已經(jīng)引發(fā)研究者的重視,為了提高人臉識(shí)別的安全性,他們做了諸多嘗試。
2018年7月,曠視科技產(chǎn)品總監(jiān)彭建宏曾在一節(jié)網(wǎng)絡(luò)公開課中表示:在人臉識(shí)別領(lǐng)域,目前比較流行的攻擊方法主要包括:圖片攻擊(使用合法用戶的紙質(zhì)打印照片、彩色打印照片、手機(jī)里保存的照片等欺騙,屬于非活體攻擊)、視頻攻擊(提前錄制的視頻回放,包含眨眼、轉(zhuǎn)頭、張嘴等動(dòng)作指令欺騙,屬于活體攻擊)、立體面具攻擊(利用事先偽造的面具欺騙,屬于非活體攻擊)等幾種方法。
而研究者們最為重視的是可以應(yīng)對(duì)活體攻擊的檢測方案,包括動(dòng)作活體檢測、視頻活體檢測、炫彩活體檢測、雙角度活體檢測等幾種類型。
曠視的人臉識(shí)別方案
● 動(dòng)作活體檢測:要求用戶根據(jù)UI提示做點(diǎn)頭、搖頭等隨機(jī)動(dòng)作,每次的隨機(jī)動(dòng)作都是從計(jì)算機(jī) Servers 端發(fā)出的,計(jì)算機(jī)通過人臉質(zhì)量檢測、人臉關(guān)鍵點(diǎn)的感測和跟蹤,以及臉部的 3D 姿態(tài)等技術(shù)細(xì)節(jié)提高人臉識(shí)別的精準(zhǔn)度。
● 視頻活體檢測:主要針對(duì)移動(dòng) H5 的場景,要求用戶根據(jù) UI 提供的內(nèi)容讀一個(gè)四位數(shù)字,計(jì)算機(jī)通過云識(shí)別、語音同步檢測等方法判斷被檢測的人臉是否真實(shí)。
● 炫彩活體檢測:根據(jù)反射光三維成像的原理,杜絕了用 3D 軟件合成的視頻、屏幕翻拍等的攻擊。在強(qiáng)光環(huán)境下,炫彩活體的檢測效果不太好,因此可能需要用戶最后做出一個(gè)簡單的點(diǎn)頭動(dòng)作,以提高活體攻擊的門檻。
● 雙角度活體檢測:要求用戶拍一張正臉的自拍照與側(cè)面自拍照,這種檢測方式相當(dāng)于用戶拍攝一個(gè)1-2秒鐘的視頻,計(jì)算機(jī)通過 3D 模型重建的方式來判斷視頻中是否為真人。
● 靜默活體檢測:不需要用戶做任何動(dòng)作,自然面對(duì)攝像頭3、4秒鐘即可。由于真實(shí)人臉并不是絕對(duì)靜止的,而是存在微表情,如眼皮眼球的律動(dòng)、眨眼、嘴唇及周邊面頰的伸縮等,計(jì)算機(jī)則可通過此類特征反欺騙。
人臉識(shí)別技術(shù)已經(jīng)發(fā)展得較為成熟
各個(gè)公司運(yùn)用的活體檢測方法各不相同,最常用的是摩爾紋(在數(shù)碼照相機(jī)或者掃描儀等設(shè)備上,感光元件出現(xiàn)的高頻干擾的條紋,是一種會(huì)使圖片出現(xiàn)彩色的高頻率不規(guī)則的條紋)。不過對(duì)于偽造的人臉面具,摩爾紋也無法識(shí)別。這個(gè)時(shí)候,只有通過給機(jī)器輸入大量人臉面具的圖片,讓機(jī)器找出面具特征,再結(jié)合摩爾紋才能有效攔截。
曠視科技的彭建宏也提到,基于云端大量人臉數(shù)據(jù)訓(xùn)練出的 FMP 深度神經(jīng)網(wǎng)絡(luò),能夠根據(jù)線上數(shù)據(jù)實(shí)時(shí)返回和調(diào)整,從而不斷提高識(shí)別準(zhǔn)確率,實(shí)現(xiàn)有效識(shí)別翻拍及面具攻擊。
通過以上幾種檢測方案,計(jì)算機(jī)就能夠判別檢測的人臉是真實(shí)的人臉,還是偽造的人臉攻擊。
「除了人臉,
守住真實(shí)防線的武器還有哪些?」
證明你是你,臉并不是唯一的標(biāo)記物。除了人臉識(shí)別之外,還有多種生物識(shí)別技術(shù)可應(yīng)用于個(gè)人身份鑒定領(lǐng)域。
生物識(shí)別一般是通過與光學(xué)、聲學(xué)、生物傳感器和生物統(tǒng)計(jì)學(xué)原理等高科技手段密切結(jié)合,利用人體固有的生理特性和行為特征來進(jìn)行個(gè)人身份的鑒定。由于具有不會(huì)丟失、不易遺忘、防偽性能好等特點(diǎn),生物識(shí)別被獲得了研究者的重視,其中指紋識(shí)別、虹膜識(shí)別等識(shí)別方式已經(jīng)有了較為廣泛的應(yīng)用。
● 指紋識(shí)別:將識(shí)別對(duì)象的指紋分類比對(duì)從而進(jìn)行判別。目前國內(nèi)早已形成了完整的指紋識(shí)別產(chǎn)業(yè)鏈,比如從事指紋芯片設(shè)計(jì)的上市企業(yè)匯頂科技,此外還有思立微、費(fèi)恩格爾、邁瑞微等國產(chǎn)指紋識(shí)別芯片廠商。
● 虹膜識(shí)別:由于虹膜自胎兒發(fā)育階段形成后直至死亡終生不變,具有極強(qiáng)的穩(wěn)定性,決定了身份識(shí)別的唯一性,因此可以基于眼睛中的虹膜識(shí)別身份。目前,虹膜識(shí)別憑借其超高的精確性和使用的便捷性,已經(jīng)廣泛應(yīng)用于金融、醫(yī)療、安檢、安防、特種行業(yè)考勤與門禁、工業(yè)控制等領(lǐng)域。國內(nèi)的代表廠商有中科虹霸、虹星科技、聚虹光電、武漢虹識(shí)、釋碼大華等。
虹膜識(shí)別技術(shù)可被用來判定人的身份
● 步態(tài)識(shí)別:旨在通過人們走路的姿態(tài)進(jìn)行身份識(shí)別。由于它不需要人的行為配合,很難偽裝,所以特別適合于遠(yuǎn)距離的身份識(shí)別。步態(tài)識(shí)別的采集裝置簡單、經(jīng)濟(jì),甚至只需要一個(gè)監(jiān)控?cái)z像頭。當(dāng)前國內(nèi)步態(tài)識(shí)別領(lǐng)域的企業(yè)中,名氣最大的是銀河水滴。
● 聲紋識(shí)別:聲紋識(shí)別就是把聲信號(hào)轉(zhuǎn)換成電信號(hào),再用計(jì)算機(jī)識(shí)別,包括說話人辨認(rèn)(如縮小刑偵范圍)和說話人確認(rèn)(如銀行交易)兩種類型。聲紋識(shí)別提取方便、成本低廉,適合遠(yuǎn)程操作,但同時(shí)也存在易受環(huán)境噪音影響、部分場景下聲紋特征不易提取等缺點(diǎn)。所以,聲紋識(shí)別目前主要還是被用于一些對(duì)于身份安全性要求并不太高的場景當(dāng)中,比如音箱等智能硬件。目前國內(nèi)的科大訊飛、思必馳、云之聲等企業(yè)都推出了相應(yīng)的聲紋識(shí)別技術(shù)。
我們?nèi)粘J褂玫奈⑿?,也?yīng)用了聲紋識(shí)別技術(shù)
● 掌靜脈識(shí)別:首先通過靜脈識(shí)別儀獲取手指、手掌、手背靜脈的圖像,然后將捕獲的掌靜脈分布圖存貯在計(jì)算機(jī)系統(tǒng)中供后續(xù)識(shí)別使用。掌靜脈識(shí)別簡便易用、識(shí)別快速,準(zhǔn)確度還很高。然而,由于掌靜脈識(shí)別的產(chǎn)品有難以小型化、制造成本高、對(duì)采集設(shè)備有特殊要求等缺點(diǎn),目前應(yīng)用并不廣泛。當(dāng)下國內(nèi)知名的企業(yè)有富士通、通元微智能科技和智脈科技等幾家。
上面的每一種識(shí)別方式都曾以不同面目在電影中炫酷出鏡過,比如《諜中諜5》中,“步態(tài)識(shí)別”成為阿湯哥一行人獲取情報(bào)的最大障礙。
盡管以上提到的生物識(shí)別技術(shù)各有門檻,但它們并非不可破解,在AI技術(shù)加速發(fā)展的當(dāng)下,一些識(shí)別方式如同人臉識(shí)別一樣,正在遭遇更大的挑戰(zhàn)。
根據(jù)量子位的報(bào)道,斯坦福和普林斯頓大學(xué)等最新研究:給定任意文本,就能隨意改變一段視頻里人物說的話。并且,改動(dòng)關(guān)鍵詞后人物口型還能對(duì)得奇準(zhǔn)無比,絲毫看不出篡改的痕跡——AI也能造假聲音了。
技術(shù)的進(jìn)步讓我們擁有了更多盔甲,但同樣也暴露了我們更多軟肋。
「不容忽視的AI倫理」
換臉軟件 ZAO 將人工智能時(shí)代的隱私問題暴露的更加徹底:當(dāng)用戶完成面部照片上傳,制作好換臉視頻并發(fā)布到社交網(wǎng)絡(luò)之后,不僅可能侵犯了他人的肖像權(quán)、名譽(yù)權(quán)和著作權(quán),而且意味著他們已經(jīng)成了“透明人”,隱私權(quán)蕩然無存。
微信創(chuàng)始團(tuán)隊(duì)成員,支付寶前資深產(chǎn)品經(jīng)理陸樹燊就表示,照片泄露已經(jīng)是公開的秘密。不管用戶使用的是蘋果手機(jī)還是安卓手機(jī),理論上只要曾經(jīng)在App上打開過相機(jī)或者選擇過相機(jī),并使用一段時(shí)間,用戶的相冊(cè)里面的各種照片對(duì)App運(yùn)營者來說就不是秘密了。而用戶的手機(jī)號(hào)和照片同時(shí)泄露給App,更是很早就存在的事情,這個(gè)信息安全問題幾乎沒有得到過重視。
“至于大家能做什么,實(shí)則有限。如果你的手機(jī)相冊(cè)里存有身份證正反面的照片,記得把本地和云端的備份都刪掉。”
可以料想的是,就像臉萌、足記、天天P圖一樣,刷屏朋友圈的ZAO遲早有一天熱度會(huì)消散,但由于其將前沿的AI技術(shù)帶到了普羅大眾面前,由此引發(fā)的隱私、安全爭議也讓人們對(duì)AI未來走向的探討更加激烈。
在技術(shù)至上派的人看來,如果人工智能技術(shù)能夠持續(xù)進(jìn)步并廣泛應(yīng)用,特別是如果人類可以制造出真正能推理和解決問題、有知覺甚至自我意識(shí)的強(qiáng)人工智能機(jī)器的話,給人類社會(huì)帶來的好處將是巨大的。從現(xiàn)實(shí)情況看,人工智能技術(shù)的發(fā)展確實(shí)也已經(jīng)為人類帶來實(shí)際回報(bào)。
但得到這些好處并非沒有代價(jià),ZAO引發(fā)的爭論只是人工智能技術(shù)B面的一小部分,面對(duì)這股強(qiáng)大且未知的力量,圍繞人工智能倫理的探討從未停歇。
對(duì)人工智能的倫理探討主要有以下幾個(gè)議題。
一是算法歧視。算法決策其實(shí)是一種預(yù)測,用過去的數(shù)據(jù)預(yù)測未來的趨勢,算法模型和數(shù)據(jù)輸入決定著預(yù)測的結(jié)果。但在某些時(shí)候,算法并不客觀,而是暗藏歧視。比如,一些圖像識(shí)別軟件之前將黑人錯(cuò)誤地標(biāo)記為“黑猩猩”或者“猿猴”。
微軟在Twitter上線的聊天機(jī)器人Tay在與網(wǎng)民互動(dòng)過程中,曾成為過一個(gè)集性別歧視、種族歧視等于一身的“不良少女”,這揭示了更深層的問題:因?yàn)殄e(cuò)誤的輸入,形成了錯(cuò)誤的輸出,錯(cuò)誤的輸出作為反饋,又進(jìn)一步加深錯(cuò)誤。
過去的歧視可能會(huì)在算法中得到鞏固并在未來得到加強(qiáng),簡而言之:惡性循環(huán)。
二是隱私憂慮。很多人工智能系統(tǒng)都需要大量的數(shù)據(jù)來訓(xùn)練學(xué)習(xí)算法,數(shù)據(jù)因此成為AI時(shí)代的“新石油”,這帶來了新的隱私憂慮。
一方面,如果在深度學(xué)習(xí)過程中使用大量的敏感數(shù)據(jù),這些數(shù)據(jù)存在后續(xù)被披露出去的風(fēng)險(xiǎn);另一方面,考慮到各種服務(wù)之間會(huì)大量交易數(shù)據(jù),數(shù)據(jù)成為新的流通物,個(gè)人對(duì)其個(gè)人數(shù)據(jù)的控制和管理也會(huì)被削弱。
三是如何界定AI的人道主義待遇。當(dāng)自主智能機(jī)器人越來越強(qiáng)大,它們?cè)谌祟惿鐣?huì)到底應(yīng)該扮演什么樣的角色,目前還無法確定。
此外,越來越多的教育類、護(hù)理類、服務(wù)類的機(jī)器人在輔助人類看護(hù)孩子、老人和病人,這些交互會(huì)對(duì)人的行為產(chǎn)生什么樣的影響,也需要得到進(jìn)一步研究。
四是責(zé)任與安全的保障。埃隆·馬斯克、史蒂芬·霍金之前都提醒人們要警惕強(qiáng)人工智能或者超人工智能可能會(huì)威脅人類生存,但科學(xué)界和社會(huì)大眾對(duì)這個(gè)問題的討論和認(rèn)識(shí)還停留在表層。
馬斯克屢次提出警告:人工智能技術(shù)未來或?qū)?dǎo)致人類走向毀滅。他曾表示,“人工智能的關(guān)鍵在于,它們并不是機(jī)器人,而是一種計(jì)算機(jī)算法。機(jī)器人只是一堆傳感器元件,而人工智能則構(gòu)成了強(qiáng)大的網(wǎng)絡(luò)。如果只是算法失控,人類和人工智能便可以攜手加以控制。但一旦集中化的大型人工智能系統(tǒng)決意攻占世界,我們就無力阻止了。”
為此,馬斯克號(hào)召人們做好準(zhǔn)備,應(yīng)對(duì)人工智能帶來的“世界末日”。他提出,人類和機(jī)器可以融合為一種“人工智能-人類”的共生生物,這樣便能有效杜絕“人工智能獨(dú)裁”局面的出現(xiàn)。
無獨(dú)有偶,英國理論物理學(xué)家史蒂芬·霍金生前也曾警告說,人工智能的發(fā)展可能意味著人類的滅亡。
2014年,霍金在接受英國廣播公司的采訪時(shí)說,“我們已經(jīng)擁有原始形式的人工智能,而且已經(jīng)證明非常有用。但我認(rèn)為人工智能的完全發(fā)展會(huì)導(dǎo)致人類的終結(jié)。一旦經(jīng)過人類的開發(fā),人工智能將會(huì)自行發(fā)展,以加速度重新設(shè)計(jì)自己。由于受到緩慢的生物演化的限制,人類不能與之競爭,最終將會(huì)被代替。”
在最近召開的世界人工智能大會(huì)上,馬云和馬斯克進(jìn)行了一場“雙馬”對(duì)話。相比之下,馬云對(duì)當(dāng)下人類社會(huì)發(fā)生的改變更感興趣,馬斯克則為人類未來的命運(yùn)充滿擔(dān)憂。
馬斯克說自己并不是一個(gè)天然樂觀或悲觀的人,但他依然對(duì)人與人工智能的未來持有悲觀的態(tài)度:“人工智能可能比最聰明的人還要聰明。計(jì)算機(jī)可以用超過人類幾十萬倍數(shù)字通量的方式進(jìn)行對(duì)話,計(jì)算機(jī)看人一定會(huì)覺得特別無聊。”他建議,如果人類打不過人工智能的話,可以和他們組成團(tuán)隊(duì)。
而馬云的態(tài)度就很樂觀,他不覺得人工智能是一種威脅,“我不認(rèn)為人工智能是很恐怖的東西,因?yàn)槿祟惡苈斆鳌H斯ぶ悄芎芎?、很有意思,我們?huì)擁抱它。今天很多問題沒有解決方案,但是未來會(huì)有,青年人會(huì)有解決方案。”
人工智能與人類未來究竟會(huì)如何相處——是馬斯克預(yù)言的悲觀結(jié)局,還是馬云預(yù)言的樂觀結(jié)局,在肉眼可見的時(shí)間里,我們暫時(shí)還看不到答案。
如果將世界看做一個(gè)程序,那么我們每一個(gè)人的選擇就是世界運(yùn)行的算法,它決定了程序的未來走向。而刷屏的ZAO,也許就是那只正在振動(dòng)翅膀的蝴蝶。