馬賽克也不安全?「大片」中的馬賽克,能被AI一鍵去除了
你知道嗎?馬賽克也不安全了!
欸,朋友們好啊,我是極果網(wǎng)最能吃的鍵盤(pán)俠極果君。剛才有個(gè)朋友問(wèn)我,極果君發(fā)生什么事啦?我說(shuō)怎么回事,給我發(fā)了幾張截圖。我一看,哦——
原來(lái)是上個(gè)月,世界最大同性交友平臺(tái)GitHub網(wǎng)站火了一個(gè)項(xiàng)目,名叫Depix。這個(gè)名字很好理解,“反像素”嘛,也就是利用AI技術(shù)去除馬賽克。
這事有好有壞。好處是雖然各路老司機(jī)們?cè)缇途毘闪?ldquo;眼中有碼,心中無(wú)碼”的神技,但直接看沒(méi)碼的顯然更加方便舒適;壞處就是諸位的密碼和設(shè)備IMEI碼等私密信息很可能就此被扒光了呀!
有碼真變無(wú)碼了!
這時(shí)候就有小伙伴要問(wèn)了,馬賽克橫行霸道和諧界這么多年,怎么是幾行代碼能治得了的?
還真治得了!原作者在原帖中直接給出了效果示例圖:
這張圖片丟進(jìn)去Depix里運(yùn)算,在聞到顯卡的香味之后,就會(huì)輸出AI去馬賽克的圖像:
人工整理一下,就得到了打碼文字的內(nèi)容:Hello from the other side.
這是原圖:
看吧,不能說(shuō)相差仿佛,簡(jiǎn)直就是一模一樣。
原理:簡(jiǎn)單粗暴
Depix算法這么神奇,那作者豈不是當(dāng)代大數(shù)學(xué)家?其實(shí)也不是。我們要理解Depix的原理,首先要明白馬賽克是怎么實(shí)現(xiàn)的:
圖片的每一個(gè)像素都是一組數(shù)據(jù)(通常RGB三原色都用0-255的值來(lái)表示),馬賽克本質(zhì)上就是把一張圖片分成一個(gè)個(gè)小格子,然后給每個(gè)格子算出它里面所有像素值的RGB平均值。
舉個(gè)最簡(jiǎn)單的例子,黑白平均一下,就會(huì)得出灰色。根據(jù)黑色所占單個(gè)小格子比例不同,灰色的深淺也有區(qū)別。
彩色圖像的馬賽克相對(duì)復(fù)雜,但原理一致:還是根據(jù)不同顏色的RGB值和該顏色所占小格子面積求得加權(quán)平均值,也就是平均顏色。
因此,馬賽克被廣泛用于私密信息保護(hù)和敏感內(nèi)容遮蔽,包括但不限于密碼覆蓋、采訪對(duì)象人臉打碼和色情信息屏蔽,甚至央視還干出過(guò)給大衛(wèi)打碼的騷操作:
具體是因?yàn)檎谛哌€是嫌小,就不得而知了。
作為知名反馬賽克算法,Depix的對(duì)策十分簡(jiǎn)單粗暴:直接反向推算,利用AI讓小格子不斷跟數(shù)據(jù)庫(kù)里已有的字符組合做匹配。不僅如此,Depix的作還十分周到地考慮到了字符間距的不同,所以同時(shí)做了“寬字距”和“窄字距”的數(shù)據(jù)庫(kù),讓多種段落格式都能夠被識(shí)別。
那么就有同學(xué)要問(wèn)了,作者只建了文字的數(shù)據(jù)庫(kù),我朋友用它來(lái)破解圖形打碼豈不是就行不通了?
別以為你的那點(diǎn)小心思極果君不知道!想當(dāng)初極果君剛知道這個(gè)消息也是興沖沖地打開(kāi)了P……呸!憂心仲仲可能存在的信息泄露。但是根據(jù)depix在github上介紹,該項(xiàng)目的目的根本不是去碼,而是做密碼恢復(fù)使用,是對(duì)于手機(jī)或其他類馬賽克處理圖片的恢復(fù)密碼工具。
所以說(shuō),非文字的打碼圖像就只能靠想象了(正色)。
弱點(diǎn)突出,反制輕而易舉
雖然Depix僅僅對(duì)文字的恢復(fù)相對(duì)出色,但這么一來(lái)大家的密碼就容易被泄露了呀!
莫慌!馬賽克能被抓取的信息也就僅僅是一個(gè)像素值,就相當(dāng)于:
已知1+2+1+3+2+1,我們很容易得出結(jié)果10。但是已知10,就很難確定原始數(shù)據(jù)的構(gòu)成。也就是說(shuō),數(shù)據(jù)庫(kù)里沒(méi)有的文字就識(shí)別不了,比如同是英文,花體字啥的就不行。
不僅如此,作者還沒(méi)建立中文的數(shù)據(jù)庫(kù)。這個(gè)也好理解,26個(gè)字母+10個(gè)數(shù)字的工程量,咋跟成千上萬(wàn)的漢字比嘛!
綜上,目前Depix最多也就做到這:
如果你實(shí)在不放心信息安全,可以在英文字母上蓋一層畫(huà)筆再打碼:
或者直接放大馬賽克的色塊,這還能識(shí)別個(gè)鬼:
只要有所防備,想要反制這種密碼的破解實(shí)在是容易得很。
人臉去碼:算法很美,翻車慘烈
除了針對(duì)文字去碼的Depix算法外,比較知名的算法還有杜克大學(xué)推出的Pulse算法。該算法針對(duì)人臉去碼優(yōu)化,可以將模糊的照片秒變清晰,效果出奇的好。
這項(xiàng)研究曾經(jīng)在CVPR 2020上發(fā)表,論文標(biāo)題為《PULSE:通過(guò)對(duì)生成模型的潛在空間探索實(shí)現(xiàn)自監(jiān)督照片上采樣》
當(dāng)然,杜克大學(xué)開(kāi)發(fā)的算法,最初也都是用本國(guó)人的臉作為模型來(lái)訓(xùn)練的,所以如果針對(duì)亞洲人臉來(lái)去碼,出紕漏也是難免的。比如,這是修復(fù)后的圖:
或許你覺(jué)得修復(fù)效果還可以?但是原圖是它:
人臉庫(kù)對(duì)不上,直接翻車到奶奶家了。
打碼仍可靠,但…別手殘??!
對(duì)于我們來(lái)說(shuō),當(dāng)前的技術(shù)條件下打碼還是相對(duì)可靠的。所以現(xiàn)在還不用擔(dān)心不法分子利用你打過(guò)碼的密碼或照片圖像還原來(lái)做壞事,一來(lái)是現(xiàn)有算法成功率仍然不高,另一方面如果真想獲取你的人臉信息,直接獲取你的前置攝像頭權(quán)限不是更方便?
實(shí)在怕信息泄露的話,厚碼(多重大色塊)也能保你無(wú)憂。
但有一種馬賽克是比較令人無(wú)語(yǔ)的:
生怕別人看不清唄?