“ZAO”涼涼!教你用Deepfakes換臉
近日,一款名為"ZAO"的 AI 換臉軟件在社交媒體刷屏,火爆的同時(shí)也引發(fā)了不少質(zhì)疑。詳情可查看《3天登頂蘋(píng)果免費(fèi)榜,“ZAO”作起來(lái)會(huì)死》
只要在 App 中上傳一張照片,你想變成哪個(gè)明星,就能變成哪個(gè)明星。聽(tīng)起來(lái)很夢(mèng)幻,但卻觸手可及。
AI 換臉 App“ZAO”零門(mén)檻,操作簡(jiǎn)單……具備走紅基因。然而,一夜“爆火”被追捧,一天就“爆雷”被封殺,短短不過(guò) 24 小時(shí)。
9 月 3 日,ZAO 正式發(fā)表道歉聲明。ZAO 表示,不會(huì)存儲(chǔ)個(gè)人面部生物識(shí)別特征信息,不會(huì)產(chǎn)生支付風(fēng)險(xiǎn),公司非常重視個(gè)人信息保護(hù)和數(shù)據(jù)安全。
“ZAO”道歉的相關(guān)話題很快沖上熱搜榜,但由此引發(fā)的隱私保護(hù)爭(zhēng)議和反思并未平息。隨后,工信部約談 ZAO :要求自查整改,依法依規(guī)收集使用個(gè)人信息!
作為程序員,不會(huì)換臉軟件怎么能忍?下面教大家徒手使用 Deepfakes 換臉。
如何使用 Deepfakes 換臉?
獲取 deepfakes 工具包
- git clone https://github.com/deepfakes/faceswap.git
補(bǔ)齊依賴包:
- pip install tqdm
- pip install cv2
- pip install opencv-contrib-python
- pip install dlib
- pip install keras
- pip install tensorflow
- pip install tensorflow-gpu(如機(jī)器帶有g(shù)pu)
- pip install face_recognition
收集樣本
這里我選用的是新垣結(jié)衣的樣本,費(fèi)了好半天,下了 100 張圖片:
另外一個(gè)人的樣本是凱瑞穆里根,由于實(shí)在是找圖片麻煩,所以直接截取了《The Great Gatsby》里的視頻,然后用 ffmpeg 轉(zhuǎn)化為圖片,大概有 70 張的樣子。
面部抓取
在收集完樣本后,使用如下命令對(duì)樣本圖片進(jìn)行面部抓?。?/p>
./faceswap.py extract –i input_folder/ –o output_folder/
做這個(gè)的原因是因?yàn)槲覀冎饕P(guān)注的是換臉,所以只需要獲取臉部的特征,其他環(huán)境因素對(duì)換臉的影響并不大。
在面部抓取的過(guò)程完成后,我們可以得到所有臉部圖片。在此,我們可以人工篩選一下不合適的樣本(如下圖中的 49_1.jpg),將之去除。
面部檢測(cè)算法 HOG
這里簡(jiǎn)單提一下臉部特征提取算法 HOG(Histogram of Oriented Gradient)。
嚴(yán)格來(lái)說(shuō),其實(shí) HOG 是一個(gè)特征,是一種在計(jì)算機(jī)視覺(jué)和圖像處理中用來(lái)進(jìn)行物體檢測(cè)的特征描述因子。HOG 特征結(jié)合 SVM 分類器已經(jīng)被廣泛應(yīng)用于圖像識(shí)別中。
此處臉部檢測(cè)的一個(gè)簡(jiǎn)單過(guò)程如下:
①首先使用黑白來(lái)表示一個(gè)圖片,以此簡(jiǎn)化這個(gè)過(guò)程(因?yàn)槲覀儾⒉恍枰伾珨?shù)據(jù)來(lái)檢測(cè)一個(gè)臉部)。
②然后依次掃描圖片上的每一個(gè)像素點(diǎn) 。對(duì)每個(gè)像素點(diǎn),找到與它直接相鄰的像素點(diǎn)。然后找出這個(gè)點(diǎn)周圍暗度變化的方向。
例如下圖所示,這個(gè)點(diǎn)周圍由明到暗的方向?yàn)閺淖笙陆堑接疑辖?,所以它的梯度方向?yàn)槿缦录^所示:
③在上一個(gè)步驟完成后,一個(gè)圖片里所有的像素點(diǎn)均可由一個(gè)對(duì)應(yīng)的梯度表示。這些箭頭表示了整個(gè)圖片里由明到暗的一個(gè)趨勢(shì)。
如果我們直接分析這些像素點(diǎn)(也就是按色彩的方式分析),那么那些非常亮的點(diǎn)和非常暗的點(diǎn),它們的值(RGB 值)肯定有非常大的差別。
但是因?yàn)槲覀冊(cè)谶@只關(guān)注明亮度改變的方向,所以由有色圖和黑白圖最終得到的結(jié)果都是一樣的,這樣可以極大簡(jiǎn)化問(wèn)題解決的過(guò)程。
④但是保存所有這些梯度會(huì)是一個(gè)較為消耗存儲(chǔ)的過(guò)程,所以我們將整個(gè)圖片分成多個(gè)小方塊,并且計(jì)算里面有多少不同的梯度。
然后我們使用相同梯度最多的方向來(lái)表示這個(gè)小方塊的梯度方向。這樣可以將原圖片轉(zhuǎn)化為一個(gè)非常簡(jiǎn)單的表現(xiàn)方式,并以一種較簡(jiǎn)單的方法抓取到面部的基本結(jié)構(gòu)。
⑤當(dāng)計(jì)算到一個(gè)圖片的 HOG 特征后,可以使用這個(gè)特征來(lái)對(duì)通過(guò)訓(xùn)練大量圖片得出的 HOG 特征進(jìn)行比對(duì)。如果相似度超過(guò)某個(gè)閾值,則認(rèn)為面部被檢測(cè)到。

開(kāi)始訓(xùn)練
在提取兩個(gè)人臉的面部信息后,直接使用下面命令開(kāi)始進(jìn)行模型的訓(xùn)練:
- ./faceswap.py train -A faceA_folder/ -B faceB_folder -m models/
其中 -m 指定被保存的 Models 所在的文件夾。也可以在命令里加上 -p 參數(shù)開(kāi)啟 Preview 模式。
在訓(xùn)練過(guò)程中,可以隨時(shí)鍵入 Enter 停止訓(xùn)練,模型會(huì)保存在目標(biāo)文件夾。
訓(xùn)練使用的深度學(xué)習(xí)框架是 Tensorflow,它提供了保存 Checkpoint 的機(jī)制(當(dāng)然代碼里必須用上)。
在停止訓(xùn)練后,以后也可以隨時(shí)使用上面的命令讀取之前訓(xùn)練得出的權(quán)重參數(shù),并繼續(xù)訓(xùn)練。
轉(zhuǎn)換人臉
在訓(xùn)練完模型后(損失值較低),可以使用以下命令對(duì)目標(biāo)圖進(jìn)行換臉:
- ./faceswap.py –i input_images_folder/ -o output_images_folder/ -m models/
此處的例子是找的一個(gè)視頻,所以我們可以先用下面的命令將一個(gè)視頻以一個(gè)固定頻率轉(zhuǎn)化為圖片:
- ffmpeg –i video.mp4 output/video-frame-%d.png
然后執(zhí)行轉(zhuǎn)換人臉操作。最后將轉(zhuǎn)換后的人臉圖片集合,合成一個(gè)視頻:
- ffmpeg –i video-frame-%0d.png -c:v libx264 -vf “fps=25, format=yuv420p” out.mp4
下面是兩個(gè)換臉圖(樣本 A,110 張圖片;樣本 B,70 張圖片,訓(xùn)練時(shí)間 6 小時(shí)):
嗯…效果不咋樣… 建議大家可以增大樣本量,并延長(zhǎng)訓(xùn)練時(shí)間。
轉(zhuǎn)換人臉的過(guò)程
下面簡(jiǎn)單的聊一下轉(zhuǎn)換人臉的過(guò)程。這里用到了 AutoEncoder(一種卷積神經(jīng)網(wǎng)絡(luò)),它會(huì)根據(jù)輸入圖片,重構(gòu)這個(gè)圖片(也就是根據(jù)這個(gè)圖片再生成這個(gè)圖片):
這里 AutoEncoder 模型做的是:首先使用 Encoder 將一個(gè)圖片進(jìn)行處理(卷積神經(jīng)網(wǎng)絡(luò)抽取特征),以一種壓縮的方式來(lái)表示這個(gè)圖片。然后 Decoder 將這個(gè)圖片還原。
具體在 Deepfakes 中,它用了一個(gè) Encoder 和兩個(gè) Decoder。在訓(xùn)練的部分,其實(shí)它訓(xùn)練了兩個(gè)神經(jīng)網(wǎng)絡(luò),兩個(gè)神經(jīng)網(wǎng)絡(luò)都共用一個(gè) Encoder,但是均有不同的 Decoder。
首先 Encoder 將一個(gè)圖片轉(zhuǎn)化為面部特征(通過(guò)卷積神經(jīng)網(wǎng)絡(luò)抽取面部的細(xì)節(jié)特征)。然后 Decoder 通過(guò)這個(gè)面部特征數(shù)據(jù),將圖片還原。
這里有一個(gè) error function(loss function)來(lái)判斷這個(gè)轉(zhuǎn)換的好壞程度,模型訓(xùn)練的過(guò)程就是最小化這個(gè) loss function(value)的過(guò)程。
第一個(gè)網(wǎng)絡(luò)只訓(xùn)練圖片 A,第二個(gè)網(wǎng)絡(luò)只訓(xùn)練圖片 B。Encoder 學(xué)習(xí)如何將一個(gè)圖片轉(zhuǎn)化為面部特征值。
Decoder A 用于學(xué)習(xí)如何通過(guò)面部特征值重構(gòu)圖片 A,Decoder B 用于學(xué)習(xí)如何通過(guò)面部特征值重構(gòu)圖片 B。
所以在訓(xùn)練時(shí),我們會(huì)將兩個(gè)圖片均送入同一個(gè) Encoder,但是用兩個(gè)不同的 Decoder 還原圖片。
這樣最后我們用圖片 B 獲取到的臉,使用 Encoder 抽取特征,再使用 A 的 Decoder 還原,便會(huì)得到 A 的臉,B 的表情。