快手“萌面” Kmoji 魔法表情背后的那些 AI 技術(shù)
2018年7月,快手上線萌面魔法表情,首次將iphoneX的Animoji玩法普及到全部機(jī)型。2018年12月,快手又進(jìn)一步上線了“萌面Kmoji”魔法表情,通過(guò)該功能,用戶能夠用相機(jī)拍攝生成自己的專屬臉部AR虛擬形象,同時(shí)可以捕捉用戶表情,眨眼、張嘴、抬眉毛、吐舌頭等細(xì)微動(dòng)作都能精準(zhǔn)還原。這是短視頻平臺(tái)首次實(shí)現(xiàn)用戶自定義AR虛擬形象進(jìn)行拍攝的玩法。
用戶用萌面Kmoji制作的手工耿形象
“萌面Kmoji”生成的虛擬形象表情生動(dòng)逼真,與蘋果推的memoji效果觀感幾無(wú)二致。不過(guò)對(duì)“萌面Kmoji”而言,iPhoneX或更新型的蘋果設(shè)備或系統(tǒng)并非必需,同樣在任意一部智能手機(jī)上都可以流暢使用。
另一方面,相比于蘋果設(shè)備Memoji復(fù)雜的捏臉步驟,“萌面Kmoji”則簡(jiǎn)單得多:打開最新版快手APP的拍攝頁(yè)面,在魔法表情“萌面”表情中選擇“創(chuàng)建專屬萌面”進(jìn)行拍攝,系統(tǒng)就會(huì)根據(jù)用戶面部特征,一鍵自動(dòng)生成和用戶肖似的AR形象。
用戶也可憑喜好對(duì)虛擬形象的五官、皮膚、發(fā)型、裝飾等進(jìn)行自由調(diào)整,打造獨(dú)一無(wú)二的AR形象,“萌面Kmoji”的捏臉選項(xiàng)中提供了超過(guò)160余種素材選項(xiàng),給用戶更豐富的個(gè)性化選擇。
“萌面Kmoji” 背后是快手技術(shù)團(tuán)隊(duì)大量的研發(fā)工作。首先,基于人臉關(guān)鍵點(diǎn)、圖像特征提取等AI技術(shù),“萌面Kmoji”不需要iPhoneX等設(shè)備才支持的3D結(jié)構(gòu)光信息,僅憑2D視覺(jué)信息即可識(shí)別用戶的發(fā)型、臉型、五官形狀、膚色、口紅顏色、胡須等面部屬性信息,構(gòu)建用戶專屬的3D AR形象,并通過(guò)表情參數(shù)驅(qū)動(dòng)3D形象做出各種細(xì)微表情,例如微笑、閉眼、張嘴、吐舌頭等50余種表情,是多模態(tài)技術(shù)的成功應(yīng)用。
此外,“萌面Kmoji”采用了基于物理的真實(shí)感渲染算法,金屬、皮革等模型材質(zhì)更加真實(shí)更具質(zhì)感,大大提升模型的表現(xiàn)力。同時(shí),快手技術(shù)團(tuán)隊(duì)通過(guò)對(duì)算法的優(yōu)化,大大降低了運(yùn)行“萌面Kmoji”對(duì)CPU、GPU資源的占用,提升了運(yùn)行效率,普通千元手機(jī)也可順利運(yùn)行。
萌面Kmoji背后的人工智能技術(shù)方案詳解
基于3D分析和2D信息融合的人臉屬性和表情識(shí)別
個(gè)性化萌面系統(tǒng)的實(shí)現(xiàn)基礎(chǔ)是人臉屬性和表情識(shí)別,這需要3D分析以及與2D信息的融合。
對(duì)于圖像信息,快手技術(shù)團(tuán)隊(duì)會(huì)利用3D重建技術(shù)恢復(fù)出3D結(jié)構(gòu),同時(shí)和2D信息做有機(jī)的融合,并基于這些重建、分析和融合,做人臉屬性的分析,從各個(gè)維度分析出人臉特征,生成個(gè)性化的虛擬形象。同時(shí)也會(huì)實(shí)時(shí)進(jìn)行人臉的表情分析,用于驅(qū)動(dòng)生成的虛擬形象。
在此之上,快手技術(shù)團(tuán)隊(duì)還會(huì)借助人體進(jìn)行相關(guān)分析,比如頭發(fā),肩部等,為和現(xiàn)實(shí)場(chǎng)景融合打下基礎(chǔ),并通過(guò)自研的手機(jī)端真實(shí)感渲染引擎,將活動(dòng)的個(gè)性化萌面實(shí)時(shí)呈現(xiàn)給用戶。
3D人臉重建
3D人臉重建是整個(gè)系統(tǒng)中非常重要的一環(huán)??焓旨夹g(shù)團(tuán)隊(duì)采集了上萬(wàn)人臉三維數(shù)據(jù),包含各種年齡段,人種,臉型等,以及每個(gè)個(gè)體對(duì)應(yīng)的人臉各種表情,從而建立了幾乎涵蓋所有人臉空間和表情空間的三維人臉數(shù)據(jù)庫(kù)。通過(guò)該數(shù)據(jù)庫(kù),可以建模出任意人臉的任意表情??焓旨夹g(shù)團(tuán)隊(duì)研發(fā)了人臉關(guān)鍵點(diǎn)技術(shù),通過(guò)百余個(gè)關(guān)鍵點(diǎn)刻畫人臉的表情變化,從而重建每個(gè)個(gè)體各種表情下的三維人臉。另一方面,通過(guò)高效的神經(jīng)網(wǎng)絡(luò)技術(shù),保證3D人臉重建在性能較低的手機(jī)上也能實(shí)時(shí)運(yùn)行。
人臉屬性感知
在人臉屬性感知方面,快手技術(shù)團(tuán)隊(duì)采用神經(jīng)網(wǎng)絡(luò)感知人臉細(xì)粒度屬性,包含了性別,年齡,膚色,臉型,眼睛,嘴巴細(xì)粒度信息,相比同類產(chǎn)品,可做到自動(dòng)的人臉定制化,同時(shí)利用海量人臉數(shù)據(jù),多任務(wù)協(xié)同學(xué)習(xí),捕捉人臉細(xì)微特征。細(xì)粒度屬性的區(qū)分是非常困難的,有些問(wèn)題即使是人眼本身都難以區(qū)分,為此快手技術(shù)團(tuán)隊(duì)做了很多精細(xì)的設(shè)計(jì),融合了分類/回歸/分割等技術(shù),提高自動(dòng)捏臉的準(zhǔn)確度。
人臉表情識(shí)別
人臉表情是一種復(fù)雜且細(xì)微的信息,人對(duì)表情的感知是非常靈敏的。讓機(jī)器識(shí)別細(xì)微/夸張/靈活/穩(wěn)定的人臉表情信號(hào),單靠圖像信息是難以達(dá)到的。
快手技術(shù)團(tuán)隊(duì)通過(guò) 2D 的 RGB 視覺(jué)信息對(duì)問(wèn)題進(jìn)行建模、求解,獲得人臉關(guān)鍵點(diǎn)以及實(shí)時(shí)重建的三維模型,求解出人臉的表情,驅(qū)動(dòng)虛擬形象做各種逼真的動(dòng)作。同時(shí),得益于深度神經(jīng)網(wǎng)絡(luò)模型的量化,通過(guò)壓縮和加速解決手機(jī)性能問(wèn)題,該方案可適配任意機(jī)型。
高質(zhì)量渲染
萌面效果的最終呈現(xiàn)離不開渲染, 為了獲得高質(zhì)量的渲染,快手技術(shù)團(tuán)隊(duì)采用了先進(jìn)的Pp技術(shù),在移動(dòng)端實(shí)現(xiàn)了PC游戲級(jí)畫質(zhì);同時(shí),依托深厚的AI技術(shù)積累,萌面能夠根據(jù)外部環(huán)境和用戶的形象特征智能化地選擇最適合用戶的材質(zhì),達(dá)到最優(yōu)的渲染效果。
為了獲得更加真實(shí)的體驗(yàn)效果,快手技術(shù)團(tuán)隊(duì)引入了物理引擎實(shí)現(xiàn)頭發(fā)、布料等柔體的運(yùn)動(dòng)效果。為了使用戶獲得最優(yōu)的體驗(yàn),渲染引擎會(huì)根據(jù)不同機(jī)型選擇合適的渲染質(zhì)量。
移動(dòng)端預(yù)測(cè)模型優(yōu)化
為了讓AI模型在手機(jī)端能夠流暢地運(yùn)行,快手技術(shù)團(tuán)隊(duì)主要做了三方面的優(yōu)化:
首先是圖像預(yù)處理環(huán)節(jié),我們將圖像各種預(yù)處理操作合并起來(lái),以及對(duì)預(yù)處理所涉及到的圖像內(nèi)存進(jìn)行統(tǒng)一分配和回收,以減少內(nèi)存資源的消耗,提高分配使用的效率。
同時(shí),我們充分利用了NEON加速以及蘋果自帶的accelerate加速,整個(gè)運(yùn)行庫(kù)只占用2M的空間。
最后,我們?cè)诒WC預(yù)測(cè)精度的前提下,對(duì)AI模型進(jìn)行局部的INT8量化,經(jīng)過(guò)優(yōu)化后,運(yùn)行速度可提高1倍以上,同時(shí)AI預(yù)測(cè)模型的占用空間也壓縮到將近原來(lái)的四分之一。
除了虛擬形象之外,基于萌面所使用的這套系統(tǒng),快手技術(shù)團(tuán)體還進(jìn)行了擴(kuò)展應(yīng)用:人像3D打光、世界上另一個(gè)你
人像3D打光
人像3D打光主要利用了實(shí)時(shí)人臉三維重建技術(shù),該技術(shù)利用了人臉參數(shù)化先驗(yàn)?zāi)P?,根?jù)輸入圖,自動(dòng)匹配人臉幾何信息,得到人臉3D模型參數(shù),獲得人臉3D網(wǎng)格模型??梢愿鶕?jù)不同的場(chǎng)景設(shè)置不同的光源,利用實(shí)時(shí)渲染技術(shù)對(duì)虛擬人臉進(jìn)行渲染,得到面部光影圖;同時(shí),對(duì)輸入人像進(jìn)行前景分割,得到前景分割蒙版,也可以根據(jù)原圖得到其他蒙版信息;這些蒙版分別作為不同的圖層按照?qǐng)鼍靶枨筇囟ǖ姆绞蒋B加到原圖上,就可以得到打光結(jié)果。
世界上的另一個(gè)你
“世界上另一個(gè)你”是整套系統(tǒng)的另一個(gè)線下應(yīng)用,體驗(yàn)者走到屏幕前,點(diǎn)擊拍攝按鈕,3s倒計(jì)時(shí)后,左邊屏幕鏡頭拍攝定格參會(huì)者的面部圖像,右邊屏幕通過(guò)與視頻庫(kù)內(nèi)的數(shù)十億快手用戶公開視頻進(jìn)行檢索匹配,百毫秒內(nèi)匹配出結(jié)果,顯示播放1個(gè)快手端內(nèi)相似長(zhǎng)相的用戶視頻。
核心技術(shù):
- 基于幾十億的公開人臉數(shù)據(jù),進(jìn)行人臉屬性分析和識(shí)別,提取人臉特征并做數(shù)據(jù)結(jié)構(gòu)化,建立了高效的索引,并針對(duì)低對(duì)比度、模糊、大角度等人臉做了專門的優(yōu)化。
- 對(duì)前端拍攝的人臉圖像進(jìn)行檢測(cè),同樣基于人臉?lè)治瞿P?,提取人臉特征,并在后臺(tái)索引中進(jìn)行檢索,找到相似度最高的三個(gè)人臉圖像。
- 對(duì)檢索出的三個(gè)人臉圖像進(jìn)行更細(xì)粒度的屬性分析,得出對(duì)應(yīng)的年齡、性別、表情等屬性,基于屬性對(duì)檢索結(jié)果進(jìn)行重排。
- 最后前端展示出相似度最高的的人臉。
相比于其他的通用圖片檢索平臺(tái),快手優(yōu)勢(shì)在于:
- 數(shù)據(jù)量極大
- 數(shù)據(jù)分布相對(duì)均勻
- 數(shù)據(jù)多樣性:不同場(chǎng)景,姿態(tài)、光照、表情等數(shù)據(jù)十分豐富