自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊人臉高效率 3D 數(shù)字化技術(shù)研究

人工智能
本次分享主要介紹騰訊 AI Lab 近期在人臉高效率 3D 數(shù)字化技術(shù)方面的研究成果,包括使用單張照片、多張照片、RGBD 自拍等方式進(jìn)行人臉 3D 數(shù)字化,以及在人臉 3D 建模精度的評(píng)估方法等方面的研究。

一、人臉3D數(shù)字化概覽?

如下是我們現(xiàn)在在騰訊 AI Lab 做的一個(gè)高保真 3D 數(shù)字人小志,是采用虛幻引擎渲染的效果。從靜態(tài)的建模角度來(lái)看,現(xiàn)如今數(shù)字人臉部的數(shù)字化技術(shù),基本上已經(jīng)可以做到以假亂真,看起來(lái)跟照片非常接近的程度。動(dòng)態(tài)的效果展示中,表情是模擬真人表情的動(dòng)畫(huà),結(jié)合語(yǔ)音驅(qū)動(dòng)的數(shù)字人的口型和動(dòng)作。

圖片

高保真 3D 數(shù)字人是如何制作出來(lái)的呢?其制作管線(xiàn)流程如下:?

圖片

首先使用光場(chǎng)掃描的方式采集模特的圖片數(shù)據(jù),然后對(duì)這些圖片數(shù)據(jù)進(jìn)行高模重建,重建的過(guò)程會(huì)有噪聲或者瑕疵,高模制作就是對(duì)瑕疵的清理、以及細(xì)節(jié)的雕刻,同時(shí)會(huì)按照固定的拓?fù)淠0遄鲆粋€(gè)低模重拓?fù)?,這個(gè)過(guò)程中就可以制作出 UV 貼圖,包括材質(zhì)渲染所需的貼圖,比如法線(xiàn)貼圖、高光貼圖、粗糙度貼圖。上面這些環(huán)節(jié)是靜態(tài)建模的過(guò)程。

后續(xù)如果要讓其動(dòng)起來(lái),還需要一些動(dòng)態(tài)建模的過(guò)程,比如會(huì)先有一些演員不同表情的掃描,這些掃描的數(shù)據(jù)還是需要經(jīng)歷前面的高模重建、高模制作、以及低模重拓?fù)涞闹谱鞴芫€(xiàn),才能真正用到動(dòng)畫(huà)的資產(chǎn)里面去。下一步非常耗時(shí)的步驟其實(shí)是做控制器綁定,這一步對(duì)于后續(xù)的動(dòng)畫(huà)動(dòng)作是否自然生動(dòng)至關(guān)重要。接下來(lái)是處理頭發(fā)、眼珠、牙齒等掛件,以及皮膚材質(zhì)的設(shè)置、渲染等步驟。最后基于語(yǔ)音的輸入或者文本的輸入,讓其自動(dòng)做一些口型、表情,以及動(dòng)作。整個(gè)的數(shù)字人制作管線(xiàn)就是這樣的一個(gè)流程。

制作 3D 寫(xiě)實(shí)數(shù)字人的工期久、人工成本大,所以 AI Lab 也在研究如何能更高效地制作高保真的數(shù)字人,主要分了幾條不同的路線(xiàn)來(lái)做技術(shù)的探索,各級(jí)方案的特點(diǎn)如下:

圖片

S 級(jí)別的數(shù)字人制作方案,耗費(fèi)的時(shí)間和人工較大,是為了追求最高的質(zhì)量。我們技術(shù)側(cè)研究更多是偏向 A、B、C 三個(gè)級(jí)別,無(wú)論是采集設(shè)備還是制作方案方面,都希望能夠更高效、更便捷地制作高保真數(shù)字人。比如 A 級(jí),不再使用 S 級(jí)中的 360° 光場(chǎng)設(shè)備,而是使用相對(duì)簡(jiǎn)易的相機(jī)陣列,很容易搭建起來(lái),后續(xù)采用以 AI 算法為主的生成,因?yàn)檩斎胧潜容^豐富的,所以能夠兼顧高品質(zhì)和高效率。B 級(jí)和 C 級(jí)是針對(duì)消費(fèi)端的輸入,可以實(shí)現(xiàn)任意用戶(hù)采用消費(fèi)端設(shè)備就可以采集并自動(dòng)生成高保真數(shù)字人形象。最簡(jiǎn)單的是 C 級(jí)別的方案,用單張或多張照片,就可以實(shí)現(xiàn)人臉的重建,以及后續(xù)的數(shù)字化。這種方案是 C 端用戶(hù)最容易觸達(dá)的。下面我重點(diǎn)介紹一下我們?cè)?B 級(jí)方案中研發(fā)的一套算法,這項(xiàng)工作已經(jīng)發(fā)表到了圖形學(xué)頂刊 ACM Transactions on Graphics 上。

二、RGB 自拍數(shù)字化

RGBD 自拍的圖像以及深度數(shù)據(jù),經(jīng)過(guò)算法自動(dòng)選幀,篩選出覆蓋人臉各個(gè)角度、且動(dòng)作沒(méi)有變形的一些幀,再進(jìn)行幾何建模、材質(zhì)建模,得到一個(gè)高清的紋理貼圖以及高清的法線(xiàn)貼圖,然后我們會(huì)復(fù)用在渲染引擎里面的一些其它的貼圖,當(dāng)然從法線(xiàn)貼圖還可以進(jìn)一步算出粗糙度貼圖。

接下來(lái)介紹整個(gè)算法的流程,主要分為 7 個(gè)步驟:

  • 步驟一 自動(dòng)選幀算法

圖片

這一步包括多步篩選,首先是 Landmark Detection 粗篩,從正臉、側(cè)臉、仰頭等不同角度都篩選出一些候選的幀。在這些候選幀中,會(huì)進(jìn)行剛性篩選,篩選出與參考幀相比,沒(méi)有任何動(dòng)作的幀。最后根據(jù)圖像質(zhì)量排序,選出正臉、左、右、上四張 RGBD 數(shù)據(jù)。

  • 步驟二 模型初始擬合

圖片

在初始擬合步驟中,首先會(huì)進(jìn)行傳統(tǒng)的關(guān)鍵點(diǎn)擬合,得到一些初始形狀,提取臉部區(qū)域后,得到不同側(cè)面的 UV 展開(kāi),之后再進(jìn)行融合和參數(shù)化擬合,就可以得到初始顏色貼圖。

  • 步驟三 基于可微渲染的優(yōu)化

圖片

基于可微渲染的優(yōu)化框架是我們整個(gè)建模中最核心的算法?;谝粋€(gè)可微渲染器,根據(jù)圖像的 appearance 信息,以及 ID 的一致性信息和 depth 的一致性信息,再加上 landmark 各種約束,來(lái)反推基于 3DMM 的 shape 和 texture 的參數(shù)。

  • 步驟四 紋理/法線(xiàn)貼圖合成

圖片

基于前步初始的 UV 展開(kāi)后的圖,經(jīng)過(guò)更細(xì)致的,基于局部金字塔的紋理貼圖基底去做 fitting,得到一個(gè)基于紋理基底的參數(shù)的表示,之后得到由參數(shù)化 fitting 融合出來(lái)的2k 的紋理貼圖和法線(xiàn)貼圖,再經(jīng)過(guò) image translation network 做紋理貼圖和法線(xiàn)貼圖的精細(xì)化,最終得到細(xì)節(jié)更加清晰的圖。

  • 步驟五 補(bǔ)頭/掛件掛載/渲染

圖片

經(jīng)過(guò)了 shape 的重建,以及紋理貼圖和法線(xiàn)貼圖的生成后,后續(xù)還要進(jìn)行補(bǔ)頭、掛件掛載(頭發(fā)、眼珠、牙齒)等工作,并進(jìn)行最終的渲染。

下面是一些結(jié)果展示。

圖片

圖片

圖片

  • 步驟六 AutoRigging

圖片

靜態(tài)建模后,可以利用變形遷移等技術(shù)生成相應(yīng)的表情 blendshape 資產(chǎn)。

  • 步驟七  文本/語(yǔ)音驅(qū)動(dòng)

圖片

有了以上資產(chǎn)后,就可以通過(guò)文本、語(yǔ)音驅(qū)動(dòng)讓數(shù)字人動(dòng)起來(lái)。整個(gè)算法流程大致是這樣的,我們?cè)?TOG 論文里對(duì)于每個(gè)步驟有更詳細(xì)的描述,算法的核心代碼也已經(jīng)開(kāi)源,歡迎大家掃碼關(guān)注。在上面的工作中,最核心的一個(gè)步驟是重建出高保真的人臉模型,下面我們針對(duì)這個(gè)問(wèn)題進(jìn)行更深入的探討。

三、如何評(píng)估 3D 人臉重建

圖片

3D 人臉形狀的重建是一個(gè)比較核心的部分,我們對(duì) shape 重建的結(jié)果和一些 SOTA方法進(jìn)行了對(duì)比,也有在 benchmark 上面做一些客觀評(píng)測(cè)。很多情況還是需要仔細(xì)的去觀看,比如臉部形狀的貼合程度和嘴形鼻子形狀的重建效果。最終發(fā)現(xiàn)目前的 benchmark 都無(wú)法與主觀感受的效果相吻合,在這個(gè)過(guò)程中,我們發(fā)現(xiàn) 3D 人臉重建結(jié)果評(píng)估方法其實(shí)是存在很多問(wèn)題的。

圖片

傳統(tǒng) 3D 人臉重建評(píng)估方法主要有剛性對(duì)齊和最近鄰點(diǎn)計(jì)算誤差兩個(gè)步驟。

圖片

在剛性對(duì)齊步驟中,容易出現(xiàn)的問(wèn)題,是對(duì)齊方法對(duì)于局部擾動(dòng)很敏感。比如上圖中灰色模型和黃色模型可以很好的對(duì)齊,如果對(duì)鼻子做一個(gè)擾動(dòng),理想情況下應(yīng)該還是用原來(lái)的對(duì)齊相對(duì) pose 來(lái)計(jì)算 error,那么鼻子區(qū)域的 error 就會(huì)比較大,但事實(shí)上經(jīng)過(guò)算法重新計(jì)算剛性對(duì)齊后,很多其它地方都會(huì)參考鼻子去做 alignment,導(dǎo)致整個(gè)臉的區(qū)域會(huì)后移,這樣計(jì)算出來(lái)的 error 就不能很好的反應(yīng)哪些區(qū)域重建的不好。

另一個(gè)問(wèn)題是在找對(duì)應(yīng)點(diǎn)計(jì)算 error 的過(guò)程中,對(duì)應(yīng)點(diǎn)關(guān)聯(lián)易錯(cuò)位。比如上圖中藍(lán)色的線(xiàn)是 GT 效果,橙色是計(jì)算出來(lái)的效果,x 點(diǎn)應(yīng)該與 y2 y1 點(diǎn)對(duì)應(yīng)。

針對(duì)這兩個(gè)問(wèn)題,我們?cè)?3D 人臉重建的評(píng)估方法上做了一些改進(jìn)。首先基于前面發(fā)現(xiàn)的問(wèn)題,我們重新做了一個(gè)用于評(píng)估的 benchmark 數(shù)據(jù)集,叫做 REALY。REALY  包含 100 對(duì) 2D 圖片(下圖中第一排),以及 3D 掃描模型(下圖中第二排),最關(guān)鍵的是第三排,每個(gè)人臉的掃描模型做了一個(gè)統(tǒng)一的拓?fù)鋵?duì)齊后,再把原始高模對(duì)應(yīng)的語(yǔ)義信息進(jìn)行分割,就得到了在高模上的臉部區(qū)域的一些 Mask,我們可以分別對(duì)每個(gè)區(qū)域做評(píng)估,甚至對(duì)每個(gè)區(qū)域做完對(duì)齊之后做評(píng)估。

圖片

評(píng)估方法上,我們針對(duì)剛才提到的兩個(gè)問(wèn)題做了改進(jìn)。

針對(duì)全局剛性對(duì)齊的問(wèn)題,我們按 Mask 做局部對(duì)齊并只計(jì)算局部誤差,就可以比較客觀的反映出來(lái)鼻子、嘴型、臉型、眉毛等的效果。

針對(duì)對(duì)應(yīng)點(diǎn)錯(cuò)位的問(wèn)題,我們引入了逆向 non-rigid deformation 更新對(duì)應(yīng)點(diǎn)關(guān)系,可以理解為在找對(duì)應(yīng)點(diǎn)關(guān)系的時(shí)候是一個(gè)雙向過(guò)程,這樣可以使得對(duì)應(yīng)點(diǎn)關(guān)系找得更準(zhǔn)。我們也做了一些實(shí)驗(yàn),來(lái)驗(yàn)證這兩個(gè)改進(jìn),發(fā)現(xiàn)有很大的幫助。

圖片

根據(jù)這個(gè)方法,我們對(duì)現(xiàn)有的能找到開(kāi)源代碼的單張照片的 3D 人臉重建算法做了一個(gè)非常詳細(xì)的評(píng)測(cè),過(guò)程中也發(fā)現(xiàn)了一些有趣的觀察:

圖片

這項(xiàng)工作已經(jīng)發(fā)表到今年的計(jì)算機(jī)視覺(jué)頂會(huì) ECCV 上,相關(guān)的數(shù)據(jù)集和代碼也已經(jīng)公開(kāi),歡迎大家掃碼關(guān)注。以上就是我今天分享的內(nèi)容,謝謝大家,歡迎大家提問(wèn)。

四、問(wèn)答環(huán)節(jié)

Q1:想問(wèn)一下關(guān)于陰影的處理,是通過(guò)真么樣的思路?是有監(jiān)督還是無(wú)監(jiān)督的方法來(lái)做?

A1:首先是 moldel base delighting 的過(guò)程,會(huì)估計(jì)出球諧光照,根據(jù)估計(jì)出來(lái)的光照去處理 delighting,這一步驟會(huì)導(dǎo)致臉部區(qū)域不是很均勻,有些高光也無(wú)法去掉;其次是 fitting 的過(guò)程,會(huì)去掉不均勻的部分;再進(jìn)行 refinement 的過(guò)程,使用比較均勻的 UV 貼圖,可以進(jìn)一步的把光照做的比較平。所以是經(jīng)過(guò)了以上三個(gè)步驟的處理使得光照比較均勻。

Q2:頭發(fā)是如何建模及渲染的?

A2:頭發(fā)是以?huà)旒男问綊焐先サ模钦{(diào)用事先人工建模好的頭發(fā)庫(kù),渲染也是在Groom 里用 UE4 渲染。

Q3:口腔內(nèi)部如何建模?

A3:目前是沒(méi)有建模的,但是我們這個(gè)拓?fù)淅锟谇皇且粋€(gè)包絡(luò),有了這個(gè)腔體,可以往里面放牙齒和舌頭的掛件。

Q4:你們的數(shù)字人做的比其他算法更真實(shí),主要的差異是什么原因?qū)е拢繋缀文P?、皮膚紋理更真實(shí)?還是貼合性?

A4:傳統(tǒng)的 3D 人臉重建我們只關(guān)注人臉局部的一個(gè)區(qū)域,但是做數(shù)字人來(lái)講,這還是遠(yuǎn)遠(yuǎn)不夠的。一是我們重建的 shape 跟真人非常貼合;二是紋理的合成,我們構(gòu)建了一個(gè)比較高質(zhì)量的的紋理數(shù)據(jù)集,通過(guò)這些數(shù)據(jù)集訓(xùn)練 refinement 可以得到很精細(xì)的毛發(fā)等的相關(guān)細(xì)節(jié);三是我們把整個(gè)完整的流程和管線(xiàn)都做的比較細(xì)致;四是有在用工業(yè)界的渲染管線(xiàn)來(lái)渲染數(shù)字人。以上就是我們的數(shù)字人更真實(shí)的原因。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)