CVPR 2024 | PICO 交互感知團(tuán)隊(duì) - 從圖像到可驅(qū)動(dòng)形象:OHTA 實(shí)現(xiàn)單圖創(chuàng)建手部化身
VR 中虛擬化身的進(jìn)步正在逐漸融合真實(shí)與虛擬世界,并重塑我們的日常生活。虛擬化身構(gòu)建需要精細(xì)渲染人體的各個(gè)部分,其中,手部在人機(jī)交互體驗(yàn)中發(fā)揮著核心作用。因此,將手部轉(zhuǎn)換成數(shù)字形式至關(guān)重要,這樣就可以在虛擬環(huán)境中創(chuàng)建個(gè)性化、可控制且高度寫實(shí)的虛擬化身。
快速和個(gè)性化的手部虛擬化身創(chuàng)建的需求變得越來越重要,但現(xiàn)有技術(shù)通常需要大量輸入數(shù)據(jù),在某些情況下可能會(huì)很麻煩甚至不切實(shí)際。因此,通過輕量級(jí)的輸入甚至是單張圖像,快速構(gòu)建手部模型是一個(gè)亟待解決的問題。
在近日召開的計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)2024 會(huì)議中,來自字節(jié)跳動(dòng) PICO 交互感知的研究團(tuán)隊(duì)發(fā)表了論文《OHTA: One-shot Hand Avatar via Data-driven Implicit Priors》。該論文提出了一種新方法 OHTA(One-shot Hand avaTAr),該方法僅需一張圖像即可創(chuàng)建高保真度的手部化身。OHTA 通過學(xué)習(xí)和利用數(shù)據(jù)驅(qū)動(dòng)的先驗(yàn)來解決虛擬化身構(gòu)建在數(shù)據(jù)有限情況下的固有困難。
OHTA 模型概覽;可以實(shí)現(xiàn) 1)單張圖手部化身創(chuàng)建;2)文本生成手部化身模型;3)手部化身外觀、幾何編輯;4)隱空間編輯操作
論文鏈接:https://arxiv.org/abs/2402.18969
項(xiàng)目主頁:https://zxz267.github.io/OHTA/
代碼鏈接:https://github.com/bytedance/OHTA/
背景
傳統(tǒng)的手部外觀建模方法依賴于紋理貼圖和三維網(wǎng)格模型。然而,個(gè)性化手部網(wǎng)格和紋理貼圖的構(gòu)建通常需要昂貴的掃描數(shù)據(jù)或高超的建模技巧。近年來,研究重心逐漸轉(zhuǎn)向使用數(shù)據(jù)驅(qū)動(dòng)的方法來創(chuàng)建手部虛擬化身。
盡管隱式手部表示最近取得了顯著進(jìn)展,但仍存在需要大量連續(xù)或多視圖圖像才能獲得高保真、可驅(qū)動(dòng)手部虛擬化身的顯著限制。對(duì)于普通用戶來說,獲取如此密集的輸入數(shù)據(jù)往往非常費(fèi)力且不切實(shí)際。
OHTA 旨在提供一種便捷的、基于單張圖像構(gòu)建手部化身的通用方法,并支持多樣的下游任務(wù)。
方法
總體來看,OHTA 是一種使用數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)渲染算法。對(duì)于每個(gè)人的手部,都有獨(dú)立的對(duì)象編碼(ID code)來表示形狀和紋理信息。為了達(dá)到更高的真實(shí)感,OHTA 對(duì)紋理、陰影和幾何信息進(jìn)行了分解,并通過體積渲染創(chuàng)建手部的虛擬化身。
為了在推理時(shí)實(shí)現(xiàn)一致性和個(gè)性化的手部表示,OHTA 采用了兩階段的訓(xùn)練和推理策略。訓(xùn)練階段在有標(biāo)注的大量數(shù)據(jù)中學(xué)習(xí)手部先驗(yàn)知識(shí),而推理階段僅需用戶提供一張圖像或一段文字。
OHTA 的網(wǎng)絡(luò)結(jié)構(gòu)
訓(xùn)練和推理創(chuàng)新:兩階段策略
現(xiàn)有技術(shù)往往只能針對(duì)單人進(jìn)行訓(xùn)練,無法泛化,顯然不適用于單圖構(gòu)建虛擬化身的場景。為了解決這一問題,OHTA 提出了先驗(yàn)學(xué)習(xí)與個(gè)性化優(yōu)化的兩階段策略。
首先,讓模型學(xué)習(xí)到手部的先驗(yàn),包括紋理、幾何以及不同動(dòng)作時(shí)手部自遮擋導(dǎo)致的陰影。
其次,實(shí)現(xiàn)個(gè)性化的手部化身創(chuàng)建,保證先驗(yàn)學(xué)習(xí)的結(jié)果能和輸入手部圖像完美匹配,讓單張圖像中的手部動(dòng)起來。
OHTA 的兩階段策略
具體流程如下:
- 第一階段(訓(xùn)練):手部先驗(yàn)知識(shí)學(xué)習(xí)
- 使用包含不同對(duì)象、手勢(shì)和視角的大量帶標(biāo)注手部訓(xùn)練數(shù)據(jù)。
- 利用這些數(shù)據(jù)對(duì)手部先驗(yàn)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
- 第二階段(推理):單張圖像構(gòu)建手部化身
使用現(xiàn)有的手部姿態(tài)估計(jì)器,得到單張圖像對(duì)應(yīng)的手部標(biāo)注。
利用手部先驗(yàn)網(wǎng)絡(luò)的逆向匹配(inversion)與優(yōu)化微調(diào)(finetune),得到單張輸入圖像對(duì)應(yīng)的手部化身。
逆向匹配僅調(diào)整對(duì)象編碼(ID code),優(yōu)化微調(diào)(finetune)則同步更新部分網(wǎng)絡(luò)權(quán)重。
網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新:多分辨率場
為了更好捕獲手部的紋理與陰影細(xì)節(jié),區(qū)別于常見的體積渲染所使用的網(wǎng)絡(luò)結(jié)構(gòu)與神經(jīng)輻射場表示,OHTA 算法創(chuàng)新性地提出了多分辨率場的概念。多分辨率場以顯式與隱式結(jié)合的形式連接了手部網(wǎng)格與體積渲染中的空間采樣點(diǎn)。
OHTA 中使用手部網(wǎng)格作為特征編碼的腳手架(mesh scaffold),將網(wǎng)格表面采樣的點(diǎn)作為錨點(diǎn)(anchor points),通過不同分辨率的錨點(diǎn)插值得到不同分辨率的特征,構(gòu)建多分辨率場。通過融合多分辨率的特征,OHTA 能夠更好的捕捉手部的細(xì)節(jié)變化。
此外,僅需要改變網(wǎng)絡(luò)模塊的輸入數(shù)據(jù)形式,這種表示形式就可以分別建模紋理與陰影。
不同分辨率的錨點(diǎn)
網(wǎng)格表面點(diǎn)引導(dǎo)的空間插值
多分辨率場的網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)結(jié)果與應(yīng)用
OHTA 在開放場景(in-the-wild)展現(xiàn)了非常強(qiáng)的魯棒性,并且支持多種下游的編輯應(yīng)用。
單圖化身生成與驅(qū)動(dòng)
無論是何種膚色、何種手勢(shì),僅需要一張圖像就能夠生成個(gè)性化的手部化身。即使是 in-the-wild 開放場景也能準(zhǔn)確捕捉手部圖像的紋理與形狀細(xì)節(jié),讓手部圖像動(dòng)起來。
in-the-wild 開放場景的手部化身生成
更多開放場景結(jié)果
同時(shí)這里也展示了和其他手部化身生成算法的對(duì)比,可以看到在手部細(xì)節(jié)與紋理一致性上 OHTA 優(yōu)于其他方法。
與其他方法在公開數(shù)據(jù)集 Interhand2.6M 上的對(duì)比,黑框所示圖為輸入的單張圖像
手型幾何 & 膚色紋理編輯
無論是改變膚色,還是改變手部大小形狀,都可以通過 OHTA 實(shí)現(xiàn)。不僅實(shí)現(xiàn)個(gè)性化的手部虛擬化身創(chuàng)建,更賦予了編輯的能力。
手型編輯
膚色編輯
紋理編輯 & 文本生成手部虛擬化身
只需提供文本描述或提供要編輯的紋理樣式,就能生成對(duì)應(yīng)的3D手部化身,甚至將手部變身為超級(jí)英雄。OHTA 這種創(chuàng)新方法讓個(gè)性化手部虛擬化身的創(chuàng)建變得更加輕松和高效。
文生手部模型(text-to-handavatar) 與紋理編輯(texture editing)效果
總結(jié)
OHTA 展示了僅依靠單張圖像就能創(chuàng)建具有一致驅(qū)動(dòng)質(zhì)量的高保真手部虛擬化身形象的能力。此外,多種下游應(yīng)用展示了 OHTA 的多功能性,包括文本到虛擬形象的轉(zhuǎn)換、手部編輯和隱空間編輯操作。
相信在未來的 VR 場景中,個(gè)性化虛擬化身的創(chuàng)建將變得觸手可及。無論是在 VR 游戲、虛擬會(huì)議,還是其他沉浸式體驗(yàn)中,每個(gè)人都能展示獨(dú)特的形象,增強(qiáng)互動(dòng)的沉浸感與真實(shí)感。