自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024 | PICO 交互感知團(tuán)隊(duì) - 從圖像到可驅(qū)動(dòng)形象:OHTA 實(shí)現(xiàn)單圖創(chuàng)建手部化身

開發(fā)
OHTA 展示了僅依靠單張圖像就能創(chuàng)建具有一致驅(qū)動(dòng)質(zhì)量的高保真手部虛擬化身形象的能力。此外,多種下游應(yīng)用展示了 OHTA 的多功能性,包括文本到虛擬形象的轉(zhuǎn)換、手部編輯和隱空間編輯操作。

VR 中虛擬化身的進(jìn)步正在逐漸融合真實(shí)與虛擬世界,并重塑我們的日常生活。虛擬化身構(gòu)建需要精細(xì)渲染人體的各個(gè)部分,其中,手部在人機(jī)交互體驗(yàn)中發(fā)揮著核心作用。因此,將手部轉(zhuǎn)換成數(shù)字形式至關(guān)重要,這樣就可以在虛擬環(huán)境中創(chuàng)建個(gè)性化、可控制且高度寫實(shí)的虛擬化身。

快速和個(gè)性化的手部虛擬化身創(chuàng)建的需求變得越來越重要,但現(xiàn)有技術(shù)通常需要大量輸入數(shù)據(jù),在某些情況下可能會(huì)很麻煩甚至不切實(shí)際。因此,通過輕量級(jí)的輸入甚至是單張圖像,快速構(gòu)建手部模型是一個(gè)亟待解決的問題。

在近日召開的計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)2024 會(huì)議中,來自字節(jié)跳動(dòng) PICO 交互感知的研究團(tuán)隊(duì)發(fā)表了論文《OHTA: One-shot Hand Avatar via Data-driven Implicit Priors》。該論文提出了一種新方法 OHTA(One-shot Hand avaTAr),該方法僅需一張圖像即可創(chuàng)建高保真度的手部化身。OHTA 通過學(xué)習(xí)和利用數(shù)據(jù)驅(qū)動(dòng)的先驗(yàn)來解決虛擬化身構(gòu)建在數(shù)據(jù)有限情況下的固有困難。

圖片

OHTA 模型概覽;可以實(shí)現(xiàn) 1)單張圖手部化身創(chuàng)建;2)文本生成手部化身模型;3)手部化身外觀、幾何編輯;4)隱空間編輯操作


論文鏈接:https://arxiv.org/abs/2402.18969

項(xiàng)目主頁:https://zxz267.github.io/OHTA/

代碼鏈接:https://github.com/bytedance/OHTA/

背景

傳統(tǒng)的手部外觀建模方法依賴于紋理貼圖和三維網(wǎng)格模型。然而,個(gè)性化手部網(wǎng)格和紋理貼圖的構(gòu)建通常需要昂貴的掃描數(shù)據(jù)或高超的建模技巧。近年來,研究重心逐漸轉(zhuǎn)向使用數(shù)據(jù)驅(qū)動(dòng)的方法來創(chuàng)建手部虛擬化身。

盡管隱式手部表示最近取得了顯著進(jìn)展,但仍存在需要大量連續(xù)或多視圖圖像才能獲得高保真、可驅(qū)動(dòng)手部虛擬化身的顯著限制。對(duì)于普通用戶來說,獲取如此密集的輸入數(shù)據(jù)往往非常費(fèi)力且不切實(shí)際。

OHTA 旨在提供一種便捷的、基于單張圖像構(gòu)建手部化身的通用方法,并支持多樣的下游任務(wù)。

方法

總體來看,OHTA 是一種使用數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)渲染算法。對(duì)于每個(gè)人的手部,都有獨(dú)立的對(duì)象編碼(ID code)來表示形狀和紋理信息。為了達(dá)到更高的真實(shí)感,OHTA 對(duì)紋理、陰影和幾何信息進(jìn)行了分解,并通過體積渲染創(chuàng)建手部的虛擬化身。

為了在推理時(shí)實(shí)現(xiàn)一致性和個(gè)性化的手部表示,OHTA 采用了兩階段的訓(xùn)練和推理策略。訓(xùn)練階段在有標(biāo)注的大量數(shù)據(jù)中學(xué)習(xí)手部先驗(yàn)知識(shí),而推理階段僅需用戶提供一張圖像或一段文字。

圖片

OHTA 的網(wǎng)絡(luò)結(jié)構(gòu)

訓(xùn)練和推理創(chuàng)新:兩階段策略

現(xiàn)有技術(shù)往往只能針對(duì)單人進(jìn)行訓(xùn)練,無法泛化,顯然不適用于單圖構(gòu)建虛擬化身的場景。為了解決這一問題,OHTA 提出了先驗(yàn)學(xué)習(xí)與個(gè)性化優(yōu)化的兩階段策略。

首先,讓模型學(xué)習(xí)到手部的先驗(yàn),包括紋理、幾何以及不同動(dòng)作時(shí)手部自遮擋導(dǎo)致的陰影。

其次,實(shí)現(xiàn)個(gè)性化的手部化身創(chuàng)建,保證先驗(yàn)學(xué)習(xí)的結(jié)果能和輸入手部圖像完美匹配,讓單張圖像中的手部動(dòng)起來。

圖片

OHTA 的兩階段策略


具體流程如下:

  1. 第一階段(訓(xùn)練):手部先驗(yàn)知識(shí)學(xué)習(xí)
  1. 使用包含不同對(duì)象、手勢(shì)和視角的大量帶標(biāo)注手部訓(xùn)練數(shù)據(jù)。
  2. 利用這些數(shù)據(jù)對(duì)手部先驗(yàn)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
  1. 第二階段(推理):單張圖像構(gòu)建手部化身
  2. 使用現(xiàn)有的手部姿態(tài)估計(jì)器,得到單張圖像對(duì)應(yīng)的手部標(biāo)注。

  3. 利用手部先驗(yàn)網(wǎng)絡(luò)的逆向匹配(inversion)與優(yōu)化微調(diào)(finetune),得到單張輸入圖像對(duì)應(yīng)的手部化身。

  4. 逆向匹配僅調(diào)整對(duì)象編碼(ID code),優(yōu)化微調(diào)(finetune)則同步更新部分網(wǎng)絡(luò)權(quán)重。

網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新:多分辨率場

為了更好捕獲手部的紋理與陰影細(xì)節(jié),區(qū)別于常見的體積渲染所使用的網(wǎng)絡(luò)結(jié)構(gòu)與神經(jīng)輻射場表示,OHTA 算法創(chuàng)新性地提出了多分辨率場的概念。多分辨率場以顯式與隱式結(jié)合的形式連接了手部網(wǎng)格與體積渲染中的空間采樣點(diǎn)。

OHTA 中使用手部網(wǎng)格作為特征編碼的腳手架(mesh scaffold),將網(wǎng)格表面采樣的點(diǎn)作為錨點(diǎn)(anchor points),通過不同分辨率的錨點(diǎn)插值得到不同分辨率的特征,構(gòu)建多分辨率場。通過融合多分辨率的特征,OHTA 能夠更好的捕捉手部的細(xì)節(jié)變化。

此外,僅需要改變網(wǎng)絡(luò)模塊的輸入數(shù)據(jù)形式,這種表示形式就可以分別建模紋理與陰影。

圖片

不同分辨率的錨點(diǎn)

圖片

網(wǎng)格表面點(diǎn)引導(dǎo)的空間插值

圖片

多分辨率場的網(wǎng)絡(luò)結(jié)構(gòu)

實(shí)驗(yàn)結(jié)果與應(yīng)用

OHTA 在開放場景(in-the-wild)展現(xiàn)了非常強(qiáng)的魯棒性,并且支持多種下游的編輯應(yīng)用。

單圖化身生成與驅(qū)動(dòng)

無論是何種膚色、何種手勢(shì),僅需要一張圖像就能夠生成個(gè)性化的手部化身。即使是 in-the-wild 開放場景也能準(zhǔn)確捕捉手部圖像的紋理與形狀細(xì)節(jié),讓手部圖像動(dòng)起來。

圖片

in-the-wild 開放場景的手部化身生成

圖片

更多開放場景結(jié)果

圖片

圖片

圖片

圖片

同時(shí)這里也展示了和其他手部化身生成算法的對(duì)比,可以看到在手部細(xì)節(jié)與紋理一致性上 OHTA 優(yōu)于其他方法。

圖片

與其他方法在公開數(shù)據(jù)集 Interhand2.6M 上的對(duì)比,黑框所示圖為輸入的單張圖像

手型幾何 & 膚色紋理編輯

無論是改變膚色,還是改變手部大小形狀,都可以通過 OHTA 實(shí)現(xiàn)。不僅實(shí)現(xiàn)個(gè)性化的手部虛擬化身創(chuàng)建,更賦予了編輯的能力。

圖片

手型編輯

圖片

膚色編輯

紋理編輯 & 文本生成手部虛擬化身

只需提供文本描述或提供要編輯的紋理樣式,就能生成對(duì)應(yīng)的3D手部化身,甚至將手部變身為超級(jí)英雄。OHTA 這種創(chuàng)新方法讓個(gè)性化手部虛擬化身的創(chuàng)建變得更加輕松和高效。

圖片

文生手部模型(text-to-handavatar) 與紋理編輯(texture editing)效果

圖片

圖片

總結(jié)

OHTA 展示了僅依靠單張圖像就能創(chuàng)建具有一致驅(qū)動(dòng)質(zhì)量的高保真手部虛擬化身形象的能力。此外,多種下游應(yīng)用展示了 OHTA 的多功能性,包括文本到虛擬形象的轉(zhuǎn)換、手部編輯和隱空間編輯操作。

相信在未來的 VR 場景中,個(gè)性化虛擬化身的創(chuàng)建將變得觸手可及。無論是在 VR 游戲、虛擬會(huì)議,還是其他沉浸式體驗(yàn)中,每個(gè)人都能展示獨(dú)特的形象,增強(qiáng)互動(dòng)的沉浸感與真實(shí)感。

責(zé)任編輯:龐桂玉 來源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2024-08-14 16:30:00

3D AIGC

2024-01-08 09:27:28

自動(dòng)駕駛模型

2024-08-08 17:07:26

2017-09-22 16:34:31

2024-12-23 15:46:59

2015-09-24 09:51:41

2011-06-20 12:28:30

2017-04-14 08:58:55

深度學(xué)習(xí)感知機(jī)深度網(wǎng)絡(luò)

2024-01-24 16:44:48

數(shù)據(jù)驅(qū)動(dòng)AI驅(qū)動(dòng)企業(yè)領(lǐng)導(dǎo)人

2025-03-11 03:00:02

MoCap數(shù)據(jù)運(yùn)動(dòng)

2024-12-26 09:41:00

ML.NET圖像分類開發(fā)者

2025-03-14 12:03:29

2017-11-20 11:33:05

人機(jī)交互AI機(jī)器人

2022-03-21 18:27:42

模型3DAI

2015-08-03 09:39:46

數(shù)據(jù)

2021-09-15 09:57:01

組件庫設(shè)計(jì)AR

2024-05-22 16:01:32

2023-02-14 15:07:57

自動(dòng)駕駛

2025-04-28 02:55:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)