自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="rrqrd"><abbr id="rrqrd"><menuitem id="rrqrd"></menuitem></abbr></legend>

^{<blockquote id="rrqrd"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

中科院、阿里出品FF3D，創(chuàng)建自定義風(fēng)格化3D人像只需三分鐘

作者：機(jī)器之心 2023-07-09 15:16:02

人工智能新聞

本文作者們提出一種簡(jiǎn)單高效的風(fēng)格化 3D 人像合成方法，能夠快速實(shí)現(xiàn)基于文本描述的自定義 3D 人像風(fēng)格化。

3D 人像合成一直是備受關(guān)注的 AIGC 領(lǐng)域。隨著 NeRF 和 3D-aware GAN 的日益進(jìn)步，合成高質(zhì)量的 3D 人像已經(jīng)不能夠滿足大家的期待，能夠通過簡(jiǎn)單的方式自定義 3D 人像的風(fēng)格屬性成為了更高的目標(biāo)，例如直接使用文本描述指導(dǎo)合成想要的 3D 人像風(fēng)格。

但是 3D 人像的風(fēng)格化存在一個(gè)普遍的問題，當(dāng)一個(gè)高質(zhì)量的 3D 人像合成模型訓(xùn)練好后（例如訓(xùn)練一個(gè) EG3D 模型），后續(xù)往往很難對(duì)其進(jìn)行較大的風(fēng)格化改變?；谀Ｐ碗[空間編輯的方法會(huì)受限于預(yù)訓(xùn)練 3D 人像合成模型的數(shù)據(jù)分布；直接對(duì) 3D 人像不同視角進(jìn)行風(fēng)格化會(huì)破壞 3D 一致性；自己收集創(chuàng)建一個(gè)風(fēng)格化的多視角人像數(shù)據(jù)集成本很高。以上這些問題使得大家難以簡(jiǎn)單的創(chuàng)建風(fēng)格化 3D 人像。

本文作者們提出一種簡(jiǎn)單高效的風(fēng)格化 3D 人像合成方法，能夠快速實(shí)現(xiàn)基于文本描述的自定義 3D 人像風(fēng)格化。

圖片

論文地址：https://arxiv.org/pdf/2306.15419.pdf
項(xiàng)目網(wǎng)站：https://tianxiangma.github.io/FF3D/

方法框架

該方法的核心步驟有兩個(gè)：1. 小樣本風(fēng)格化人像數(shù)據(jù)集構(gòu)建，2. Image-to-Triplane 模型微調(diào)。方法框架如下。

圖片

使用兩種先驗(yàn)?zāi)Ｐ蜆?gòu)建小樣本風(fēng)格化人像數(shù)據(jù)集

人工收集多視角風(fēng)格化人像數(shù)據(jù)是困難的，但是研究團(tuán)隊(duì)可以利用已有的預(yù)訓(xùn)練模型來間接構(gòu)建這種數(shù)據(jù)。本文采用兩個(gè)預(yù)訓(xùn)練先驗(yàn)?zāi)Ｐ?EG3D 和 Instruct-pix2pix (IP2P) 來實(shí)現(xiàn)這一目標(biāo)。

EG3D 是一個(gè)高質(zhì)量的 3D-aware GAN 方法用來提供多視角 3D 一致的人像合成結(jié)果，計(jì)作：。theta 是模型的參數(shù)，w 是從 W 隱空間隨機(jī)采樣的向量編碼，v 是人像的渲染方向。該研究隨機(jī)采樣一個(gè) w，并從 - 30 度到 30 度的俯仰角和偏航角范圍內(nèi)均勻采樣 i*i 個(gè)不同視角的人像。

IP2P 是一個(gè)文本引導(dǎo)的圖像編輯大模型，該研究用其來對(duì)不同視角的人像進(jìn)行風(fēng)格化編輯，計(jì)作：。phi 是模型參數(shù)，I 代表輸入的人像圖像，n 是隨機(jī)噪聲，c 是文本的條件輸入（后面使用 t 來表示）。借助 T ，研究團(tuán)隊(duì)可以將上述 i*i 個(gè)不同視角的人像進(jìn)行文本引導(dǎo)的風(fēng)格化編輯。同時(shí)，在實(shí)驗(yàn)中研究團(tuán)隊(duì)發(fā)現(xiàn) IP2P 在一些文本提示下對(duì)于同一個(gè)人像的不同視角的風(fēng)格化編輯結(jié)果存在較大的差異。因此該研究對(duì)其推理過程進(jìn)行一些改進(jìn)，將原始的噪聲 n 替換為。該式表示將噪聲 n 與輸入人像 I 的信息進(jìn)行加權(quán)融合，使得不同視角的人像 I 的風(fēng)格化編輯結(jié)果趨緊相同。此外該研究又引入輔助文本提示 td 和消極文本提示 tn 來增強(qiáng) IP2P 的生成質(zhì)量，即新的文本提示為。

基于上述過程，該研究提出風(fēng)格化人像合成 pipeline 為：

圖片

。該過程為純模型推理不需要額外的訓(xùn)練。對(duì)于 i*i 個(gè)不同視角的合成人像，研究團(tuán)隊(duì)可以快速構(gòu)建出一個(gè)小樣本風(fēng)格化人像數(shù)據(jù)集 Ds。

Image-to-Triplane 模型微調(diào)

構(gòu)建出 Ds 后，需要學(xué)習(xí)一個(gè)符合該數(shù)據(jù)集人像風(fēng)格的的 3D 模型。針對(duì)這個(gè)問題，研究團(tuán)隊(duì)提出一個(gè) Image-to-Triplane (I2T) 網(wǎng)絡(luò)，它可以建立人像圖像到 Triplane 表征到映射。研究將預(yù)訓(xùn)練的 EG3D 模型的 Triplane 合成網(wǎng)絡(luò)替換為本文提出的的 I2T 網(wǎng)絡(luò)，并復(fù)用剩余的渲染網(wǎng)絡(luò)。

因?yàn)?Ds 數(shù)據(jù)集的不同視角風(fēng)格化肖像是 3D 不一致的，所以首先需要對(duì) I2T 網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練，來預(yù)先建立人像到 Triplane 表征的準(zhǔn)確映射關(guān)系。研究團(tuán)隊(duì)利用 EG3D 的合成數(shù)據(jù)來預(yù)訓(xùn)練 I2T 網(wǎng)絡(luò)，訓(xùn)練損失函數(shù)如下：

圖片

H 代表 I2T 網(wǎng)絡(luò)，If 為正視角人像圖像輸入（由 EG3D 采樣提供），p 是 Triplane 表征的真值（也由 EG3D 采樣提供）。

利用預(yù)訓(xùn)練的 I2T 網(wǎng)絡(luò)，研究團(tuán)隊(duì)就可以在構(gòu)建好的 Ds 數(shù)據(jù)集上進(jìn)行快速微調(diào)，讓 I2T 的隱空間擬合到 Ds 數(shù)據(jù)集風(fēng)格分布。模型微調(diào)的損失函數(shù)包含重建損失和密度正則損失：該模型微調(diào)是十分高效的，可以在 3 分鐘左右完成。至此，就能夠得到一個(gè)自定義風(fēng)格（使用文本提示 t 指定）的 3D 人像模型。

實(shí)驗(yàn)

在本文的首頁(yè)所展示的就是一系列高質(zhì)量的風(fēng)格化 3D 人像合成結(jié)果。為了驗(yàn)證本文方法的可擴(kuò)展性，研究團(tuán)隊(duì)構(gòu)建了一個(gè)多風(fēng)格多身份人像數(shù)據(jù)集。他們利用 ChatGPT 生成 100 種不同風(fēng)格類型的問題提示，包含藝術(shù)風(fēng)格、電影角色風(fēng)格、游戲角色風(fēng)格、以及基礎(chǔ)屬性編輯風(fēng)格。對(duì)于每種風(fēng)格使用本文的人像風(fēng)格化 pipeline 合成 10*10 張不同視角的風(fēng)格化人像，進(jìn)而構(gòu)建出包含 10,000 張圖像的多風(fēng)格單身份人像數(shù)據(jù)集（MSSI）。此外，在 MSSI 的基礎(chǔ)上擴(kuò)展每種風(fēng)格的身份屬性，即隨機(jī)采樣不同的 w 向量，得到多風(fēng)格多身份人像數(shù)據(jù)集（MSMI）。該方法在這兩個(gè)數(shù)據(jù)集上的微調(diào)模型的 3D 人像合成結(jié)果如下：

圖片

在 I2T 的 ws 隱空間進(jìn)行插值即可實(shí)現(xiàn) 3D 人像的風(fēng)格變化：

該方法與 baseline 方法的對(duì)比結(jié)果如下：

更多的方法細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參考論文原文以及項(xiàng)目網(wǎng)站。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="khe8f"></blockquote>}

<style id="khe8f"></style>

<sub id="khe8f"><i id="khe8f"></i></sub>

<style id="khe8f"></style>

<style id="khe8f"></style>

<meter id="khe8f"></meter>