自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

證件照轉(zhuǎn)數(shù)字人只需幾秒鐘,微軟實現(xiàn)首個3D擴散模型高質(zhì)量生成效果,換裝改形象一句話搞定

人工智能 新聞
這個3D生成擴散模型“羅丹”RODIN的名字,靈感來源于法國雕塑藝術(shù)家奧古斯特·羅丹(Auguste Rodin)。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

一張2D證件照,幾秒鐘就能設(shè)計出3D游戲化身!

這是擴散模型在3D領(lǐng)域的最新成果。例如,只需一張法國雕塑家羅丹的舊照,就能分分鐘把他“變”進游戲中:

圖片

△RODIN模型基于羅丹舊照生成的3D形象

甚至只需要一句話就能修改裝扮和形象。告訴AI生成羅丹“穿著紅色毛衣戴著眼鏡的造型”:

圖片

不喜歡大背頭?那就換成“扎著辮子的造型”:

圖片

再試試換個發(fā)色?這是“棕色頭發(fā)的時尚潮人造型”,連胡子顏色都搞定了:

圖片

(AI眼中的“時尚潮人”,確實有點潮過頭了)

上面這個最新的3D生成擴散模型“羅丹”RODIN(Roll-out Diffusion Network),來自微軟亞洲研究院。

RODIN也是首個利用生成擴散模型在3D訓(xùn)練數(shù)據(jù)上自動生成3D數(shù)字化身(Avatar)的模型,論文目前已被CVPR 2023接收。

一起來看看。

直接用3D數(shù)據(jù)訓(xùn)練擴散模型

這個3D生成擴散模型“羅丹”RODIN的名字,靈感來源于法國雕塑藝術(shù)家奧古斯特·羅丹(Auguste Rodin)。

此前2D生成3D圖像模型,通常用2D數(shù)據(jù)訓(xùn)練生成對抗網(wǎng)絡(luò)(GAN)或變分自編碼器(VAE)得到,但結(jié)果往往不盡人意。

研究人員分析,造成這種現(xiàn)象的原因在于這些方法存在一個基礎(chǔ)的欠定(ill posed)問題。即由于單視角圖片存在幾何二義性,僅僅通過大量的2D數(shù)據(jù),很難學(xué)到高質(zhì)量3D化身的合理分布,導(dǎo)致生成效果不好。

因此,他們這次嘗試直接用3D數(shù)據(jù)來訓(xùn)練擴散模型,主要解決了三個難題:

  • 首先,如何用擴散模型生成3D模型多視角圖。此前擴散模型在3D數(shù)據(jù)上沒有可參考實踐方法和可遵循前例。
  • 其次,高質(zhì)量和大規(guī)模3D圖像數(shù)據(jù)集很難獲取,且存在隱私版權(quán)風(fēng)險,但網(wǎng)絡(luò)公開3D圖像無法保證多視圖一致性。
  • 最后, 2D擴散模型直接拓展成3D生成,所需的內(nèi)存、存儲與計算開銷極大。

為了解決這三個難題,研究人員提出了“AI雕塑家”RODIN擴散模型,超越了現(xiàn)有模型的SOTA水平。

RODIN模型采用神經(jīng)輻射場(NeRF)方法,借鑒英偉達的EG3D工作,將3D空間緊湊地表達為空間三個互相垂直的特征平面(Triplane),并將這些圖展開至單個2D特征平面中,再執(zhí)行3D感知擴散。

具體而言,就是將3D空間在橫、縱、垂三個正交平面視圖上以二維特征展開,這樣不僅可以讓RODIN模型使用高效的2D架構(gòu)進行3D感知擴散,而且將3D圖像降維成2D圖像也大幅降低了計算復(fù)雜度和計算成本。

圖片

△3D感知卷積高效處理3D特征

上圖左邊,用三平面(triplane)表達3D空間,此時底部特征平面的特征點對應(yīng)于另外兩個特征平面的兩條線;上圖右邊,則引入3D感知卷積處理展開的2D特征平面,同時考慮到三個平面的三維固有對應(yīng)關(guān)系。

具體而言,實現(xiàn)3D圖像的生成需要三個關(guān)鍵要素:

其一,3D感知卷積,確保降維后的三個平面的內(nèi)在關(guān)聯(lián)。

傳統(tǒng)2D擴散中使用的2D卷積神經(jīng)網(wǎng)絡(luò)(CNN),并不能很好地處理Triplane特征圖。

3D感知卷積并不是簡單生成三個2D特征平面,而是在處理這樣的3D表達時,考慮了其固有的三維特性,即三個視圖平面中其中一個視圖的2D特征本質(zhì)上是3D空間中一條直線的投影,因此與其他兩個平面中對應(yīng)的直線投影特征存在關(guān)聯(lián)性。

為了實現(xiàn)跨平面通信,研究員們在卷積中考慮了這樣的3D相關(guān)性,因此高效地用2D的方式合成3D細(xì)節(jié)。

其二,隱空間協(xié)奏三平面3D表達生成。

研究員們通過隱向量來協(xié)調(diào)特征生成,使其在整個三維空間中具有全局一致性,從而獲得更高質(zhì)量的化身并實現(xiàn)語義編輯。

同時,還通過使用訓(xùn)練數(shù)據(jù)集中的圖像訓(xùn)練額外的圖像編碼器,該編碼器可提取語義隱向量作為擴散模型的條件輸入。

這樣,整體的生成網(wǎng)絡(luò)可視為自動編碼器,用擴散模型作為解碼隱空間向量。對于語義可編輯性,研究員們采用了一個凍結(jié)的CLIP圖像編碼器,與文本提示共享隱空間。

其三,層級式合成,生成高保真立體細(xì)節(jié)。

研究員們利用擴散模型,先生成了一個低分辨率的三視圖平面(64×64),然后再通過擴散上采樣生成高分辨率的三平面(256×256)

這樣,基礎(chǔ)擴散模型集中于整體3D結(jié)構(gòu)生成,而后續(xù)上采樣模型專注于細(xì)節(jié)生成。

基于Blender生成大量隨機數(shù)據(jù)

訓(xùn)練數(shù)據(jù)集上,研究員們借助開源的三維渲染軟件Blender,通過隨機組合畫師手動創(chuàng)建的虛擬3D人物圖像,再加上從大量頭發(fā)、衣服、表情和配飾中隨機采樣,進而創(chuàng)建了10萬個合成個體,同時為每個個體渲染出了300個分辨率為256*256的多視圖圖像。

在文本到3D頭像的生成上,研究員們采用了LAION-400M數(shù)據(jù)集的人像子集,訓(xùn)練從輸入模態(tài)到3D擴散模型隱空間的映射,最終讓RODIN模型只使用一張2D圖像或一句文字描述,就能創(chuàng)建出逼真的3D頭像。

圖片

△給定一張照片生成虛擬形象

不僅能一句話改變形象,如“留卷發(fā)和大胡子穿著黑色皮夾克的男性”:

圖片

甚至連性別都能隨意更換,“紅色衣著非洲發(fā)型的女性”:(手動狗頭)

圖片

研究人員也給出了一個應(yīng)用Demo示范,創(chuàng)建自己的形象只需要幾個按鈕:

圖片

△利用文字做3D肖像編輯

更多效果可以戳項目地址查看~

圖片

△更多隨機生成的虛擬形象

做出了RODIN后,團隊接下來的計劃是?

據(jù)微軟亞洲研究院作者們表示,目前RODIN的作品還主要停留在3D半身人像上,這也與它主要采用人臉數(shù)據(jù)訓(xùn)練有關(guān),但3D圖像生成需求不僅局限于人臉上。

下一步,團隊將會考慮嘗試用RODIN模型創(chuàng)建更多3D場景,包括花草樹木、建筑、汽車家居等,實現(xiàn)“一個模型生成3D萬物”的終極目標(biāo)。

論文地址:
https://arxiv.org/abs/2212.06135

項目頁面:
https://3d-avatar-diffusion.microsoft.com


責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-05-08 15:44:23

3D數(shù)字人

2023-08-28 00:53:03

AI3D

2023-05-12 14:13:23

3D建模OpenAI

2021-12-30 10:00:07

3DAI 人工智能

2023-10-09 12:45:09

數(shù)據(jù)訓(xùn)練

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2023-12-14 12:51:28

LLM3D場景

2022-12-12 13:45:46

模型修圖

2022-11-11 15:06:17

模型AI

2015-08-03 10:21:04

設(shè)計模式表達

2020-11-27 09:57:11

Python代碼PyPy

2023-10-25 14:17:00

2023-09-05 23:34:52

Kubernetes云原生

2023-06-09 08:35:54

2025-01-14 09:24:46

2021-11-29 09:45:32

模型人工智能深度學(xué)習(xí)

2024-07-01 07:40:00

2010-03-29 11:55:12

無線上網(wǎng)報錯

2024-02-08 09:33:37

蘋果AI

2022-09-30 15:35:43

AI視頻
點贊
收藏

51CTO技術(shù)棧公眾號