自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

三維場景生成:無需任何神經(jīng)網(wǎng)絡(luò)訓練,從單個樣例生成多樣結(jié)果

人工智能 新聞
北京大學陳寶權(quán)團隊聯(lián)合山東大學和騰訊AI Lab的研究人員,提出了首個基于單樣例場景無需訓練便可生成多樣高質(zhì)量三維場景的方法。

圖片

多樣高質(zhì)的三維場景生成結(jié)果

  • 論文地址:https://arxiv.org/abs/2304.12670
  • 項目主頁:http://weiyuli.xyz/Sin3DGen/

引言

使用人工智能輔助內(nèi)容生成(AIGC)在圖像生成領(lǐng)域涌現(xiàn)出大量的工作,從早期的變分自編碼器(VAE),到生成對抗網(wǎng)絡(luò)(GAN),再到最近大紅大紫的擴散模型(Diffusion Model),模型的生成能力飛速提升。以 Stable Diffusion,Midjourney 等為代表的模型在生成具有高真實感圖像方面取得了前所未有的成果。同時,在視頻生成領(lǐng)域,最近也涌現(xiàn)出很多優(yōu)秀的工作,如 Runway 公司的生成模型能夠生成充滿想象力的視頻片段。這些應(yīng)用極大降低了內(nèi)容創(chuàng)作門檻,使得每個人都可以輕易地將自己天馬行空的想法變?yōu)楝F(xiàn)實。

但是隨著承載內(nèi)容的媒介越來越豐富,人們漸漸不滿足于圖文、視頻這些二維的圖形圖像內(nèi)容。隨著交互式電子游戲技術(shù)的不斷發(fā)展,特別是虛擬和增強現(xiàn)實等應(yīng)用的逐步成熟,人們越來越希望能身臨其境地從三維視角與場景和物體進行互動,這帶來了對三維內(nèi)容生成的更大訴求。

如何快速地生成高質(zhì)量且具有精細幾何結(jié)構(gòu)和高度真實感外觀的三維內(nèi)容,一直以來是計算機圖形學社區(qū)研究者們重點探索的問題。通過計算機智能地進行三維內(nèi)容生成,在實際生產(chǎn)應(yīng)用中可以輔助游戲、影視制作中重要數(shù)字資產(chǎn)的生產(chǎn),極大地減少了美術(shù)制作人員的開發(fā)時間,大幅地降低資產(chǎn)獲取成本,并縮短整體的制作周期,也為用戶帶來千人千面的個性化視覺體驗提供了技術(shù)可能。而對于普通用戶來說,快速便捷的三維內(nèi)容創(chuàng)作工具的出現(xiàn),結(jié)合如桌面級三維打印機等應(yīng)用,未來將為普通消費者的文娛生活帶來更加無限的想象空間。

目前,雖然普通用戶可以通過便攜式相機等設(shè)備輕松地創(chuàng)建圖像和視頻等二維內(nèi)容,甚至可以對三維場景進行建模掃描,但總體來說,高質(zhì)量三維內(nèi)容的創(chuàng)作往往需要有經(jīng)驗的專業(yè)人員使用如 3ds Max、Maya、Blender 等軟件手動建模和渲染,但這些有很高的學習成本和陡峭的成長曲線。

其中一大主要原因是,三維內(nèi)容的表達十分復(fù)雜,如幾何模型、紋理貼圖或者角色骨骼動畫等。即使就幾何表達而言,就可以有點云、體素和網(wǎng)格等多種形式。三維表達的復(fù)雜性極大地限制了后續(xù)數(shù)據(jù)采集和算法設(shè)計。

另一方面,三維數(shù)據(jù)天然具有稀缺性,數(shù)據(jù)獲取的成本高昂,往往需要昂貴的設(shè)備和復(fù)雜的采集流程,且難以大量收集某種統(tǒng)一格式的三維數(shù)據(jù)。這使得大多數(shù)數(shù)據(jù)驅(qū)動的深度生成模型難有用武之地。

在算法層面,如何將收集到的三維數(shù)據(jù)送入計算模型,也是難以解決的問題。三維數(shù)據(jù)處理的算力開銷,要比二維數(shù)據(jù)有著指數(shù)級的增長。暴力地將二維生成算法拓展到三維,即使是最先進的并行計算處理器也難以在可接受的時間內(nèi)進行處理。

上述原因?qū)е铝水斍叭S內(nèi)容生成的工作大多只局限于某一特定類別或者只能生成較低分辨率的內(nèi)容,難以應(yīng)用于真實的生產(chǎn)流程中。

為了解決上述問題,北京大學陳寶權(quán)團隊聯(lián)合山東大學和騰訊 AI Lab 的研究人員,提出了首個基于單樣例場景無需訓練便可生成多樣高質(zhì)量三維場景的方法。該算法具有如下優(yōu)點:

1,無需大規(guī)模的同類訓練數(shù)據(jù)和長時間的訓練,僅使用單個樣本便可快速生成高質(zhì)量三維場景;

2,使用了基于神經(jīng)輻射場的 Plenoxels 作為三維表達,場景具有高真實感外觀,能渲染出照片般真實的多視角圖片。生成的場景也完美的保留了樣本中的所有特征,如水面的反光隨視角變化的效果等;

3,支持多種應(yīng)用制作場景,如三維場景的編輯、尺寸重定向、場景結(jié)構(gòu)類比和更換場景外觀等。

方法介紹

研究人員提出了一種多尺度的漸進式生成框架,如下圖所示。算法核心思想是將樣本場景拆散為多個塊,通過引入高斯噪聲,然后以類似拼積木的方式將其重新組合成類似的新場景。

作者使用坐標映射場這種和樣本異構(gòu)的表達來表示生成的場景,使得高質(zhì)量的生成變得可行。為了讓算法的優(yōu)化過程更加魯棒,該研究還提出了一種基于值和坐標混合的優(yōu)化方法。同時,為了解決三維計算的大量資源消耗問題,該研究使用了精確到近似的優(yōu)化策略,使得能在沒有任何訓練的情況下,在分鐘級的時間生成高質(zhì)量的新場景。更多的技術(shù)細節(jié)請參考原始論文。

隨機場景生成


圖片


通過如左側(cè)框內(nèi)的單個三維樣本場景,可以快速地生成具有復(fù)雜幾何結(jié)構(gòu)和真實外觀的新場景。該方法可以處理具有復(fù)雜拓撲結(jié)構(gòu)的物體,如仙人掌,拱門和石凳等,生成的場景完美地保留了樣本場景的精細幾何和高質(zhì)量外觀。當前沒有任何基于神經(jīng)網(wǎng)絡(luò)的生成模型能做到相似的質(zhì)量和多樣性。

高分辨率大場景生成

該方法能高效地生成極高分辨率的三維內(nèi)容。如上所示,我們可以通過輸入單個左上角分辨率為 512 x 512 x 200 的三維 “千里江山圖” 的一部分,生成 1328 x 512 x 200 分辨率的 “萬里江山圖”,并渲染出 4096 x 1024 分辨率的二維多視角圖片。

真實世界無邊界場景生成

圖片

作者在真實的自然場景上也驗證了所提出的生成方法。通過采用與 NeRF++ 類似的處理方法,顯式的將前景和天空等背景分開后,單獨對前景內(nèi)容進行生成,便可在真實世界的無邊界場景中生成新場景。

其他應(yīng)用場景

場景編輯 

圖片

使用相同的生成算法框架,通過加入人為指定限制,可以對三維場景內(nèi)的物體進行刪除,復(fù)制和修改等編輯操作。如圖中所示,可以移除場景中的山并自動補全孔洞,復(fù)制生成三座山峰或者使山變得更大。

尺寸重定向 

圖片

該方法也可以對三維物體進行拉伸或者壓縮的同時,保持其局部的形狀。圖中綠色框線內(nèi)為原始的樣本場景,將一列三維火車進行拉長的同時保持住窗戶的局部尺寸。

結(jié)構(gòu)類比生成 


圖片

和圖像風格遷移類似,給定兩個場景 A 和 B,我們可以創(chuàng)建一個擁有 A 的外觀和幾何特征,但是結(jié)構(gòu)與 B 相似的新場景。如我們可以參考一座雪山將另一座山變?yōu)槿S雪山。

更換樣本場景 

圖片

由于該方法對生成場景采用了異構(gòu)表達,通過簡單地修改其映射的樣本場景,便可生成更加多樣的新場景。如使用同一個生成場景映射場 S,映射不同時間或季節(jié)的場景,得到了更加豐富的生成結(jié)果。

總結(jié)

這項工作面向三維內(nèi)容生成領(lǐng)域,首次提出了一種基于單樣本的三維自然場景生成模型,嘗試解決當前三維生成方法中數(shù)據(jù)需求大、算力開銷多、生成質(zhì)量差等問題。該工作聚焦于更普遍的、語義信息較弱的自然場景,更多的關(guān)注生成內(nèi)容的多樣性和質(zhì)量。算法主要受傳統(tǒng)計算機圖形學中紋理圖像生成相關(guān)的技術(shù),結(jié)合近期的神經(jīng)輻射場,能快速地生成高質(zhì)量三維場景,并展示了多種實際應(yīng)用。

未來展望

該工作有較強的通用性,不僅能結(jié)合當前的神經(jīng)表達,也適用于傳統(tǒng)的渲染管線幾何表達,如多邊形網(wǎng)格 (Mesh)。我們在關(guān)注大型數(shù)據(jù)和模型的同時,也應(yīng)該不時地回顧傳統(tǒng)的圖形學工具。研究人員相信,不久的未來,在 3D AIGC 領(lǐng)域,傳統(tǒng)的圖形學工具結(jié)合高質(zhì)量的神經(jīng)表達以及強力的生成模型,將會碰撞出更絢爛的火花,進一步推進三維內(nèi)容生成的質(zhì)量和速度,解放人們的創(chuàng)造力。

這一研究得到了廣大網(wǎng)友的討論:

有網(wǎng)友表示:(這項研究)對于游戲開發(fā)來說十分棒,只需要建模單個模型就能生成很多新的版本。

圖片

對于上述觀點,有人表示完全同意,游戲開發(fā)者、個人和小公司可以從這類模型中得到幫助。

圖片


責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-03-14 12:03:29

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2025-03-24 09:41:22

2017-12-22 08:47:41

神經(jīng)網(wǎng)絡(luò)AND運算

2020-10-30 11:25:15

神經(jīng)網(wǎng)絡(luò)人工智能黑匣子

2017-09-10 07:07:32

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集可視化

2017-05-10 14:32:31

神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)架構(gòu)模型

2023-04-27 15:54:02

模型研究

2017-08-28 21:31:37

TensorFlow深度學習神經(jīng)網(wǎng)絡(luò)

2019-09-18 19:20:28

2024-12-05 13:00:00

2025-04-01 09:40:00

2024-10-06 10:00:00

3D模型

2023-08-01 14:14:14

2024-12-26 00:51:38

2020-11-02 08:00:00

深度學習神經(jīng)網(wǎng)絡(luò)人工智能

2017-09-28 16:15:12

神經(jīng)網(wǎng)絡(luò)訓練多層

2017-07-19 11:39:25

深度學習人工智能boosting

2022-01-25 10:04:24

圖像模型AI

2017-08-29 13:50:03

TensorFlow深度學習神經(jīng)網(wǎng)絡(luò)
點贊
收藏

51CTO技術(shù)棧公眾號