自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

重塑3D生成核心理論:VAST、港大、清華用「零」訓(xùn)練數(shù)據(jù)生成了3D模型

人工智能 新聞
港大與清華大學(xué)聯(lián)合 3D 生成明星公司 VAST AI 研發(fā)的一種新方法,它能夠從復(fù)雜的文本描述中,直接生成富有想象力的高質(zhì)量 3D 模型。

無需任何訓(xùn)練數(shù)據(jù),只需對(duì)著模型描述一句話,如「一個(gè)做作業(yè)的香蕉人」:

圖片

或是「一只戴著 VR 眼鏡的貓」:

圖片

就能生成符合描述的帶有高質(zhì)量紋理貼圖的 3D 場(chǎng)景。不僅如此,還能對(duì)已有的 3D 模型進(jìn)行精細(xì)化貼圖。

圖片

這是港大與清華大學(xué)聯(lián)合 3D 生成明星公司 VAST AI 研發(fā)的一種新方法,它能夠從復(fù)雜的文本描述中,直接生成富有想象力的高質(zhì)量 3D 模型。

圖片

目前,這項(xiàng)研究成果已被人工智能頂級(jí)會(huì)議 ICLR 2024 收錄,代碼也已經(jīng)開源。對(duì)這項(xiàng)研究感興趣的小伙伴,可以戳下方項(xiàng)目主頁和論文地址查看。

  • 論文地址:https://arxiv.org/abs/2310.19415
  • 項(xiàng)目地址:https://xinyu-andy.github.io/Classifier-Score-Distillation
  • 代碼地址:https://github.com/CVMI-Lab/Classifier-Score-Distillation
  • 論文標(biāo)題:Text-to-3D with Classifier Score Distillation

所以它究竟是如何做到的?在了解新方法是什么之前,我們先來了解目前已有的方法存在什么問題。

傳統(tǒng)生成模型面臨的困境

在交互式游戲、電影藝術(shù)、增強(qiáng) / 虛擬現(xiàn)實(shí)以及仿真技術(shù)等多個(gè)應(yīng)用場(chǎng)景中,高質(zhì)量的三維資產(chǎn)創(chuàng)建一直是一個(gè)重要且具有挑戰(zhàn)性的問題。

目前大多數(shù)生成模型都依賴于本領(lǐng)域的大量高質(zhì)量數(shù)據(jù)做訓(xùn)練,但在 3D 領(lǐng)域,這樣的數(shù)據(jù)集非常匱乏。這導(dǎo)致目前基于 3D 數(shù)據(jù)訓(xùn)練的 3D 生成模型的效果還無法復(fù)刻圖像領(lǐng)域的成功。

基于 2D 先驗(yàn)的 3D 生成方法

為了解決這一問題,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,證明了可以通過預(yù)訓(xùn)練的二維擴(kuò)散模型生成高質(zhì)量和復(fù)雜的三維結(jié)果。這一范式的優(yōu)勢(shì)在于無需任何 3D 數(shù)據(jù)預(yù)訓(xùn)練即可生成 3D 模型,這一架構(gòu)也一直被研究者們和后續(xù)工作所沿用,例如 Nvidia 的 Magic3D 等。其核心理論在于通過激勵(lì)其渲染圖像移向文本條件下的高概率密度區(qū)域,來反向生成 3d 場(chǎng)景。

盡管基于 SDS 的方法取得了令人矚目的成果,然而,本文的研究者們發(fā)現(xiàn),基于 SDS 的方法在實(shí)際實(shí)現(xiàn)中總是與理論出現(xiàn)一些差距,主要是因?yàn)槠毡橐蕾囉?Classifier-Free Guidance (CFG)。

在使用 CFG 時(shí),推動(dòng)優(yōu)化的梯度實(shí)際上包含兩個(gè)部分:一是數(shù)據(jù)密度的梯度,二是后驗(yàn)函數(shù)的梯度。其中前者對(duì)應(yīng)于 SDS 理論中的關(guān)鍵部分,而后者僅僅是在實(shí)驗(yàn)過程中才加入的輔助手段。

分類器分?jǐn)?shù)蒸餾:重塑 3D 生成的關(guān)鍵所在

這篇論文的核心貢獻(xiàn),在于重新評(píng)估了 SDS 中 CFG 的角色,發(fā)現(xiàn) CFG 不僅僅是輔助手段,恰恰相反,它才是文本到三維生成中的關(guān)鍵驅(qū)動(dòng)。由于這一部分可以被解釋為一個(gè)隱式的分類模型,研究者們將這一新范式命名為分類器分?jǐn)?shù)蒸餾(Classifier Score Distillation, CSD)。

這一發(fā)現(xiàn)從根本上改變了我們對(duì)基于分?jǐn)?shù)蒸餾成功的文本到三維生成機(jī)制的理解。具體而言,其有效性來自于從隱式分類器中提煉知識(shí),而不是依賴于生成先驗(yàn)。

CSD 的引入使得我們能夠重新審視現(xiàn)有技術(shù)設(shè)計(jì)選擇。例如,研究者們展示了負(fù)面提示可以被視為負(fù)分類器分?jǐn)?shù),從而制定了一個(gè)漸進(jìn)式的負(fù)分類器分?jǐn)?shù)優(yōu)化策略,這增強(qiáng)了生成質(zhì)量,同時(shí)保持了與提示的結(jié)果忠實(shí)度。

此外,研究還揭示了利用分類器分?jǐn)?shù)進(jìn)行高效的基于文本驅(qū)動(dòng)的三維編輯的可能性,以及將變分分?jǐn)?shù)蒸餾技術(shù) (Variational Score Distillation) 視為一種自適應(yīng)性的負(fù)分類器分?jǐn)?shù)優(yōu)化形式。

實(shí)驗(yàn)效果

CSD 不僅在理論上對(duì)文本到三維生成領(lǐng)域提供了新的視角,而且在實(shí)際應(yīng)用中也表現(xiàn)出優(yōu)越的性能。

在主要的 3D 生成任務(wù)上的實(shí)驗(yàn)結(jié)果顯示,在文本對(duì)齊和視覺質(zhì)量方面,該方法相較于 Dream Fusion、Magic3D、Fantasia3D 等現(xiàn)有技術(shù)有顯著提升,生成的紋理也真實(shí)豐富。

在速度上,CSD 在單個(gè) A800 GPU 上只需 1 小時(shí)即可完成任務(wù),而能達(dá)到同樣視覺效果的 Prolific Dreamer 方法則需要長(zhǎng)達(dá) 8 小時(shí)。這一顯著的速度優(yōu)勢(shì),加上其出色的生成質(zhì)量,證明了 CSD 技術(shù)的高效性和實(shí)用性。

此外,定量評(píng)估中采用的 CLIP R-Precision 指標(biāo)進(jìn)一步證實(shí)了 CSD 的優(yōu)越性。用戶研究也顯示 59.4% 的參與者更傾向于選擇 CSD 生成的結(jié)果。

實(shí)驗(yàn)部分還對(duì)比了 CSD 在紋理生成這一任務(wù)上的能力,與多個(gè)方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果顯示無論從效果還是用戶研究中都優(yōu)于其他方法。

圖片

此外,研究者們還展示了如何利用 CSD 對(duì)現(xiàn)有的 3D 場(chǎng)景進(jìn)行編輯,如下圖所示,你可以使用 CSD 將一個(gè)香蕉人編輯為一個(gè)黃瓜人,將模特身上的苔蘚編輯為鮮花,而不損失其他部分。

圖片

總而言之,CSD 從理論出發(fā),重新思考了目前 3D 生成的關(guān)鍵所在,重塑優(yōu)化目標(biāo),最終在多個(gè)任務(wù)上顯示出其優(yōu)越性與強(qiáng)大的潛力。通過對(duì)這一新范式的深入探索和應(yīng)用,我們能夠更有效地從文本描述中生成高質(zhì)量、高精度的三維內(nèi)容,這對(duì)于三維內(nèi)容創(chuàng)造領(lǐng)域的未來發(fā)展具有深遠(yuǎn)的影響。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2024-09-20 16:20:00

2024-07-16 12:02:11

2023-07-14 09:41:01

3DAI

2024-03-20 15:51:00

AI數(shù)據(jù)

2024-07-31 15:30:05

2024-07-04 09:26:16

2024-12-10 15:17:11

2020-08-26 10:37:21

阿里3D

2025-01-14 09:24:46

2023-05-29 10:39:00

AI算法

2024-03-05 11:31:00

AI數(shù)據(jù)

2025-01-07 13:19:48

模型AI訓(xùn)練

2024-09-27 17:58:26

2024-12-10 09:40:00

AI3D模型

2025-01-10 14:00:00

3D模型生成

2011-10-06 13:30:45

宏碁投影儀

2024-07-03 14:29:38

2025-02-24 10:40:00

3D模型生成

2025-04-22 09:26:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)