自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用擴散模型監(jiān)督NeRF,清華文生3D新方法成新SOTA

人工智能
結(jié)合兩種擴散模型的監(jiān)督信號,TICD可對NeRF網(wǎng)絡的參數(shù)進行更新并循環(huán)迭代優(yōu)化,直到獲得最終的NeRF模型,并渲染出高質(zhì)量、幾何清晰且與文本一致的3D內(nèi)容。

用文字合成3D圖形的AI模型,又有了新的SOTA!

近日,清華大學劉永進教授課題組提出了一種基于擴散模型的文生3D新方式。

無論是不同視角間的一致性,還是與提示詞的匹配度,都比此前大幅提升。

圖片圖片

文生3D是3D AIGC的熱點研究內(nèi)容,得到了學術界和工業(yè)界的廣泛關注。

劉永進教授課題組此次提出的新模型叫做TICD(Text-Image Conditioned Diffusion),在T3Bench數(shù)據(jù)集上達到了SOTA水平。

目前相關論文已經(jīng)發(fā)布,代碼也即將開源。

測評成績已達SOTA

為了評估TICD方法的效果,研究團隊首先進行了定性實驗,并對比了此前一些較好的方法。

結(jié)果顯示,用TICD方法生成的3D圖形質(zhì)量更好、圖形更清晰,與提示詞的匹配程度也更高。

圖片圖片

為了進一步評估這些模型的表現(xiàn),團隊在T3Bench數(shù)據(jù)集上將TICD與這些方法進行了定量測試。

結(jié)果顯示,TICD在單對象、單對象帶背景、多對象這三個提示集上都取得了最好的成績,證明了它在生成質(zhì)量和文本對齊性上都具有整體優(yōu)勢。

圖片圖片

此外,為了進一步評估這些模型的文本對齊性,研究團隊還對3D物體渲染得到的圖片與原始提示詞的CLIP余弦相似度上進行了測試,結(jié)果依然是TICD的表現(xiàn)最佳。

圖片

那么,TICD方法是如何實現(xiàn)這樣的效果的呢?

將多視角一致性先驗納入NeRF監(jiān)督

目前主流的文本生成3D方法大多使用預訓練的2D擴散模型,通過得分蒸餾采樣(Score Distillation Sampling, SDS)優(yōu)化神經(jīng)輻射場(NeRF)來生成全新的3D模型。

然而,這種預訓練擴散模型提供的監(jiān)督僅限于輸入的文本本身,并未約束多視角間的一致性,可能會出現(xiàn)生成幾何結(jié)構較差等問題。

為了在擴散模型的先驗中引入多視角一致性,一些最新的研究通過使用多視角數(shù)據(jù)對2D擴散模型進行微調(diào),但仍然缺乏細粒度的視角間連續(xù)性。

為了解決這一挑戰(zhàn),TICD方法將以文本為條件的和圖像為條件的多視角圖像納入NeRF優(yōu)化的監(jiān)督信號中,分別保證了3D信息與提示詞的對齊和3D物體不同視角間的強一致性,有效提升了生成3D模型的質(zhì)量。

圖片圖片

工作流程上,TICD首先采樣若干組正交的參考相機視角,使用NeRF渲染出對應的參考視圖,然后對這些參考視圖運用基于文本的條件擴散模型,約束內(nèi)容與文本的整體一致性。

在此基礎上選取若干組參考相機視角,并對于每個視角渲染一個額外新視角下的視圖。接著以這兩個視圖與視角間的位姿關系作為新條件,使用基于圖像的條件擴散模型約束不同視角間的細節(jié)一致性。

結(jié)合兩種擴散模型的監(jiān)督信號,TICD可對NeRF網(wǎng)絡的參數(shù)進行更新并循環(huán)迭代優(yōu)化,直到獲得最終的NeRF模型,并渲染出高質(zhì)量、幾何清晰且與文本一致的3D內(nèi)容。

此外,TICD方法可以有效消除現(xiàn)有方法面對特定文本輸入時可能產(chǎn)生的幾何信息消失、錯誤幾何信息過量生成、顏色混淆等問題。

論文地址:https://arxiv.org/abs/2312.11774


責任編輯:武曉燕 來源: 量子位
相關推薦

2023-12-29 09:36:51

三維模型

2025-02-13 08:26:26

2024-03-27 10:20:31

模型場景

2025-03-03 05:00:00

DiffUCD擴散模型SOTA

2022-01-07 09:56:49

自然語言神經(jīng)網(wǎng)絡人工智能

2025-01-10 14:00:00

3D模型生成

2024-05-10 07:58:03

2023-04-25 17:13:03

模型AI

2024-01-29 06:50:00

3D模型

2023-12-07 13:07:59

3D模型訓練

2025-01-09 12:32:18

2025-02-14 09:02:19

2018-10-07 07:00:59

2024-03-06 14:57:13

火山引擎

2024-10-15 13:07:38

2024-02-29 09:38:13

神經(jīng)網(wǎng)絡模型

2024-01-06 17:12:44

視頻AI

2025-01-16 10:05:00

3D模型代碼

2023-11-27 13:43:00

AI模型

2024-06-11 10:23:28

點贊
收藏

51CTO技術棧公眾號