自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="xks2g"></cite>

<sub id="xks2g"></sub>

^{<blockquote id="xks2g"></blockquote>}

<cite id="xks2g"><track id="xks2g"></track></cite>

<cite id="xks2g"><track id="xks2g"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

用擴散模型監(jiān)督NeRF，清華文生3D新方法成新SOTA

2023-12-29 13:18:23

結(jié)合兩種擴散模型的監(jiān)督信號，TICD可對NeRF網(wǎng)絡的參數(shù)進行更新并循環(huán)迭代優(yōu)化，直到獲得最終的NeRF模型，并渲染出高質(zhì)量、幾何清晰且與文本一致的3D內(nèi)容。

用文字合成3D圖形的AI模型，又有了新的SOTA！

近日，清華大學劉永進教授課題組提出了一種基于擴散模型的文生3D新方式。

無論是不同視角間的一致性，還是與提示詞的匹配度，都比此前大幅提升。

圖片

文生3D是3D AIGC的熱點研究內(nèi)容，得到了學術界和工業(yè)界的廣泛關注。

劉永進教授課題組此次提出的新模型叫做TICD（Text-Image Conditioned Diffusion），在T3Bench數(shù)據(jù)集上達到了SOTA水平。

目前相關論文已經(jīng)發(fā)布，代碼也即將開源。

測評成績已達SOTA

為了評估TICD方法的效果，研究團隊首先進行了定性實驗，并對比了此前一些較好的方法。

結(jié)果顯示，用TICD方法生成的3D圖形質(zhì)量更好、圖形更清晰，與提示詞的匹配程度也更高。

圖片

為了進一步評估這些模型的表現(xiàn)，團隊在T3Bench數(shù)據(jù)集上將TICD與這些方法進行了定量測試。

結(jié)果顯示，TICD在單對象、單對象帶背景、多對象這三個提示集上都取得了最好的成績，證明了它在生成質(zhì)量和文本對齊性上都具有整體優(yōu)勢。

圖片

此外，為了進一步評估這些模型的文本對齊性，研究團隊還對3D物體渲染得到的圖片與原始提示詞的CLIP余弦相似度上進行了測試，結(jié)果依然是TICD的表現(xiàn)最佳。

那么，TICD方法是如何實現(xiàn)這樣的效果的呢？

將多視角一致性先驗納入NeRF監(jiān)督

目前主流的文本生成3D方法大多使用預訓練的2D擴散模型，通過得分蒸餾采樣（Score Distillation Sampling, SDS）優(yōu)化神經(jīng)輻射場（NeRF）來生成全新的3D模型。

然而，這種預訓練擴散模型提供的監(jiān)督僅限于輸入的文本本身，并未約束多視角間的一致性，可能會出現(xiàn)生成幾何結(jié)構較差等問題。

為了在擴散模型的先驗中引入多視角一致性，一些最新的研究通過使用多視角數(shù)據(jù)對2D擴散模型進行微調(diào)，但仍然缺乏細粒度的視角間連續(xù)性。

為了解決這一挑戰(zhàn)，TICD方法將以文本為條件的和圖像為條件的多視角圖像納入NeRF優(yōu)化的監(jiān)督信號中，分別保證了3D信息與提示詞的對齊和3D物體不同視角間的強一致性，有效提升了生成3D模型的質(zhì)量。

圖片

工作流程上，TICD首先采樣若干組正交的參考相機視角，使用NeRF渲染出對應的參考視圖，然后對這些參考視圖運用基于文本的條件擴散模型，約束內(nèi)容與文本的整體一致性。

在此基礎上選取若干組參考相機視角，并對于每個視角渲染一個額外新視角下的視圖。接著以這兩個視圖與視角間的位姿關系作為新條件，使用基于圖像的條件擴散模型約束不同視角間的細節(jié)一致性。

結(jié)合兩種擴散模型的監(jiān)督信號，TICD可對NeRF網(wǎng)絡的參數(shù)進行更新并循環(huán)迭代優(yōu)化，直到獲得最終的NeRF模型，并渲染出高質(zhì)量、幾何清晰且與文本一致的3D內(nèi)容。

此外，TICD方法可以有效消除現(xiàn)有方法面對特定文本輸入時可能產(chǎn)生的幾何信息消失、錯誤幾何信息過量生成、顏色混淆等問題。

論文地址：https://arxiv.org/abs/2312.11774

責任編輯：武曉燕來源：量子位

模型 NeRF TICD

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<p id="zcawv"><li id="zcawv"><sup id="zcawv"></sup></li></p>