用擴散模型監(jiān)督NeRF,清華文生3D新方法成新SOTA
用文字合成3D圖形的AI模型,又有了新的SOTA!
近日,清華大學劉永進教授課題組提出了一種基于擴散模型的文生3D新方式。
無論是不同視角間的一致性,還是與提示詞的匹配度,都比此前大幅提升。
圖片
文生3D是3D AIGC的熱點研究內(nèi)容,得到了學術界和工業(yè)界的廣泛關注。
劉永進教授課題組此次提出的新模型叫做TICD(Text-Image Conditioned Diffusion),在T3Bench數(shù)據(jù)集上達到了SOTA水平。
目前相關論文已經(jīng)發(fā)布,代碼也即將開源。
測評成績已達SOTA
為了評估TICD方法的效果,研究團隊首先進行了定性實驗,并對比了此前一些較好的方法。
結(jié)果顯示,用TICD方法生成的3D圖形質(zhì)量更好、圖形更清晰,與提示詞的匹配程度也更高。
圖片
為了進一步評估這些模型的表現(xiàn),團隊在T3Bench數(shù)據(jù)集上將TICD與這些方法進行了定量測試。
結(jié)果顯示,TICD在單對象、單對象帶背景、多對象這三個提示集上都取得了最好的成績,證明了它在生成質(zhì)量和文本對齊性上都具有整體優(yōu)勢。
圖片
此外,為了進一步評估這些模型的文本對齊性,研究團隊還對3D物體渲染得到的圖片與原始提示詞的CLIP余弦相似度上進行了測試,結(jié)果依然是TICD的表現(xiàn)最佳。
那么,TICD方法是如何實現(xiàn)這樣的效果的呢?
將多視角一致性先驗納入NeRF監(jiān)督
目前主流的文本生成3D方法大多使用預訓練的2D擴散模型,通過得分蒸餾采樣(Score Distillation Sampling, SDS)優(yōu)化神經(jīng)輻射場(NeRF)來生成全新的3D模型。
然而,這種預訓練擴散模型提供的監(jiān)督僅限于輸入的文本本身,并未約束多視角間的一致性,可能會出現(xiàn)生成幾何結(jié)構較差等問題。
為了在擴散模型的先驗中引入多視角一致性,一些最新的研究通過使用多視角數(shù)據(jù)對2D擴散模型進行微調(diào),但仍然缺乏細粒度的視角間連續(xù)性。
為了解決這一挑戰(zhàn),TICD方法將以文本為條件的和圖像為條件的多視角圖像納入NeRF優(yōu)化的監(jiān)督信號中,分別保證了3D信息與提示詞的對齊和3D物體不同視角間的強一致性,有效提升了生成3D模型的質(zhì)量。
圖片
工作流程上,TICD首先采樣若干組正交的參考相機視角,使用NeRF渲染出對應的參考視圖,然后對這些參考視圖運用基于文本的條件擴散模型,約束內(nèi)容與文本的整體一致性。
在此基礎上選取若干組參考相機視角,并對于每個視角渲染一個額外新視角下的視圖。接著以這兩個視圖與視角間的位姿關系作為新條件,使用基于圖像的條件擴散模型約束不同視角間的細節(jié)一致性。
結(jié)合兩種擴散模型的監(jiān)督信號,TICD可對NeRF網(wǎng)絡的參數(shù)進行更新并循環(huán)迭代優(yōu)化,直到獲得最終的NeRF模型,并渲染出高質(zhì)量、幾何清晰且與文本一致的3D內(nèi)容。
此外,TICD方法可以有效消除現(xiàn)有方法面對特定文本輸入時可能產(chǎn)生的幾何信息消失、錯誤幾何信息過量生成、顏色混淆等問題。
論文地址:https://arxiv.org/abs/2312.11774