自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!

發(fā)布于 2024-11-18 10:10
瀏覽
0收藏

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.16770
項目鏈接:: https://ai.stanford.edu/?yzzhang/projects/scene-language/
代碼鏈接:https://github.com/zzyunzhi/scene-language


斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

亮點直擊

  • 提出了一種場景表示方法,即場景語言,通過程序、詞匯和 embeddings 來捕捉視覺場景的結(jié)構(gòu)、語義和身份。
  • 提出了一種無需訓(xùn)練的方法,利用預(yù)訓(xùn)練語言模型從文本和/或圖像中推理表示。
  • 提出一個通用渲染模塊,將場景語言渲染成圖像。
  • 在文本和圖像條件下的場景生成和編輯任務(wù)上獲得了實證結(jié)果。

總結(jié)速覽

解決的問題

  • 現(xiàn)有的場景圖表示方法在生成復(fù)雜場景時存在保真度不足的問題,缺乏精確的控制和編輯能力。

提出的方案

  1. 場景語言:引入了一種新的場景表示方法,通過程序、自然語言詞匯和 embeddings 來描述視覺場景的結(jié)構(gòu)、語義和身份。
  2. 無需訓(xùn)練的推理技術(shù):利用預(yù)訓(xùn)練語言模型,從文本和/或圖像中推理場景表示。

應(yīng)用的技術(shù)

  • 預(yù)訓(xùn)練語言模型:用于從文本和圖像中推理場景表示。
  • 圖形渲染器:結(jié)合傳統(tǒng)、神經(jīng)網(wǎng)絡(luò)或混合渲染技術(shù),將場景語言轉(zhuǎn)化為圖像。

達(dá)到的效果

  • 實現(xiàn)了高質(zhì)量3D和4D場景的自動化生成系統(tǒng)。
  • 在場景生成和編輯任務(wù)中,場景語言表現(xiàn)出更高的保真度和精確的控制能力。
  • 提供了一個通用渲染模塊,能夠有效地將場景語言渲染成圖像。

場景語言

旨在設(shè)計一種視覺場景表示方法,以編碼場景的結(jié)構(gòu)、語義和視覺內(nèi)容。為此,提出了場景語言(Scene Language),它通過三個組件來表示場景:一個程序,用于通過指定場景組件(我們稱之為實體)的存在和關(guān)系來編碼場景結(jié)構(gòu);自然語言中的詞匯,用于表示場景中每個實體的語義群組;以及神經(jīng) embeddings ,用于通過允許一個富有表現(xiàn)力的輸入?yún)?shù)空間來體現(xiàn)實體的低層次視覺細(xì)節(jié)和身份。在接下來的內(nèi)容中,將首先給出這種表示方法的正式定義,然后介紹作為其實現(xiàn)的領(lǐng)域特定語言(DSL)。

定義

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

場景語言作為編程語言

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

渲染

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

對于基礎(chǔ)的3D表示,我們使用3D高斯散射,其中圖像通過將一組3D高斯投影到圖像平面上進(jìn)行渲染;其他可微的3D表示,如神經(jīng)場,也同樣適用。我們的實現(xiàn)基于GALA3D,并使用MVDream和深度條件的ControlNet進(jìn)行指導(dǎo)。


我們將上述渲染器稱為高斯渲染器。其他可能的渲染器包括基于原始圖形的渲染器,例如使用立方體、球體和圓柱體等圖形原語的Mitsuba;基于資產(chǎn)的游戲引擎,例如Minecraft;以及布局條件的文本到圖像(T2I)擴(kuò)散模型的前饋推理,例如MIGC,通過控制Stable Diffusion的注意力層實現(xiàn)二維邊界框條件。下表3展示了總結(jié)。

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

通過預(yù)訓(xùn)練語言模型進(jìn)行推理

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

語言模型在使用常見編程語言(如Python)進(jìn)行代碼生成方面表現(xiàn)出色。在我們的實現(xiàn)中,提示語言模型生成Python腳本。我們使用輸入條件提示語言模型,即文本或圖像中的場景描述;從上表2中的DSL轉(zhuǎn)換而來的輔助函數(shù)的Python腳本;以及使用輔助函數(shù)的示例腳本。我們在所有實驗中使用Claude 3.5 Sonnet作為我們的方法和依賴于LM的基線。

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

應(yīng)用領(lǐng)域

將前文中的方法應(yīng)用于文本條件的3D場景生成和編輯、圖像條件的場景生成以及4D場景生成任務(wù)。

文本條件場景生成

基線。 為了評估所提出的表示方法,將我們的推理流程與使用其他中間表示(例如場景圖)的3D場景生成方法進(jìn)行比較。特別地,將其與GraphDreamer作為示例方法進(jìn)行比較,該方法通過語言模型提示從輸入文本生成場景圖,然后在SDS引導(dǎo)下生成基于圖的場景。進(jìn)一步通過將我們的結(jié)構(gòu)表示與基于SDS的渲染器的骨干方法MVDream進(jìn)行比較,來研究結(jié)構(gòu)表示在此任務(wù)中的作用,后者是一種直接的場景生成方法。


結(jié)果。 使用基于SDS的渲染器渲染的文本條件場景生成結(jié)果如下圖4所示。與直接3D場景生成方法MVDream相比,我們的方法具有組合性,并且在涉及多個對象的場景中更緊密地遵循輸入提示。與場景圖表示相比,其中實體關(guān)系被限制為兩個對象之間,并且受到自然語言描述粗糙程度的限制,例如“排列成一排”,基于程序的表示提供了更靈活和精確的關(guān)系規(guī)范,例如下圖4中特定的可樂罐排列。這帶來了實用的好處,即將涉及復(fù)雜實體關(guān)系的場景生成的負(fù)擔(dān)從T2I模型(用于我們的方法和GraphDreamer的SDS指導(dǎo))轉(zhuǎn)移到語言模型上,從而實現(xiàn)準(zhǔn)確和詳細(xì)的生成結(jié)果。

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

為了定量比較我們的方法與基線方法,我們進(jìn)行了用戶研究。在研究中,用戶被要求從我們的方法和兩個基線方法隨機(jī)生成的三個動畫場景中選擇一個與文本提示最為一致的場景。我們還報告了合成場景中對象數(shù)量是否正確。如下表4所示,我們的方法在提示對齊方面比基線方法更具優(yōu)勢,并且在計數(shù)準(zhǔn)確性上有明顯的優(yōu)勢。

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

文本指導(dǎo)的場景編輯

從我們提出的表示方法生成的場景可以通過使用語言模型(LM)和自然語言編輯指令對其先前生成的腳本進(jìn)行編輯。結(jié)果如下圖5所示。我們的表示方法為場景編輯提供了一個可解釋且直觀的界面,因為函數(shù)具有與詞語相關(guān)的明確語義意義,并且函數(shù)重用顯著提高了程序的可讀性。此外,由于程序的結(jié)構(gòu)反映了場景的結(jié)構(gòu),編輯程序參數(shù)會導(dǎo)致場景發(fā)生變化,同時保留原有結(jié)構(gòu),例如下圖5中的樓梯的環(huán)形排列。涉及多個基本體的理想編輯效果,例如在這個例子中所有樓梯,可以通過在程序空間中進(jìn)行微小的更改來有效實現(xiàn)。最后,程序結(jié)構(gòu)本身,例如Jenga積木集示例中的函數(shù)頭,可以進(jìn)行調(diào)整以實現(xiàn)僅影響場景相關(guān)部分的局部編輯。

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

我們的表示方法的組合性直接有利于局部場景編輯。相比之下,前文的MVDream不適用于此任務(wù),因為整個場景是用單一的3D表示進(jìn)行參數(shù)化的。精確編碼場景組件的幾何關(guān)系進(jìn)一步增強了生成場景的可控性。相比之下,GraphDreamer使用粗略的語言描述來表示場景組件的二元關(guān)系,因此不適用于涉及精確幾何控制的編輯任務(wù),如上圖5中的第一個例子所示。

圖像調(diào)節(jié)場景生成

該表示方法可以用于圖像解析和生成與解析后圖像結(jié)構(gòu)和內(nèi)容一致的3D場景。我們通過與下圖6中展示的GraphDreamer進(jìn)行比較來評估我們的表示方法。我們的表示方法明確編碼了從輸入圖像中解析出的語義組件、高層次的場景結(jié)構(gòu)(例如可樂罐的重復(fù))以及視覺細(xì)節(jié)(如具有特定形狀和顏色的玻璃瓶)。我們的方法保留了輸入圖像的結(jié)構(gòu)和視覺內(nèi)容。相比之下,GraphDreamer僅從輸入圖像中重建語義信息;由于中間場景圖表示中的信息丟失,它忽略了實體的姿態(tài)和身份。

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

文本調(diào)節(jié) 4D 場景生成

應(yīng)用前文中的推理方法來生成4D場景。在此任務(wù)中,4D場景表示與公式(1)中的定義相同,只是程序中增加了一個4D實體函數(shù)。


允許使用靈活的原始實體集合對于使我們的表示適用于生成不同規(guī)模的4D場景至關(guān)重要,包括具有活動部件的物體(例如圖7中的風(fēng)力渦輪機(jī))和具有移動物體的場景(例如旋轉(zhuǎn)木馬)。具體而言,原始實體的粒度根據(jù)所表示的特定場景進(jìn)行調(diào)整,而不是從固定集合中選擇(或像場景圖那樣以對象為中心)。


此外,基于程序的表示所封裝的層次化場景結(jié)構(gòu)使得可以緊湊地表示4D場景,作為生成輸出的正則化。多個實體,例如圖7中旋轉(zhuǎn)木馬場景中來自函數(shù)horse的輸出,可以組合成一個函數(shù)horses,從而共享相同的時間變換。為實體分組編寫可組合函數(shù)有效地降低了時間運動空間的維度,并提高了運動的保真度。

不同的圖形渲染器

相同的程序可以用前文中描述的不同渲染器進(jìn)行渲染,展示了所提出表示方法的多功能性。結(jié)果如下圖9所示,實驗設(shè)置與前文相同。

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

歧視性信息的可視化

如下圖8所示,使用所提出的場景語言可以直接獲得多種區(qū)分性信息:下圖8b中的語義圖,因為單詞表示每個實體的語義;圖8c中的實例分割,因為該表示是由可分離的實例組成的;下圖8d中的重復(fù)實例的對應(yīng)關(guān)系,因為程序指定了場景中存在的重復(fù);以及下圖7中顯示的4D場景的密集時間對應(yīng)關(guān)系。

斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù),精準(zhǔn)描繪3D/4D世界!-AI.x社區(qū)

結(jié)論

本文引入了一種視覺場景表示方法,稱為場景語言,它編碼了視覺場景的三個關(guān)鍵方面:通過程序指定的場景結(jié)構(gòu),如層次結(jié)構(gòu)和重復(fù);通過單詞簡潔概括的個體組件語義;以及通過神經(jīng) embeddings精確捕捉的每個組件的身份。將這種表示形式化為使用DSL定義的編程語言。展示了場景語言可以通過預(yù)訓(xùn)練的語言模型從文本和圖像輸入中高效推理。一旦程序執(zhí)行,生成的場景可以通過多種圖形渲染器渲染為圖像。與現(xiàn)有方法相比,場景語言能夠生成具有顯著更高保真度的3D和4D場景,保留復(fù)雜的場景結(jié)構(gòu),并實現(xiàn)輕松和精確的編輯。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/_vWYDjxs2hnUO6-H4F8OWQ??

標(biāo)簽
已于2024-11-18 11:45:00修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦