自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!

發(fā)布于 2024-7-17 10:34
瀏覽
0收藏

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

文章鏈接:https://arxiv.org/abs/2407.06842
項目地址:https://sk-fun.fun/CE3D/
代碼:https://github.com/Fangkang515/CE3D/tree/main  

引言

過去的3D場景編輯方法往往局限于固定的文本輸入模式和有限的編輯能力。用戶需要學(xué)習(xí)特定的命令或特定的多模態(tài)模型來實現(xiàn)所需的效果。而且,這些方法通常只能進行簡單的編輯,難以實現(xiàn)復(fù)雜的場景變換。然而實際應(yīng)用中,用戶的語言是及其豐富的,用戶的編輯需要也是多種多樣的,當(dāng)前的方法的設(shè)計范式均無法滿足用戶的訴求。

為了突破這些限制,本文提出了一種全新的3D場景編輯新范式—CE3D。該方法基于大規(guī)模語言模型,通過解耦2D編輯和3D重建過程,實現(xiàn)了靈活且高效的任意模型的集成,大大豐富了文本對話能力和場景編輯能力。

什么是CE3D?

CE3D,即Chat-Edit-3D,對話式3D場景編輯的突破。它的核心思想是通過大規(guī)模語言模型解析用戶的任意文本輸入,并自主調(diào)用相應(yīng)的視覺模型來完成3D場景的編輯。為了實現(xiàn)任意視覺模型的集成,CE3D設(shè)計了名為Hash-Atlas的映射網(wǎng)絡(luò),將3D場景的編輯轉(zhuǎn)換為2D圖集空間內(nèi)的操作,從而實現(xiàn)了2D編輯與3D重建過程的完全解耦,從此無需再指定固定的3D表示形式和2D編輯方法。

文章主要貢獻如下:

  1. Hash-Atlas映射網(wǎng)絡(luò):通過將3D場景的編輯轉(zhuǎn)化為2D圖集的操作,避免了傳統(tǒng)管道架構(gòu)中的3D模型和2D模型間復(fù)雜耦合的問題。
  2. 對話框架:借助大規(guī)模語言模型,CE3D能夠解析用戶文本輸入,生成相應(yīng)的響應(yīng),并管理多種視覺模型和場景文件。
  3. 實驗結(jié)果:CE3D展示了強大的擴展性,兼容各種現(xiàn)有的2D和3D視覺模型,支持多輪對話,并在文本解析、編輯能力和交互自然性方面顯著優(yōu)于以往方法 。

方法

首先說明CE3D 整體pipeline(下圖3),然后介紹Hash-Atlas網(wǎng)絡(luò)的設(shè)計、atlas空間中的編輯策略以及CE3D中對話系統(tǒng)的組件。

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

Hash-Atlas網(wǎng)絡(luò)

本節(jié)介紹了一種簡單的方法,將場景的各個視圖直接映射到2D圖集上,從而將3D場景編輯過程重新定位到2D空間中。類似的技術(shù)最初用于將視頻幀映射到圖集,需要連續(xù)幀和平滑的攝像機運動,這與本文中使用的3D場景數(shù)據(jù)不同。為了實現(xiàn)本文所述的編輯功能,圖集應(yīng)滿足以下條件:

  1. 防止圖集中的過度失真和傾斜,以保持視覺模型的理解。
  2. 前景和背景圖集應(yīng)大致對齊,以確保精確編輯。
  3. 需要更快且更精確的映射,以促進高效編輯。

Hash-Atlas公式

為了滿足上述條件,設(shè)計了一個基于哈希結(jié)構(gòu)的網(wǎng)絡(luò),如下圖4所示。

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

當(dāng)圖集被編輯后,通過方程3可以在不重新訓(xùn)練Hash-Atlas網(wǎng)絡(luò)的情況下恢復(fù)3D場景每個視圖的編輯效果。

訓(xùn)練和損失項

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

在圖集空間中編輯

本文發(fā)現(xiàn),直接編輯兩個圖集然后將它們映射回場景視圖通常不會產(chǎn)生令人滿意的編輯結(jié)果。這主要是因為單個圖集包含的場景信息不完整,特別是在稀疏的前景圖集中。這種限制使得編輯模型無法獲取完整的場景語義,從而始終無法實現(xiàn)可靠的編輯。因此,設(shè)計了一種用于編輯圖集的合并-拆分策略。在此過程中,利用ChatGPT的解析能力和VQA模型來識別編輯區(qū)域。如果這些區(qū)域涉及前景內(nèi)容,我們將前景圖集覆蓋在背景圖集上,并將其作為實際的編輯圖集。隨后,使用原始前景mask和新對象mask來分離編輯后的圖集。用“執(zhí)行器”來表示實際的編輯過程,如前面圖3所示。

對話系統(tǒng)

對場景名稱的敏感度

作為一種語言模型,ChatGPT無法直接訪問文本以外的信息。然而,考慮到編輯過程中涉及的大量文件,將所有這些文件作為文本輸入到ChatGPT中是不現(xiàn)實的。因此,用格式為‘xxx.scn’的單個字符串來表示所涉及的文件。這個字符串是唯一且無意義的,以防止ChatGPT捏造場景名稱。盡管這個場景名稱并不是一個真正可讀的文件,但通過前端和后端的進一步處理,CE3D可以有效地處理真實文件。前端將編輯結(jié)果和ChatGPT的輸出組織成用戶回復(fù),而后端則分發(fā)編輯過程中涉及的真實場景文件,并管理新場景的名稱和文件。

用戶查詢的推理

在面對用戶輸入時,ChatGPT模擬一個思考過程:“我需要使用視覺工具嗎?”→“我需要哪些工具?”→“這些工具的具體輸入應(yīng)該是什么?”。因此,預(yù)先向ChatGPT注入每個視覺專家的信息以完成這個推理過程是至關(guān)重要的。類似于[62, 66],將每個視覺工具標(biāo)注為四個類別:工具名稱、在什么情況下使用、所需參數(shù)和具體輸入示例。

編輯能力展示

在多輪對話編輯案例中,CE3D能夠處理各種類型的編輯請求,例如精準(zhǔn)對象移除或替換、基于文本或圖像的風(fēng)格遷移、深度圖預(yù)測、基于文本和深度圖條件的場景再生、人體Pose預(yù)測、場景超分、場景分割等。此外,它還可以完成與場景相關(guān)的視覺問答任務(wù)和基本的文本對話。總之,因為能任意擴展視覺模型,因此編輯能力無上限!

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

未來展望

雖然CE3D在3D場景編輯方面取得了顯著進展,但研究人員表示,這項技術(shù)仍有改進空間。例如,在處理360度全景場景時可能會遇到一些挑戰(zhàn),還有進一步研究的空間。

編輯能力無上限!北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式!-AI.x社區(qū)

本文轉(zhuǎn)自  AI生成未來 ,作者:Shuangkang Fang


原文鏈接:??https://mp.weixin.qq.com/s/570z8iGkH6Wsz9MBI2Ta9A??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦