自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ECCV 2024 | 像ChatGPT一樣,聊聊天就能實現(xiàn)三維場景編輯

人工智能 新聞
CE3D 打破現(xiàn)有 3D 場景編輯方法的范式,實現(xiàn)了多模態(tài)編輯模型和 3D 場景表示模型間的完全解耦,因此可以兼容任意的 2D 和 3D 的視覺模型。

論文《Chat Edit 3D: Interactive 3D Scene Editing via Text Prompts》的作者包括來自北京航空航天大學博士生方雙康、北京航空航天大學副研究員王玉峰,谷歌AI技術(shù)主管Tsai Yi-Hsuan,曠視高級研究員楊弋,北京航空航天大學研究員丁文銳,曠視首席科學家周舒暢,加州大學默塞德分校和谷歌DeepMind研究科學家Yang Ming-Hsuan教授。


圖片


  • 項目地址:https://sk-fun.fun/CE3D/
  • 代碼:https://github.com/Fangkang515/CE3D/tree/main
  • 論文:https://arxiv.org/abs/2407.06842
  • 機構(gòu):北航 & 谷歌 & 曠視 

1. 一句話概括

本文設計了一種由大語言模型驅(qū)動的、可集成任意數(shù)量視覺模型的交互式三維場景編輯框架,其文本形式不再受限、編輯能力不再單一。

(對話式 3D 場景編輯過程示例視頻)

2. 引言

現(xiàn)有的文本驅(qū)動 3D 場景編輯方法通常局限于固定的文本輸入形式和受限的編輯能力。用戶需要使用固定形式的文本指令或單一的 diffusion 多模態(tài)模型來實現(xiàn)所需的效果。比如 InstructNeRF2NeRF 只能使用 “指令式文本” 且編輯能力受限于 InstructPix2Pix 模型。然而,實際應用中,用戶的語言是及其豐富的,用戶的編輯需要也是多種多樣的,現(xiàn)有方法的設計范式均無法滿足用戶的訴求。

為了突破這些限制,本文提出了一種全新的 3D 場景編輯新范式 —CE3D。該方法將 3D 場景的編輯變成在 2D 空間上圖集的編輯,實現(xiàn)對現(xiàn)有方法的 “降維打擊”。降維后可利用大規(guī)模語言模型實現(xiàn)靈活且高效的任意模型的集成,大大豐富了文本對話能力和場景編輯能力。

3. 本文方法 CE3D

CE3D,即 Chat-Edit-3D。其核心思想是通過大規(guī)模語言模型解析用戶的任意文本輸入,并自主調(diào)用相應的視覺模型來完成 3D 場景的編輯。為了實現(xiàn)任意視覺模型的集成,本文先設計 Hash-Atlas 的映射網(wǎng)絡,將對 3D 場景的編輯轉(zhuǎn)換為對 2D 空間內(nèi)的圖集編輯操作,從而實現(xiàn)了 2D 多視角編輯與 3D 場景重建過程的完全解耦,因此,本文將無需固定的 3D 表示形式和 2D 編輯方法。用戶想用什么視覺模型就可以用什么視覺模型。

3.1 Hash-Atlas 網(wǎng)絡

Hash-Atlas 網(wǎng)絡將 3D 場景的不同視圖映射到 2D 圖集中,從而將 3D 場景編輯過程轉(zhuǎn)移到 2D 空間中執(zhí)行。為了實現(xiàn)適配已有 2D 多模態(tài)編輯模型,映射后的圖集需要滿足以下條件:(1)防止圖集中出現(xiàn)過多的扭曲和傾斜,以維持視覺模型的理解能力;(2)前景和背景圖集應大致對齊,以確保精確編輯;(3)需要更快、更精確的映射,以便于高效編輯。為了滿足這些條件,本研究設計了一個基于哈希結(jié)構(gòu)的網(wǎng)絡,如圖所示:

圖片

圖 1 Hash-Atlas 網(wǎng)絡示意圖

假設場景中有 T 個視圖,點圖片在第 t 個視圖中被函數(shù)圖片映射到兩個不同的 UV 坐標:

圖片

其中圖片表示在兩個 UV 空間中的坐標。參數(shù)圖片在 0 到 1 之間,表示前景圖集中像素值權(quán)重。然后使用圖片預測在 UV 坐標中對應的前景和背景圖集的 RGB 值:

圖片

其中圖片采用哈希結(jié)構(gòu)來捕捉圖像中的紋理細節(jié),并實現(xiàn)更快的模型訓練和推理。在圖集中獲得像素值圖片后,可以按如下方式重建場景視圖中點P的原始像素: 

圖片

當圖集被編輯后,可以通過上式還原帶有編輯效果的 3D 場景的每個視圖,而無需重新訓練哈希圖集網(wǎng)絡。為了確保得到的圖集更加自然以及避免物體過度傾斜和扭曲,在模型訓練的早期階段,僅使用來自第 0 個視圖的圖片,此時預訓練位置損失定義如下:

圖片

此損失函數(shù)鼓勵坐標映射后場景在第 0 個視圖中的位置變化最小。此外,圖片的預訓練涉及初步通過 VQA 模型確定場景的前景及其對應的掩碼,通過分割模型獲得假設前景掩碼為圖片,則圖片的預訓練損失定義如下:

圖片

其中 CE 表示交叉熵損失,等式右側(cè)第二項則鼓勵圖片和前景圖集的稀疏性,這有助于前景和背景圖集內(nèi)容的明確分離。完成預訓練后,可以通過監(jiān)督圖集重建視圖來訓練整個模型。但直接進行訓練會導致背景圖集中明顯的區(qū)域遺漏,影響了后續(xù)的編輯任務。為了解決這個問題,本文引入了修補損失。具體而言,利用 ProPainter 模型對遮罩背景進行初步修補,生成一組新的修補視圖。假設原始視圖中的點 P 在修補視圖中對應于圖片,則重建損失可以表示如下:

圖片

其中 圖片表示從場景的原始視圖或修補視圖中獲得的真實值。此外在場景上引入剛性和流動約束:其中圖片的目的是保持不同點之間的相對空間位置不發(fā)生劇烈變化。與此同時圖片鼓勵將不同視圖的對應點映射到圖集上的同一位置。因此,總損失可以表示如下:

圖片

其中圖片僅在初始訓練階段使用。

完成 3D 場景映射到 2D 圖集后,可以在圖集上完成場景的編輯,然而直接編輯兩個圖集再將其映射回場景視圖,通常不會得到令人滿意的編輯結(jié)果,這主要是因為單個圖集包含的場景信息不完整,尤其是在稀疏的前景圖集中。這一限制使得編輯模型無法獲得完整的場景語義,從而無法始終實現(xiàn)可靠的編輯。因此,本研究設計了一種合并 - 拆分策略來編輯圖集。在此過程中,首先利用 ChatGPT 的解析功能和 VQA 模型來識別編輯區(qū)域,如果這些區(qū)域涉及前景內(nèi)容,則將前景圖集覆蓋在背景圖集上,作為實際的編輯圖集。隨后使用原始的前景掩碼和新的對象掩碼將編輯后的圖集分離開來。

3.2 基于大語言模型的對話框架: CE3D

圖片

圖 2 交互式編輯方法 CE3D 示意圖

如圖所示,CE3D 的基本流程如下:(1)根據(jù)用戶的文本查詢,ChatGPT 解釋文本并確定是否需要在此次對話中使用視覺工具;(2)當需要視覺工具時,ChatGPT 將從模型庫中調(diào)用所需的工具并為它們提供相應的參數(shù);(3)后端進一步查詢要調(diào)用的圖集和其他文件。如果圖集不存在,后端首先使用 Hash-Atlas 網(wǎng)絡獲取它們;(4)執(zhí)行器執(zhí)行視覺工具以編輯圖集,并將新的狀態(tài)反饋給 ChatGPT 以便后續(xù)操作。編輯后的圖集通過 Hash-Atlas 網(wǎng)絡映射回 3D 場景視圖,以進行后續(xù)的場景重建;(5)由于一次對話可能需要多次模型調(diào)用,ChatGPT 重復上述過程,直到確定不再需要視覺工具。然后前端將編輯結(jié)果和 ChatGPT 的輸出回復給用戶。

作為一種語言模型,ChatGPT 無法直接訪問文本以外的信息。然而,由于編輯過程中涉及的文件眾多,不可能將所有文件作為文本輸入 ChatGPT。因此,本研究中用格式為 “xxx.scn” 的字符串來表示所涉及的文件。這個字符串是唯一且無意義的,以防止 ChatGPT 編造場景名稱。盡管這個場景名稱并不是一個真正可讀的文件,但前端和后端的進一步處理使得 CE3D 能夠有效處理真實文件。前端將編輯結(jié)果和 ChatGPT 的輸出整理成用戶回復,而后端分發(fā)編輯過程中涉及的真實場景文件,并管理新場景的名稱和文件。

在面對用戶輸入時,ChatGPT 模擬一個思考過程:“我需要使用視覺工具嗎?”→“我需要哪些工具?”→“工具的具體輸入應該是什么?”。因此,需要預先向 ChatGPT 注入每個視覺專家的相關信息,以完成這個推理過程。本方法為每個視覺工具標注了四個類別:工具的名稱、在什么情況下使用、所需參數(shù)和具體輸入示例。具體可閱讀開源代碼。

4. 代碼使用展示

在多輪對話編輯案例中,CE3D 能夠處理各種類型的編輯請求,例如精準對象移除或替換、基于文本或圖像的風格遷移、深度圖預測、基于文本和深度圖條件的場景再生、人體 Pose 預測、場景超分、場景分割等。此外,它還可以完成與場景相關的視覺問答任務和基本的文本對話??傊驗槟?strong>任意擴展視覺模型,因此編輯能力無上限!

功能太多,且能輕松擴展,代碼已經(jīng)開源。

與其他方法的對比 (視頻對比可參看 Project Website):

圖片

圖 3. 與其它方法對比,CE3D 能實現(xiàn)更豐富的編輯能力

圖片

圖 4. 與 InstructNeRF2NeRF 相比,CE3D 的多輪對話能力和編輯能力超強!

5. 總結(jié)和展望

CE3D 打破現(xiàn)有 3D 場景編輯方法的范式,實現(xiàn)了多模態(tài)編輯模型和 3D 場景表示模型間的完全解耦,因此可以兼容任意的 2D 和 3D 的視覺模型。進一步通過大語言模型的邏輯推理和語言理解能力,來實現(xiàn)對用戶文本查詢的解析和模型的自主調(diào)用管理,以實現(xiàn)對話式的 3D 場景編輯框架 CE3D。不過,雖然 CE3D 在 3D 場景編輯方面取得了顯著進展,但該技術(shù)在處理 360 度場景時會遇到一些挑戰(zhàn),還有進一步研究的空間。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-11-20 08:32:50

HTTP協(xié)議

2009-12-08 14:26:13

大型網(wǎng)絡運維

2023-04-05 14:19:07

FlinkRedisNoSQL

2025-04-11 08:51:51

2013-12-17 09:02:03

Python調(diào)試

2022-12-21 15:56:23

代碼文檔工具

2023-05-23 13:59:41

RustPython程序

2013-12-31 09:19:23

Python調(diào)試

2023-09-06 09:20:45

FigmaWasm

2021-04-13 22:30:17

SpringBoot日志微服務

2020-12-07 10:10:22

企業(yè)文化客戶體驗

2015-03-16 12:50:44

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務價值

2021-05-20 08:37:32

multiprocesPython線程

2011-01-18 10:45:16

喬布斯

2012-06-08 13:47:32

Wndows 8Vista

2015-02-05 13:27:02

移動開發(fā)模塊SDK

2019-10-25 19:42:41

華為

2023-02-23 15:35:14

人工智能ChatGPT聊天機器人

2022-08-08 09:02:54

Meta聊天機器人智能
點贊
收藏

51CTO技術(shù)棧公眾號