CVPR 2025 | VAST和北航開源MIDI,從單張圖像端到端生成三維組合場景
本文的主要作者來自 VAST、北京航空航天大學(xué)、清華大學(xué)和香港大學(xué)。本文的第一作者為北京航空航天大學(xué)碩士生黃澤桓,主要研究方向?yàn)樯墒饺斯ぶ悄芎腿S視覺。本文的通訊作者為 VAST 首席科學(xué)家曹炎培和北京航空航天大學(xué)副教授盛律。
在 Sora 引爆世界模型技術(shù)革命的當(dāng)下,3D 場景作為物理世界的數(shù)字基座,正成為構(gòu)建動態(tài)可交互 AI 系統(tǒng)的關(guān)鍵基礎(chǔ)設(shè)施。當(dāng)前,單張圖像生成三維資產(chǎn)的技術(shù)突破,已為三維內(nèi)容生產(chǎn)提供了 "從想象到三維" 的原子能力。
然而,當(dāng)技術(shù)演進(jìn)到組合式場景生成維度時,單物體生成范式的局限性開始凸顯:現(xiàn)有方法生成的 3D 資產(chǎn)如同散落的 "數(shù)字原子",難以自組織成具有合理空間關(guān)系的 "分子結(jié)構(gòu)"。這導(dǎo)致幾個核心挑戰(zhàn):① 實(shí)例分離困境(如何從單視圖準(zhǔn)確解耦交疊物體)② 物理約束建模(如何避免穿模的不合理交互)③ 場景級語義理解(如何保持物體功能與空間布局的一致性)。這些瓶頸嚴(yán)重制約著從 "數(shù)字原子" 到 "可交互世界" 的構(gòu)建效率。
最近,來自北航、VAST 等機(jī)構(gòu)的研究團(tuán)隊(duì)推出了全新的模型 —— MIDI,它能夠從單張圖像生成高幾何質(zhì)量、實(shí)例可分離的 3D 組合場景,在單視圖 3D 場景生成領(lǐng)域取得了突破性進(jìn)展,為可交互世界生成奠定基礎(chǔ)。
- 論文鏈接:https://arxiv.org/abs/2412.03558
- 項(xiàng)目主頁:https://huanngzh.github.io/MIDI-Page/
- 代碼倉庫:https://github.com/VAST-AI-Research/MIDI-3D
- 在線 Demo:https://huggingface.co/spaces/VAST-AI/MIDI-3D
技術(shù)突破:從單張圖像到三維組合場景的關(guān)鍵創(chuàng)新
傳統(tǒng)的組合式 3D 場景重建技術(shù)往往依賴于多階段的逐個物體生成和場景優(yōu)化,流程冗長且生成的場景往往幾何質(zhì)量低、空間布局不準(zhǔn)確。為解決這些問題,MIDI (Multi-Instance Diffusion Model)創(chuàng)新性地利用了三維物體生成模型,將其擴(kuò)展為多實(shí)例擴(kuò)散模型,能夠同時生成具有精確空間關(guān)系的多個 3D 實(shí)例,實(shí)現(xiàn)了高效高質(zhì)量的 3D 場景生成:
- 單物體到多實(shí)例生成的跨越:通過同時去噪多個 3D 實(shí)例的潛在表示,并在去噪過程中引入多實(shí)例標(biāo)記之間的交互,MIDI 將 3D 物體生成模型擴(kuò)展至同時生成有交互建模的多實(shí)例,而后直接組合為 3D 場景。
- 多實(shí)例自注意力機(jī)制:通過將物體生成模型的自注意力擴(kuò)展至多實(shí)例自注意力,MIDI 在生成過程中有效捕獲實(shí)例間的空間關(guān)聯(lián)和整體場景的連貫性,而無需逐場景的布局優(yōu)化。
- 訓(xùn)練階段的數(shù)據(jù)增強(qiáng):通過使用有限的場景數(shù)據(jù)監(jiān)督 3D 實(shí)例間的交互,同時結(jié)合物體數(shù)據(jù)進(jìn)行增強(qiáng)訓(xùn)練,MIDI 有效建模場景布局的同時保持了預(yù)訓(xùn)練的泛化能力。
效果展示
基于單張圖像,MIDI 可以生成高質(zhì)量的組合式 3D 場景:
在線演示
卓越性能:在幾何質(zhì)量和空間布局等多個維度上表現(xiàn)突出
MIDI 的主要特點(diǎn)在于其精確的空間布局建模、卓越的幾何生成質(zhì)量、生成的高效性和廣泛的適用性。實(shí)驗(yàn)結(jié)果顯示,該模型在多個數(shù)據(jù)集上的表現(xiàn)超越現(xiàn)有方法,包括 3D 實(shí)例間的空間關(guān)系、3D 實(shí)例生成的幾何質(zhì)量、以及端到端的生成速度均取得了優(yōu)異的表現(xiàn)。
應(yīng)用場景:3D 場景內(nèi)容創(chuàng)作的新工具
MIDI 的出現(xiàn)為 3D 場景的創(chuàng)作提供了一種嶄新的解決方案。在建筑設(shè)計(jì)、虛擬現(xiàn)實(shí)、影視特效以及游戲開發(fā)等領(lǐng)域,該技術(shù)展現(xiàn)了廣闊的應(yīng)用潛力。通過具備高準(zhǔn)確度、高幾何質(zhì)量的 3D 場景生成能力,MIDI 能夠滿足復(fù)雜場景中對高質(zhì)量內(nèi)容的需求,為創(chuàng)作者帶來更多可能性。
未來展望
盡管模型表現(xiàn)優(yōu)異,MIDI 研發(fā)團(tuán)隊(duì)深知仍有許多值得提升和探索的方向。例如,進(jìn)一步優(yōu)化對復(fù)雜交互場景的適配能力、提升物體生成的精細(xì)度等,都是未來努力的重點(diǎn)。希望通過不斷改進(jìn)和完善,讓這一研發(fā)思路不僅推動單視圖生成組合 3D 場景技術(shù)的進(jìn)步,也能為 3D 技術(shù)在實(shí)際應(yīng)用中的廣泛普及貢獻(xiàn)力量。