自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2025 | VAST和北航開源MIDI,從單張圖像端到端生成三維組合場景

人工智能 新聞
盡管模型表現(xiàn)優(yōu)異,MIDI 研發(fā)團(tuán)隊(duì)深知仍有許多值得提升和探索的方向。

本文的主要作者來自 VAST、北京航空航天大學(xué)、清華大學(xué)和香港大學(xué)。本文的第一作者為北京航空航天大學(xué)碩士生黃澤桓,主要研究方向?yàn)樯墒饺斯ぶ悄芎腿S視覺。本文的通訊作者為 VAST 首席科學(xué)家曹炎培和北京航空航天大學(xué)副教授盛律。

在 Sora 引爆世界模型技術(shù)革命的當(dāng)下,3D 場景作為物理世界的數(shù)字基座,正成為構(gòu)建動態(tài)可交互 AI 系統(tǒng)的關(guān)鍵基礎(chǔ)設(shè)施。當(dāng)前,單張圖像生成三維資產(chǎn)的技術(shù)突破,已為三維內(nèi)容生產(chǎn)提供了 "從想象到三維" 的原子能力。

然而,當(dāng)技術(shù)演進(jìn)到組合式場景生成維度時,單物體生成范式的局限性開始凸顯:現(xiàn)有方法生成的 3D 資產(chǎn)如同散落的 "數(shù)字原子",難以自組織成具有合理空間關(guān)系的 "分子結(jié)構(gòu)"。這導(dǎo)致幾個核心挑戰(zhàn):① 實(shí)例分離困境(如何從單視圖準(zhǔn)確解耦交疊物體)② 物理約束建模(如何避免穿模的不合理交互)③ 場景級語義理解(如何保持物體功能與空間布局的一致性)。這些瓶頸嚴(yán)重制約著從 "數(shù)字原子" 到 "可交互世界" 的構(gòu)建效率。

最近,來自北航、VAST 等機(jī)構(gòu)的研究團(tuán)隊(duì)推出了全新的模型 —— MIDI,它能夠從單張圖像生成高幾何質(zhì)量、實(shí)例可分離的 3D 組合場景,在單視圖 3D 場景生成領(lǐng)域取得了突破性進(jìn)展,為可交互世界生成奠定基礎(chǔ)。

圖片

技術(shù)突破:從單張圖像到三維組合場景的關(guān)鍵創(chuàng)新

傳統(tǒng)的組合式 3D 場景重建技術(shù)往往依賴于多階段的逐個物體生成和場景優(yōu)化,流程冗長且生成的場景往往幾何質(zhì)量低、空間布局不準(zhǔn)確。為解決這些問題,MIDI (Multi-Instance Diffusion Model)創(chuàng)新性地利用了三維物體生成模型,將其擴(kuò)展為多實(shí)例擴(kuò)散模型,能夠同時生成具有精確空間關(guān)系的多個 3D 實(shí)例,實(shí)現(xiàn)了高效高質(zhì)量的 3D 場景生成:

  1. 單物體到多實(shí)例生成的跨越:通過同時去噪多個 3D 實(shí)例的潛在表示,并在去噪過程中引入多實(shí)例標(biāo)記之間的交互,MIDI 將 3D 物體生成模型擴(kuò)展至同時生成有交互建模的多實(shí)例,而后直接組合為 3D 場景。
  2. 多實(shí)例自注意力機(jī)制:通過將物體生成模型的自注意力擴(kuò)展至多實(shí)例自注意力,MIDI 在生成過程中有效捕獲實(shí)例間的空間關(guān)聯(lián)和整體場景的連貫性,而無需逐場景的布局優(yōu)化。
  3. 訓(xùn)練階段的數(shù)據(jù)增強(qiáng):通過使用有限的場景數(shù)據(jù)監(jiān)督 3D 實(shí)例間的交互,同時結(jié)合物體數(shù)據(jù)進(jìn)行增強(qiáng)訓(xùn)練,MIDI 有效建模場景布局的同時保持了預(yù)訓(xùn)練的泛化能力。

效果展示

基于單張圖像,MIDI 可以生成高質(zhì)量的組合式 3D 場景:


在線演示

卓越性能:在幾何質(zhì)量和空間布局等多個維度上表現(xiàn)突出

MIDI 的主要特點(diǎn)在于其精確的空間布局建模、卓越的幾何生成質(zhì)量、生成的高效性和廣泛的適用性。實(shí)驗(yàn)結(jié)果顯示,該模型在多個數(shù)據(jù)集上的表現(xiàn)超越現(xiàn)有方法,包括 3D 實(shí)例間的空間關(guān)系、3D 實(shí)例生成的幾何質(zhì)量、以及端到端的生成速度均取得了優(yōu)異的表現(xiàn)。

圖片

應(yīng)用場景:3D 場景內(nèi)容創(chuàng)作的新工具

MIDI 的出現(xiàn)為 3D 場景的創(chuàng)作提供了一種嶄新的解決方案。在建筑設(shè)計(jì)、虛擬現(xiàn)實(shí)、影視特效以及游戲開發(fā)等領(lǐng)域,該技術(shù)展現(xiàn)了廣闊的應(yīng)用潛力。通過具備高準(zhǔn)確度、高幾何質(zhì)量的 3D 場景生成能力,MIDI 能夠滿足復(fù)雜場景中對高質(zhì)量內(nèi)容的需求,為創(chuàng)作者帶來更多可能性。

未來展望

盡管模型表現(xiàn)優(yōu)異,MIDI 研發(fā)團(tuán)隊(duì)深知仍有許多值得提升和探索的方向。例如,進(jìn)一步優(yōu)化對復(fù)雜交互場景的適配能力、提升物體生成的精細(xì)度等,都是未來努力的重點(diǎn)。希望通過不斷改進(jìn)和完善,讓這一研發(fā)思路不僅推動單視圖生成組合 3D 場景技術(shù)的進(jìn)步,也能為 3D 技術(shù)在實(shí)際應(yīng)用中的廣泛普及貢獻(xiàn)力量。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-24 09:41:22

2024-12-18 15:20:00

視圖生成AI

2025-03-20 09:20:00

2023-06-08 14:09:00

研究訓(xùn)練

2024-09-10 12:11:18

2023-03-21 09:19:42

技術(shù)圖像

2020-03-30 16:00:46

開源技術(shù) 趨勢

2023-06-02 13:35:11

AI檢索

2024-07-17 09:03:56

2025-01-16 10:11:58

2020-10-25 11:28:12

開源端到端流水線

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2013-06-17 10:37:54

產(chǎn)品設(shè)計(jì)移動設(shè)計(jì)產(chǎn)品規(guī)劃

2019-06-18 09:09:31

C端B端產(chǎn)品設(shè)計(jì)

2009-08-19 11:04:53

令牌端到端加密安全比較

2025-04-01 09:40:00

2022-01-25 10:04:24

圖像模型AI

2022-09-09 15:40:57

Blender開源三維圖形

2017-01-05 20:11:34

大數(shù)據(jù)技術(shù)審計(jì)系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號