自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="vpsya"></u>

<pre id="vpsya"></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

CVPR 2025 | VAST和北航開源MIDI，從單張圖像端到端生成三維組合場景

作者：機(jī)器之心 2025-03-14 12:03:29

人工智能新聞

盡管模型表現(xiàn)優(yōu)異，MIDI 研發(fā)團(tuán)隊(duì)深知仍有許多值得提升和探索的方向。

本文的主要作者來自 VAST、北京航空航天大學(xué)、清華大學(xué)和香港大學(xué)。本文的第一作者為北京航空航天大學(xué)碩士生黃澤桓，主要研究方向?yàn)樯墒饺斯ぶ悄芎腿S視覺。本文的通訊作者為 VAST 首席科學(xué)家曹炎培和北京航空航天大學(xué)副教授盛律。

在 Sora 引爆世界模型技術(shù)革命的當(dāng)下，3D 場景作為物理世界的數(shù)字基座，正成為構(gòu)建動態(tài)可交互 AI 系統(tǒng)的關(guān)鍵基礎(chǔ)設(shè)施。當(dāng)前，單張圖像生成三維資產(chǎn)的技術(shù)突破，已為三維內(nèi)容生產(chǎn)提供了 "從想象到三維" 的原子能力。

然而，當(dāng)技術(shù)演進(jìn)到組合式場景生成維度時，單物體生成范式的局限性開始凸顯：現(xiàn)有方法生成的 3D 資產(chǎn)如同散落的 "數(shù)字原子"，難以自組織成具有合理空間關(guān)系的 "分子結(jié)構(gòu)"。這導(dǎo)致幾個核心挑戰(zhàn)：① 實(shí)例分離困境（如何從單視圖準(zhǔn)確解耦交疊物體）② 物理約束建模（如何避免穿模的不合理交互）③ 場景級語義理解（如何保持物體功能與空間布局的一致性）。這些瓶頸嚴(yán)重制約著從 "數(shù)字原子" 到 "可交互世界" 的構(gòu)建效率。

最近，來自北航、VAST 等機(jī)構(gòu)的研究團(tuán)隊(duì)推出了全新的模型 —— MIDI，它能夠從單張圖像生成高幾何質(zhì)量、實(shí)例可分離的 3D 組合場景，在單視圖 3D 場景生成領(lǐng)域取得了突破性進(jìn)展，為可交互世界生成奠定基礎(chǔ)。

論文鏈接：https://arxiv.org/abs/2412.03558
項(xiàng)目主頁：https://huanngzh.github.io/MIDI-Page/
代碼倉庫：https://github.com/VAST-AI-Research/MIDI-3D
在線 Demo：https://huggingface.co/spaces/VAST-AI/MIDI-3D

技術(shù)突破：從單張圖像到三維組合場景的關(guān)鍵創(chuàng)新

傳統(tǒng)的組合式 3D 場景重建技術(shù)往往依賴于多階段的逐個物體生成和場景優(yōu)化，流程冗長且生成的場景往往幾何質(zhì)量低、空間布局不準(zhǔn)確。為解決這些問題，MIDI （Multi-Instance Diffusion Model）創(chuàng)新性地利用了三維物體生成模型，將其擴(kuò)展為多實(shí)例擴(kuò)散模型，能夠同時生成具有精確空間關(guān)系的多個 3D 實(shí)例，實(shí)現(xiàn)了高效高質(zhì)量的 3D 場景生成：

單物體到多實(shí)例生成的跨越：通過同時去噪多個 3D 實(shí)例的潛在表示，并在去噪過程中引入多實(shí)例標(biāo)記之間的交互，MIDI 將 3D 物體生成模型擴(kuò)展至同時生成有交互建模的多實(shí)例，而后直接組合為 3D 場景。
多實(shí)例自注意力機(jī)制：通過將物體生成模型的自注意力擴(kuò)展至多實(shí)例自注意力，MIDI 在生成過程中有效捕獲實(shí)例間的空間關(guān)聯(lián)和整體場景的連貫性，而無需逐場景的布局優(yōu)化。
訓(xùn)練階段的數(shù)據(jù)增強(qiáng)：通過使用有限的場景數(shù)據(jù)監(jiān)督 3D 實(shí)例間的交互，同時結(jié)合物體數(shù)據(jù)進(jìn)行增強(qiáng)訓(xùn)練，MIDI 有效建模場景布局的同時保持了預(yù)訓(xùn)練的泛化能力。

效果展示

基于單張圖像，MIDI 可以生成高質(zhì)量的組合式 3D 場景：

在線演示

卓越性能：在幾何質(zhì)量和空間布局等多個維度上表現(xiàn)突出

MIDI 的主要特點(diǎn)在于其精確的空間布局建模、卓越的幾何生成質(zhì)量、生成的高效性和廣泛的適用性。實(shí)驗(yàn)結(jié)果顯示，該模型在多個數(shù)據(jù)集上的表現(xiàn)超越現(xiàn)有方法，包括 3D 實(shí)例間的空間關(guān)系、3D 實(shí)例生成的幾何質(zhì)量、以及端到端的生成速度均取得了優(yōu)異的表現(xiàn)。

應(yīng)用場景：3D 場景內(nèi)容創(chuàng)作的新工具

MIDI 的出現(xiàn)為 3D 場景的創(chuàng)作提供了一種嶄新的解決方案。在建筑設(shè)計(jì)、虛擬現(xiàn)實(shí)、影視特效以及游戲開發(fā)等領(lǐng)域，該技術(shù)展現(xiàn)了廣闊的應(yīng)用潛力。通過具備高準(zhǔn)確度、高幾何質(zhì)量的 3D 場景生成能力，MIDI 能夠滿足復(fù)雜場景中對高質(zhì)量內(nèi)容的需求，為創(chuàng)作者帶來更多可能性。

未來展望

盡管模型表現(xiàn)優(yōu)異，MIDI 研發(fā)團(tuán)隊(duì)深知仍有許多值得提升和探索的方向。例如，進(jìn)一步優(yōu)化對復(fù)雜交互場景的適配能力、提升物體生成的精細(xì)度等，都是未來努力的重點(diǎn)。希望通過不斷改進(jìn)和完善，讓這一研發(fā)思路不僅推動單視圖生成組合 3D 場景技術(shù)的進(jìn)步，也能為 3D 技術(shù)在實(shí)際應(yīng)用中的廣泛普及貢獻(xiàn)力量。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型優(yōu)化 3D

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營