自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

單張照片生成360°3D場景，支持靈活視角漫游｜人大&北師大&字節(jié)

作者：量子位 2025-03-31 08:27:00

人工智能新聞

本文介紹了FlexWorld，這是一個從單張圖像生成靈活視角3D場景的框架。

從單張圖像生成靈活視角3D場景的技術(shù)來了，在考古保護(hù)、自主導(dǎo)航等直接獲取3D數(shù)據(jù)成本高昂或不可行的領(lǐng)域具有重要應(yīng)用價值。

這一任務(wù)本質(zhì)上是高度不適定的：單一的2D圖像無法提供足夠的信息來消除完整3D結(jié)構(gòu)的歧義，尤其是在極端視角（如180°旋轉(zhuǎn)）下，先前被遮擋或缺失的內(nèi)容可能會引入顯著的不確定性。

生成模型，特別是擴(kuò)散模型，為解決這一問題提供了一種潛在的技術(shù)路徑。盡管現(xiàn)有方法通常依賴預(yù)訓(xùn)練的生成模型作為新視角合成的先驗，但它們?nèi)悦媾R顯著挑戰(zhàn)。

例如，基于圖像的擴(kuò)散方法容易累積內(nèi)容誤差，基于視頻的擴(kuò)散方法則難以處理可能生成的動態(tài)內(nèi)容構(gòu)建靜態(tài)3D場景的影響。最近的研究嘗試通過在視頻擴(kuò)散模型中引入點云先驗來提升一致性，雖然取得了一定進(jìn)展，但在可擴(kuò)展性方面仍存在局限，尤其是在大視角變化下的表現(xiàn)有待提升。

針對上述問題，人大高瓴李崇軒、文繼榮團(tuán)隊、北師大王一凱團(tuán)隊與字節(jié)跳動的研究員提出了一種新方法FlexWorld，用于從單張圖像生成靈活視角的3D場景。

與現(xiàn)有方法不同，F(xiàn)lexWorld通過合成和整合新的3D內(nèi)容，逐步構(gòu)建并擴(kuò)展一個持久的3D表示。

該方法包含兩個核心組件：

(1) 一個強(qiáng)大的視頻到視頻（video-to-video, V2V）擴(kuò)散模型，用于從粗糙場景渲染的不完整圖像生成完整的視角圖像；(2) 一個幾何感知的3D場景擴(kuò)展過程，用于提取新的3D內(nèi)容并將其整合到全局結(jié)構(gòu)中。研究團(tuán)隊在精確深度估計的訓(xùn)練數(shù)據(jù)上對先進(jìn)的視頻基礎(chǔ)模型進(jìn)行了微調(diào)，使其能夠在大幅度相機(jī)變化下生成高質(zhì)量內(nèi)容。

基于V2V模型，場景擴(kuò)展過程通過相機(jī)軌跡規(guī)劃、場景整合和細(xì)化步驟，逐步從單張圖像構(gòu)建出支持靈活視角觀察（包括360°旋轉(zhuǎn)和縮放等）的3D場景生成。

通過大量實驗，研究團(tuán)隊驗證了FlexWorld在高質(zhì)量視頻和靈活視角3D場景合成方面的性能。FlexWorld在生成大幅度相機(jī)變化控制下的視頻中展現(xiàn)了出色的視覺質(zhì)量，同時在生成靈活視角3D場景時保持了較高的空間一致性。為促進(jìn)學(xué)術(shù)交流和技術(shù)推廣，團(tuán)隊已開源相關(guān)代碼倉庫與訓(xùn)練權(quán)重，供研究社區(qū)進(jìn)一步探索和應(yīng)用。

性能展示

支持大幅轉(zhuǎn)角的視頻到視頻生成

在多種不同來源的輸入圖像和相機(jī)軌跡下，F(xiàn)lexWorld 中微調(diào)的視頻模型可以生成較高質(zhì)量且3D一致的視頻內(nèi)容。受益于較好的一致性，這些視頻可以直接用于3D重建，為后續(xù)生成靈活視角的場景提供了較好的視覺內(nèi)容。

靈活視角的場景生成

根據(jù)單張圖片輸入，F(xiàn)lexWorld可以生成靈活視角下的3D場景，這些生成的場景可以在360度旋轉(zhuǎn)，前進(jìn)和后退等視角進(jìn)行探索。這些場景通過多段視頻逐漸構(gòu)筑生成，旨在擴(kuò)展出更大的可探索區(qū)域，而非僅關(guān)注前方區(qū)域。

核心方法

下圖展示了FlexWorld的整體框架。

逐步構(gòu)建場景

FlexWorld采用多段視頻逐步構(gòu)建出一個具有更大可探索區(qū)域的場景。在場景內(nèi)容不足的區(qū)域，F(xiàn)lexWorld渲染出該區(qū)域的殘缺場景視頻，并通過一個經(jīng)過微調(diào)的視頻到視頻模型，獲得補(bǔ)完的場景視頻。在場景融合階段，視頻中的關(guān)鍵幀將會被填充置入場景的不足區(qū)域，其他幀則會作為場景表示（即3D Gaussian splatting）的參考圖像優(yōu)化整體場景表征。

支持大轉(zhuǎn)角的視頻到視頻模型

FlexWorld中包含一個經(jīng)過微調(diào)的視頻模型，該模型以視頻作為條件，可以從殘缺的輸入視頻中捕捉到相機(jī)運(yùn)行軌跡，輸出符合輸入軌跡的完好視頻，保持良好的3D一致性。該視頻模型選用CogVideoX-5B-I2V作為基座模型，并構(gòu)造了一系列深度良好的殘缺視頻-良好視頻訓(xùn)練對。不同于依賴深度估計模型獲得的訓(xùn)練對，F(xiàn)lexWorld構(gòu)建的訓(xùn)練對來自于同一場景密集重建提供的深度，這種訓(xùn)練對使模型始終明確應(yīng)該修復(fù)的區(qū)域，從而能夠在推理時支持更大轉(zhuǎn)角的相機(jī)運(yùn)動。

基于視頻內(nèi)容的場景融合

FlexWorld一方面通過高斯優(yōu)化將多段視頻內(nèi)容融合進(jìn)持久化的3D表征中，另一方面通過密集立體模型和深度融合策略，將多段視頻的關(guān)鍵幀直接作為初始三維高斯加入表征作為初始化，以充分利用深度估計模型提供的先驗和視頻內(nèi)部的一致性。

總結(jié)

本文介紹了FlexWorld，這是一個從單張圖像生成靈活視角3D場景的框架。它結(jié)合了一個微調(diào)的視頻到視頻擴(kuò)散模型，用于高質(zhì)量的新視角合成，以及一個漸進(jìn)的靈活視角3D場景生成過程。通過利用先進(jìn)的預(yù)訓(xùn)練視頻基礎(chǔ)模型和精確的訓(xùn)練數(shù)據(jù)，F(xiàn)lexWorld能夠處理大幅度的相機(jī)姿態(tài)變化，從而實現(xiàn)一致的、支持360°旋轉(zhuǎn)和前進(jìn)后退觀察的3D場景生成。大量實驗表明，與現(xiàn)有方法相比，F(xiàn)lexWorld在視角靈活性和視覺質(zhì)量性能方面表現(xiàn)優(yōu)異。我們相信FlexWorld具有廣闊的前景，并在虛擬現(xiàn)實內(nèi)容創(chuàng)作和3D旅游領(lǐng)域具有重要潛力。

本文由中國人民大學(xué)高瓴人工智能學(xué)院李崇軒、文繼榮教授團(tuán)隊、北京師范大學(xué)人工智能學(xué)院王一凱副教授和字節(jié)跳動共同完成。共同一作陳路晰和周子晗分別是中國人民大學(xué)高瓴人工智能學(xué)院的博士生與碩士生，導(dǎo)師為李崇軒副教授。王一凱副教授、李崇軒副教授為共同通訊作者。

論文鏈接：https://arxiv.org/abs/2503.13265項目地址：https://ml-gsai.github.io/FlexWorld/代碼倉庫：https://github.com/ML-GSAI/FlexWorld

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<menuitem id="nehqf"></menuitem>