自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

看3.2億幀視頻學(xué)會3D生成，智源開源See3D：只需單圖即可生成3D場景

作者：量子位 2024-12-10 15:17:11

人工智能新聞

國內(nèi)智源研究院推出了首個利用大規(guī)模無標(biāo)注的互聯(lián)網(wǎng)視頻學(xué)習(xí)的3D生成模型See3D—See Video, Get 3D。

近日，著名AI學(xué)者、斯坦福大學(xué)教授李飛飛團(tuán)隊WorldLabs推出首個「空間智能」模型，僅輸入單張圖片，即可生成一個逼真的3D世界，這被認(rèn)為是邁向空間智能的第一步。

幾乎同時，國內(nèi)智源研究院推出了首個利用大規(guī)模無標(biāo)注的互聯(lián)網(wǎng)視頻學(xué)習(xí)的3D生成模型See3D—See Video, Get 3D。

△See3D支持從文本、單視圖和稀疏視圖到3D的生成，同時還可支持3D編輯與高斯渲染

不同于傳統(tǒng)依賴相機(jī)參數(shù)（pose-condition）的3D生成模型，See3D采用全新的視覺條件（visual-condition）技術(shù)，僅依賴視頻中的視覺線索，生成相機(jī)方向可控且?guī)缀我恢碌亩嘁暯菆D像。

這一方法不依賴于昂貴的3D或相機(jī)標(biāo)注，能夠高效地從多樣化、易獲取的互聯(lián)網(wǎng)視頻中學(xué)習(xí)3D先驗。

See3D不僅支持零樣本和開放世界的3D生成，還無需微調(diào)即可執(zhí)行3D編輯、表面重建等任務(wù)，展現(xiàn)出在多種3D創(chuàng)作應(yīng)用中的廣泛適用性。

相關(guān)的模型、代碼、Demo均已開源，更多技術(shù)細(xì)節(jié)請參考See3D論文。

論文地址:https://arxiv.org/abs/2412.06699項目地址:https://vision.baai.ac.cn/see3d

效果展示

1. 解鎖3D互動世界：輸入圖片，生成沉浸式可交互3D場景，實時探索真實空間結(jié)構(gòu)。

（備注：為了實現(xiàn)實時交互式渲染，當(dāng)前對3D模型和渲染過程進(jìn)行了簡化，離線渲染真實效果更佳。）

△實時3D交互

2. 基于稀疏圖片的3D重建：輸入稀疏的(3-6張)圖片，模型可生成一個精細(xì)化的3D場景。

△基于6張視圖的3D重建

△基于3張視圖的3D重建

3. 開放世界3D生成：根據(jù)文本提示，生成一副藝術(shù)化的圖片，基于此圖片，模型可生成一個虛擬化的3D場景。

△開放世界3D生成樣例

4. 基于單視圖的3D生成：輸入一張真實場景圖片，模型可生成一個逼真的3D場景。

△基于單張圖片的3D生成

研究動機(jī)

3D數(shù)據(jù)具有完整的幾何結(jié)構(gòu)和相機(jī)信息，能夠提供豐富的多視角信息，是訓(xùn)練3D模型最直接的選擇。然而，現(xiàn)有方法通常依賴人工設(shè)計（designed artists）、立體匹配（stereo matching）或運動恢復(fù)結(jié)構(gòu)（Structure from Motion, SfM）等技術(shù)來收集這些數(shù)據(jù)。

盡管經(jīng)過多年發(fā)展，當(dāng)前3D數(shù)據(jù)的積累規(guī)模依然有限，例如DLV3D(0.01M)、RealEstate10K(0.08M)、MVImgNet(0.22M)和Objaverse(0.8M)。這些數(shù)據(jù)的采集過程不僅耗時且成本高昂，還可能難以實施，導(dǎo)致其數(shù)據(jù)規(guī)模難以擴(kuò)展，無法滿足大規(guī)模應(yīng)用的需求。

與此不同，人類視覺系統(tǒng)無需依賴特定的3D表征，僅通過連續(xù)多視角的觀察即可建立對3D世界的理解。單幀圖像難以實現(xiàn)這一點，而視頻因其天然包含多視角關(guān)聯(lián)性和相機(jī)運動信息，具備揭示3D結(jié)構(gòu)的潛力。

更重要的是，視頻來源廣泛且易于獲取，具有高度的可擴(kuò)展性?；诖耍琒ee3D提出“SeeVideo,Get3D”的理念，旨在通過視頻中的多視圖信息，讓模型像人類一樣，學(xué)習(xí)并推理物理世界的三維結(jié)構(gòu)，而非直接建模其幾何形態(tài)。

方法介紹

為了實現(xiàn)可擴(kuò)展的3D生成，See3D提供了一套系統(tǒng)化的解決方案，具體包括：

1）數(shù)據(jù)集：團(tuán)隊提出了一個視頻數(shù)據(jù)篩選流程，自動去除源視頻中多視角不一致或觀察視角不充分的視頻，構(gòu)建了一個高質(zhì)量、多樣化的大規(guī)模多視角圖像數(shù)據(jù)集WebVi3D。該數(shù)據(jù)集涵蓋來自1600萬個視頻片段的3.2億幀圖像，可通過自動化流程隨互聯(lián)網(wǎng)視頻量的增長而不斷擴(kuò)充。

△WebVi3D數(shù)據(jù)集樣本展示

2）模型：標(biāo)注大規(guī)模視頻數(shù)據(jù)的相機(jī)信息成本極高，且在缺乏顯式3D幾何或相機(jī)標(biāo)注的情況下，從視頻中學(xué)習(xí)通用3D先驗是更具挑戰(zhàn)的任務(wù)。為解決這一問題，See3D引入了一種新的視覺條件——通過向掩碼視頻數(shù)據(jù)添加時間依賴噪聲，生成一種純粹的2D歸納視覺信號。這一視覺信號支持可擴(kuò)展的多視圖擴(kuò)散模型（MVD）訓(xùn)練，避免對相機(jī)條件的依賴，實現(xiàn)了“僅通過視覺獲得3D”的目標(biāo)，繞過了昂貴的3D標(biāo)注。

△See3D方法展示

3）3D生成框架：See3D學(xué)到的3D先驗?zāi)軌蚴挂幌盗?D創(chuàng)作應(yīng)用成為可能，包括基于單視圖的3D生成、稀疏視圖重建以及開放世界場景中的3D編輯等，支持在物體級與場景級復(fù)雜相機(jī)軌跡下的長序列視圖的生成。

△基于See3D的多視圖生成

優(yōu)勢

a) 數(shù)據(jù)擴(kuò)展性：模型的訓(xùn)練數(shù)據(jù)源自海量互聯(lián)網(wǎng)視頻，相較于傳統(tǒng)3D數(shù)據(jù)集，構(gòu)建的多視圖數(shù)據(jù)集(16M)在規(guī)模上實現(xiàn)了數(shù)量級的提升。隨著互聯(lián)網(wǎng)的持續(xù)發(fā)展，該數(shù)據(jù)集可持續(xù)擴(kuò)充，進(jìn)一步增強(qiáng)模型能力的覆蓋范圍。

b) 相機(jī)可控性：模型可支持在任意復(fù)雜的相機(jī)軌跡下的場景生成，既可以實現(xiàn)場景級別的漫游，也能聚焦于場景內(nèi)特定的物體細(xì)節(jié)，提供靈活多樣的視角操控能力。

c) 幾何一致性：模型可支持長序列新視角的生成，保持前后幀視圖的幾何一致性，并遵循真實三維幾何的物理規(guī)則。即使視角軌跡發(fā)生變化，返回時場景依然保持高逼真和一致性。

總結(jié)

通過擴(kuò)大數(shù)據(jù)集規(guī)模，See3D為突破3D生成的技術(shù)瓶頸提供了新的思路，所學(xué)習(xí)到的3D先驗為一系列3D創(chuàng)作應(yīng)用提供了支持。希望這項工作能夠引發(fā)3D研究社區(qū)對大規(guī)模無相機(jī)標(biāo)注數(shù)據(jù)的關(guān)注，避免高昂的3D數(shù)據(jù)采集成本，同時縮小與現(xiàn)有強(qiáng)大閉源3D解決方案之間的差距。

責(zé)任編輯：張燕妮來源：量子位

訓(xùn)練模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營