自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter

發(fā)布于 2024-9-13 10:23

瀏覽

0收藏

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

論文鏈接: https://arxiv.org/abs/2409.02048
GitHub鏈接：https://github.com/Drexubery/ViewCrafter
項(xiàng)目鏈接: https://drexubery.github.io/ViewCrafter/
Demo鏈接: https://huggingface.co/spaces/Doubiiu/ViewCrafter

?

亮點(diǎn)直擊

本文提出了一種迭代視圖合成策略，并結(jié)合內(nèi)容自適應(yīng)相機(jī)軌跡規(guī)劃算法，以逐步擴(kuò)展新視圖覆蓋的區(qū)域和重建的點(diǎn)云，從而實(shí)現(xiàn)遠(yuǎn)距離和大范圍的新視圖合成。
本文的方法在多個具有挑戰(zhàn)性的數(shù)據(jù)集上表現(xiàn)出色，不僅在合成新視圖的質(zhì)量方面表現(xiàn)優(yōu)異，還在相機(jī)姿態(tài)控制的精確度方面表現(xiàn)出色。該方法不僅適用于新視圖合成，還可以通過高效優(yōu)化基于3D-GS的表示，實(shí)現(xiàn)實(shí)時渲染的沉浸式體驗(yàn)，以及用于場景級別的文本到3D生成，以創(chuàng)造更具想象力的藝術(shù)作品。

Reference image	Camera trajecotry	Generated novel view video

Reference image 1	Reference image 2	Generated novel view video

來自北大、港中文、騰訊等機(jī)構(gòu)的研究人員提出ViewCrafter，可以從根據(jù)單張或稀疏輸入圖像生成精確相機(jī)可控的新視角視頻，并支持場景級圖生3D，文生3D和稀疏視角重建等應(yīng)用。

傳統(tǒng)的新視生成方法如NeRF和3D-GS等技術(shù)依賴于密集的多視角訓(xùn)練數(shù)據(jù)，這限制了它們在僅有稀疏甚至單張輸入視角的情況下的應(yīng)用。同時，這些方法沒有需要逐場景優(yōu)化，不具備范化能力，限制了他們在訓(xùn)練資源受限場景下的應(yīng)用。

在實(shí)際應(yīng)用中，一個更理想的問題場景是從稀疏視角甚至單張輸入圖像中生成任意規(guī)模場景的新視角。這項(xiàng)任務(wù)相當(dāng)具有挑戰(zhàn)性，因?yàn)樗枰Ｐ蛯?D物理世界有全面的理解。而本文提出的新視角生成方法,ViewCrafter,能夠?qū)θ我廨斎雸D像實(shí)現(xiàn)相機(jī)軌跡精確可控的新視角視頻生成，并進(jìn)一步支持圖生3D,文生3D和稀疏視角重建等應(yīng)用。

目前論文和代碼均已開源，并提供了在線Huggingface demo供用戶使用。

效果展示

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

相機(jī)軌跡可控的視頻生成,單視角輸入

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

相機(jī)軌跡可控的視頻生成,2視角輸入

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

文生3D

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

文生3D

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

單圖生3D

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

單圖生3D

方法介紹

視頻擴(kuò)散模型

Sora等在大規(guī)模真實(shí)場景視頻數(shù)據(jù)集上訓(xùn)練得到視頻擴(kuò)散模型能夠?qū)W到對3D物理世界的深入理解，從而使其從單張圖像或文本提示中生成復(fù)合物理規(guī)律和現(xiàn)實(shí)世界規(guī)則的視頻內(nèi)容。然而，由于它們?nèi)狈鼍暗牡讓?D信息，因此難以在視頻生成過程中實(shí)現(xiàn)精確的相機(jī)視角控制。

點(diǎn)云先驗(yàn)

快速多視圖/單視圖stereo技術(shù)的發(fā)展使得僅從單張或稀疏圖像中快速重建點(diǎn)云表征成為可能。點(diǎn)云表征能夠提供粗略的3D場景信息，支持自由視角渲染和精確的相機(jī)位置控制。然而，由于其表示能力較差，以及極其稀疏的輸入圖像所提供的3D線索非常有限，它在處理遮擋、缺失區(qū)域和幾何變形方面存在問題，限制了其在新視角合成中的應(yīng)用。

ViewCrafter

研究者們提出將視頻擴(kuò)散模型的生成能力與點(diǎn)云表征提供的粗略3D先驗(yàn)相結(jié)合，以實(shí)現(xiàn)相機(jī)精準(zhǔn)可控的任意場景高保真度新視角視頻生成。

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

如上圖所示, 給定單張或稀疏視角輸入圖像，研究者們首先使用快速多視圖Stereo方法構(gòu)建其點(diǎn)云表示，這樣可以準(zhǔn)確地移動相機(jī)進(jìn)行自由視角渲染。隨后，為了解決點(diǎn)云渲染結(jié)果中存在的大面積缺失區(qū)域、幾何失真和點(diǎn)云偽影，研究者們訓(xùn)練了一個以點(diǎn)云渲染結(jié)果為控制信號的視頻擴(kuò)散模型，作為增強(qiáng)渲染器，以便根據(jù)粗糙的點(diǎn)云渲染結(jié)果生成高保真且一致的新視角。利用點(diǎn)云中的顯式3D信息以及視頻擴(kuò)散模型的生成能力，本文的方法能夠?qū)崿F(xiàn)6自由度的精準(zhǔn)相機(jī)位姿控制，并生成高保真度、一致性強(qiáng)的新視角視頻。

迭代生成

視頻擴(kuò)散模型在生成長視頻時往往面臨挑戰(zhàn)，因?yàn)殚L視頻推理會造成巨大的計(jì)算成本開銷。為了解決這一問題，研究者們提出了一種迭代式的新視角生成策略，并提出了一種內(nèi)容自適應(yīng)的攝像機(jī)軌跡規(guī)劃算法，以逐步擴(kuò)展重建的點(diǎn)云和新視圖覆蓋的區(qū)域。具體來說,從輸入圖像構(gòu)建的初始點(diǎn)云開始，首先使用攝像機(jī)軌跡規(guī)劃算法，從當(dāng)前點(diǎn)云預(yù)測一段相機(jī)軌跡，以有效揭示遮擋區(qū)域。接著，根據(jù)預(yù)測的軌跡渲染點(diǎn)云，并利用ViewCrafter根據(jù)渲染的點(diǎn)云生成高質(zhì)量的新視角。隨后，用生成的新視角更新點(diǎn)云，以擴(kuò)展全局點(diǎn)云表征。通過迭代執(zhí)行這些步驟，最終可以獲得覆蓋大視場范圍和擴(kuò)展點(diǎn)云的高保真新視圖。

3D高斯重建

基于研究者們提出的迭代新視角生成算法,可以從單張圖像/稀疏視角甚至一段文字描述中中進(jìn)行3D高斯重建。

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果

零樣本新視角生成

研究者們在Tanks-and-Temples,CO3D, RealEstate10K這三個真實(shí)世界數(shù)據(jù)集上與發(fā)表在CVPR2024，SIGGRAPH2024等頂會上的SOTA方法進(jìn)行了定量和定性比較，實(shí)驗(yàn)結(jié)果證明本文的方法在相機(jī)位姿控制的精準(zhǔn)程度，以及生成新視角的視覺質(zhì)量上都大幅超過對比方法。

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

稀疏視角3D高斯重建

研究者們在Tanks-and-Temples數(shù)據(jù)集上與發(fā)表在CVPR2024，ECCV2024等頂會上的SOTA方法進(jìn)行了定量和定性比較，實(shí)驗(yàn)結(jié)果證明本文的方法在生成新視角的視覺質(zhì)量上大幅超過對比方法

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

文生3D效果

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

啟發(fā)

一些同期工作采用普呂克坐標(biāo)作為視頻生成模型的控制信號，實(shí)現(xiàn)相機(jī)可控的新視角生成。作為對比，為了驗(yàn)證點(diǎn)云控制信號的優(yōu)越性，訓(xùn)練了一個以普呂克坐標(biāo)為控制信號的新視角生成模型，并進(jìn)行控制變量實(shí)驗(yàn)，保證除了控制信號外其他模型結(jié)構(gòu)與ViewCrafter一致。兩個模型在新視角生成任務(wù)上對比結(jié)果如下所示：

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

Amazing!精準(zhǔn)可控新視角視頻生成+場景級3D生成！北大&港中文&騰訊等開源ViewCrafter-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果證明，不管是在新視角生成質(zhì)量還是在相機(jī)控制的精準(zhǔn)程度上，使用的基于點(diǎn)云的控制信號都要優(yōu)于基于普呂克坐標(biāo)的控制信號。

結(jié)論

本文提出了 ViewCrafter，一種結(jié)合視頻擴(kuò)散模型和點(diǎn)云先驗(yàn)的高保真度和準(zhǔn)確的新視圖合成框架。本文的方法通過為各種場景類型提供泛化能力和對單幅圖像及稀疏圖像輸入的適應(yīng)性，同時保持新視圖的質(zhì)量一致性和準(zhǔn)確性，克服了現(xiàn)有方法的局限性。此外，引入了迭代視圖合成方法和自適應(yīng)相機(jī)軌跡規(guī)劃程序，促進(jìn)了長范圍新視圖合成和多樣場景的自動相機(jī)軌跡生成。除了新視圖合成外，還探索了 3D-GS 表示的高效優(yōu)化，以實(shí)現(xiàn)實(shí)時、高幀率的新視圖渲染，并將本文的框架適配于文本到 3D 生成。

未來計(jì)劃

研究者們驗(yàn)證了ViewCrafter對于靜態(tài)場景的強(qiáng)大新視角生成能力。在未來的工作中，將探索和視頻深度估計(jì)方法結(jié)合，實(shí)現(xiàn)單目動態(tài)視頻的新視角生成和4D重建。

本文轉(zhuǎn)自 AI生成未來，作者： AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/n-k9F4LR10oJcVNZx5enpg??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

文本直接生成多視角3D圖像，Meta推出創(chuàng)新模型

Aceryt ? 2216瀏覽 ? 0回復(fù)
騰訊、上?？拼?em>開源InstantMesh，圖片直接生成3D模型

Aceryt ? 3940瀏覽 ? 0回復(fù)
無需3D數(shù)據(jù)也能訓(xùn)練，港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型

Crystalcxt ? 2706瀏覽 ? 0回復(fù)
5秒完成3D生成，真香合成數(shù)據(jù)集已開源，上交港中文新框架超越Instant3D

Crystalcxt ? 2506瀏覽 ? 0回復(fù)
3D版"裁縫"開源來襲！Tailor3D:自定義3D編輯和資產(chǎn)生成（港大&上海AI-Lab&港中文）

angel ? 2370瀏覽 ? 0回復(fù)
ECCV`24 | 首次解決文本到3D NeRFs分解問題！港中文等提出DreamDissector

angel ? 2206瀏覽 ? 0回復(fù)
ACM MM24 | Hi3D: 3D生成領(lǐng)域再突破！新視角生成和高分辨率生成雙SOTA(復(fù)旦&智象等)

angel ? 2357瀏覽 ? 0回復(fù)
阿里商業(yè)級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2305瀏覽 ? 0回復(fù)
生成任意3D和4D場景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟

angel ? 1984瀏覽 ? 0回復(fù)
斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù)，精準(zhǔn)描繪3D/4D世界!

angel ? 1941瀏覽 ? 0回復(fù)
實(shí)現(xiàn)任意3D/4D場景生成！港科大&清華&生數(shù)發(fā)布DimensionX

angel ? 3908瀏覽 ? 0回復(fù)
從2D到3D：北大等開源Lift3D，助力精準(zhǔn)具身智能操作！

angel ? 2390瀏覽 ? 0回復(fù)
多提示視頻生成最新SOTA！港中文&騰訊等發(fā)布DiTCtrl：基于MM-DiT架構(gòu)

angel ? 2638瀏覽 ? 0回復(fù)
視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 1757瀏覽 ? 0回復(fù)
幾秒生成逼真3D場景，泛化媲美Stable Diffusion | 浙大&螞蟻等提出Prometheus

angel ? 1921瀏覽 ? 0回復(fù)
用戶可控的電影級圖像到視頻生成方法！港中文&Adobe發(fā)布MotionCanvas

angel ? 2017瀏覽 ? 0回復(fù)
直擊痛點(diǎn)，新一代身份保持視頻生成解決方案！阿里等提出FantasyID:多視角與3D融合！

angel ? 1600瀏覽 ? 0回復(fù)
首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)

angel ? 1500瀏覽 ? 0回復(fù)
告別粗糙AI生成！BlobCtrl帶你玩轉(zhuǎn)元素級視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1280瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：時尚穿搭想換就換，各種風(fēng)格一鍵完美搭配！這個引爆時尚圈的平臺上線了

下一篇： SDM: 第三代神經(jīng)網(wǎng)絡(luò)和擴(kuò)散模型強(qiáng)強(qiáng)聯(lián)合！FID最多超基線12倍，能耗省60%，實(shí)力SOTA！

社區(qū)精華內(nèi)容

目錄

<style id="ctujy"></style>