自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Anything in Any Scene：逼真物體插入（助力各類駕駛數(shù)據(jù)合成）

作者：自動(dòng)駕駛之心 2024-03-05 09:39:51

人工智能智能汽車

本文引入了一種新穎且可擴(kuò)展的 Anything in Any Scene 視頻仿真框架，能夠?qū)⑷魏挝矬w集成到任何動(dòng)態(tài)場(chǎng)景視頻中。

原標(biāo)題：Anything in Any Scene: Photorealistic Video Object Insertion

論文鏈接：https://arxiv.org/pdf/2401.17509.pdf

代碼鏈接：https://github.com/AnythingInAnyScene/anything_in_anyscene

作者單位：小鵬汽車

論文思路

逼真的(realistic)視頻仿真(video simulation)在從虛擬現(xiàn)實(shí)到電影制作等各種應(yīng)用領(lǐng)域都顯示出巨大的潛力。尤其是在現(xiàn)實(shí)世界中捕捉視頻不切實(shí)際或成本高昂的情況下。視頻仿真中的現(xiàn)有方法通常無(wú)法準(zhǔn)確地建模光照環(huán)境、表示物體幾何形狀或?qū)崿F(xiàn)高水平的照片級(jí)真實(shí)感。本文提出了 Anything in Any Scene ，這是一種新穎且通用的真實(shí)視頻仿真框架，可以將任何物體無(wú)縫插入到現(xiàn)有的動(dòng)態(tài)視頻中，并強(qiáng)調(diào)物理真實(shí)感。本文提出的總體框架包含三個(gè)關(guān)鍵過(guò)程：1）將真實(shí)的物體集成到給定的場(chǎng)景視頻中，并放置適當(dāng)?shù)奈恢靡源_保幾何真實(shí)感(geometric realism)；2）估計(jì)天空和環(huán)境光照分布并模擬真實(shí)陰影，增強(qiáng)光照真實(shí)感(light realism)；3）采用風(fēng)格遷移網(wǎng)絡(luò)來(lái)細(xì)化最終的視頻輸出，以最大限度地提高照片真實(shí)感(photorealism)。本文通過(guò)實(shí)驗(yàn)證明 Anything in Any Scene 框架可以生成具有出色的幾何真實(shí)感、光照真實(shí)感和照片真實(shí)感的仿真視頻。通過(guò)顯著緩解與視頻數(shù)據(jù)生成相關(guān)的挑戰(zhàn)，本文的框架為獲取高質(zhì)量視頻提供了高效且經(jīng)濟(jì)高效的解決方案。此外，其應(yīng)用遠(yuǎn)遠(yuǎn)超出了視頻數(shù)據(jù)增強(qiáng)的范圍，在虛擬現(xiàn)實(shí)、視頻編輯和各種其他以視頻為中心的應(yīng)用中顯示出廣闊的潛力。

主要貢獻(xiàn)

本文引入了一種新穎且可擴(kuò)展的 Anything in Any Scene 視頻仿真框架，能夠?qū)⑷魏挝矬w集成到任何動(dòng)態(tài)場(chǎng)景視頻中。

本文的框架獨(dú)特地專注于在視頻仿真中保留幾何真實(shí)感、光照真實(shí)感和照片真實(shí)感，確保高質(zhì)量和真實(shí)的輸出。

本文進(jìn)行了廣泛的驗(yàn)證，證明該框架有能力制作逼真的視頻仿真，極大地?cái)U(kuò)展了該領(lǐng)域的應(yīng)用范圍和潛力。

論文設(shè)計(jì)

圖像和視頻仿真在從虛擬現(xiàn)實(shí)到電影制作的各種應(yīng)用中都取得了成功。通過(guò)逼真的圖像和視頻仿真生成多樣化和高質(zhì)量的視覺(jué)內(nèi)容的能力具有推動(dòng)這些領(lǐng)域發(fā)展的潛力，能夠引入新的可能性和應(yīng)用。盡管在現(xiàn)實(shí)世界中捕獲的圖像和視頻的真實(shí)性非常寶貴，但它們經(jīng)常受到長(zhǎng)尾分布的限制。這導(dǎo)致常見(jiàn)場(chǎng)景的代表性過(guò)高，而罕見(jiàn)但關(guān)鍵的情況的代表性不足，從而提出了稱為 out-of-distribution problem 的挑戰(zhàn)。通過(guò)視頻采集和編輯來(lái)解決這些限制的傳統(tǒng)方法被證明是不切實(shí)際的或成本過(guò)高，因?yàn)殡y以涵蓋所有可能的情況。視頻仿真的重要性，特別是通過(guò)將現(xiàn)有視頻與新插入的物體相集成，對(duì)于克服這些挑戰(zhàn)變得至關(guān)重要。通過(guò)生成大規(guī)模、多樣化和逼真的視覺(jué)內(nèi)容，視頻仿真有助于增強(qiáng)虛擬現(xiàn)實(shí)、視頻編輯和視頻數(shù)據(jù)增強(qiáng)方面的應(yīng)用。

然而，考慮物理真實(shí)性生成逼真的仿真視頻仍然是一個(gè)具有挑戰(zhàn)性的開(kāi)放問(wèn)題?，F(xiàn)有方法通常因?qū)Ｗ⒂谔囟ㄔO(shè)置而表現(xiàn)出局限性，特別是室內(nèi)環(huán)境[9,26,45,46,57]。這些方法可能無(wú)法充分解決室外場(chǎng)景的復(fù)雜性，包括不同的光照條件和快速移動(dòng)的物體。依賴 3D 模型配準(zhǔn)的方法僅限于集成有限類別的物體 [12,32,40,42]。許多方法忽略了一些重要因素，例如光照環(huán)境建模、正確的物體放置和實(shí)現(xiàn)真實(shí)感 [12, 36]。失敗的案例如圖 1 所示。因此，這些限制極大地限制了它們?cè)谛枰叨瓤蓴U(kuò)展、幾何一致和真實(shí)場(chǎng)景視頻仿真的領(lǐng)域（例如自動(dòng)駕駛和機(jī)器人）中的應(yīng)用。

本文提出了一個(gè)用于解決這些挑戰(zhàn)的逼真視頻物體插入的綜合框架 Anything in Any Scene。該框架設(shè)計(jì)具有通用性，適用于室內(nèi)和室外場(chǎng)景，保證幾何真實(shí)感、光照真實(shí)感和照片真實(shí)感等方面的物理準(zhǔn)確性。本文的目標(biāo)是創(chuàng)建視頻仿真，不僅有利于機(jī)器學(xué)習(xí)中的視覺(jué)數(shù)據(jù)增強(qiáng)，而且適用于各種視頻應(yīng)用，例如虛擬現(xiàn)實(shí)和視頻編輯。

本文的 Anything in Any Scene 框架的概述如圖 2 所示。本文在第 3 節(jié)中詳細(xì)介紹了本文新穎且可擴(kuò)展的流程，用于構(gòu)建場(chǎng)景視頻和物體網(wǎng)格(object mesh)的多樣化資產(chǎn)庫(kù)。本文介紹了一種視覺(jué)數(shù)據(jù)查詢引擎，旨在利用描述性關(guān)鍵詞從視覺(jué)查詢中高效檢索相關(guān)視頻片段。接下來(lái)，本文提出兩種生成 3D meshes 的方法，利用現(xiàn)有 3D 資產(chǎn)以及多視圖圖像重建。這允許不受限制地插入任何所需的物體，即使它非常不規(guī)則或語(yǔ)義較弱。在第 4 節(jié)中，本文詳細(xì)介紹了將物體集成到動(dòng)態(tài)場(chǎng)景視頻中的方法，重點(diǎn)是保持物理真實(shí)感。本文設(shè)計(jì)了第 4.1 節(jié)中描述的物體放置和穩(wěn)定方法，確保插入的物體穩(wěn)定地錨定(anchored)在連續(xù)的視頻幀上。為了解決創(chuàng)建逼真的光照和陰影效果的挑戰(zhàn)，本文估計(jì)天空和環(huán)境光照并在渲染過(guò)程中生成逼真的陰影，如第 4.2 節(jié)所述。生成的仿真視頻幀不可避免地包含與現(xiàn)實(shí)世界捕獲的視頻不同的不現(xiàn)實(shí)的偽影，例如噪聲水平、色彩保真度和清晰度方面的成像質(zhì)量差異。本文在 4.3 節(jié)中采用風(fēng)格遷移網(wǎng)絡(luò)來(lái)增強(qiáng)照片真實(shí)感。

從本文提出的框架生成的仿真視頻達(dá)到了高度的光照真實(shí)感、幾何真實(shí)感和照片真實(shí)感，在質(zhì)量和數(shù)量上都優(yōu)于其他視頻，如第 5.3 節(jié)所示。本文在5.4節(jié)中進(jìn)一步展示了本文的仿真視頻在訓(xùn)練感知算法中的應(yīng)用，以驗(yàn)證其實(shí)用價(jià)值。Anything in Any Scene 框架能夠創(chuàng)建大規(guī)模、低成本的視頻數(shù)據(jù)集，用于具有時(shí)間效率和逼真視覺(jué)質(zhì)量的數(shù)據(jù)增強(qiáng)，從而減輕視頻數(shù)據(jù)生成的負(fù)擔(dān)，并有可能改善長(zhǎng)尾分布和分布外的挑戰(zhàn)。憑借其通用的框架設(shè)計(jì)，Anything in Any Scene 框架可以輕松整合改進(jìn)的模型和新模塊，例如改進(jìn)的 3D mesh 重建方法，進(jìn)一步增強(qiáng)視頻仿真性能。

圖 1. 光照環(huán)境估計(jì)錯(cuò)誤、物體擺放位置錯(cuò)誤和紋理風(fēng)格不真實(shí)的仿真視頻幀示例，這些問(wèn)題使得圖像缺乏物理真實(shí)感。圖 2. 用于逼真視頻物體插入的 Anything in Any Scene 框架概述圖 3. 用于放置物體的駕駛場(chǎng)景視頻示例。每幅圖像中的紅點(diǎn)是物體插入的位置。

實(shí)驗(yàn)結(jié)果

圖 4. 原始天空?qǐng)D像、重建的 HDR 圖像及其相關(guān)的太陽(yáng)光照分布圖的示例

圖 5. 原始和重建的 HDR 的環(huán)境全景圖像示例

圖 6. 為插入的物體生成陰影的示例

圖 7. 使用不同風(fēng)格遷移網(wǎng)絡(luò)對(duì) PandaSet 數(shù)據(jù)集的仿真視頻幀進(jìn)行定性比較。

圖 8. PandaSet 數(shù)據(jù)集的仿真視頻幀在各種渲染條件下的定性比較。

總結(jié)：

本文提出了一個(gè)創(chuàng)新且可擴(kuò)展的框架，”Anything in Any Scene"，專為逼真的視頻仿真而設(shè)計(jì)。本文提出的框架將各種物體無(wú)縫集成到不同的動(dòng)態(tài)視頻中，確保保留幾何真實(shí)感、光照真實(shí)感和照片真實(shí)感。通過(guò)廣泛的演示，本文展示了其在緩解視頻數(shù)據(jù)收集和生成相關(guān)挑戰(zhàn)方面的功效，提供了適用于各種場(chǎng)景的經(jīng)濟(jì)高效且省時(shí)的解決方案。本文的框架的應(yīng)用在下游感知任務(wù)中顯示出顯著的改進(jìn)，特別是在解決目標(biāo)檢測(cè)中的長(zhǎng)尾分布問(wèn)題方面。本文框架的靈活性允許直接集成每個(gè)模塊的改進(jìn)模型，本文的框架為逼真視頻仿真領(lǐng)域的未來(lái)探索和創(chuàng)新奠定了堅(jiān)實(shí)的基礎(chǔ)。

引用:

Bai C, Shao Z, Zhang G, et al. Anything in Any Scene: Photorealistic Video Object Insertion[J]. arXiv preprint arXiv:2401.17509, 2024.

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="s0jmb"><p id="s0jmb"></p></sub>