自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="jjtsz"></tr>

^{<sub id="jjtsz"></sub>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

沒有3D卷積的3D重建方法，A100上重建一幀僅需70ms

作者：機(jī)器之心 2022-09-13 15:19:48

人工智能新聞

來自 Niantic 和 UCL 等機(jī)構(gòu)的研究者使用精心設(shè)計(jì)和訓(xùn)練的 2D 網(wǎng)絡(luò)，實(shí)現(xiàn)了高質(zhì)量的深度估計(jì)和 3D 重建。

從姿態(tài)圖像重建 3D 室內(nèi)場景通常分為兩個(gè)階段：圖像深度估計(jì)，然后是深度合并（depth merging）和表面重建（surface reconstruction）。最近，多項(xiàng)研究提出了一系列直接在最終 3D 體積特征空間中執(zhí)行重建的方法。雖然這些方法已經(jīng)獲得出令人印象深刻的重建結(jié)果，但它們依賴于昂貴的 3D 卷積層，限制其在資源受限環(huán)境中的應(yīng)用。

現(xiàn)在，來自 Niantic 和 UCL 等機(jī)構(gòu)的研究者嘗試重新使用傳統(tǒng)方法，并專注于高質(zhì)量的多視圖深度預(yù)測，最終使用簡單現(xiàn)成的深度融合方法實(shí)現(xiàn)了高精度的 3D 重建。

?

論文地址：https://nianticlabs.github.io/simplerecon/resources/SimpleRecon.pdf
GitHub 地址：https://github.com/nianticlabs/simplerecon
論文主頁：https://nianticlabs.github.io/simplerecon/

該研究利用強(qiáng)大的圖像先驗(yàn)以及平面掃描特征量和幾何損失，精心設(shè)計(jì)了一個(gè) 2D CNN。所提方法 SimpleRecon 在深度估計(jì)方面取得了顯著領(lǐng)先的結(jié)果，并且允許在線實(shí)時(shí)低內(nèi)存重建。

如下圖所示，SimpleRecon 的重建速度非?？?，每幀僅用約 70ms。

SimpleRecon 和其他方法的比較結(jié)果如下：

方法

深度估計(jì)模型位于單目深度估計(jì)與平面掃描 MVS 的交點(diǎn)，研究者用 cost volume（代價(jià)體積）來增加深度預(yù)測編碼器 - 解碼器架構(gòu)，如圖 2 所示。圖像編碼器從參考圖像和源圖像中提取匹配特征，以輸入到 cost volume。使用 2D 卷積編碼器 - 解碼器網(wǎng)絡(luò)來處理 cost volume 的輸出，此外研究者還使用單獨(dú)的預(yù)訓(xùn)練圖像編碼器提取的圖像級特征進(jìn)行增強(qiáng)。

該研究的關(guān)鍵是將現(xiàn)有的元數(shù)據(jù)與典型的深度圖像特征一起注入到 cost volume 中，以允許網(wǎng)絡(luò)訪問有用的信息，如幾何和相對相機(jī)姿態(tài)信息。圖 3 詳細(xì)地顯示了 feature volume 構(gòu)造。通過整合這些之前未開發(fā)的信息，該研究的模型能夠在深度預(yù)測方面顯著優(yōu)于之前的方法，而無需昂貴的 4D cost volume 成本、復(fù)雜的時(shí)間融合以及高斯過程。

該研究使用 PyTorch 來實(shí)現(xiàn)，并使用 EfficientNetV2 S 作為主干，其具有類似于 UNet++ 的解碼器，此外，他們還使用 ResNet18 的前 2 個(gè)塊進(jìn)行匹配特征提取，優(yōu)化器為 AdamW ，在兩塊 40GB A100 GPU 上耗時(shí) 36 小時(shí)完成。

網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

網(wǎng)絡(luò)是基于 2D 卷積編碼器 - 解碼器架構(gòu)實(shí)現(xiàn)的。在構(gòu)建這種網(wǎng)絡(luò)時(shí)，研究發(fā)現(xiàn)有一些重要的設(shè)計(jì)選擇可以顯著提高深度預(yù)測準(zhǔn)確率，主要包括：

基線 cost volume 融合：雖然基于 RNN 的時(shí)間融合方法經(jīng)常被使用，但它們顯著增加了系統(tǒng)的復(fù)雜性。相反，該研究使得 cost volume 融合盡可能簡單，并發(fā)現(xiàn)簡單地將參考視圖和每個(gè)源視圖之間的點(diǎn)積匹配成本相加，可以得到與 SOTA 深度估計(jì)相競爭的結(jié)果。

圖像編碼器和特征匹配編碼器：先前研究表明，圖像編碼器對深度估計(jì)非常重要，無論是在單目和多視圖估計(jì)中。例如 DeepVideoMVS 使用 MnasNet 作為圖像編碼器，其具有相對較低的延遲。該研究建議使用很小但更強(qiáng)大的 EfficientNetv2 S 編碼器，雖然這樣做的代價(jià)是增加了參數(shù)量，并降低了 10% 的執(zhí)行速度，但它大大提高了深度估計(jì)的準(zhǔn)確率。

融合多尺度圖像特征到 cost volume 編碼器：在基于 2D CNN 的深度立體和多視角立體中，圖像特征通常與單尺度上的 cost volume 輸出相結(jié)合。最近，DeepVideoMVS 提出在多尺度上拼接深度圖像特征，在所有分辨率上增加圖像編碼器和 cost volume 編碼器之間的跳躍連接。這對基于 LSTM 的融合網(wǎng)絡(luò)很有幫助，該研究發(fā)現(xiàn)這對他們的架構(gòu)也同樣重要。

實(shí)驗(yàn)

該研究在 3D 場景重建數(shù)據(jù)集 ScanNetv2 上訓(xùn)練和評估了所提方法。下表 1 使用 Eigen 等人 (2014) 提出的指標(biāo)來評估幾個(gè)網(wǎng)絡(luò)模型的深度預(yù)測性能。

令人驚訝的是，該研究所提模型不使用 3D 卷積，在深度預(yù)測指標(biāo)上卻優(yōu)于所有基線模型。此外，不使用元數(shù)據(jù)編碼的基線模型也比以前的方法表現(xiàn)更好，這表明精心設(shè)計(jì)和訓(xùn)練的 2D 網(wǎng)絡(luò)足以進(jìn)行高質(zhì)量的深度估計(jì)。下圖 4 和圖 5 顯示了深度和法線的定性結(jié)果。

?該研究使用 TransformerFusion 建立的標(biāo)準(zhǔn)協(xié)議進(jìn)行 3D 重建評估，結(jié)果如下表 2 所示。

對于在線和交互式 3D 重建應(yīng)用，減少傳感器延遲是至關(guān)重要的。下表 3 展示了給定一個(gè)新的 RGB 幀，各個(gè)模型對每幀的集成計(jì)算時(shí)間。

為了驗(yàn)證該研究所提方法中各個(gè)組件的有效性，研究者進(jìn)行了消融實(shí)驗(yàn)，結(jié)果如下表 4 所示。

感興趣的讀者可以閱讀論文原文，了解更多研究細(xì)節(jié)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

3D 網(wǎng)絡(luò)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<code id="bspv0"></code>

<sub id="bspv0"><p id="bspv0"><li id="bspv0"></li></p></sub>

<legend id="bspv0"></legend>