自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="q1ppj"><track id="q1ppj"></track></legend>

<blockquote id="q1ppj"><rt id="q1ppj"></rt></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

作者：OPPO TECH 2021-10-12 09:31:22

近日，OPPO提出了一種新穎的單目自監(jiān)督深度估計模型：MonoIndoor。

室內(nèi)環(huán)境的自監(jiān)督深度估計向來比室外環(huán)境更具挑戰(zhàn)性，OPPO提出了一種新穎的單目自監(jiān)督深度估計模型：MonoIndoor，通過深度因子化模塊和殘差姿態(tài)估計模塊，提高了室內(nèi)環(huán)境中自監(jiān)督單目深度估計的性能。目前，該成果已被ICCV 2021接收。ICCV是計算機(jī)視覺方向的三大頂級會議之一，今年論文接收率為25.9%。

根據(jù)單張圖像估計深度信息是計算機(jī)視覺領(lǐng)域的經(jīng)典問題，也是一項(xiàng)具有挑戰(zhàn)的難題。由于單目圖像的尺度不確定，傳統(tǒng)方法無法計算深度值。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，該范式已經(jīng)成為了估計單目圖像的深度信息的一種解決方案。早期的深度估計方法大多是有監(jiān)督的，即要求數(shù)據(jù)集包含單目圖像和對應(yīng)的深度真值支撐網(wǎng)絡(luò)模型訓(xùn)練。

要想讓圖像含深度真值非常困難，一般需要精密的深度測量設(shè)備和移動平臺“捕獲”。因此，高昂的成本導(dǎo)致數(shù)據(jù)集的數(shù)據(jù)量較小，也意味著有監(jiān)督學(xué)習(xí)的深度估計方式不適用于大規(guī)模的工業(yè)場景。

近日，OPPO提出了一種新穎的單目自監(jiān)督深度估計模型：MonoIndoor。該方法能夠在訓(xùn)練深度網(wǎng)絡(luò)時僅使用圖像本身作為監(jiān)督信息, 無需圖像顯式的目標(biāo)深度值，在降低對訓(xùn)練數(shù)據(jù)集要求的同時, 提升了深度估計的適應(yīng)性和魯棒性。目前，該成果已被ICCV 2021接收，相關(guān)技術(shù)已申請專利。

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

論文地址：https://arxiv.org/pdf/2107.12429.pdf

具體而言，該論文研究了更具挑戰(zhàn)性、場景更復(fù)雜的室內(nèi)場景自監(jiān)督深度估計，在三個公開數(shù)據(jù)集：EuRoC、NYUv2、7-Scenes上進(jìn)行測試時，其性能優(yōu)于Monodepth2等方法，達(dá)到了自監(jiān)督深度估計領(lǐng)域內(nèi)的最佳性能。

如何實(shí)現(xiàn)室內(nèi)場景深度估計？

雖然對于自監(jiān)督深度估計已經(jīng)有了不少研究，其性能已經(jīng)可以與有監(jiān)督方法相媲美，但是這些自監(jiān)督方法的性能評估要么只在戶外進(jìn)行，要么在室內(nèi)表現(xiàn)不佳。

對于原因，OPPO研究院的研究員認(rèn)為：同戶外場景相比，室內(nèi)場景通常缺少顯著的局部或全局視覺特征。具體而言：

1. 室內(nèi)場景景深變化劇烈，使得神經(jīng)網(wǎng)絡(luò)很難推演出一致的深度線索。

2. 室內(nèi)場景下，相機(jī)運(yùn)動通常會包含大量的旋轉(zhuǎn)，從而給相機(jī)姿態(tài)網(wǎng)絡(luò)造成困難。

基于以上觀察，研究員提出兩個新的模塊嘗試解決上述兩個困難。其中，深度因子化模塊（Depth Factorization）旨在克服景深劇烈變化給深度估計造成的困難；殘差姿態(tài)估計模塊（Residual Pose Estimation）能夠提高室內(nèi)場景下相機(jī)旋轉(zhuǎn)的估計，進(jìn)而提升深度質(zhì)量。

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

圖注：MonoIndoor模型架構(gòu)一覽

模型工作原理如上圖所示，深度因子化模塊采用編解碼器的深度網(wǎng)絡(luò)來估計相對深度圖，使用非局部標(biāo)度網(wǎng)絡(luò)（non-local scale network）估計全局標(biāo)度因子（global scale factor）；殘差姿態(tài)估計模塊用姿態(tài)網(wǎng)絡(luò)估計一對幀的初始攝像機(jī)姿勢，然后根據(jù)初始姿勢，用殘差姿態(tài)網(wǎng)絡(luò)迭代估計殘差相機(jī)姿勢。

模型架構(gòu)之深度因子化模塊

深度因子化模塊的骨干模型是Monodepth2，它的自動掩碼機(jī)制可以忽略那些在單目訓(xùn)練中相對攝像機(jī)靜止的像素；同時采用多尺度光度一致性損失，以輸入分辨率執(zhí)行所有圖像采樣，減少了深度失真。

在Monodepth2的基礎(chǔ)上，研究員提出了自注意指導(dǎo)的標(biāo)度回歸網(wǎng)絡(luò)（self-attention-guided scale regression network）對當(dāng)前視點(diǎn)的全局尺度因子進(jìn)行估計。

標(biāo)度網(wǎng)絡(luò)作為深度因子化模塊的另一個分支，其以彩色圖像為輸入，全局標(biāo)度因子為輸出。由于全局標(biāo)度因子和圖像局部區(qū)域密切相關(guān)，研究員在網(wǎng)絡(luò)中加入了自注意塊，以期指導(dǎo)網(wǎng)絡(luò)更多地“關(guān)注”某信息豐富的區(qū)域，從而推導(dǎo)出深度因子。公式如下，給定圖像特征輸入，輸出為Query、鍵（key）、值（values）。

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

此外，為了穩(wěn)定估計全局標(biāo)度因子，研究員還在網(wǎng)絡(luò)中添加了概率標(biāo)度回歸頭（Probabilistic Scale Regression Head）。公式如下，全局標(biāo)度是每一標(biāo)度的加權(quán)概率求和：

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

模型架構(gòu)之殘差姿態(tài)估計模塊

與已有方法在數(shù)據(jù)預(yù)處理過程中專注于“去除”或“減少”旋轉(zhuǎn)成分（rotational components）不同，OPPO研究員提出的殘差姿態(tài)估計模塊，可以用迭代的方式學(xué)習(xí)目標(biāo)和源圖像之間的相對相機(jī)姿態(tài)。

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

圖注：一次姿態(tài)估計分解為兩次姿態(tài)估計的示例

第一步：姿態(tài)網(wǎng)絡(luò)將目標(biāo)圖像和源圖像作為輸入，并估計初始相機(jī)姿態(tài)。

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

第二步：用上述公式從源圖像進(jìn)行雙線性采樣，重建一個虛擬視圖。

第三步：利用殘差姿態(tài)網(wǎng)絡(luò)，將目標(biāo)圖像和合成視圖作為輸入，并輸出殘差相機(jī)姿態(tài)（residual camera pose）。其中，殘差相機(jī)姿態(tài)指的是合成視圖和目標(biāo)圖像之間的相機(jī)姿態(tài)。

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

第四步，從合成圖像進(jìn)行雙線性采樣，公式如上↑。

最后，獲得新合成視圖之后，繼續(xù)估計下一個的殘差姿態(tài)。此時，雙線性采樣公式的一般化為↓：

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

多次估計之后，殘差姿態(tài)可以動態(tài)的寫為↓：

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

綜上，通過迭代法估計殘差姿態(tài)，能夠獲得更準(zhǔn)確的相機(jī)姿態(tài)，更好的進(jìn)行深度估計。具體實(shí)驗(yàn)效果如下一部分所述。

性能評估

為了說明模型MonoIndoor的效果，研究員在EuRoC MAV、NYUv2、RGBD 7-Scenes三個權(quán)威數(shù)據(jù)集上進(jìn)行了評估。采用業(yè)界通用的單目深度估計量化指標(biāo)：絕對相對差（AbsRel）、均方根誤差（RMSE）；以及三個常用的閾值thr=1.25，1.25^2，1.25^3下的準(zhǔn)確度。

具體到實(shí)驗(yàn)配置，研究員使用PyTorch實(shí)現(xiàn)模型，每個實(shí)驗(yàn)用Adam優(yōu)化器訓(xùn)練40個epochs，在前20個epochs學(xué)習(xí)率設(shè)置為10^-4,另外20個設(shè)置為10^-5；平滑項(xiàng)和consistency term分別設(shè)置為0.001和0.05。

實(shí)驗(yàn)結(jié)果之EuRoC MAV

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

將Monodepth2作為基線模型進(jìn)行對比，結(jié)果如上表所示，深度因子化模塊能夠AbsRel從15.7%降低到14.9%；殘差姿態(tài)估計模塊將AbsRel降低到14.1%，整個模型在所有評估指標(biāo)中都實(shí)現(xiàn)了最佳性能。

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

通過上圖，我們可以定性的發(fā)現(xiàn)，MonoIndoor 做出的深度估計比Monoepth2要好得多。例如，在第一行中，MonoIndoor可以估計圖片右下角的“洞區(qū)域”的精確深度，而Monoepth2顯然無法估計。

實(shí)驗(yàn)結(jié)果之NYUv2

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

MonoIndoor 與最新的SOTA監(jiān)督和自監(jiān)督方法性能對比結(jié)果如上表所示，在自監(jiān)督方面，能夠在各項(xiàng)指標(biāo)上達(dá)到最佳，在與有監(jiān)督方法對比方面，也能夠“打敗”一組，從而縮小了自監(jiān)督和有監(jiān)督方法之間的差距。

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

上圖可視化了NYUv2上的深度估計效果。與Monoepth2的結(jié)果相比，MonoIndoor的深度估計更加接近真實(shí)情況。例如，第一行的第三列，MonoIndoor對椅子區(qū)域的深度估計更加精準(zhǔn)。

實(shí)驗(yàn)結(jié)果之RGB-D 7-Scenes

OPPO提出自監(jiān)督深度估計算法，比肩有監(jiān)督，泛化性能更佳

上表給出了MonoIndoor微調(diào)前與微調(diào)后在RGB-D 7-Scenes數(shù)據(jù)集上的測試結(jié)果，通過在各個場景給出的各個指標(biāo)，顯示了MonoIndoor更好的泛化能力和魯棒性。例如，在場景“Fire”上，MonoIndoor減少了1.2%的AbsRel；在場景“Heads”上，MonoIndoor減少了1.8%的AbsRel。

結(jié)語

近年來，人工智能產(chǎn)品在各個行業(yè)迅猛發(fā)展，機(jī)器人學(xué)、三維重建、目標(biāo)追蹤等領(lǐng)域?qū)ι疃裙烙嫾夹g(shù)的準(zhǔn)確性和效率要求越來越高。然而目前主流的深度估計方法常由于外界環(huán)境或是成本原因，很難在工程上得以應(yīng)用并達(dá)到相關(guān)需求。

另一方面，目前關(guān)于圖像深度估計研究很多，可用的公共數(shù)據(jù)集卻相對較少，且公共數(shù)據(jù)集中的場景相對不夠豐富，大大限制了深度估計算法的泛化能力。

OPPO通過自研無監(jiān)督算法，設(shè)計了適合室內(nèi)場景的模型，能夠在不依賴數(shù)據(jù)標(biāo)注的情況下，顯著提升神經(jīng)網(wǎng)絡(luò)在室內(nèi)場景下的深度估計效果。這一方面體現(xiàn)了OPPO對人工智能應(yīng)用場景的理解，也說明了它對人工智能前沿學(xué)術(shù)問題的獨(dú)特把握。

責(zé)任編輯：張燕妮來源：機(jī)器之心

算法模型技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="pi44u"><i id="pi44u"></i></sub>

^{<blockquote id="pi44u"></blockquote>}

<abbr id="pi44u"></abbr><em id="pi44u"><option id="pi44u"></option></em>

<thead id="pi44u"></thead>

<tt id="pi44u"></tt><p id="pi44u"><label id="pi44u"></label></p>