ETH&PICO開源MADPose：通過顯式仿射校正單目深度預(yù)測的相對位姿估計(jì)方法

作者：3D視覺之心 2025-01-14 09:48:24

MADPose是一種新的相對位姿估計(jì)方法，利用顯式建模的單目深度先驗(yàn)的仿射變化。

本文經(jīng)3D視覺之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

單目深度估計(jì)的關(guān)鍵局限和挑戰(zhàn)

近年來，基于深度學(xué)習(xí)的單目深度估計(jì)（Monocular Depth Estimation, MDE）能夠從單張二維圖像中提取出日益準(zhǔn)確的三維信息。這些進(jìn)展為利用三維先驗(yàn)豐富傳統(tǒng)幾何計(jì)算機(jī)視覺任務(wù)開辟了新的可能性。從單張圖像推斷深度信息已被證明在多個(gè)應(yīng)用中具有重要意義。

盡管單目深度估計(jì)技術(shù)取得了顯著進(jìn)步，但將這些深度先驗(yàn)整合到基礎(chǔ)幾何計(jì)算機(jī)視覺任務(wù)中（尤其是相機(jī)位姿估計(jì)）仍然較少被研究。雖然直覺上整合深度信息是有益的，但利用這些先驗(yàn)來推導(dǎo)多視圖之間的幾何關(guān)系存在獨(dú)特的挑戰(zhàn)，這些挑戰(zhàn)尚未被現(xiàn)有研究完全解決。

現(xiàn)有方法的一個(gè)關(guān)鍵局限是通常假設(shè)不同視圖預(yù)測的深度圖可以通過一個(gè)單一的比例因子相關(guān)聯(lián)。然而，這種假設(shè)未能考慮現(xiàn)有單目深度估計(jì)模型的內(nèi)在特性，因?yàn)樽钕冗M(jìn)的MDE模型通常通過預(yù)測相對深度或視差（逆深度）來實(shí)現(xiàn)仿射（比例和偏移）變換的不變性。盡管最近在度量深度估計(jì)模型開發(fā)方面取得了一些進(jìn)展，但令人驚訝的是，即便對于這些模型，建模仿射校正也是有益的，因?yàn)樗鼈兣c實(shí)際度量深度仍然存在一定的不一致性。

MADPose[1]提出了三個(gè)求解器，專注于在校準(zhǔn)或非校準(zhǔn)相機(jī)設(shè)置下解決相對位姿問題。這些求解器使用單目深度估計(jì)模型提供的深度先驗(yàn)和像素匹配作為輸入，并顯式建模深度預(yù)測中的比例和偏移變化。具體而言，我們提出的求解器包括以下幾種（其中僅校準(zhǔn)求解器是極小的，其他兩個(gè)是過約束的）：

校準(zhǔn)的三點(diǎn)求解器：適用于校準(zhǔn)圖像對。
共享焦距的四點(diǎn)求解器：適用于未知但共享焦距的非校準(zhǔn)圖像對。
雙焦距的四點(diǎn)求解器：適用于焦距未知的非校準(zhǔn)圖像對。

倉庫鏈接：https://github.com/MarkYu98/madpose

此外，我們將這些新求解器整合到一個(gè)靈活的混合魯棒估計(jì)流程中，該流程將深度感知求解器與經(jīng)典的基于點(diǎn)的求解器相結(jié)合。我們還開發(fā)了混合方案用于評分和局部優(yōu)化，在其中使用深度和仿射校正值優(yōu)化經(jīng)典的Sampson誤差和基于深度的重投影誤差。這種方法結(jié)合了兩種方法的優(yōu)勢，最終形成了一個(gè)魯棒的相對位姿估計(jì)算法，在多個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了持續(xù)改進(jìn)。

主要貢獻(xiàn)：

提出通過顯式仿射（比例和偏移）校正單目深度預(yù)測解決相對位姿問題，解決了現(xiàn)有方法中的一個(gè)局限。
開發(fā)了三種針對不同校準(zhǔn)設(shè)置的求解器：校準(zhǔn)、共享焦距的非校準(zhǔn)、以及完全非校準(zhǔn)圖像對。
將深度感知求解器與經(jīng)典基于點(diǎn)的求解器、評分和局部優(yōu)化相結(jié)合的混合估計(jì)流程，大幅提升了相對位姿估計(jì)的精度和魯棒性。
框架兼容多種圖像匹配器和MDE模型，表現(xiàn)出一致的改進(jìn)，易于整合到現(xiàn)有管線中。

具體方法

問題定義

雖然這種建模假設(shè)深度先驗(yàn)是仿射不變的相對深度，但我們的方法也可以用于度量深度預(yù)測，從而在實(shí)驗(yàn)中表明可以提高相對位姿的準(zhǔn)確性和魯棒性。

方法

混合估計(jì)

僅依賴深度先驗(yàn)可能會在先驗(yàn)不可靠時(shí)產(chǎn)生錯誤結(jié)果。為此，我們進(jìn)一步提出了一種混合方法，將深度感知求解器與經(jīng)典基于點(diǎn)的求解器和極線誤差結(jié)合起來（如 Sampson誤差），形成一個(gè)混合的 LO-MSAC 框架?；旌瞎烙?jì)流程包括以下步驟：

校準(zhǔn)場景：結(jié)合校準(zhǔn)求解器和經(jīng)典的五點(diǎn)本質(zhì)矩陣求解器。
共享焦距場景：結(jié)合共享焦距求解器和六點(diǎn)共享焦距相對位姿求解器。
雙焦距場景：結(jié)合雙焦距求解器和七點(diǎn)基礎(chǔ)矩陣求解器。

通過這種混合策略，我們能夠結(jié)合深度先驗(yàn)和點(diǎn)對應(yīng)兩種方式的優(yōu)勢，從而在多個(gè)數(shù)據(jù)集上實(shí)現(xiàn)精度和魯棒性的顯著提升。

實(shí)驗(yàn)效果

總結(jié)一下

MADPose是一種新的相對位姿估計(jì)方法，利用顯式建模的單目深度先驗(yàn)的仿射變化。在校準(zhǔn)和非校準(zhǔn)相機(jī)設(shè)置下開發(fā)了三個(gè)求解器，并將其與經(jīng)典方法相結(jié)合，實(shí)現(xiàn)了跨多個(gè)數(shù)據(jù)集的持續(xù)改進(jìn)。所提方法還能從圖像匹配和單目深度估計(jì)的最新進(jìn)展中進(jìn)一步受益。

責(zé)任編輯：張燕妮來源： 3D視覺之心

模型深度學(xué)習(xí)開發(fā)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡