ETH&PICO開源MADPose:通過顯式仿射校正單目深度預(yù)測的相對位姿估計(jì)方法
本文經(jīng)3D視覺之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
單目深度估計(jì)的關(guān)鍵局限和挑戰(zhàn)
近年來,基于深度學(xué)習(xí)的單目深度估計(jì)(Monocular Depth Estimation, MDE)能夠從單張二維圖像中提取出日益準(zhǔn)確的三維信息。這些進(jìn)展為利用三維先驗(yàn)豐富傳統(tǒng)幾何計(jì)算機(jī)視覺任務(wù)開辟了新的可能性。從單張圖像推斷深度信息已被證明在多個(gè)應(yīng)用中具有重要意義。
盡管單目深度估計(jì)技術(shù)取得了顯著進(jìn)步,但將這些深度先驗(yàn)整合到基礎(chǔ)幾何計(jì)算機(jī)視覺任務(wù)中(尤其是相機(jī)位姿估計(jì))仍然較少被研究。雖然直覺上整合深度信息是有益的,但利用這些先驗(yàn)來推導(dǎo)多視圖之間的幾何關(guān)系存在獨(dú)特的挑戰(zhàn),這些挑戰(zhàn)尚未被現(xiàn)有研究完全解決。
現(xiàn)有方法的一個(gè)關(guān)鍵局限是通常假設(shè)不同視圖預(yù)測的深度圖可以通過一個(gè)單一的比例因子相關(guān)聯(lián)。然而,這種假設(shè)未能考慮現(xiàn)有單目深度估計(jì)模型的內(nèi)在特性,因?yàn)樽钕冗M(jìn)的MDE模型通常通過預(yù)測相對深度或視差(逆深度)來實(shí)現(xiàn)仿射(比例和偏移)變換的不變性。盡管最近在度量深度估計(jì)模型開發(fā)方面取得了一些進(jìn)展,但令人驚訝的是,即便對于這些模型,建模仿射校正也是有益的,因?yàn)樗鼈兣c實(shí)際度量深度仍然存在一定的不一致性。
MADPose[1]提出了三個(gè)求解器,專注于在校準(zhǔn)或非校準(zhǔn)相機(jī)設(shè)置下解決相對位姿問題。這些求解器使用單目深度估計(jì)模型提供的深度先驗(yàn)和像素匹配作為輸入,并顯式建模深度預(yù)測中的比例和偏移變化。具體而言,我們提出的求解器包括以下幾種(其中僅校準(zhǔn)求解器是極小的,其他兩個(gè)是過約束的):
- 校準(zhǔn)的三點(diǎn)求解器:適用于校準(zhǔn)圖像對。
- 共享焦距的四點(diǎn)求解器:適用于未知但共享焦距的非校準(zhǔn)圖像對。
- 雙焦距的四點(diǎn)求解器:適用于焦距未知的非校準(zhǔn)圖像對。
倉庫鏈接:https://github.com/MarkYu98/madpose
此外,我們將這些新求解器整合到一個(gè)靈活的混合魯棒估計(jì)流程中,該流程將深度感知求解器與經(jīng)典的基于點(diǎn)的求解器相結(jié)合。我們還開發(fā)了混合方案用于評分和局部優(yōu)化,在其中使用深度和仿射校正值優(yōu)化經(jīng)典的Sampson誤差和基于深度的重投影誤差。這種方法結(jié)合了兩種方法的優(yōu)勢,最終形成了一個(gè)魯棒的相對位姿估計(jì)算法,在多個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了持續(xù)改進(jìn)。
主要貢獻(xiàn):
- 提出通過顯式仿射(比例和偏移)校正單目深度預(yù)測解決相對位姿問題,解決了現(xiàn)有方法中的一個(gè)局限。
- 開發(fā)了三種針對不同校準(zhǔn)設(shè)置的求解器:校準(zhǔn)、共享焦距的非校準(zhǔn)、以及完全非校準(zhǔn)圖像對。
- 將深度感知求解器與經(jīng)典基于點(diǎn)的求解器、評分和局部優(yōu)化相結(jié)合的混合估計(jì)流程,大幅提升了相對位姿估計(jì)的精度和魯棒性。
- 框架兼容多種圖像匹配器和MDE模型,表現(xiàn)出一致的改進(jìn),易于整合到現(xiàn)有管線中。
具體方法
問題定義
雖然這種建模假設(shè)深度先驗(yàn)是仿射不變的相對深度,但我們的方法也可以用于度量深度預(yù)測,從而在實(shí)驗(yàn)中表明可以提高相對位姿的準(zhǔn)確性和魯棒性。
方法
混合估計(jì)
僅依賴深度先驗(yàn)可能會在先驗(yàn)不可靠時(shí)產(chǎn)生錯誤結(jié)果。為此,我們進(jìn)一步提出了一種混合方法,將深度感知求解器與經(jīng)典基于點(diǎn)的求解器和極線誤差結(jié)合起來(如 Sampson誤差),形成一個(gè)混合的 LO-MSAC 框架?;旌瞎烙?jì)流程包括以下步驟:
- 校準(zhǔn)場景:結(jié)合校準(zhǔn)求解器和經(jīng)典的五點(diǎn)本質(zhì)矩陣求解器。
- 共享焦距場景:結(jié)合共享焦距求解器和六點(diǎn)共享焦距相對位姿求解器。
- 雙焦距場景:結(jié)合雙焦距求解器和七點(diǎn)基礎(chǔ)矩陣求解器。
通過這種混合策略,我們能夠結(jié)合深度先驗(yàn)和點(diǎn)對應(yīng)兩種方式的優(yōu)勢,從而在多個(gè)數(shù)據(jù)集上實(shí)現(xiàn)精度和魯棒性的顯著提升。
實(shí)驗(yàn)效果
總結(jié)一下
MADPose是一種新的相對位姿估計(jì)方法,利用顯式建模的單目深度先驗(yàn)的仿射變化。在校準(zhǔn)和非校準(zhǔn)相機(jī)設(shè)置下開發(fā)了三個(gè)求解器,并將其與經(jīng)典方法相結(jié)合,實(shí)現(xiàn)了跨多個(gè)數(shù)據(jù)集的持續(xù)改進(jìn)。所提方法還能從圖像匹配和單目深度估計(jì)的最新進(jìn)展中進(jìn)一步受益。