牛津大學(xué)最新!Mickey:3D中的2D圖像匹配SOTA!(CVPR'24)
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面
項(xiàng)目鏈接:https://nianticlabs.github.io/mickey/
給定兩張圖像,可以通過建立圖像間的對(duì)應(yīng)關(guān)系來估計(jì)它們之間的相機(jī)相對(duì)姿態(tài)。通常,這些對(duì)應(yīng)關(guān)系是二維到二維的,而我們估計(jì)的姿態(tài)在尺度上是不確定的。一些應(yīng)用,例如隨時(shí)隨地實(shí)現(xiàn)即時(shí)增強(qiáng)現(xiàn)實(shí),需要尺度度量的姿態(tài)估計(jì),因此它們依賴于外部的深度估計(jì)器來恢復(fù)尺度。
本文提出了MicKey,這是一個(gè)關(guān)鍵點(diǎn)匹配流程,能夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)系。通過學(xué)習(xí)跨圖像的三維坐標(biāo)匹配,我們能夠在沒有深度測(cè)量的情況下推斷出度量相對(duì)姿態(tài)。訓(xùn)練過程中也不需要深度測(cè)量,也不需要場(chǎng)景重建或圖像重疊信息。MicKey僅通過圖像對(duì)及其相對(duì)姿態(tài)進(jìn)行監(jiān)督。MicKey在無需地圖的重新定位基準(zhǔn)測(cè)試中取得了最先進(jìn)的性能,同時(shí)所需的監(jiān)督少于其他競(jìng)爭(zhēng)方法。
Metric Keypoints(MicKey)是一個(gè)特征檢測(cè)流程,解決了兩個(gè)問題。首先,MicKey回歸相機(jī)空間中的關(guān)鍵點(diǎn)位置,這允許通過描述符匹配建立度量對(duì)應(yīng)關(guān)系。從度量對(duì)應(yīng)關(guān)系中,可以恢復(fù)度量相對(duì)姿態(tài),如圖1所示。其次,通過使用可微分的姿態(tài)優(yōu)化進(jìn)行端到端的訓(xùn)練,MicKey僅需要圖像對(duì)及其真實(shí)相對(duì)姿態(tài)進(jìn)行監(jiān)督。在訓(xùn)練過程中不需要深度測(cè)量。MicKey隱式地學(xué)習(xí)關(guān)鍵點(diǎn)的正確深度,并且僅對(duì)實(shí)際找到且準(zhǔn)確的特征區(qū)域進(jìn)行學(xué)習(xí)。我們的訓(xùn)練過程對(duì)視覺重疊未知的圖像對(duì)具有魯棒性,因此,通常通過SFM獲得的信息(如圖像重疊)是不需要的。這種弱監(jiān)督使得MicKey非常易于訪問和吸引人,因?yàn)樵谛骂I(lǐng)域上訓(xùn)練它不需要除了姿態(tài)之外的任何額外信息。
在無需地圖的重新定位基準(zhǔn)測(cè)試中,MicKey名列前茅,超越了最近最先進(jìn)的方法。MicKey提供了可靠的尺度度量姿態(tài)估計(jì),即使在由特定針對(duì)稀疏特征匹配的深度預(yù)測(cè)所支持的極端視角變化下也是如此。
主要貢獻(xiàn)如下:
1)一個(gè)神經(jīng)網(wǎng)絡(luò)MicKey,它可以從單張圖像中預(yù)測(cè)度量三維關(guān)鍵點(diǎn)和它們的描述符,從而允許在圖像對(duì)之間估計(jì)度量相對(duì)姿態(tài)。
2)一種端到端的訓(xùn)練策略,它只需要相對(duì)姿態(tài)監(jiān)督,因此,在訓(xùn)練過程中既不需要深度測(cè)量,也不需要關(guān)于圖像對(duì)重疊的知識(shí)。
MicKey介紹
MicKey預(yù)測(cè)相機(jī)空間中關(guān)鍵點(diǎn)的三維坐標(biāo)。網(wǎng)絡(luò)還預(yù)測(cè)關(guān)鍵點(diǎn)的選擇概率(關(guān)鍵點(diǎn)分布)和描述符,這些描述符引導(dǎo)匹配的概率(匹配分布)。將這兩種分布結(jié)合起來,得到了在中兩個(gè)關(guān)鍵點(diǎn)成為對(duì)應(yīng)點(diǎn)的概率,并優(yōu)化網(wǎng)絡(luò),使得正確的對(duì)應(yīng)點(diǎn)更有可能出現(xiàn)。在一個(gè)可微分的RANSAC循環(huán)中,生成多個(gè)相對(duì)姿態(tài)假設(shè),并計(jì)算它們相對(duì)于真實(shí)變換的損失。通過REINFORCE生成梯度來訓(xùn)練對(duì)應(yīng)概率。由于我們的姿態(tài)求解器和損失函數(shù)是可微分的,反向傳播也為訓(xùn)練三維關(guān)鍵點(diǎn)坐標(biāo)提供了直接信號(hào)。
1)度量pose監(jiān)督的學(xué)習(xí)
給定兩張圖像,計(jì)算它們的度量相對(duì)姿態(tài),以及關(guān)鍵點(diǎn)得分、匹配概率和姿態(tài)置信度(以軟內(nèi)點(diǎn)計(jì)數(shù)形式)。我們的目標(biāo)是以端到端的方式訓(xùn)練所有相對(duì)姿態(tài)估計(jì)模塊。在訓(xùn)練過程中,我們假設(shè)訓(xùn)練數(shù)據(jù)為,其中是真實(shí)變換,K/K'是相機(jī)內(nèi)參。整個(gè)系統(tǒng)的示意圖如圖2所示。
為了學(xué)習(xí)三維關(guān)鍵點(diǎn)的坐標(biāo)、置信度和描述符,我們需要系統(tǒng)是完全可微分的。然而,由于pipeline中的一些元素不是可微分的,例如關(guān)鍵點(diǎn)采樣或內(nèi)點(diǎn)計(jì)數(shù),重新定義了相對(duì)姿態(tài)估計(jì)管道為概率性的。這意味著我們將網(wǎng)絡(luò)的輸出視為潛在匹配的概率,在訓(xùn)練過程中,網(wǎng)絡(luò)優(yōu)化其輸出以生成概率,使得正確的匹配更有可能被選中。
2)網(wǎng)絡(luò)結(jié)構(gòu)
MicKey遵循具有共享編碼器的多頭網(wǎng)絡(luò)架構(gòu),該編碼器可推斷3D度量關(guān)鍵點(diǎn)以及來自輸入圖像的描述符,如圖3所示。
編碼器。采用預(yù)訓(xùn)練的DINOv2模型作為特征提取器,并在不進(jìn)行進(jìn)一步訓(xùn)練或微調(diào)的情況下直接使用其特征。DINOv2將輸入圖像劃分為大小為14×14的塊,并為每個(gè)塊提供一個(gè)特征向量。最終的特征圖F具有(1024, w, h)的分辨率,其中w = W/14,h = H/14。
關(guān)鍵點(diǎn)Head。這里定義了四個(gè)并行Head,它們處理特征圖F并計(jì)算xy偏移量(U)、深度(Z)、置信度(C)和描述符(D)映射;其中映射的每個(gè)條目對(duì)應(yīng)于輸入圖像中的一個(gè)14×14的block。MicKey具有一個(gè)罕見的特性,即預(yù)測(cè)關(guān)鍵點(diǎn)作為稀疏規(guī)則網(wǎng)格的相對(duì)偏移量。獲得絕對(duì)2D坐標(biāo)如下:
實(shí)驗(yàn)對(duì)比
在無地圖數(shù)據(jù)集上的相對(duì)姿態(tài)評(píng)估。報(bào)告了在90像素閾值下的VCRE指標(biāo)的曲線下面積(AUC)和精度(Prec.)值,MicKey的兩個(gè)版本都獲得了最高結(jié)果。此外,還報(bào)告了中位誤差,雖然MicKey在VCRE誤差方面獲得了最低值,但其他方法,例如RoMa,提供了更低的姿態(tài)誤差。為了計(jì)算中位誤差,基準(zhǔn)僅使用每種方法生成的有效姿態(tài),因此,我們報(bào)告了估計(jì)的總姿態(tài)數(shù)。最后,報(bào)告了匹配時(shí)間,并發(fā)現(xiàn)MicKey與LoFTR和LighGlue相當(dāng),同時(shí)顯著減少了RoMa的時(shí)間,RoMa是VCRE指標(biāo)方面最接近MicKey的競(jìng)爭(zhēng)對(duì)手。匹配方法使用DPT 來恢復(fù)尺度。
MicKey生成的對(duì)應(yīng)點(diǎn)、得分和深度圖的示例。MicKey即使在大規(guī)模變化或?qū)捇€的情況下也能找到有效的對(duì)應(yīng)點(diǎn)。請(qǐng)注意,由于我們的特征編碼器,深度圖的分辨率比輸入圖像小14倍。我們遵循DPT 中使用的深度圖可視化方法,其中較亮的顏色表示較近的距離。
在ScanNet數(shù)據(jù)集上的相對(duì)姿態(tài)評(píng)估。所有特征匹配方法都與PlaneRCNN 結(jié)合使用,以恢復(fù)度量尺度。我們標(biāo)明了每種方法的訓(xùn)練信號(hào):深度(D)、重疊分?jǐn)?shù)(O)和姿態(tài)(P)。