自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

牛津大學(xué)最新!Mickey:3D中的2D圖像匹配SOTA!(CVPR'24)

人工智能 智能汽車
本文提出了MicKey,這是一個(gè)關(guān)鍵點(diǎn)匹配流程,能夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)系。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面

項(xiàng)目鏈接:https://nianticlabs.github.io/mickey/

給定兩張圖像,可以通過建立圖像間的對(duì)應(yīng)關(guān)系來估計(jì)它們之間的相機(jī)相對(duì)姿態(tài)。通常,這些對(duì)應(yīng)關(guān)系是二維到二維的,而我們估計(jì)的姿態(tài)在尺度上是不確定的。一些應(yīng)用,例如隨時(shí)隨地實(shí)現(xiàn)即時(shí)增強(qiáng)現(xiàn)實(shí),需要尺度度量的姿態(tài)估計(jì),因此它們依賴于外部的深度估計(jì)器來恢復(fù)尺度。

本文提出了MicKey,這是一個(gè)關(guān)鍵點(diǎn)匹配流程,能夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)系。通過學(xué)習(xí)跨圖像的三維坐標(biāo)匹配,我們能夠在沒有深度測(cè)量的情況下推斷出度量相對(duì)姿態(tài)。訓(xùn)練過程中也不需要深度測(cè)量,也不需要場(chǎng)景重建或圖像重疊信息。MicKey僅通過圖像對(duì)及其相對(duì)姿態(tài)進(jìn)行監(jiān)督。MicKey在無需地圖的重新定位基準(zhǔn)測(cè)試中取得了最先進(jìn)的性能,同時(shí)所需的監(jiān)督少于其他競(jìng)爭(zhēng)方法。

Metric Keypoints(MicKey)是一個(gè)特征檢測(cè)流程,解決了兩個(gè)問題。首先,MicKey回歸相機(jī)空間中的關(guān)鍵點(diǎn)位置,這允許通過描述符匹配建立度量對(duì)應(yīng)關(guān)系。從度量對(duì)應(yīng)關(guān)系中,可以恢復(fù)度量相對(duì)姿態(tài),如圖1所示。其次,通過使用可微分的姿態(tài)優(yōu)化進(jìn)行端到端的訓(xùn)練,MicKey僅需要圖像對(duì)及其真實(shí)相對(duì)姿態(tài)進(jìn)行監(jiān)督。在訓(xùn)練過程中不需要深度測(cè)量。MicKey隱式地學(xué)習(xí)關(guān)鍵點(diǎn)的正確深度,并且僅對(duì)實(shí)際找到且準(zhǔn)確的特征區(qū)域進(jìn)行學(xué)習(xí)。我們的訓(xùn)練過程對(duì)視覺重疊未知的圖像對(duì)具有魯棒性,因此,通常通過SFM獲得的信息(如圖像重疊)是不需要的。這種弱監(jiān)督使得MicKey非常易于訪問和吸引人,因?yàn)樵谛骂I(lǐng)域上訓(xùn)練它不需要除了姿態(tài)之外的任何額外信息。

在無需地圖的重新定位基準(zhǔn)測(cè)試中,MicKey名列前茅,超越了最近最先進(jìn)的方法。MicKey提供了可靠的尺度度量姿態(tài)估計(jì),即使在由特定針對(duì)稀疏特征匹配的深度預(yù)測(cè)所支持的極端視角變化下也是如此。

主要貢獻(xiàn)如下:

1)一個(gè)神經(jīng)網(wǎng)絡(luò)MicKey,它可以從單張圖像中預(yù)測(cè)度量三維關(guān)鍵點(diǎn)和它們的描述符,從而允許在圖像對(duì)之間估計(jì)度量相對(duì)姿態(tài)。

2)一種端到端的訓(xùn)練策略,它只需要相對(duì)姿態(tài)監(jiān)督,因此,在訓(xùn)練過程中既不需要深度測(cè)量,也不需要關(guān)于圖像對(duì)重疊的知識(shí)。

MicKey介紹

MicKey預(yù)測(cè)相機(jī)空間中關(guān)鍵點(diǎn)的三維坐標(biāo)。網(wǎng)絡(luò)還預(yù)測(cè)關(guān)鍵點(diǎn)的選擇概率(關(guān)鍵點(diǎn)分布)和描述符,這些描述符引導(dǎo)匹配的概率(匹配分布)。將這兩種分布結(jié)合起來,得到了在中兩個(gè)關(guān)鍵點(diǎn)成為對(duì)應(yīng)點(diǎn)的概率,并優(yōu)化網(wǎng)絡(luò),使得正確的對(duì)應(yīng)點(diǎn)更有可能出現(xiàn)。在一個(gè)可微分的RANSAC循環(huán)中,生成多個(gè)相對(duì)姿態(tài)假設(shè),并計(jì)算它們相對(duì)于真實(shí)變換的損失。通過REINFORCE生成梯度來訓(xùn)練對(duì)應(yīng)概率。由于我們的姿態(tài)求解器和損失函數(shù)是可微分的,反向傳播也為訓(xùn)練三維關(guān)鍵點(diǎn)坐標(biāo)提供了直接信號(hào)。

1)度量pose監(jiān)督的學(xué)習(xí)

給定兩張圖像,計(jì)算它們的度量相對(duì)姿態(tài),以及關(guān)鍵點(diǎn)得分、匹配概率和姿態(tài)置信度(以軟內(nèi)點(diǎn)計(jì)數(shù)形式)。我們的目標(biāo)是以端到端的方式訓(xùn)練所有相對(duì)姿態(tài)估計(jì)模塊。在訓(xùn)練過程中,我們假設(shè)訓(xùn)練數(shù)據(jù)為,其中是真實(shí)變換,K/K'是相機(jī)內(nèi)參。整個(gè)系統(tǒng)的示意圖如圖2所示。

為了學(xué)習(xí)三維關(guān)鍵點(diǎn)的坐標(biāo)、置信度和描述符,我們需要系統(tǒng)是完全可微分的。然而,由于pipeline中的一些元素不是可微分的,例如關(guān)鍵點(diǎn)采樣或內(nèi)點(diǎn)計(jì)數(shù),重新定義了相對(duì)姿態(tài)估計(jì)管道為概率性的。這意味著我們將網(wǎng)絡(luò)的輸出視為潛在匹配的概率,在訓(xùn)練過程中,網(wǎng)絡(luò)優(yōu)化其輸出以生成概率,使得正確的匹配更有可能被選中。

2)網(wǎng)絡(luò)結(jié)構(gòu)

MicKey遵循具有共享編碼器的多頭網(wǎng)絡(luò)架構(gòu),該編碼器可推斷3D度量關(guān)鍵點(diǎn)以及來自輸入圖像的描述符,如圖3所示。

編碼器。采用預(yù)訓(xùn)練的DINOv2模型作為特征提取器,并在不進(jìn)行進(jìn)一步訓(xùn)練或微調(diào)的情況下直接使用其特征。DINOv2將輸入圖像劃分為大小為14×14的塊,并為每個(gè)塊提供一個(gè)特征向量。最終的特征圖F具有(1024, w, h)的分辨率,其中w = W/14,h = H/14。

關(guān)鍵點(diǎn)Head。這里定義了四個(gè)并行Head,它們處理特征圖F并計(jì)算xy偏移量(U)、深度(Z)、置信度(C)和描述符(D)映射;其中映射的每個(gè)條目對(duì)應(yīng)于輸入圖像中的一個(gè)14×14的block。MicKey具有一個(gè)罕見的特性,即預(yù)測(cè)關(guān)鍵點(diǎn)作為稀疏規(guī)則網(wǎng)格的相對(duì)偏移量。獲得絕對(duì)2D坐標(biāo)如下:

實(shí)驗(yàn)對(duì)比

在無地圖數(shù)據(jù)集上的相對(duì)姿態(tài)評(píng)估。報(bào)告了在90像素閾值下的VCRE指標(biāo)的曲線下面積(AUC)和精度(Prec.)值,MicKey的兩個(gè)版本都獲得了最高結(jié)果。此外,還報(bào)告了中位誤差,雖然MicKey在VCRE誤差方面獲得了最低值,但其他方法,例如RoMa,提供了更低的姿態(tài)誤差。為了計(jì)算中位誤差,基準(zhǔn)僅使用每種方法生成的有效姿態(tài),因此,我們報(bào)告了估計(jì)的總姿態(tài)數(shù)。最后,報(bào)告了匹配時(shí)間,并發(fā)現(xiàn)MicKey與LoFTR和LighGlue相當(dāng),同時(shí)顯著減少了RoMa的時(shí)間,RoMa是VCRE指標(biāo)方面最接近MicKey的競(jìng)爭(zhēng)對(duì)手。匹配方法使用DPT 來恢復(fù)尺度。

MicKey生成的對(duì)應(yīng)點(diǎn)、得分和深度圖的示例。MicKey即使在大規(guī)模變化或?qū)捇€的情況下也能找到有效的對(duì)應(yīng)點(diǎn)。請(qǐng)注意,由于我們的特征編碼器,深度圖的分辨率比輸入圖像小14倍。我們遵循DPT 中使用的深度圖可視化方法,其中較亮的顏色表示較近的距離。

圖片

在ScanNet數(shù)據(jù)集上的相對(duì)姿態(tài)評(píng)估。所有特征匹配方法都與PlaneRCNN 結(jié)合使用,以恢復(fù)度量尺度。我們標(biāo)明了每種方法的訓(xùn)練信號(hào):深度(D)、重疊分?jǐn)?shù)(O)和姿態(tài)(P)。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-05-03 09:01:41

CanvasWebGL

2025-03-27 09:26:30

2011-09-22 10:07:52

奧圖碼投影儀

2023-02-20 14:56:14

圖像

2011-05-03 11:07:46

2D3D麗訊

2020-08-26 10:37:21

阿里3D

2013-01-30 16:15:40

adobeHTML5css3

2025-04-11 09:44:23

2020-03-06 10:34:40

AI 數(shù)據(jù)人工智能

2022-05-23 10:26:10

人工智能機(jī)器學(xué)習(xí)機(jī)器視覺

2022-06-14 07:51:10

Godot游戲引擎

2022-07-13 10:20:14

自動(dòng)駕駛3D算法

2024-12-10 09:40:00

AI3D模型

2012-05-07 15:08:00

HTML5

2020-04-10 12:30:16

3D圖片代碼

2009-12-15 16:13:11

3D圖像

2023-09-25 14:53:55

3D檢測(cè)

2025-01-13 10:00:00

模型生成3D

2023-04-27 15:54:02

模型研究
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)