自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="61qka"><track id="61qka"><dfn id="61qka"></dfn></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

牛津大學(xué)最新！Mickey：3D中的2D圖像匹配SOTA！(CVPR'24)

作者：3D視覺之心 2024-04-23 09:30:07

人工智能智能汽車

本文提出了MicKey，這是一個(gè)關(guān)鍵點(diǎn)匹配流程，能夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)系。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面

項(xiàng)目鏈接：https://nianticlabs.github.io/mickey/

給定兩張圖像，可以通過建立圖像間的對(duì)應(yīng)關(guān)系來估計(jì)它們之間的相機(jī)相對(duì)姿態(tài)。通常，這些對(duì)應(yīng)關(guān)系是二維到二維的，而我們估計(jì)的姿態(tài)在尺度上是不確定的。一些應(yīng)用，例如隨時(shí)隨地實(shí)現(xiàn)即時(shí)增強(qiáng)現(xiàn)實(shí)，需要尺度度量的姿態(tài)估計(jì)，因此它們依賴于外部的深度估計(jì)器來恢復(fù)尺度。

本文提出了MicKey，這是一個(gè)關(guān)鍵點(diǎn)匹配流程，能夠預(yù)測(cè)三維相機(jī)空間中的度量對(duì)應(yīng)關(guān)系。通過學(xué)習(xí)跨圖像的三維坐標(biāo)匹配，我們能夠在沒有深度測(cè)量的情況下推斷出度量相對(duì)姿態(tài)。訓(xùn)練過程中也不需要深度測(cè)量，也不需要場(chǎng)景重建或圖像重疊信息。MicKey僅通過圖像對(duì)及其相對(duì)姿態(tài)進(jìn)行監(jiān)督。MicKey在無需地圖的重新定位基準(zhǔn)測(cè)試中取得了最先進(jìn)的性能，同時(shí)所需的監(jiān)督少于其他競(jìng)爭(zhēng)方法。

Metric Keypoints（MicKey）是一個(gè)特征檢測(cè)流程，解決了兩個(gè)問題。首先，MicKey回歸相機(jī)空間中的關(guān)鍵點(diǎn)位置，這允許通過描述符匹配建立度量對(duì)應(yīng)關(guān)系。從度量對(duì)應(yīng)關(guān)系中，可以恢復(fù)度量相對(duì)姿態(tài)，如圖1所示。其次，通過使用可微分的姿態(tài)優(yōu)化進(jìn)行端到端的訓(xùn)練，MicKey僅需要圖像對(duì)及其真實(shí)相對(duì)姿態(tài)進(jìn)行監(jiān)督。在訓(xùn)練過程中不需要深度測(cè)量。MicKey隱式地學(xué)習(xí)關(guān)鍵點(diǎn)的正確深度，并且僅對(duì)實(shí)際找到且準(zhǔn)確的特征區(qū)域進(jìn)行學(xué)習(xí)。我們的訓(xùn)練過程對(duì)視覺重疊未知的圖像對(duì)具有魯棒性，因此，通常通過SFM獲得的信息（如圖像重疊）是不需要的。這種弱監(jiān)督使得MicKey非常易于訪問和吸引人，因?yàn)樵谛骂I(lǐng)域上訓(xùn)練它不需要除了姿態(tài)之外的任何額外信息。

在無需地圖的重新定位基準(zhǔn)測(cè)試中，MicKey名列前茅，超越了最近最先進(jìn)的方法。MicKey提供了可靠的尺度度量姿態(tài)估計(jì)，即使在由特定針對(duì)稀疏特征匹配的深度預(yù)測(cè)所支持的極端視角變化下也是如此。

主要貢獻(xiàn)如下：

1）一個(gè)神經(jīng)網(wǎng)絡(luò)MicKey，它可以從單張圖像中預(yù)測(cè)度量三維關(guān)鍵點(diǎn)和它們的描述符，從而允許在圖像對(duì)之間估計(jì)度量相對(duì)姿態(tài)。

2）一種端到端的訓(xùn)練策略，它只需要相對(duì)姿態(tài)監(jiān)督，因此，在訓(xùn)練過程中既不需要深度測(cè)量，也不需要關(guān)于圖像對(duì)重疊的知識(shí)。

MicKey介紹

MicKey預(yù)測(cè)相機(jī)空間中關(guān)鍵點(diǎn)的三維坐標(biāo)。網(wǎng)絡(luò)還預(yù)測(cè)關(guān)鍵點(diǎn)的選擇概率（關(guān)鍵點(diǎn)分布）和描述符，這些描述符引導(dǎo)匹配的概率（匹配分布）。將這兩種分布結(jié)合起來，得到了在中兩個(gè)關(guān)鍵點(diǎn)成為對(duì)應(yīng)點(diǎn)的概率，并優(yōu)化網(wǎng)絡(luò)，使得正確的對(duì)應(yīng)點(diǎn)更有可能出現(xiàn)。在一個(gè)可微分的RANSAC循環(huán)中，生成多個(gè)相對(duì)姿態(tài)假設(shè)，并計(jì)算它們相對(duì)于真實(shí)變換的損失。通過REINFORCE生成梯度來訓(xùn)練對(duì)應(yīng)概率。由于我們的姿態(tài)求解器和損失函數(shù)是可微分的，反向傳播也為訓(xùn)練三維關(guān)鍵點(diǎn)坐標(biāo)提供了直接信號(hào)。

1）度量pose監(jiān)督的學(xué)習(xí)

給定兩張圖像，計(jì)算它們的度量相對(duì)姿態(tài)，以及關(guān)鍵點(diǎn)得分、匹配概率和姿態(tài)置信度（以軟內(nèi)點(diǎn)計(jì)數(shù)形式）。我們的目標(biāo)是以端到端的方式訓(xùn)練所有相對(duì)姿態(tài)估計(jì)模塊。在訓(xùn)練過程中，我們假設(shè)訓(xùn)練數(shù)據(jù)為，其中是真實(shí)變換，K/K'是相機(jī)內(nèi)參。整個(gè)系統(tǒng)的示意圖如圖2所示。

為了學(xué)習(xí)三維關(guān)鍵點(diǎn)的坐標(biāo)、置信度和描述符，我們需要系統(tǒng)是完全可微分的。然而，由于pipeline中的一些元素不是可微分的，例如關(guān)鍵點(diǎn)采樣或內(nèi)點(diǎn)計(jì)數(shù)，重新定義了相對(duì)姿態(tài)估計(jì)管道為概率性的。這意味著我們將網(wǎng)絡(luò)的輸出視為潛在匹配的概率，在訓(xùn)練過程中，網(wǎng)絡(luò)優(yōu)化其輸出以生成概率，使得正確的匹配更有可能被選中。

2）網(wǎng)絡(luò)結(jié)構(gòu)

MicKey遵循具有共享編碼器的多頭網(wǎng)絡(luò)架構(gòu)，該編碼器可推斷3D度量關(guān)鍵點(diǎn)以及來自輸入圖像的描述符，如圖3所示。

編碼器。采用預(yù)訓(xùn)練的DINOv2模型作為特征提取器，并在不進(jìn)行進(jìn)一步訓(xùn)練或微調(diào)的情況下直接使用其特征。DINOv2將輸入圖像劃分為大小為14×14的塊，并為每個(gè)塊提供一個(gè)特征向量。最終的特征圖F具有(1024, w, h)的分辨率，其中w = W/14，h = H/14。

關(guān)鍵點(diǎn)Head。這里定義了四個(gè)并行Head，它們處理特征圖F并計(jì)算xy偏移量（U）、深度（Z）、置信度（C）和描述符（D）映射；其中映射的每個(gè)條目對(duì)應(yīng)于輸入圖像中的一個(gè)14×14的block。MicKey具有一個(gè)罕見的特性，即預(yù)測(cè)關(guān)鍵點(diǎn)作為稀疏規(guī)則網(wǎng)格的相對(duì)偏移量。獲得絕對(duì)2D坐標(biāo)如下：

實(shí)驗(yàn)對(duì)比

在無地圖數(shù)據(jù)集上的相對(duì)姿態(tài)評(píng)估。報(bào)告了在90像素閾值下的VCRE指標(biāo)的曲線下面積（AUC）和精度（Prec.）值，MicKey的兩個(gè)版本都獲得了最高結(jié)果。此外，還報(bào)告了中位誤差，雖然MicKey在VCRE誤差方面獲得了最低值，但其他方法，例如RoMa，提供了更低的姿態(tài)誤差。為了計(jì)算中位誤差，基準(zhǔn)僅使用每種方法生成的有效姿態(tài)，因此，我們報(bào)告了估計(jì)的總姿態(tài)數(shù)。最后，報(bào)告了匹配時(shí)間，并發(fā)現(xiàn)MicKey與LoFTR和LighGlue相當(dāng)，同時(shí)顯著減少了RoMa的時(shí)間，RoMa是VCRE指標(biāo)方面最接近MicKey的競(jìng)爭(zhēng)對(duì)手。匹配方法使用DPT 來恢復(fù)尺度。

MicKey生成的對(duì)應(yīng)點(diǎn)、得分和深度圖的示例。MicKey即使在大規(guī)模變化或?qū)捇€的情況下也能找到有效的對(duì)應(yīng)點(diǎn)。請(qǐng)注意，由于我們的特征編碼器，深度圖的分辨率比輸入圖像小14倍。我們遵循DPT 中使用的深度圖可視化方法，其中較亮的顏色表示較近的距離。

在ScanNet數(shù)據(jù)集上的相對(duì)姿態(tài)評(píng)估。所有特征匹配方法都與PlaneRCNN 結(jié)合使用，以恢復(fù)度量尺度。我們標(biāo)明了每種方法的訓(xùn)練信號(hào)：深度（D）、重疊分?jǐn)?shù)（O）和姿態(tài)（P）。

責(zé)任編輯：張燕妮來源：自動(dòng)駕駛之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營