自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="jl1vv"><tt id="jl1vv"></tt></abbr>

<ruby id="jl1vv"></ruby>

<cite id="jl1vv"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

實(shí)現(xiàn)實(shí)時(shí)六自由度物體跟蹤，深度主動(dòng)輪廓模型DeepAC來了

作者：機(jī)器之心 2023-10-15 10:10:12

人工智能新聞

該研究成果在民用和軍事領(lǐng)域都有廣泛的應(yīng)用。在民用領(lǐng)域，該研究可用于強(qiáng)現(xiàn)實(shí)、機(jī)器人操作和人機(jī)交互等眾多應(yīng)用。在軍事領(lǐng)域，該研究可用于支持空中無人裝備與巡飛彈在復(fù)雜光照條件下對目標(biāo)的多角度實(shí)時(shí)跟蹤與打擊。

本文介紹了一篇由國防科技大學(xué)劉煜教授團(tuán)隊(duì)和浙江大學(xué) - 商湯聯(lián)合實(shí)驗(yàn)室周曉巍教授團(tuán)隊(duì)聯(lián)合撰寫的論文《Deep Active Contours for Real-time 6-DoF Object Tracking》，該論文已被計(jì)算機(jī)視覺與人工智能頂尖國際會(huì)議 ICCV 2023 錄用。僅需要提供 CAD 框架模型，就可以在多種光照條件和局部遮擋情況下實(shí)現(xiàn)對立體物體的實(shí)時(shí)跟蹤。傳統(tǒng)的基于優(yōu)化的方法根據(jù)手工特征將物體 CAD 模型的投影與查詢圖像對齊來求解位姿，容易陷入局部最優(yōu)解；最近的基于學(xué)習(xí)的方法使用深度網(wǎng)絡(luò)來預(yù)測位姿，但其要么預(yù)測精度有限，要么需要提供 CAD 紋理模型。

為此，研究員王龍和博士生顏深創(chuàng)新性地提出一種解決方案 DeepAC。DeepAC 結(jié)合了傳統(tǒng)方法和深度學(xué)習(xí)方法的優(yōu)勢，提出了一個(gè)深度主動(dòng)輪廓模型，以解決六自由度物體跟蹤的問題。給定初始位姿，首先物體 CAD 模型會(huì)投影到圖像平面上以獲得初始輪廓，然后一個(gè)輕量級網(wǎng)絡(luò)用于預(yù)測該輪廓應(yīng)如何移動(dòng)，以匹配圖像中物體的真實(shí)邊界，從而為物體位姿優(yōu)化提供梯度。最后，提出了一種可微的優(yōu)化算法，可以使用物體位姿真值端到端監(jiān)督訓(xùn)練所提模型。在半合成和真實(shí)六自由度物體跟蹤數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，所提模型在定位精度方面大幅超過了當(dāng)前最先進(jìn)方法，并在移動(dòng)端達(dá)到了實(shí)時(shí)性能。

論文地址：https://openaccess.thecvf.com/content/ICCV2023/papers/Wang_Deep_Active_Contours_for_Real-time_6-DoF_Object_Tracking_ICCV_2023_paper.pdf
項(xiàng)目主頁：https://zju3dv.github.io/deep_ac/

背景

目前主流的六自由度物體跟蹤方法分為基于關(guān)鍵點(diǎn)、基于邊緣和基于區(qū)域三類?；陉P(guān)鍵點(diǎn)的方法通過在二維圖像和三維物體模型之間匹配關(guān)鍵點(diǎn)特征，來求解物體位姿；基于邊緣的方法利用邊緣信息 (顯式或隱式) 計(jì)算兩幅連續(xù)圖像之間的相對位姿；基于區(qū)域的方法利用物體區(qū)域與背景區(qū)域在顏色統(tǒng)計(jì)上的區(qū)別，來求解物體位姿。然而，上述基于優(yōu)化的方法存在一個(gè)共同缺點(diǎn)：它們需要手工設(shè)計(jì)特征和細(xì)致調(diào)整超參數(shù)，使其不能穩(wěn)健地應(yīng)用于各類真實(shí)場景。

近年來，一些端到端學(xué)習(xí)方法被提出以增強(qiáng)六自由度物體定位的魯棒性，包括：直接回歸幾何參數(shù)；采用渲染 - 比對來迭代地優(yōu)化位姿。盡管基于學(xué)習(xí)的方法具有潛力，但是直接回歸法精度有限、泛化能力差；而渲染 - 比對法計(jì)算量大、不適用于實(shí)時(shí)應(yīng)用，且需要提供帶紋理的 CAD 模型。如何結(jié)合了傳統(tǒng)優(yōu)化方法和基于學(xué)習(xí)方法的優(yōu)勢，能夠僅在 CAD 網(wǎng)格模型引導(dǎo)下，準(zhǔn)確、魯棒、實(shí)時(shí)地求解物體位姿，是一個(gè)亟待解決的問題。

六自由度物體跟蹤的相關(guān)工作

1 基于優(yōu)化的六自由度物體跟蹤方法

基于優(yōu)化的方法常用于解決六自由度物體跟蹤問題，具體可以分為三種不同的類別：基于關(guān)鍵點(diǎn) (Keypoint)、基于邊緣 (Edge) 和基于區(qū)域 (Region)?；陉P(guān)鍵點(diǎn)的方法利用局部特征匹配或光流技術(shù)建立 2D-3D 對應(yīng)關(guān)系。雖然這種方法表現(xiàn)出了出色的性能，但它需要提供物體的紋理模型。為了解決這個(gè)問題，研究人員提出了基于邊緣的方法，通過隱式或顯示地分析物體邊緣位移，判斷物體六自由度位姿變化。例如，RAPiD 通過在投影邊緣的正交方向上搜索最大梯度，來估計(jì)連續(xù)幀之間的相對位姿。然而，基于邊緣的方法處理不好背景有雜物和運(yùn)動(dòng)模糊的情況。

這幾年，基于區(qū)域的方法在復(fù)雜環(huán)境的跟蹤任務(wù)中取得了顯著進(jìn)展。該研究最早可以追溯到 PWP3D 的工作，其有效地結(jié)合了前背景分割的統(tǒng)計(jì)模型和物體投影的邊界距離場來優(yōu)化物體位姿。近年來，RBGT 引入了多視角預(yù)計(jì)算的稀疏對應(yīng)線 (Correspondence lines)，建立符合了高斯分布的概率模型，并使用牛頓法快速收斂到物體位姿。SRT3D 引入了平滑的階躍函數(shù)，考慮到全局和局部不確定性，相較于現(xiàn)有方法有明顯改進(jìn)。然而，基于區(qū)域的物體連續(xù)位姿估計(jì)算法會(huì)受到人工定義的特征和超參數(shù)限制。

2 基于學(xué)習(xí)的六自由度物體跟蹤方法

近年來，深度學(xué)習(xí)方法在六自由度物體姿態(tài)估計(jì)領(lǐng)域取得了顯著進(jìn)展。其中一種方法是直接預(yù)測旋轉(zhuǎn)和平移參數(shù)。另一種方法則是通過檢測或回歸物體坐標(biāo)生成 2D-3D 對應(yīng)關(guān)系，進(jìn)而使用 PnP 求解器估計(jì)六自由度位姿。然而，僅通過單個(gè)網(wǎng)絡(luò)預(yù)測物體位姿，其輸出往往不準(zhǔn)確。

為了克服這個(gè)問題，一些研究采用迭代優(yōu)化的技術(shù)以取得更精確的結(jié)果。這類方法的關(guān)鍵是迭代的 “渲染 - 比對” 思想。在每次迭代中，利用當(dāng)前估計(jì)的物體位姿渲染三維紋理模型，然后將渲染圖像與實(shí)際圖像進(jìn)行比較，并用神經(jīng)網(wǎng)絡(luò)更新位姿，從而使兩者逐漸對齊。目前，基于學(xué)習(xí)的方法的主要不足是需要使用 GPU，這使得它們不適合在移動(dòng)應(yīng)用程序中部署，例如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)應(yīng)用。此外，這類方法需要提供物體的紋理模型，但在實(shí)際任務(wù)中，用戶預(yù)先獲取的往往是一個(gè)三維掃描或者人工設(shè)計(jì)的 CAD 網(wǎng)格模型。

方法

針對上述背景和相關(guān)工作，論文提出了提出了一種傳統(tǒng)方法和學(xué)習(xí)方法結(jié)合的方案。給定一個(gè)視頻序列和初始時(shí)刻的物體位姿，所提方法使用當(dāng)前幀的單個(gè) RGB 圖像和前一幀該物體位姿來求解當(dāng)前幀的物體位姿。

1 輪廓特征圖提取

利用上一幀的物體位姿，在 RGB 圖像上裁剪出一個(gè)包含目標(biāo)物體的矩陣區(qū)域，并使用以 MobileNetV2 為基礎(chǔ)的 FPN-Lite 網(wǎng)絡(luò)，對圖像提取多層特征。提取的多尺度特征圖表示為，包含一系列由粗到細(xì)的特征信息。其中，，，，分別表示尺度為 s 的特征圖寬度、高度和維度，為提取特征的層數(shù)。這種由粗到細(xì)的網(wǎng)絡(luò)設(shè)計(jì)可以使得神經(jīng)網(wǎng)絡(luò)編碼到更廣的空間信息，從而提高在物體大幅度運(yùn)動(dòng)情況下的定位精度。下圖可視化了一組 FPN-Lite 網(wǎng)絡(luò)提取的多層次特征圖，先用 PCA 對特征圖進(jìn)行降維，再表示成 RGB 圖像。

受到 RBGT 的啟發(fā)，論文使用對應(yīng)線模型 (Correspondence Line Model) 描述二維輪廓的局部區(qū)域。具體來說，對應(yīng)線模型在二維輪廓上均勻采樣若干個(gè)二維點(diǎn)，并建立相應(yīng)的對應(yīng)線。每條對應(yīng)線由一個(gè)中心點(diǎn)和一個(gè)單位法向量組成，它們通過三維輪廓點(diǎn)及其相關(guān)的三維法向量投影到二維圖像平面上得到。通過在特征圖上插值采樣這些二維點(diǎn)集 (使用 PyTorch 的 grid_sample 函數(shù))，可生成輪廓特征圖，是采樣的二維輪廓點(diǎn)的數(shù)量。

2 邊界圖預(yù)測

論文設(shè)計(jì)了一個(gè)輕量化網(wǎng)絡(luò)，用于預(yù)測邊界概率圖，動(dòng)態(tài)設(shè)定，以移除圖像邊緣外的區(qū)域。在邊界概率圖中，位于坐標(biāo)處的值表示二維點(diǎn)作為第條對應(yīng)線邊界的概率。為了提高網(wǎng)絡(luò)的泛化能力，論文將基于傳統(tǒng)統(tǒng)計(jì)方法所得到的前景概率圖和邊界概率圖與輪廓特征圖融合，作為輕量化網(wǎng)絡(luò)的輸入。

上圖詳細(xì)介紹了邊界預(yù)測模塊的前向傳播過程。其使用了三種不同的輸入，分別是前景概率圖和邊界概率圖與輪廓特征圖。通過在不同階段使用拼接 (Concat) 操作，將這些信息融入到神經(jīng)網(wǎng)絡(luò)中，來預(yù)測邊界概率圖。實(shí)驗(yàn)表明，將傳統(tǒng)統(tǒng)計(jì)信息和深度特征進(jìn)行融合并作為網(wǎng)絡(luò)的輸入，能夠顯著的提高定位算法的性能指標(biāo)。

3 位姿優(yōu)化

本小節(jié)基于輕量化網(wǎng)絡(luò)學(xué)習(xí)得到的邊界概率圖，采用迭代優(yōu)化方法恢復(fù)當(dāng)前幀物體的位姿。在位姿每一輪迭代更新時(shí)，二維輪廓點(diǎn)和三維輪廓點(diǎn)之間重投影誤差計(jì)算如下：

其中，為投影輪廓法向向量，和分別為物體在第 k 幀的旋轉(zhuǎn)和平移，π 表示針孔相機(jī)模型的投影函數(shù)：

其中，分別為x,y圖像空間方向焦距及光心。給定位姿后，重投影距離刻畫了三維輪廓點(diǎn)的投影在第i條的對應(yīng)線上的位置。該位置作為邊界點(diǎn)的似然估計(jì)是：

每條對應(yīng)線上邊界點(diǎn)似然估計(jì)相互獨(dú)立，則所有對應(yīng)線整體似然估計(jì)為：

本小節(jié)的目標(biāo)為尋找使得似然估計(jì)最大化的位姿。

為了最大化該似然估計(jì)，本小節(jié)采用了迭代牛頓法和 Tikhonov 正則化來優(yōu)化位姿求解。具體的位姿更新方式如下：

式中H為海森矩陣，g是梯度向量，為 3×3 的單位矩陣。和分別表示三維旋轉(zhuǎn)和三維平移的正則化參數(shù)。由于三維旋轉(zhuǎn)R屬于一個(gè)李群，所以它可用一個(gè)李代數(shù)的指數(shù)映射表示：

式中，三維向量是李代數(shù)空間 so (3) 的元素，為的斜對稱矩陣。因此一個(gè)位姿能夠被一個(gè)六自由度的變量表示，。根據(jù)鏈?zhǔn)角髮?dǎo)法則，海森矩陣H和梯度向量g的計(jì)算如下：

式中為三維輪廓點(diǎn)在相機(jī)坐標(biāo)空間的位置。為重投影誤差相對于相機(jī)坐標(biāo)空間點(diǎn)的一階偏導(dǎo)數(shù)，它的計(jì)算公式如下：

對于相機(jī)坐標(biāo)空間下的三維點(diǎn)相對于六自由度位姿的一階偏導(dǎo)數(shù)的計(jì)算，本小節(jié)采用經(jīng)典的擾動(dòng)模型推導(dǎo)得到如下公式：

為了端到端訓(xùn)練之前所提出的網(wǎng)絡(luò)模型，本小節(jié)采用兩種近似方法來估計(jì)關(guān)于的一階導(dǎo)數(shù)。第一種近似方法直接使用每條對應(yīng)線的均值和方差計(jì)算導(dǎo)數(shù)，具體計(jì)算方式如下：

第二種近似方法利用了三維輪廓投影點(diǎn)附近區(qū)域的邊界概率，具體計(jì)算公式如下：

這兩種近似方法具有不同的特性：第一種近似用于直接學(xué)習(xí)每條對應(yīng)線上的邊界位置，從而實(shí)現(xiàn)快速收斂。第二種近似用于學(xué)習(xí)局部邊界概率，從而細(xì)致優(yōu)化位姿。此外，方差用于刻畫每條對應(yīng)線的不確定性，在位姿求解過程中起到了增強(qiáng)魯棒性的作用。為了分析邊界不確定性對于物體姿態(tài)預(yù)測的影響，論文采用了一種基于顏色漸變的可視化方法，使用用較暖 (紅色) 的顏色來表示邊界不確定性值 (即) 較小的區(qū)域。從下圖中可以看出，物體沒有被遮擋的邊界對于位姿預(yù)測更有幫助，而被遮擋的邊界則相對無關(guān)緊要。

4 網(wǎng)絡(luò)監(jiān)督

論文提出的方法以每次迭代優(yōu)化后所得的位姿與真實(shí)位姿間的差異為依據(jù)：

其中，P是 Huber 魯棒核函數(shù)。為了避免困難樣例對模型訓(xùn)練產(chǎn)生不利影響，論文采用了條件損失函數(shù)：只有在前一次迭代優(yōu)化后所得的位姿在真實(shí)解附近時(shí)，才將其納入損失函數(shù)的計(jì)算中；如果某次迭代優(yōu)化后所得的位姿偏離真實(shí)解過大，則忽略其對應(yīng)的損失項(xiàng)。這樣可以保證模型只使用可信度高的訓(xùn)練樣本。

結(jié)果

1 與基于優(yōu)化的方法比較

（1）RBOT 數(shù)據(jù)集

在 RBOT 數(shù)據(jù)集上，論文采用 5cm?5^?召回率，來評估定位的精度。具體而言，每一幀圖像是否被成功定位取決于其平移誤差是否小于 5cm 且旋轉(zhuǎn)誤差是否小于 5^?。

實(shí)驗(yàn)結(jié)果表明，在常規(guī)、動(dòng)態(tài)光照和場景遮擋下，現(xiàn)有的基于優(yōu)化的方法已經(jīng)非常接近性能上限，SRT3D 和 LDT3D 的 5cm?5^?召回率已接近或超過 95%。在這三種情況下，DeepAC 表現(xiàn)出了相似的性能，在常規(guī)和動(dòng)態(tài)光照情況下小幅領(lǐng)先，在場景遮擋情況下略微落后。但是，在噪聲情況下，所提方法顯著優(yōu)于其他基于優(yōu)化的方法，5cm?5^?召回率從 83.2% 提高到 88.0%，這一結(jié)果證明了 DeepAC 對圖像噪聲具有較強(qiáng)的魯棒性。

（2）BCOT 數(shù)據(jù)集

論文在 BCOT 數(shù)據(jù)集上對所提方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證，并采用 ADD-(s) d 和厘米 - 度召回率來評估位姿估計(jì)的精度。與在 RBOT 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)不同，在 BCOT 數(shù)據(jù)集上，增加了一些更嚴(yán)格的評價(jià)指標(biāo)，即 ADD-0.02d、ADD-0.05d、 ADD-0.1d 以及 2cm?2^?召回率，以評估算法的高精度定位能力。其中，d 表示物體模型 3D 包圍盒的最大長度。

實(shí)驗(yàn)結(jié)果表明，DeepAC 在所有閾值下的 ADD-(s) d 和厘米 - 度召回率均優(yōu)于其他基于優(yōu)化的基線方法。特別是，在非常嚴(yán)格的 ADD-(s) d 標(biāo)準(zhǔn)下，所提方法表現(xiàn)出顯著的優(yōu)勢，相比于排名第二的 LDT3D，在 ADD-0.02d、ADD-0.05d 和 ADD-0.1d 上分別提高了 9.1 個(gè)百分點(diǎn)、14.1 個(gè)百分點(diǎn)和 9.6 個(gè)百分點(diǎn)。這些結(jié)果充分表明了 DeepAC 具有高精度定位的能力。

(3) OPT 數(shù)據(jù)集

在 OPT 數(shù)據(jù)集上，論文先計(jì)算不同誤差閾值 s 下的 ADD-(s) d 得分，再通過計(jì)算曲線下面積 (AUC) 得分來衡量視頻序列中物體位姿估計(jì)的質(zhì)量。其中，誤差閾值 s 的范圍設(shè)定為 [0, 0.2]。

下表顯示了 DeepAC 在六個(gè)物體上均優(yōu)于當(dāng)前最先進(jìn)的基于優(yōu)化的方法，在 AUC 分?jǐn)?shù)上取得了明顯提升。在平均 AUC 分?jǐn)?shù)方面，DeepAC 達(dá)到 16.69，比排名第二的方法 SRT3D 高出 6.10%。這些結(jié)果表明 DeepAC 在真實(shí)場景下具有優(yōu)異的跟蹤能力。

2 與基于學(xué)習(xí)的方法比較

為了驗(yàn)證 DeepAC 模型在不同數(shù)據(jù)集上具有很好的泛化能力，論文在 RBOT 數(shù)據(jù)集上與當(dāng)前最先進(jìn)的基于學(xué)習(xí)的方法進(jìn)行了對比實(shí)驗(yàn)。論文選取了除 “Clown” 物體外 (因?yàn)槠浼y理圖有誤) 所有序列作為測試集，并使用平均 ADD-(s) d 和厘米 - 度召回率作為評估指標(biāo)。為了與其他基于學(xué)習(xí)的方法公平比較，所提方法 DeepAC 使用相同的訓(xùn)練數(shù)據(jù)和方式，并記作 DeepAC?。

實(shí)驗(yàn)結(jié)果顯示，其他典型的基于學(xué)習(xí)的方法定位精度遠(yuǎn)低于 DeepAC，這充分說明了 DeepAC 在不同數(shù)據(jù)集上具有很強(qiáng)大且穩(wěn)定的泛化能力。

3 消融分析

論文通過消融實(shí)驗(yàn)分析 DeepAC 中三個(gè)主要的設(shè)計(jì)對物體六自由度定位性能的影響，分別是：1) 統(tǒng)計(jì)信息融入；2) 多層特征提??；3) 邊界不確定性估計(jì)。實(shí)驗(yàn)在 RBOT 和 BCOT 數(shù)據(jù)集上進(jìn)行，并將結(jié)果展示在下表。

應(yīng)用前景

該研究成果在民用和軍事領(lǐng)域都有廣泛的應(yīng)用。在民用領(lǐng)域，該研究可用于強(qiáng)現(xiàn)實(shí)、機(jī)器人操作和人機(jī)交互等眾多應(yīng)用。在軍事領(lǐng)域，該研究可用于支持空中無人裝備與巡飛彈在復(fù)雜光照條件下對目標(biāo)的多角度實(shí)時(shí)跟蹤與打擊。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="tyone"><p id="tyone"></p></sub>

<blockquote id="tyone"><p id="tyone"><li id="tyone"></li></p></blockquote>

<style id="tyone"></style>