自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

實(shí)現(xiàn)實(shí)時(shí)六自由度物體跟蹤,深度主動(dòng)輪廓模型DeepAC來了

人工智能 新聞
該研究成果在民用和軍事領(lǐng)域都有廣泛的應(yīng)用。在民用領(lǐng)域,該研究可用于強(qiáng)現(xiàn)實(shí)、機(jī)器人操作和人機(jī)交互等眾多應(yīng)用。在軍事領(lǐng)域,該研究可用于支持空中無人裝備與巡飛彈在復(fù)雜光照條件下對目標(biāo)的多角度實(shí)時(shí)跟蹤與打擊。

本文介紹了一篇由國防科技大學(xué)劉煜教授團(tuán)隊(duì)和浙江大學(xué) - 商湯聯(lián)合實(shí)驗(yàn)室周曉巍教授團(tuán)隊(duì)聯(lián)合撰寫的論文《Deep Active Contours for Real-time 6-DoF Object Tracking》,該論文已被計(jì)算機(jī)視覺與人工智能頂尖國際會(huì)議 ICCV 2023 錄用。僅需要提供 CAD 框架模型,就可以在多種光照條件和局部遮擋情況下實(shí)現(xiàn)對立體物體的實(shí)時(shí)跟蹤。傳統(tǒng)的基于優(yōu)化的方法根據(jù)手工特征將物體 CAD 模型的投影與查詢圖像對齊來求解位姿,容易陷入局部最優(yōu)解;最近的基于學(xué)習(xí)的方法使用深度網(wǎng)絡(luò)來預(yù)測位姿,但其要么預(yù)測精度有限,要么需要提供 CAD 紋理模型。

為此,研究員王龍和博士生顏深創(chuàng)新性地提出一種解決方案 DeepAC。DeepAC 結(jié)合了傳統(tǒng)方法和深度學(xué)習(xí)方法的優(yōu)勢,提出了一個(gè)深度主動(dòng)輪廓模型,以解決六自由度物體跟蹤的問題。給定初始位姿,首先物體 CAD 模型會(huì)投影到圖像平面上以獲得初始輪廓,然后一個(gè)輕量級網(wǎng)絡(luò)用于預(yù)測該輪廓應(yīng)如何移動(dòng),以匹配圖像中物體的真實(shí)邊界,從而為物體位姿優(yōu)化提供梯度。最后,提出了一種可微的優(yōu)化算法,可以使用物體位姿真值端到端監(jiān)督訓(xùn)練所提模型。在半合成和真實(shí)六自由度物體跟蹤數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型在定位精度方面大幅超過了當(dāng)前最先進(jìn)方法,并在移動(dòng)端達(dá)到了實(shí)時(shí)性能。

圖片


  • 論文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wang_Deep_Active_Contours_for_Real-time_6-DoF_Object_Tracking_ICCV_2023_paper.pdf
  • 項(xiàng)目主頁:https://zju3dv.github.io/deep_ac/

背景

目前主流的六自由度物體跟蹤方法分為基于關(guān)鍵點(diǎn)、基于邊緣和基于區(qū)域三類?;陉P(guān)鍵點(diǎn)的方法通過在二維圖像和三維物體模型之間匹配關(guān)鍵點(diǎn)特征,來求解物體位姿;基于邊緣的方法利用邊緣信息 (顯式或隱式) 計(jì)算兩幅連續(xù)圖像之間的相對位姿;基于區(qū)域的方法利用物體區(qū)域與背景區(qū)域在顏色統(tǒng)計(jì)上的區(qū)別,來求解物體位姿。然而,上述基于優(yōu)化的方法存在一個(gè)共同缺點(diǎn):它們需要手工設(shè)計(jì)特征和細(xì)致調(diào)整超參數(shù),使其不能穩(wěn)健地應(yīng)用于各類真實(shí)場景。

近年來,一些端到端學(xué)習(xí)方法被提出以增強(qiáng)六自由度物體定位的魯棒性,包括:直接回歸幾何參數(shù);采用渲染 - 比對來迭代地優(yōu)化位姿。盡管基于學(xué)習(xí)的方法具有潛力,但是直接回歸法精度有限、泛化能力差;而渲染 - 比對法計(jì)算量大、不適用于實(shí)時(shí)應(yīng)用,且需要提供帶紋理的 CAD 模型。如何結(jié)合了傳統(tǒng)優(yōu)化方法和基于學(xué)習(xí)方法的優(yōu)勢,能夠僅在 CAD 網(wǎng)格模型引導(dǎo)下,準(zhǔn)確、魯棒、實(shí)時(shí)地求解物體位姿,是一個(gè)亟待解決的問題。

六自由度物體跟蹤的相關(guān)工作

1 基于優(yōu)化的六自由度物體跟蹤方法

基于優(yōu)化的方法常用于解決六自由度物體跟蹤問題,具體可以分為三種不同的類別:基于關(guān)鍵點(diǎn) (Keypoint)、基于邊緣 (Edge) 和基于區(qū)域 (Region)?;陉P(guān)鍵點(diǎn)的方法利用局部特征匹配或光流技術(shù)建立 2D-3D 對應(yīng)關(guān)系。雖然這種方法表現(xiàn)出了出色的性能,但它需要提供物體的紋理模型。為了解決這個(gè)問題,研究人員提出了基于邊緣的方法,通過隱式或顯示地分析物體邊緣位移,判斷物體六自由度位姿變化。例如,RAPiD 通過在投影邊緣的正交方向上搜索最大梯度,來估計(jì)連續(xù)幀之間的相對位姿。然而,基于邊緣的方法處理不好背景有雜物和運(yùn)動(dòng)模糊的情況。

這幾年,基于區(qū)域的方法在復(fù)雜環(huán)境的跟蹤任務(wù)中取得了顯著進(jìn)展。該研究最早可以追溯到 PWP3D 的工作,其有效地結(jié)合了前背景分割的統(tǒng)計(jì)模型和物體投影的邊界距離場來優(yōu)化物體位姿。近年來,RBGT 引入了多視角預(yù)計(jì)算的稀疏對應(yīng)線 (Correspondence lines),建立符合了高斯分布的概率模型,并使用牛頓法快速收斂到物體位姿。SRT3D 引入了平滑的階躍函數(shù),考慮到全局和局部不確定性,相較于現(xiàn)有方法有明顯改進(jìn)。然而,基于區(qū)域的物體連續(xù)位姿估計(jì)算法會(huì)受到人工定義的特征和超參數(shù)限制。

2 基于學(xué)習(xí)的六自由度物體跟蹤方法

近年來,深度學(xué)習(xí)方法在六自由度物體姿態(tài)估計(jì)領(lǐng)域取得了顯著進(jìn)展。其中一種方法是直接預(yù)測旋轉(zhuǎn)和平移參數(shù)。另一種方法則是通過檢測或回歸物體坐標(biāo)生成 2D-3D 對應(yīng)關(guān)系,進(jìn)而使用 PnP 求解器估計(jì)六自由度位姿。然而,僅通過單個(gè)網(wǎng)絡(luò)預(yù)測物體位姿,其輸出往往不準(zhǔn)確。

為了克服這個(gè)問題,一些研究采用迭代優(yōu)化的技術(shù)以取得更精確的結(jié)果。這類方法的關(guān)鍵是迭代的 “渲染 - 比對” 思想。在每次迭代中,利用當(dāng)前估計(jì)的物體位姿渲染三維紋理模型,然后將渲染圖像與實(shí)際圖像進(jìn)行比較,并用神經(jīng)網(wǎng)絡(luò)更新位姿,從而使兩者逐漸對齊。目前,基于學(xué)習(xí)的方法的主要不足是需要使用 GPU,這使得它們不適合在移動(dòng)應(yīng)用程序中部署,例如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)應(yīng)用。此外,這類方法需要提供物體的紋理模型,但在實(shí)際任務(wù)中,用戶預(yù)先獲取的往往是一個(gè)三維掃描或者人工設(shè)計(jì)的 CAD 網(wǎng)格模型。

方法

針對上述背景和相關(guān)工作,論文提出了提出了一種傳統(tǒng)方法和學(xué)習(xí)方法結(jié)合的方案。給定一個(gè)視頻序列圖片和初始時(shí)刻的物體位姿,所提方法使用當(dāng)前幀的單個(gè) RGB 圖像圖片和前一幀該物體位姿圖片來求解當(dāng)前幀的物體位姿圖片。


圖片


1 輪廓特征圖提取


利用上一幀的物體位姿,在 RGB 圖像上裁剪出一個(gè)包含目標(biāo)物體的矩陣區(qū)域圖片,并使用以 MobileNetV2 為基礎(chǔ)的 FPN-Lite 網(wǎng)絡(luò),對圖像圖片提取多層特征。提取的多尺度特征圖表示為圖片,包含一系列由粗到細(xì)的特征信息。其中,圖片,圖片,圖片圖片分別表示尺度為 s 的特征圖寬度、高度和維度,圖片為提取特征的層數(shù)。這種由粗到細(xì)的網(wǎng)絡(luò)設(shè)計(jì)可以使得神經(jīng)網(wǎng)絡(luò)編碼到更廣的空間信息,從而提高在物體大幅度運(yùn)動(dòng)情況下的定位精度。下圖可視化了一組 FPN-Lite 網(wǎng)絡(luò)提取的多層次特征圖,先用 PCA 對特征圖圖片進(jìn)行降維,再表示成 RGB 圖像。


圖片

受到 RBGT 的啟發(fā),論文使用對應(yīng)線模型 (Correspondence Line Model) 描述二維輪廓的局部區(qū)域。具體來說,對應(yīng)線模型在二維輪廓上均勻采樣若干個(gè)二維點(diǎn),并建立相應(yīng)的對應(yīng)線圖片。每條對應(yīng)線由一個(gè)中心點(diǎn)圖片和一個(gè)單位法向量圖片組成,它們通過三維輪廓點(diǎn)圖片及其相關(guān)的三維法向量圖片投影到二維圖像平面上得到。通過在特征圖圖片上插值采樣這些二維點(diǎn)集 (使用 PyTorch 的 grid_sample 函數(shù)),可生成輪廓特征圖圖片圖片是采樣的二維輪廓點(diǎn)的數(shù)量。

2 邊界圖預(yù)測

論文設(shè)計(jì)了一個(gè)輕量化網(wǎng)絡(luò),用于預(yù)測邊界概率圖圖片,圖片動(dòng)態(tài)設(shè)定,以移除圖像邊緣外的區(qū)域。在邊界概率圖圖片中,位于圖片坐標(biāo)處的值表示二維點(diǎn)圖片作為第圖片條對應(yīng)線邊界的概率。為了提高網(wǎng)絡(luò)的泛化能力,論文將基于傳統(tǒng)統(tǒng)計(jì)方法所得到的前景概率圖圖片和邊界概率圖圖片與輪廓特征圖圖片融合,作為輕量化網(wǎng)絡(luò)的輸入。

圖片

上圖詳細(xì)介紹了邊界預(yù)測模塊的前向傳播過程。其使用了三種不同的輸入,分別是前景概率圖圖片和邊界概率圖圖片與輪廓特征圖圖片。通過在不同階段使用拼接 (Concat) 操作,將這些信息融入到神經(jīng)網(wǎng)絡(luò)中,來預(yù)測邊界概率圖圖片。實(shí)驗(yàn)表明,將傳統(tǒng)統(tǒng)計(jì)信息和深度特征進(jìn)行融合并作為網(wǎng)絡(luò)的輸入,能夠顯著的提高定位算法的性能指標(biāo)。

3 位姿優(yōu)化


本小節(jié)基于輕量化網(wǎng)絡(luò)學(xué)習(xí)得到的邊界概率圖圖片,采用迭代優(yōu)化方法恢復(fù)當(dāng)前幀物體的位姿圖片。在位姿圖片每一輪迭代更新時(shí),二維輪廓點(diǎn)圖片和三維輪廓點(diǎn)圖片之間重投影誤差圖片計(jì)算如下:


圖片


其中,圖片為投影輪廓法向向量,圖片圖片分別為物體在第 k 幀的旋轉(zhuǎn)和平移,π 表示針孔相機(jī)模型的投影函數(shù):

圖片

其中,圖片分別為x,y圖像空間方向焦距及光心。給定位姿圖片后,重投影圖片距離刻畫了三維輪廓點(diǎn)圖片的投影在第i條的對應(yīng)線上的位置。該位置作為邊界點(diǎn)的似然估計(jì)是:

圖片

每條對應(yīng)線上邊界點(diǎn)似然估計(jì)相互獨(dú)立,則所有對應(yīng)線整體似然估計(jì)為:

圖片

本小節(jié)的目標(biāo)為尋找使得似然估計(jì)最大化的位姿圖片。

為了最大化該似然估計(jì),本小節(jié)采用了迭代牛頓法和 Tikhonov 正則化來優(yōu)化位姿求解。具體的位姿更新方式如下:

圖片

式中H為海森矩陣,g是梯度向量,圖片為 3×3 的單位矩陣。圖片圖片分別表示三維旋轉(zhuǎn)和三維平移的正則化參數(shù)。由于三維旋轉(zhuǎn)R屬于一個(gè)李群,所以它可用一個(gè)李代數(shù)的指數(shù)映射表示:

圖片

式中,三維向量圖片是李代數(shù)空間 so (3) 的元素,圖片圖片的斜對稱矩陣。因此一個(gè)位姿圖片能夠被一個(gè)六自由度的變量表示圖片,圖片。根據(jù)鏈?zhǔn)角髮?dǎo)法則,海森矩陣H和梯度向量g的計(jì)算如下:

圖片

式中圖片為三維輪廓點(diǎn)圖片在相機(jī)坐標(biāo)空間的位置。圖片為重投影誤差相對于相機(jī)坐標(biāo)空間點(diǎn)圖片的一階偏導(dǎo)數(shù),它的計(jì)算公式如下:


圖片


對于相機(jī)坐標(biāo)空間下的三維點(diǎn)相對于六自由度位姿的一階偏導(dǎo)數(shù)圖片的計(jì)算,本小節(jié)采用經(jīng)典的擾動(dòng)模型推導(dǎo)得到如下公式:

圖片

為了端到端訓(xùn)練之前所提出的網(wǎng)絡(luò)模型,本小節(jié)采用兩種近似方法來估計(jì)圖片關(guān)于圖片的一階導(dǎo)數(shù)。第一種近似方法直接使用每條對應(yīng)線的均值圖片和方差圖片計(jì)算導(dǎo)數(shù),具體計(jì)算方式如下:

圖片

第二種近似方法利用了三維輪廓投影點(diǎn)附近區(qū)域的邊界概率,具體計(jì)算公式如下:

圖片

這兩種近似方法具有不同的特性:第一種近似用于直接學(xué)習(xí)每條對應(yīng)線上的邊界位置圖片,從而實(shí)現(xiàn)快速收斂。第二種近似用于學(xué)習(xí)局部邊界概率,從而細(xì)致優(yōu)化位姿。此外,方差圖片用于刻畫每條對應(yīng)線的不確定性,在位姿求解過程中起到了增強(qiáng)魯棒性的作用。為了分析邊界不確定性對于物體姿態(tài)預(yù)測的影響,論文采用了一種基于顏色漸變的可視化方法,使用用較暖 (紅色) 的顏色來表示邊界不確 定性值 (即圖片) 較小的區(qū)域。從下圖中可以看出,物體沒有被遮擋的邊界對于位姿預(yù)測更有幫助,而被遮擋的邊界則相對無關(guān)緊要。

圖片

4 網(wǎng)絡(luò)監(jiān)督

論文提出的方法以每次迭代優(yōu)化后所得的位姿圖片與真實(shí)位姿圖片間的差異為依據(jù):

圖片

其中,P是 Huber 魯棒核函數(shù)。為了避免困難樣例對模型訓(xùn)練產(chǎn)生不利影響,論文采用了條件損失函數(shù):只有在前一次迭代優(yōu)化后所得的位姿在真實(shí)解附近時(shí),才將其納入損失函數(shù)的計(jì)算中;如果某次迭代優(yōu)化后所得的位姿偏離真實(shí)解過大,則忽略其對應(yīng)的損失項(xiàng)。這樣可以保證模型只使用可信度高的訓(xùn)練樣本。 

結(jié)果

1 與基于優(yōu)化的方法比較

(1)RBOT 數(shù)據(jù)集

在 RBOT 數(shù)據(jù)集上,論文采用 5cm?5?召回率,來評估定位的精度。具體而言,每一幀圖像是否被成功定位取決于其平移誤差是否小于 5cm 且旋轉(zhuǎn)誤差是否小于 5?。

實(shí)驗(yàn)結(jié)果表明,在常規(guī)、動(dòng)態(tài)光照和場景遮擋下,現(xiàn)有的基于優(yōu)化的方法已經(jīng)非常接近性能上限,SRT3D 和 LDT3D 的 5cm?5?召回率已接近或超過 95%。在這三種情況下,DeepAC 表現(xiàn)出了相似的性能,在常規(guī)和動(dòng)態(tài)光照情況下小幅領(lǐng)先,在場景遮擋情況下略微落后。但是,在噪聲情況下,所提方法顯著優(yōu)于其他基于優(yōu)化的方法,5cm?5?召回率從 83.2% 提高到 88.0%,這一結(jié)果證明了 DeepAC 對圖像噪聲具有較強(qiáng)的魯棒性。

圖片

(2)BCOT 數(shù)據(jù)集

論文在 BCOT 數(shù)據(jù)集上對所提方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并采用 ADD-(s) d 和厘米 - 度召回率來評估位姿估計(jì)的精度。與在 RBOT 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)不同,在 BCOT 數(shù)據(jù)集上,增加了一些更嚴(yán)格的評價(jià)指標(biāo),即 ADD-0.02d、ADD-0.05d、 ADD-0.1d 以及 2cm?2?召回率,以評估算法的高精度定位能力。其中,d 表示物體模型 3D 包圍盒的最大長度。

實(shí)驗(yàn)結(jié)果表明,DeepAC 在所有閾值下的 ADD-(s) d 和厘米 - 度召回率均優(yōu)于其他基于優(yōu)化的基線方法。特別是,在非常嚴(yán)格的 ADD-(s) d 標(biāo)準(zhǔn)下,所提方法表現(xiàn)出顯著的優(yōu)勢,相比于排名第二的 LDT3D,在 ADD-0.02d、ADD-0.05d 和 ADD-0.1d 上分別提高了 9.1 個(gè)百分點(diǎn)、14.1 個(gè)百分點(diǎn)和 9.6 個(gè)百分點(diǎn)。這些結(jié)果充分表明了 DeepAC 具有高精度定位的能力。

圖片

(3) OPT 數(shù)據(jù)集

在 OPT 數(shù)據(jù)集上,論文先計(jì)算不同誤差閾值 s 下的 ADD-(s) d 得分,再通過計(jì)算曲線下面積 (AUC) 得分來衡量視頻序列中物體位姿估計(jì)的質(zhì)量。其中,誤差閾值 s 的范圍設(shè)定為 [0, 0.2]。

下表顯示了 DeepAC 在六個(gè)物體上均優(yōu)于當(dāng)前最先進(jìn)的基于優(yōu)化的方法,在 AUC 分?jǐn)?shù)上取得了明顯提升。在平均 AUC 分?jǐn)?shù)方面,DeepAC 達(dá)到 16.69,比排名第二的方法 SRT3D 高出 6.10%。這些結(jié)果表明 DeepAC 在真實(shí)場景下具有優(yōu)異的跟蹤能力。 

圖片

2 與基于學(xué)習(xí)的方法比較

為了驗(yàn)證 DeepAC 模型在不同數(shù)據(jù)集上具有很好的泛化能力,論文在 RBOT 數(shù)據(jù)集上與當(dāng)前最先進(jìn)的基于學(xué)習(xí)的方法進(jìn)行了對比實(shí)驗(yàn)。論文選取了除 “Clown” 物體外 (因?yàn)槠浼y理圖有誤) 所有序列作為測試集,并使用平均 ADD-(s) d 和厘米 - 度召回率作為評估指標(biāo)。為了與其他基于學(xué)習(xí)的方法公平比較,所提方法 DeepAC 使用相同的訓(xùn)練數(shù)據(jù)和方式,并記作 DeepAC?。

圖片

實(shí)驗(yàn)結(jié)果顯示,其他典型的基于學(xué)習(xí)的方法定位精度遠(yuǎn)低于 DeepAC,這充分說明了 DeepAC 在不同數(shù)據(jù)集上具有很強(qiáng)大且穩(wěn)定的泛化能力。

3 消融分析

論文通過消融實(shí)驗(yàn)分析 DeepAC 中三個(gè)主要的設(shè)計(jì)對物體六自由度定位性能的影響,分別是:1) 統(tǒng)計(jì)信息融入;2) 多層特征提??;3) 邊界不確定性估計(jì)。實(shí)驗(yàn)在 RBOT 和 BCOT 數(shù)據(jù)集上進(jìn)行,并將結(jié)果展示在下表。

圖片

應(yīng)用前景

該研究成果在民用和軍事領(lǐng)域都有廣泛的應(yīng)用。在民用領(lǐng)域,該研究可用于強(qiáng)現(xiàn)實(shí)、機(jī)器人操作和人機(jī)交互等眾多應(yīng)用。在軍事領(lǐng)域,該研究可用于支持空中無人裝備與巡飛彈在復(fù)雜光照條件下對目標(biāo)的多角度實(shí)時(shí)跟蹤與打擊。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-04-18 15:14:20

科技論文

2023-01-09 13:18:59

AI

2015-08-11 14:24:15

黑客譚曉生

2017-09-22 11:45:10

深度學(xué)習(xí)OpenCVPython

2018-08-30 10:21:25

存儲(chǔ)技術(shù)量子

2022-12-09 17:55:41

2023-07-05 17:18:00

GDP

2013-04-12 10:05:49

HTML5WebSocket

2020-06-10 21:56:53

醫(yī)療物聯(lián)網(wǎng)IOT

2012-12-25 09:36:11

Storm大數(shù)據(jù)分析

2023-11-17 09:35:58

2024-05-06 13:04:21

模型數(shù)據(jù)

2024-05-09 11:48:35

2024-01-04 08:00:00

人工智能深度學(xué)習(xí)

2025-04-18 10:43:23

2022-12-06 15:59:14

人工智能

2015-06-16 16:49:25

AWSKinesis實(shí)時(shí)數(shù)據(jù)處理

2024-05-17 08:07:46

Spring廣告推薦系統(tǒng)

2024-09-02 09:31:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號