DifFlow3D:場景流估計新SOTA,擴散模型又下一城!
本文經自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。
原標題:DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement
論文鏈接:https://arxiv.org/pdf/2311.17456.pdf
代碼鏈接:https://github.com/IRMVLab/DifFlow3D
作者單位:上海交通大學 劍橋大學 浙江大學 鑒智機器人
論文思路:
場景流估計旨在預測動態(tài)場景中每個點的3D位移變化,是計算機視覺領域的一個基礎任務。然而,以往的工作常常受到局部約束搜索范圍引起的不可靠相關性的困擾,并且在從粗到細的結構中積累不準確性。為了緩解這些問題,本文提出了一種新穎的不確定性感知場景流估計網絡(DifFlow3D),該網絡采用了擴散概率模型。設計了迭代擴散式細化(Iterative diffusion-based refinement)來增強相關性的魯棒性,并對困難情況(例如動態(tài)、噪聲輸入、重復模式等)具有較強的適應性。為了限制生成的多樣性,本文的擴散模型中利用了三個關鍵的與流相關的特征作為條件。此外,本文還在擴散中開發(fā)了一個不確定性估計模塊,以評估估計場景流的可靠性。本文的 DifFlow3D 在 FlyingThings3D 和 KITTI 2015 數(shù)據集上分別實現(xiàn)了6.7%和19.1%的三維端點誤差(EPE3D)降低,并在KITTI數(shù)據集上實現(xiàn)了前所未有的毫米級精度(EPE3D為0.0089米)。另外,本文的基于擴散的細化范式可以作為一個即插即用的模塊,輕松集成到現(xiàn)有的場景流網絡中,顯著提高它們的估計精度。
主要貢獻:
為了實現(xiàn)魯棒的場景流估計,本文提出了一種新穎的即插即用型基于擴散的細化流程。據本文所知,這是首次在場景流任務中利用擴散概率模型。
本文通過結合粗流嵌入、幾何編碼和跨幀成本體積(coarse flow embeddings, geometry encoding, cross-frame cost volume),設計了強有力的條件引導來控制生成的多樣性。
為了評估本文估計流的可靠性并識別不準確的點匹配,本文還在本文的擴散模型中引入了每個點的不確定性估計。
本文的方法在 FlyingThings3D 和 KITTI 數(shù)據集上均優(yōu)于所有現(xiàn)有方法。特別是,本文的 DifFlow3D 首次在 KITTI 數(shù)據集上實現(xiàn)了毫米級的端點誤差(EPE3D)。與以往的工作相比,本文的方法對于具有挑戰(zhàn)性的情況具有更強的魯棒性,例如噪聲輸入、動態(tài)變化等。
網絡設計:
場景流作為計算機視覺中的一項基礎任務,指的是從連續(xù)的圖像或點云中估計出的三維運動場。它為動態(tài)場景的低層次感知提供了信息,并且有著各種下游應用,例如自動駕駛[21]、姿態(tài)估計[9]和運動分割[1]。早期的工作集中在使用立體[12]或RGB-D圖像[10]作為輸入。隨著3D傳感器,例如激光雷達的日益普及,近期的工作通常直接以點云作為輸入。
作為開創(chuàng)性的工作,F(xiàn)lowNet3D[16]使用 PointNet++[25] 提取層次化特征,然后迭代回歸場景流。PointPWC[42] 通過金字塔、變形和成本體積結構[31]進一步改進了它。HALFlow[35] 跟隨它們,并引入了注意力機制以獲得更好的流嵌入。然而,這些基于回歸的工作通常遭受不可靠的相關性和局部最優(yōu)問題[17]。原因主要有兩個方面:(1)在他們的網絡中,使用K最近鄰(KNN)來搜索點對應關系,這并不能考慮到正確但距離較遠的點對,也存在匹配噪聲[7]。(2)另一個潛在問題來自于以往工作[16, 35, 36, 42]中廣泛使用的粗到細結構?;旧?,最初的流在最粗糙的層上估計,然后在更高分辨率中迭代細化。然而,流細化的性能高度依賴于初始粗流的可靠性,因為后續(xù)的細化通常受限于初始化周圍的小的空間范圍內。
為了解決不可靠性的問題,3DFlow[36] 設計了一個 all-to-all 的點收集模塊,并加入了反向驗證。類似地,Bi-PointFlowNet[4] 及其擴展MSBRN[5] 提出了一個雙向網絡,具有前向-后向相關性。IHNet[38] 利用一個帶有高分辨率引導和重采樣方案的循環(huán)網絡。然而,這些網絡大多因其雙向關聯(lián)或循環(huán)迭代而在計算成本上遇到了困難。本文發(fā)現(xiàn)擴散模型也可以增強相關性的可靠性和對匹配噪聲的韌性,這得益于其去噪本質(如圖1所示)。受到[30]中的發(fā)現(xiàn)的啟發(fā),即注入隨機噪聲有助于跳出局部最優(yōu),本文用概率擴散模型重新構建了確定性流回歸任務(deterministic flow regression task),如圖2所示。此外,本文的方法可以作為一個即插即用的模塊服務于先前的場景流網絡,這種方法更為通用,并且?guī)缀醪辉黾佑嬎愠杀荆ǖ?.5節(jié))。
然而,在本文的任務中利用生成模型是相當具有挑戰(zhàn)性的,因為擴散模型固有的生成多樣性。與需要多樣化輸出樣本的點云生成任務不同,場景流預測是一個確定性任務,它計算精確的每點運動向量。為了解決這個問題,本文利用強條件信息來限制多樣性,并有效控制生成的流。具體來說,首先初始化一個粗糙的稀疏場景流,然后通過擴散迭代生成流殘差(flow residuals)。在每個基于擴散的細化層中,本文利用粗流嵌入、成本體積和幾何編碼作為條件。在這種情況下,擴散被應用于實際學習從條件輸入到流殘差的概率映射。
此外,先前的工作很少探索場景流估計的置信度和可靠性。然而,如圖1所示,在噪聲、動態(tài)變化、小物體和重復模式的情況下,密集流匹配容易出錯。因此,了解每個估計的點對應關系是否可靠是非常重要的。受到最近在光流任務中不確定性估計成功的啟發(fā)[33],本文在擴散模型中提出了逐點不確定性,以評估本文的場景流估計的可靠性。
圖3。DifFlow3D 的總體結構。本文首先在 bottom layer 初始化一個粗糙的稀疏場景流。隨后,將迭代擴散式細化層與流相關的條件信號結合使用,以恢復更密集的流殘差。為了評估本文估計的流的可靠性,還將與場景流一起聯(lián)合預測每個點的不確定性。
圖2。本文用于場景流估計的擴散過程示意圖。
圖4。不確定性的可視化。在訓練過程中,本文設計的不確定性區(qū)間逐漸縮小,這促使預測的流向真實值靠攏。
實驗結果:
圖1。在具有挑戰(zhàn)性的情況下的比較。DifFlow3D 使用擴散模型預測具有不確定性感知的場景流,該模型對以下情況具有更強的魯棒性:(a)動態(tài)變化,(b)噪聲干擾的輸入,(c)小物體,以及(d)重復模式。
圖 5. 未使用或使用基于擴散的場景流細化 (DSFR) 的可視化結果。
圖6。在輸入點上添加隨機高斯噪聲。
圖7。不確定性在訓練過程中的作用。本文分別在不同的訓練階段(第10輪和第100輪)可視化了不確定性區(qū)間。
總結:
本文創(chuàng)新性地提出了一個基于擴散的場景流細化網絡,該網絡能夠感知估計的不確定性。本文采用多尺度擴散細化來生成細粒度的密集流殘差。為了提高估計的魯棒性,本文還引入了與場景流一起聯(lián)合生成的逐點不確定性。廣泛的實驗表明了本文的 DifFlow3D 的優(yōu)越性和泛化能力。值得注意的是,本文的基于擴散的細化可以作為即插即用模塊應用于以往的工作,并為未來的研究提供新的啟示。
引用:
Liu J, Wang G, Ye W, et al. DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Diffusion Model[J]. arXiv preprint arXiv:2311.17456, 2023.