交互式4D分割Interactive4D:點云分割標注直接加速!
寫在前面 & 筆者的個人理解
交互式分割在促進未來LiDAR數(shù)據(jù)集的注釋過程中起著重要作用。現(xiàn)有的方法在每次激光雷達掃描時順序分割單個物體,在整個序列中重復這一過程,這是多余且無效的。在這項工作中,我們提出了交互式4D分割,這是一種新的范式,允許同時分割多個LiDAR掃描上的多個目標,以及交互式4D,這是第一個交互式4D分割模型,通過利用LiDAR數(shù)據(jù)的順序特性,在一次迭代中分割疊加的連續(xù)LiDAR打印上的多目標。在執(zhí)行交互式分割時,我們的模型利用了整個時空體積,從而實現(xiàn)了更高效的分割。在4D卷上操作時,它可以隨時間直接提供一致的實例ID,并簡化跟蹤注釋。此外,我們還表明,點擊模擬對于在LiDAR點云上成功進行模型訓練至關重要。為此我們設計了一種更適合激光雷達數(shù)據(jù)特性的點擊模擬策略。為了證明其準確性和有效性,我們在多個LiDAR數(shù)據(jù)集上評估了Interactive4D,其中Interactive4D在很大程度上達到了新的最先進水平。
- 開源鏈接:https://vision.rwth-aachen.de/Interactive4D
總結(jié)來說,本文的貢獻是:
- 提出了交互式4D分割,這是一種新的范式,通過利用激光雷達數(shù)據(jù)的順序特性,一次對多個掃描中的多個目標進行交互式分割。
- 介紹了Interactive4D,這是第一個交互式4D分割模型,能夠準確分割時空點云上的事物和內(nèi)容,同時隨著時間的推移為跟蹤任務提供一致的實例ID。
- 設計了一種新的點擊模擬策略,更適合激光雷達數(shù)據(jù)的特點。
- 我們在多個LiDAR數(shù)據(jù)集上實現(xiàn)了最先進的性能,并通過與人類注釋者的用戶研究證明了Interactive4D在真實注釋案例中的有效性。
相關工作回顧
激光雷達全景分割和跟蹤。LiDAR全景分割(LPS)統(tǒng)一了LiDAR點云的語義和實例分割。最近,它已被擴展到4D激光雷達全景分割(4D-LPS)的子任務跟蹤,該分割結(jié)合了語義、實例分割和跟蹤。兩種LPS方法都遵循類似的算法范式。它們之間的根本區(qū)別在于,LPS方法在單次激光雷達掃描上運行,而4D-LPS方法主要在疊加的連續(xù)激光雷達掃描下運行以完成跟蹤。根據(jù)它是在單次掃描還是疊加的連續(xù)掃描上運行,假設用戶提供了預測掩模的語義標簽,Interactive4D可以作為LPS或4D-LPS方法。它通過整合用戶輸入來執(zhí)行分割和跟蹤,能夠通過細化點擊來改善結(jié)果。隨后,我們證明了Interactive4D在LPS和4D-LPS任務中以最小的用戶輸入都優(yōu)于最先進的結(jié)果,并通過額外的用戶輸入進一步改進了它們。
交互式3D分割。2D交互式分割已經(jīng)建立得很好,然而,采用它來生成3D標簽會由于視場、視角和校準誤差的差異而導致不完美。為此,InterObject3D解決了室內(nèi)點云的交互式分割問題,重點是單目標交互式分割。后來,AGILE3D提出了室內(nèi)點云的多目標交互式分割,顯著提高了效率。本文探索了LiDAR點云的多目標交互式分割,并進一步將多目標LiDAR交互式分割擴展到4D設置,旨在最大限度地提高效率。最近的一些工作研究了室外LiDAR點云的3D交互式分割。CRSNet專注于僅交互式分割物體,并遵循LiDAR數(shù)據(jù)中的單物體范式。ClickFormer是一項并行工作,它交互式地分割事物,并通過在掃描過程中填充額外的增強點擊來解決LiDAR數(shù)據(jù)中目標的比例差異,同樣遵循單目標范式。相比之下,Interactive4D旨在處理4D設置中事物的多目標交互式LiDAR分割,通過在空間和時間上全面利用上下文來最大限度地提高效率。
詳解Interactive4D
受基于注意力的交互式分割模型成功的啟發(fā),我們添加了關鍵的技術(shù)修改,以實現(xiàn)此類模型在LiDAR點云中的全部潛力,并引入了交互式4D,我們的交互式4D分割模型,如圖2所示。為了清楚起見,我們使用矩陣表示法來呈現(xiàn)整個過程。
細化:該模塊由L個連續(xù)的點擊關注層組成,這些層細化了點擊查詢Q和體素特征F。在每一層中,Q通過交叉注意力來關注F。然后,Q使用self-att。最后,F(xiàn)交叉注意Q以細化特征表示。這種漸進式的改進在L層中重復進行,從而得到最終的Q和F。
訓練損失如下所示:
單擊“模擬策略”。(圖2)交互式分割模型依賴于標注輸入來迭代改進預測,但在訓練過程中讓人類參與是不切實際的。相反,合成點擊是基于預測和GT進行模擬的。仿真策略應該:(1)將模型的學習集中在誤差區(qū)域,以減少交互來提高準確性,以及(2)盡量減少訓練和實際使用之間的差距。交互式3D分割模型中采用了兩種主要類型的點擊模擬。受2D模擬的啟發(fā),在密集數(shù)據(jù)下運行的模型采用了邊界相關(BD)點擊策略。該方法使用以下度量選擇離邊界最遠的點:
近期的方法通過采用完全隨機點擊來緩解這個問題,大大減少了所需的計算。然而,這兩種方法仍然存在兩個關鍵局限性:(1)偏向較大目標:在多目標交互式分割中,必須首先識別錯誤區(qū)域,因為錯誤可能存在于各種目標中。BD選擇通過用max操作切換等式(iv)中的arg-max來隱式地確定區(qū)域的誤差大小。這種方法傾向于將點擊偏向于較大的物體(例如建筑物),而忽略較小的物體(如自行車)(圖3左)。同樣的問題也適用于隨機點擊策略,因為隨機分布自然會忽略較小的目標,使其在訓練過程中代表性不足。(2) 非信息性初始點擊:在密集數(shù)據(jù)中,選擇離邊界最遠的點是有效的,因為它通常會捕獲錯誤區(qū)域的“中心”。然而,在稀疏的LiDAR點云中,由于周圍的空白空間,這通常會導致錯誤區(qū)域邊緣附近的點擊錯誤(圖3右)。這是因為誤差區(qū)域外的點決定了邊界。完全隨機點擊也面臨著類似的問題,因為選擇不是集中在特定的錯誤區(qū)域,而是不加選擇地針對整個錯誤集。
為了解決上述缺點,我們提出了一種新的點擊選擇策略,將該過程分為兩個單獨的步驟:(1)尺度不變誤差區(qū)域選擇(SI):為了應對較大目標的過度優(yōu)先級,我們提出一種基于IoU的度量來確定最大誤差區(qū)域,確保尺度不變性:
這種方法優(yōu)先考慮覆蓋目標大部分的錯誤區(qū)域,特別是那些IoU較低的區(qū)域,以防止較小的目標被忽視。這使得訓練過程中的點擊分布更加平衡,使模型能夠?qū)W習更全面的特征表示。(2)錯誤區(qū)域內(nèi)的增強點擊選擇:與之前依賴數(shù)據(jù)庫的工作類似,我們的目標是為初始點擊選擇地面真實掩模的“中心”,因為這通常會捕捉到區(qū)域的關鍵特征。為了確保在稀疏域中進行信息選擇,我們將中心定義為最接近目標質(zhì)心的點,通常在實體分割開始時捕獲最具代表性的區(qū)域。然而,對于細化點擊——誤差區(qū)域在點云中變得很小且分散——質(zhì)心選擇的有效性降低,真實用戶很難遵循。為了解決這個問題,我們建議在誤差區(qū)域內(nèi)切換到隨機點選擇以進行細化點擊。與[15,46]不同,我們只在識別出錯誤區(qū)域后才執(zhí)行隨機選擇。隨機性的注入通過學習不同的特征使模型對用戶行為更加魯棒。
我們的方法簡化并解耦了決策過程。由于在訓練過程中多次調(diào)用點擊模擬器,它加速了訓練并顯著降低了內(nèi)存需求。與限制目標數(shù)量或只關注事物以管理計算成本的方法不同,我們的方法避免了這些權(quán)衡。這實現(xiàn)了更快的訓練、整體分割和4D數(shù)據(jù)的可擴展性,其中點的數(shù)量顯著增加。圖3顯示了我們提出的策略修改的總體效果。
實驗結(jié)果
結(jié)論
本文引入了交互式4D分割,這是一種新的范式,用戶可以在多個掃描中同時分割多個目標,以及交互式4D,這是遵循這一范式的第一種交互式4D分割方法。交互式4D比以前的方法更有效,僅限于單個目標和單個掃描。除了我們適用于稀疏LiDAR掃描的新點擊模擬策略外,它還顯示了出色的精度結(jié)果,并大幅達到了最先進的性能。我們希望Interactive4D能夠減少未來LiDAR數(shù)據(jù)集所需的標注工作。