「AI透視眼」,三次馬爾獎(jiǎng)獲得者Andrew帶隊(duì)解決任意物體遮擋補(bǔ)全難題
遮擋是計(jì)算機(jī)視覺(jué)很基礎(chǔ)但依舊未解決的問(wèn)題之一,因?yàn)檎趽跻馕吨曈X(jué)信息的缺失,而機(jī)器視覺(jué)系統(tǒng)卻依靠著視覺(jué)信息進(jìn)行感知和理解,并且在現(xiàn)實(shí)世界中,物體之間的相互遮擋無(wú)處不在。牛津大學(xué) VGG 實(shí)驗(yàn)室 Andrew Zisserman 團(tuán)隊(duì)最新工作系統(tǒng)性解決了任意物體的遮擋補(bǔ)全問(wèn)題,并且為這一問(wèn)題提出了一個(gè)新的更加精確的評(píng)估數(shù)據(jù)集。該工作受到了 MPI 大佬 Michael Black、CVPR 官方賬號(hào)、南加州大學(xué)計(jì)算機(jī)系官方賬號(hào)等在 X 平臺(tái)的點(diǎn)贊。以下為論文「Amodal Ground Truth and Completion in the Wild」的主要內(nèi)容。
- 論文鏈接:https://arxiv.org/pdf/2312.17247.pdf
- 項(xiàng)目主頁(yè):https://www.robots.ox.ac.uk/~vgg/research/amodal/
- 代碼地址:https://github.com/Championchess/Amodal-Completion-in-the-Wild
非模態(tài)分割(Amodal Segmentation)旨在補(bǔ)全物體被遮擋的部分,即給出物體可見(jiàn)部分和不可見(jiàn)部分的形狀掩碼。這個(gè)任務(wù)可以使得諸多下游任務(wù)受益:物體識(shí)別、目標(biāo)檢測(cè)、實(shí)例分割、圖像編輯、三維重建、視頻物體分割、物體間支撐關(guān)系推理、機(jī)器人的操縱和導(dǎo)航,因?yàn)樵谶@些任務(wù)中知道被遮擋物體完整的形狀會(huì)有所幫助。
然而,如何去評(píng)估一個(gè)模型在真實(shí)世界做非模態(tài)分割的性能卻是一個(gè)難題:雖然很多圖片中都有大量的被遮擋物體,可是如何得到這些物體完整形狀的參考標(biāo)準(zhǔn) 或是非模態(tài)掩碼呢?前人的工作有通過(guò)人手動(dòng)標(biāo)注非模態(tài)掩碼的,可是這樣標(biāo)注的參考標(biāo)準(zhǔn)難以避免引入人類誤差;也有工作通過(guò)制造合成數(shù)據(jù)集,比如在一個(gè)完整的物體上貼直接另一個(gè)物體,來(lái)得到被遮擋物體的完整形狀,但這樣得到的圖片都不是真實(shí)圖片場(chǎng)景。因此,這個(gè)工作提出了通過(guò) 3D 模型投影的方法,構(gòu)造了一個(gè)大規(guī)模的涵蓋多物體種類并且提供非模態(tài)掩碼的真實(shí)圖片數(shù)據(jù)集(MP3D-Amodal)來(lái)精確評(píng)估非模態(tài)分割的性能。各不同數(shù)據(jù)集的對(duì)比如下圖:
具體而言,以 MatterPort3D 數(shù)據(jù)集為例,對(duì)于任意的有真實(shí)照片并且有場(chǎng)景三維結(jié)構(gòu)的數(shù)據(jù)集,我們可以將場(chǎng)景中所有物體的三維形狀同時(shí)投影到相機(jī)上以得到每個(gè)物體的模態(tài)掩碼(可見(jiàn)形狀,因?yàn)槲矬w相互之間有遮擋),然后將場(chǎng)景中每個(gè)物體的三維形狀分別投影到相機(jī)以得到這個(gè)物體的非模態(tài)掩碼,即完整的形狀。通過(guò)對(duì)比模態(tài)掩碼和非模態(tài)掩碼,即可以挑選出被遮擋的物體。
數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如下:
數(shù)據(jù)集的樣例如下:
此外,為解決任意物體的完整形狀重建任務(wù),作者提取出 Stable Diffusion 模型的特征中關(guān)于物體完整形狀的先驗(yàn)知識(shí),來(lái)對(duì)任意被遮擋物體做非模態(tài)分割,具體的架構(gòu)如下(SDAmodal):
提出使用 Stable Diffusion Feature 的動(dòng)機(jī)在于,Stable Diffusion 具有圖片補(bǔ)全的能力,所以可能一定程度上包含了有關(guān)物體的全部信息;而且由于 Stable Diffusion 經(jīng)過(guò)大量圖片的訓(xùn)練,所以可以期待其特征在任意環(huán)境下有對(duì)任意物體的處理能力。和前人 two-stage 的框架不同,SDAmodal 不需要已經(jīng)標(biāo)注好的遮擋物掩碼作為輸入;SDAmodal 架構(gòu)簡(jiǎn)單,卻體現(xiàn)出很強(qiáng)的零樣本泛化能力(比較下表 Setting F 和 H,僅在 COCOA 上訓(xùn)練,卻能在另一個(gè)不同域、不同類別的數(shù)據(jù)集上有所提升);即使沒(méi)有關(guān)于遮擋物的標(biāo)注,SDAmodal 在目前已有的涵蓋多種類被遮擋物體的數(shù)據(jù)集 COCOA 以及新提出的 MP3D-Amodal 數(shù)據(jù)集上,都取得了SOTA表現(xiàn)(Setting H)。
除了定量實(shí)驗(yàn),定性的比較也體現(xiàn)出了 SDAmodal 模型的優(yōu)勢(shì):從下圖可以觀察到(所有模型都只在 COCOA 上訓(xùn)練),對(duì)于不同種類的被遮擋物體,無(wú)論是來(lái)自于 COCOA,還是來(lái)自于另一個(gè)MP3D-Amodal,SDAmodal 都能大大提升非模態(tài)分割的效果,所預(yù)測(cè)的非模態(tài)掩碼更加接近真實(shí)的。
更多細(xì)節(jié),請(qǐng)閱讀論文原文。