南洋理工提出全場景圖生成PSG任務(wù),像素級(jí)定位物體,還得預(yù)測56種關(guān)系
現(xiàn)在已經(jīng)2022年了,但是當(dāng)下大多數(shù)的計(jì)算機(jī)視覺任務(wù)卻仍然只關(guān)注于圖像感知。比如說,圖像分類任務(wù)只需要模型識(shí)別圖像中的物體物體類別。雖然目標(biāo)檢測,圖像分割等任務(wù)進(jìn)一步要求找到物體的位置,然而,此類任務(wù)仍然不足以說明模型獲得了對(duì)場景全面深入的理解。
以下圖1為例,如果計(jì)算機(jī)視覺模型只檢測到圖片中的人、大象、柵欄、樹木等,我們通常不會(huì)認(rèn)為模型已經(jīng)理解了圖片,而該模型也無法根據(jù)理解做出更高級(jí)的決策,例如發(fā)出「禁止投喂」的警告。
圖1:原示例圖
事實(shí)上,在智慧城市、自動(dòng)駕駛、智能制造等許多現(xiàn)實(shí)世界的AI場景中,除了對(duì)場景中的目標(biāo)進(jìn)行定位外,我們通常還期待模型對(duì)圖像中各個(gè)主體之間的關(guān)系進(jìn)行推理和預(yù)測。例如,在自動(dòng)駕駛應(yīng)用中,自動(dòng)車需要分析路邊的行人是在推車還是在騎自行車。根據(jù)不同的情況,相應(yīng)的后續(xù)決策可能都會(huì)有所不同。
而在智能工廠場景中,判斷操作員是否操作安全正確也需要監(jiān)控端的模型有理解主體之間關(guān)系的能力。大多數(shù)現(xiàn)有的方法都是手動(dòng)設(shè)置一些硬編碼的規(guī)則。這使得模型缺乏泛化性,難以適應(yīng)其他特定情況。
場景圖生成任務(wù)(scene graph generation,或SGG)就旨在解決如上的問題。在對(duì)目標(biāo)物體進(jìn)行分類和定位的要求之上,SGG任務(wù)還需要模型預(yù)測對(duì)象之間的關(guān)系(見圖 2)。
圖2:場景圖生成
傳統(tǒng)場景圖生成任務(wù)的數(shù)據(jù)集通常具有對(duì)象的邊界框標(biāo)注,并標(biāo)注邊界框之間的關(guān)系。但是,這種設(shè)置有幾個(gè)固有的缺陷:
(1)邊界框無法準(zhǔn)確定位物體:如圖2所示,邊界框在標(biāo)注人時(shí)不可避免地會(huì)包含人周圍的物體;
(2)背景無法標(biāo)注:如圖2所示,大象身后的樹木用bounding box標(biāo)注,幾乎覆蓋了整個(gè)圖像,所以涉及到背景的關(guān)系無法準(zhǔn)確標(biāo)注,這也使得場景圖無法完全覆蓋圖像,無法達(dá)到全面的場景理解。
因此,作者提出全場景圖生成(PSG)任務(wù),攜同一個(gè)精細(xì)標(biāo)注的大規(guī)模PSG數(shù)據(jù)集。
圖3:全場景圖生成如圖 3 所示,該任務(wù)利用全景分割來全面準(zhǔn)確地定位對(duì)象和背景,從而解決場景圖生成任務(wù)的固有缺點(diǎn),從而推動(dòng)該領(lǐng)域朝著全面和深入的場景理解邁進(jìn)。
論文信息
Paper link: https://arxiv.org/abs/2207.11247Project Page: https://psgdataset.org/OpenPSG Codebase: https://github.com/Jingkang50/OpenPSGCompetition Link: https://www.cvmart.net/race/10349/baseECCV’22 SenseHuman Workshop Link: https://sense-human.github.io/HuggingFace Demo Link: https://huggingface.co/spaces/ECCV2022/PSG
作者提出的PSG數(shù)據(jù)集包含近五萬張coco的圖片,并基于coco已有的全景分割標(biāo)注,標(biāo)注了分割塊之間的關(guān)系。作者精細(xì)地定義了56種關(guān)系,包括了位置關(guān)系(over,in front of,等),常見的物體間關(guān)系(hanging from等),常見的生物動(dòng)作(walking on,standing on,等),人類行為(cooking等),交通場景中的關(guān)系(driving,riding等),運(yùn)動(dòng)場景中的關(guān)系(kicking等),以及背景間關(guān)系(enclosing等)。作者要求標(biāo)注員能用更準(zhǔn)確的動(dòng)詞表達(dá)就絕不用更模糊的表達(dá),并且盡可能全地標(biāo)注圖中的關(guān)系。
PSG模型效果展示
任務(wù)優(yōu)勢
作者通過下圖的例子再次理解全場景圖生成(PSG)任務(wù)的優(yōu)勢:
左圖來自于SGG任務(wù)的傳統(tǒng)數(shù)據(jù)集Visual Genome (VG-150)??梢钥吹交跈z測框的標(biāo)注通常不準(zhǔn)確,而檢測框覆蓋的像素也不能準(zhǔn)確定位物體,尤其是椅子,樹木之類的背景。同時(shí),基于檢測框的關(guān)系標(biāo)注通常會(huì)傾向于的標(biāo)注一些無聊的關(guān)系,如「人有頭」,「人穿著衣服」。
相比之下,右圖中提出的 PSG 任務(wù)提供了更全面(包括前景和背景的互動(dòng))、更清晰(合適的物體粒度)和更準(zhǔn)確(像素級(jí)準(zhǔn)確)的場景圖表示,以推動(dòng)場景理解領(lǐng)域的發(fā)展。
兩大類PSG模型
為了支撐提出的PSG任務(wù),作者搭建了一個(gè)開源代碼平臺(tái)OpenPSG,其中實(shí)現(xiàn)了四個(gè)雙階段的方法和兩個(gè)單階段的方法,方便大家開發(fā)、使用、分析。
雙階段的方法利用Panoptic-FPN在第一階段中對(duì)圖像進(jìn)行全景分割。
接下來作者提取全景分割得到的物體的特征以及每一對(duì)物體融合的關(guān)系特征,送至下一階段的關(guān)系預(yù)測階段??蚣芤鸭蓮?fù)現(xiàn)了傳統(tǒng)場景圖生成的經(jīng)典方法IMP,VCTree,Motifs,和GPSNet。
PSGFormer是基于雙decoder DETR的單階段方法。模型首先在a)中通過卷積神經(jīng)網(wǎng)絡(luò)backbone提取圖片特征并加以位置編碼信息作為編碼器的輸入,同時(shí)初始化一組用以表示三元組的queries。與DETR類似地, 在b)中模型將編碼器的輸出作為key和value與表示三元組的queries一同輸入解碼器進(jìn)行cross-attention操作。隨后模型在c)中將解碼完成的每個(gè)query分別輸入主謂賓三元組對(duì)應(yīng)的預(yù)測模塊,最后得到對(duì)應(yīng)的三元組預(yù)測結(jié)果。
PSGFormer基于雙decode的DETR的單階段方法。模型在a) 通過CNN提取圖片特征,加以位置編碼信息輸入編碼器,同時(shí)初始化了兩組queries分別代表物體和關(guān)系。接著在b)步驟里,模型基于編碼器編碼的圖片信息,分別在物體解碼器和關(guān)系編碼器中通過cross-attention解碼學(xué)習(xí)物體query和關(guān)系query。
當(dāng)兩類query均學(xué)習(xí)完畢后,在c)中通過映射后匹配,得到成對(duì)的三元組query。最后在d)中通過預(yù)測頭分別完成關(guān)于物體query和關(guān)系query的預(yù)測,并根據(jù)c)中的匹配結(jié)果得到最終的三元組預(yù)測結(jié)果。
PSGTR與PSGFormer都是在DETR的基礎(chǔ)上進(jìn)行擴(kuò)展和改進(jìn)的模型,不同的地方在于PSGTR用一組query對(duì)于三元組直接建模而PSGFormer則通過兩組query分別對(duì)物體和關(guān)系建模,兩種方法各有利弊,具體可參考論文中實(shí)驗(yàn)結(jié)果。
結(jié)論分享
大部分在SGG任務(wù)上有效的方法在PSG任務(wù)上依舊有效。然而有一些利用較強(qiáng)的數(shù)據(jù)集統(tǒng)計(jì)先驗(yàn),或主謂賓中謂語方向先驗(yàn)的方法可能沒那么奏效。這可能是由于PSG數(shù)據(jù)集相較于傳統(tǒng)VG數(shù)據(jù)集的bias沒有那么嚴(yán)重,并且對(duì)謂語動(dòng)詞的定義更加清晰可學(xué)。因此,作者希望后續(xù)的方法關(guān)注視覺信息的提取和對(duì)圖片本身的理解。統(tǒng)計(jì)先驗(yàn)可能在刷數(shù)據(jù)集上有效,但不本質(zhì)。
相比于雙階段模型,單階段模型目前能達(dá)到更好的效果。這可能得益于單階段模型有關(guān)于關(guān)系的監(jiān)督信號(hào)可以直接傳遞到feature map端,使得關(guān)系信號(hào)參與了更多的模型學(xué)習(xí),有利于對(duì)關(guān)系的捕捉。但是由于本文只提出了若干基線模型,并沒有針對(duì)單階段或雙階段模型進(jìn)行調(diào)優(yōu),因此目前還不能說單階段模型一定強(qiáng)于雙階段模型。這還希望參賽選手繼續(xù)探索。
相比于傳統(tǒng)的SGG任務(wù),PSG任務(wù)基于全景分割圖進(jìn)行關(guān)系配對(duì),要求對(duì)于每個(gè)關(guān)系中主賓物體的id 進(jìn)行確認(rèn)。相比于雙階段直接預(yù)測全景分割圖完成物體id 的劃分,單階段模型需要通過一系列后處理完成這一步驟。若基于現(xiàn)有單階段模型進(jìn)一步改進(jìn)升級(jí),如何在單階段模型中更有效的完成物體id的確認(rèn),生成更好的全景分割圖,仍是一個(gè)值得探索的話題。
最后,歡迎大家試用HuggingFace:
Demo:https://huggingface.co/spaces/ECCV2022/PSG
關(guān)于圖像生成的展望
最近大火的基于文字輸入的生成模型(如DALL-E 2) 著實(shí)令人驚嘆,但是也有研究表明,這些生成模型可能只是把文本中的幾個(gè)實(shí)體粘合在一起,甚至都沒有理解文本中表述的空間關(guān)系。如下圖,雖然輸入的是「杯子在勺子上」,生成的圖片仍然都是「勺子在杯子里」。
正巧,PSG數(shù)據(jù)集標(biāo)注了基于mask的scene graph關(guān)系。作者可以利用scene graph和全景分割mask作為訓(xùn)練對(duì),得到一個(gè)text2mask的模型,在基于mask生成更細(xì)致的圖片。因此,PSG數(shù)據(jù)集有可能也為注重關(guān)系的圖像生成提供了潛在的解決方案。
P.S. 旨在激勵(lì)領(lǐng)域共同探索全面的場景識(shí)別的「PSG Challenge」火熱進(jìn)行中,百萬獎(jiǎng)金等你來拿!Competition Link: https://www.cvmart.net/race/10349/base