BEV的上下求索之路 | 智加提出DualBEV:基于雙向統(tǒng)一權(quán)重的BEV檢測(cè)(ECCV'24)
論文鏈接:https://arxiv.org/pdf/2409.02108
Github鏈接:https://github.com/xw-hu/Unveiling-Deep-Shadows
亮點(diǎn)直擊
- 深度學(xué)習(xí)時(shí)代陰影分析的全面綜述。本文對(duì)陰影分析進(jìn)行了深入的綜述,涵蓋了任務(wù)、監(jiān)督級(jí)別和學(xué)習(xí)范式等各個(gè)方面。本文的分類旨在增強(qiáng)研究人員對(duì)陰影分析及其在深度學(xué)習(xí)領(lǐng)域應(yīng)用中的關(guān)鍵特征的理解。
- 現(xiàn)有方法的公平比較。目前,現(xiàn)有方法之間的比較存在輸入大小、評(píng)估指標(biāo)、不同數(shù)據(jù)集和實(shí)現(xiàn)平臺(tái)的不一致性。本文標(biāo)準(zhǔn)化了實(shí)驗(yàn)設(shè)置,并在同一平臺(tái)上對(duì)各種方法進(jìn)行了實(shí)驗(yàn),以確保公平比較。此外,實(shí)驗(yàn)將在新修正的數(shù)據(jù)集上進(jìn)行,其中的噪聲標(biāo)簽或真實(shí)圖像已被糾正。
- 模型大小、速度與性能關(guān)系的探索。與以往僅關(guān)注最終性能指標(biāo)的陰影分析研究不同,本文還考察了模型大小和推理速度,強(qiáng)調(diào)了這些特征與性能之間的復(fù)雜相互作用。
- 跨數(shù)據(jù)集泛化研究。認(rèn)識(shí)到陰影數(shù)據(jù)集中的固有偏差,本文對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行了跨數(shù)據(jù)集泛化研究,以評(píng)估深度模型在不同數(shù)據(jù)集上的泛化能力,為這些模型的魯棒性提供了寶貴的見(jiàn)解。
- 開(kāi)放問(wèn)題和未來(lái)方向的概述,涉及AIGC和大型模型。本文探討了陰影分析中的開(kāi)放問(wèn)題,重點(diǎn)關(guān)注圖像和視頻感知、編輯以及對(duì)AIGC和大型視覺(jué)/語(yǔ)言模型的影響。本文的見(jiàn)解建議了未來(lái)的研究方向,為陰影分析及其應(yīng)用的進(jìn)展提供了路線圖。
- 公開(kāi)可用的結(jié)果、訓(xùn)練模型和評(píng)估指標(biāo)。本文提供了在公平比較設(shè)置下的結(jié)果、訓(xùn)練模型和評(píng)估指標(biāo),以及新的數(shù)據(jù)集,以促進(jìn)未來(lái)的研究和該領(lǐng)域的進(jìn)步。結(jié)合這些貢獻(xiàn),本文提供了全面的綜述,使其與早期的評(píng)審論文有所區(qū)別。
陰影是在光線遇到障礙物時(shí)形成的,導(dǎo)致照明區(qū)域減弱。在計(jì)算機(jī)視覺(jué)中,陰影檢測(cè)、去除和生成對(duì)于增強(qiáng)場(chǎng)景理解、改善圖像質(zhì)量、確保視頻編輯中的視覺(jué)一致性以及提升虛擬環(huán)境至關(guān)重要。本文對(duì)過(guò)去十年中深度學(xué)習(xí)領(lǐng)域內(nèi)圖像和視頻的陰影檢測(cè)、去除和生成進(jìn)行了全面的綜述,涵蓋了任務(wù)、深度模型、數(shù)據(jù)集和評(píng)估指標(biāo)。本文的主要貢獻(xiàn)包括對(duì)陰影分析的全面綜述、實(shí)驗(yàn)比較的標(biāo)準(zhǔn)化、模型大小、速度與性能之間關(guān)系的探索、跨數(shù)據(jù)集的泛化研究、未解決問(wèn)題和未來(lái)方向的識(shí)別,以及提供公開(kāi)資源以支持進(jìn)一步研究。
陰影檢測(cè)
陰影檢測(cè)預(yù)測(cè)二進(jìn)制 mask,指示輸入圖像或視頻中的陰影區(qū)域。定位陰影使得陰影編輯成為可能,并促進(jìn)陰影區(qū)域分析,這對(duì)于對(duì)象檢測(cè)和跟蹤等高級(jí)計(jì)算機(jī)視覺(jué)任務(wù)至關(guān)重要。本小節(jié)提供了針對(duì)圖像和視頻的陰影檢測(cè)深度模型的全面概述。此外,它還總結(jié)了用于評(píng)估陰影檢測(cè)方法的常用數(shù)據(jù)集和指標(biāo)。為了評(píng)估不同模型在各個(gè)方面的有效性,本文進(jìn)行了實(shí)驗(yàn)并呈現(xiàn)了比較結(jié)果。
用于圖像陰影檢測(cè)的深度模型
下表1展示了不同方法的基本屬性,為理解深度學(xué)習(xí)領(lǐng)域中圖像陰影檢測(cè)的全貌提供了便利的參考。最初,早期的深度學(xué)習(xí)方法使用深度卷積神經(jīng)網(wǎng)絡(luò)根據(jù)輸入圖像預(yù)測(cè)陰影特征,包括陰影邊界和局部陰影塊。隨后,研究重點(diǎn)轉(zhuǎn)向?qū)iT(mén)設(shè)計(jì)的端到端深度神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)能夠直接從陰影圖像生成陰影 mask。另一種方法是采用多任務(wù)學(xué)習(xí),其中模型被訓(xùn)練以同時(shí)執(zhí)行陰影檢測(cè)和陰影去除。之后,提出了基于半監(jiān)督、自監(jiān)督和大型視覺(jué)模型的方法,以進(jìn)一步提高在各種場(chǎng)景下的性能。在接下來(lái)的小節(jié)中,本文將詳細(xì)描述每個(gè)類別中的方法。
組件學(xué)習(xí)
早期的方法主要采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)生成陰影特征,然后使用統(tǒng)計(jì)建模方法(例如,條件隨機(jī)場(chǎng)(CRF))來(lái)獲得最終的陰影 mask。
- CNN-CRF 采用多個(gè)CNN在超像素級(jí)別和物體邊界上學(xué)習(xí)特征,然后使用CRF模型生成平滑的陰影輪廓。
- SCNN-LinearOpt 使用CNN捕捉陰影邊緣的局部結(jié)構(gòu)及相關(guān)特征,然后制定最小二乘優(yōu)化來(lái)預(yù)測(cè)陰影mask。
- Stacked-CNN 使用全卷積神經(jīng)網(wǎng)絡(luò)(FCN)輸出圖像級(jí)陰影先驗(yàn)圖,隨后使用補(bǔ)丁CNN生成局部陰影mask。然后,使用加權(quán)平均融合多個(gè)預(yù)測(cè)結(jié)果。
- Patched-CNN 首先采用支持向量機(jī)與統(tǒng)計(jì)特征來(lái)獲取陰影先驗(yàn)圖,然后使用CNN預(yù)測(cè)補(bǔ)丁的陰影概率圖。
使用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)陰影特征僅在早期方法中采用。以下類別中的深度模型均為端到端訓(xùn)練。
單任務(wù)學(xué)習(xí)
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,方法采用端到端的深度模型進(jìn)行陰影檢測(cè),通過(guò)直接從輸入的陰影圖像預(yù)測(cè)輸出的陰影 mask。
- scGAN 是一種條件生成對(duì)抗網(wǎng)絡(luò),具有可調(diào)的敏感性參數(shù),用于調(diào)節(jié)預(yù)測(cè)陰影 mask 中陰影像素的數(shù)量。
- DSC 構(gòu)建了一個(gè)方向感知空間上下文(DSC)模塊,以方向感知的方式分析圖像上下文。該模塊在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中使用,生成多尺度陰影 mask ,并將其合并為最終的陰影 mask 。
- DC-DSPF 堆疊多個(gè)并行融合分支以構(gòu)建網(wǎng)絡(luò),該網(wǎng)絡(luò)以深度監(jiān)督的方式進(jìn)行訓(xùn)練,然后使用密集級(jí)聯(lián)學(xué)習(xí)方案對(duì)預(yù)測(cè)結(jié)果進(jìn)行遞歸精煉。
- CPNet 在 U-Net中添加了殘差連接來(lái)識(shí)別陰影區(qū)域。
- A+D Net 使用一個(gè)衰減器(A-Net)生成具有衰減陰影的真實(shí)圖像,作為額外的困難訓(xùn)練樣本,這些樣本與原始訓(xùn)練數(shù)據(jù)一起用于訓(xùn)練檢測(cè)器(D-Net)以預(yù)測(cè)陰影 mask 。值得注意的是,這是一個(gè)快速陰影檢測(cè)器,能夠?qū)崿F(xiàn)實(shí)時(shí)性能。
- BDRAR 引入了遞歸注意殘差模塊,以結(jié)合來(lái)自相鄰 CNN 層的特征,并學(xué)習(xí)一個(gè)注意力圖以遞歸選擇和精煉殘差上下文特征。此外,它開(kāi)發(fā)了一個(gè)雙向特征金字塔網(wǎng)絡(luò),以聚合來(lái)自不同 CNN 層的陰影特征。
- DSDNet 設(shè)計(jì)了分心感知陰影(DS)模塊,通過(guò)明確預(yù)測(cè)假陽(yáng)性和假陰性來(lái)學(xué)習(xí)分心感知和區(qū)分特征。值得注意的是,預(yù)測(cè)的假陽(yáng)性和假陰性來(lái)自其基礎(chǔ)模型和其他陰影檢測(cè)器。
- CPAdv-Net 在 U-Net 的編碼器層和解碼器層之間設(shè)計(jì)了一個(gè)跳躍連接中的映射方案。此外,它引入了兩個(gè)對(duì)抗樣本生成器,從原始圖像生成用于訓(xùn)練的數(shù)據(jù)。
- DSSDNet 采用編碼器-解碼器殘差結(jié)構(gòu)和深度監(jiān)督漸進(jìn)融合模塊,以預(yù)測(cè)航空?qǐng)D像上的陰影 mask 。
- FSDNet 是一個(gè)快速陰影檢測(cè)網(wǎng)絡(luò),采用 DSC 模塊來(lái)聚合全局特征,并構(gòu)建一個(gè)細(xì)節(jié)增強(qiáng)模塊,以在低級(jí)特征圖中提取陰影細(xì)節(jié)。它使用 MobileNet V2 作為骨干網(wǎng)絡(luò),以實(shí)現(xiàn)實(shí)時(shí)性能。
- ECA 采用多種并行卷積,使用不同的卷積核來(lái)增強(qiáng)在適當(dāng)尺度下的有效物體上下文。
- RCMPNet 提出了相對(duì)置信度圖回歸的方法,利用一個(gè)預(yù)測(cè)網(wǎng)絡(luò)來(lái)評(píng)估陰影檢測(cè)方法的可靠性,并結(jié)合基于注意力的長(zhǎng)短期記憶(LSTM)子模塊以增強(qiáng)置信度圖的預(yù)測(cè)。
- SDCM 采用兩個(gè)并行分支,分別生成陰影和非陰影 mask ,利用它們的互補(bǔ)特性。在訓(xùn)練過(guò)程中,通過(guò)使用負(fù)激活、身份重建損失和區(qū)分性損失來(lái)提升陰影檢測(cè)結(jié)果的準(zhǔn)確性。
- TransShadow 使用多級(jí)特征感知模塊,利用 Transformer 來(lái)區(qū)分陰影和非陰影區(qū)域,并結(jié)合漸進(jìn)上采樣和跳躍連接以增強(qiáng)特征提取效果。
多任務(wù)學(xué)習(xí)
一些方法采用端到端的深度神經(jīng)網(wǎng)絡(luò),不僅執(zhí)行 mask 預(yù)測(cè)任務(wù),還執(zhí)行其他任務(wù),例如預(yù)測(cè)無(wú)陰影圖像以進(jìn)行陰影去除。這些多任務(wù)方法受益于相互之間的改進(jìn)或?qū)﹃幱皥D像的更好理解。
- ST-CGAN 使用兩個(gè)順序的條件 GAN,其中第一個(gè)網(wǎng)絡(luò)預(yù)測(cè)陰影 mask ,第二個(gè)網(wǎng)絡(luò)通過(guò)將陰影圖像和陰影 mask 作為輸入來(lái)預(yù)測(cè)無(wú)陰影圖像。
- ARGAN 開(kāi)發(fā)了注意力遞歸生成對(duì)抗網(wǎng)絡(luò),用于陰影檢測(cè)和去除。生成器生成陰影注意力圖,并通過(guò)多個(gè)逐步的粗到細(xì)的步驟恢復(fù)無(wú)陰影圖像。此外,ARGAN 可以使用未標(biāo)記的數(shù)據(jù)以半監(jiān)督的方式進(jìn)行訓(xùn)練,利用 GAN 中的對(duì)抗損失。
- R2D 通過(guò)利用在陰影去除過(guò)程中學(xué)習(xí)到的陰影特征來(lái)增強(qiáng)陰影檢測(cè)性能。所提出的 FCSD-Net 架構(gòu)集成到 R2D 框架中,重點(diǎn)通過(guò)特別設(shè)計(jì)的檢測(cè)器模塊提取細(xì)致的上下文特征。它使用假陽(yáng)性和假陰性以及 DSDNet中的 DS 模塊。
- LRA 和 LDRA 在堆疊范式中優(yōu)化殘差,以同時(shí)解決陰影檢測(cè)和去除的挑戰(zhàn),指導(dǎo)優(yōu)先重建陰影區(qū)域,并對(duì)最終的混合/顏色校正做出貢獻(xiàn),同時(shí)減少開(kāi)銷(xiāo)并提高各種主干架構(gòu)的準(zhǔn)確性。它生成一個(gè)配對(duì)數(shù)據(jù)集,其中包含陰影圖像、無(wú)陰影圖像和陰影 mask ,以進(jìn)行預(yù)訓(xùn)練。
- SDDNet 引入了樣式引導(dǎo)的雙層解耦網(wǎng)絡(luò)用于陰影檢測(cè),利用特征分離和重組模塊通過(guò)差異化監(jiān)督來(lái)分離陰影和背景層。同步聯(lián)合訓(xùn)練確保了分離的可靠性,而陰影樣式過(guò)濾模塊引入了樣式約束(由 Gram 矩陣 表示),增強(qiáng)了特征解耦的質(zhì)量。
- Sun 等人 提出了自適應(yīng)照明映射 (AIM) 模塊,該模塊將原始圖像轉(zhuǎn)換為具有不同強(qiáng)度的 sRGB 圖像,并配合利用多尺度對(duì)比信息的陰影檢測(cè)模塊。反饋機(jī)制指導(dǎo) AIM 以陰影感知的方式渲染具有不同照明的 sRGB 圖像。
半監(jiān)督學(xué)習(xí)
訓(xùn)練深度模型進(jìn)行陰影檢測(cè)需要標(biāo)記的陰影 mask,因此有限的訓(xùn)練數(shù)據(jù)量會(huì)影響深度模型在復(fù)雜情況下的性能。因此,提出了半監(jiān)督陰影檢測(cè)器,以便在標(biāo)記和未標(biāo)記的陰影圖像上訓(xùn)練模型。
- ARGAN+SS 如前文所述。
- MTMT-Net 是一種成功的半監(jiān)督陰影檢測(cè)方法,它基于教師-學(xué)生(mean teacher)架構(gòu)構(gòu)建了一個(gè)多任務(wù)平均教師網(wǎng)絡(luò)進(jìn)行半監(jiān)督學(xué)習(xí)。教師和學(xué)生網(wǎng)絡(luò)以多任務(wù)學(xué)習(xí)的方式檢測(cè)陰影區(qū)域、陰影邊緣和陰影數(shù)量。
- SDTR 和 SDTR+ 分別表示半監(jiān)督和弱監(jiān)督陰影檢測(cè)器。新陰影圖像的處理過(guò)程涉及通過(guò)可靠樣本選擇方案識(shí)別不可靠樣本。隨后,可以選擇重新訓(xùn)練可靠樣本、重新推斷不可靠樣本以獲得精確的偽 mask,或采用靈活的注釋(例如,框、點(diǎn)、涂鴉),并獲得見(jiàn)解以提高深度模型的泛化能力。利用 MiT-B2 主干,SDTR 和 SDTR+ 都能實(shí)時(shí)運(yùn)行。
自我監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)利用數(shù)據(jù)本身作為監(jiān)督信號(hào)來(lái)學(xué)習(xí)深度特征。這個(gè)理念可以在現(xiàn)有的訓(xùn)練數(shù)據(jù)集上實(shí)現(xiàn),也可以使用額外的數(shù)據(jù)。
- FDRNet 設(shè)計(jì)了一種特征分解和重加權(quán)方案,以減輕深度陰影檢測(cè)器對(duì)強(qiáng)度線索的偏見(jiàn)。它首先采用兩個(gè)自監(jiān)督任務(wù),通過(guò)使用調(diào)整亮度的圖像作為監(jiān)督來(lái)學(xué)習(xí)強(qiáng)度變化和強(qiáng)度不變的特征。然后,它使用累積學(xué)習(xí)對(duì)特征進(jìn)行重加權(quán)。
- SILT 構(gòu)建了一個(gè)陰影感知迭代標(biāo)簽調(diào)整框架,具有陰影感知的數(shù)據(jù)增強(qiáng)、用于 mask 預(yù)測(cè)的全局-局部融合、陰影感知的過(guò)濾,以及整合零標(biāo)記的無(wú)陰影圖像以提高非陰影區(qū)域的識(shí)別能力。它收集了一些互聯(lián)網(wǎng)圖像(暗物體和無(wú)陰影圖像),進(jìn)一步幫助訓(xùn)練網(wǎng)絡(luò)以區(qū)分陰影和暗物體。該框架使用了多種基礎(chǔ)網(wǎng)絡(luò)作為主干,包括 U-Net、ResNeXt101、EfficientNet 和 PVT v2。
大型視覺(jué)模型
現(xiàn)代大型視覺(jué)模型在一般視覺(jué)任務(wù)中表現(xiàn)出色。例如,“任意分割”模型(SAM)在多種物體類別的圖像分割中展現(xiàn)了令人印象深刻的零樣本性能。然而,在復(fù)雜背景和復(fù)雜場(chǎng)景中處理陰影仍然很困難。為了提高SAM在陰影檢測(cè)方面的性能,許多方法旨在僅微調(diào)新添加的或部分結(jié)構(gòu)。
- SAM-Adapter 將SAM作為其骨干網(wǎng)絡(luò),通過(guò)整合定制信息來(lái)增強(qiáng)性能。這涉及在SAM編碼器的每一層中集成兩個(gè)多層感知機(jī)(MLP)作為適配器,同時(shí)微調(diào)適配器和SAM mask 解碼器。
- ShadowSAM 在多個(gè)SAM編碼器層中集成兩個(gè)MLP和一個(gè)GELU激活函數(shù)作為提示器。它使用非深度學(xué)習(xí)方法生成偽 mask ,并通過(guò)照明和紋理引導(dǎo)的更新策略來(lái)改善這些偽 mask。該方法包括用于增量課程學(xué)習(xí)的 mask 多樣性指標(biāo)。ShadowSAM支持無(wú)監(jiān)督(使用偽 mask)和監(jiān)督模式的訓(xùn)練。
- AdapterShadow 將可訓(xùn)練的適配器插入到SAM的凍結(jié)圖像編碼器中進(jìn)行微調(diào)。此外,引入了一種網(wǎng)格采樣方法,以自動(dòng)從預(yù)測(cè)的粗略陰影 mask 生成密集點(diǎn)提示。請(qǐng)注意,SAM的骨干網(wǎng)絡(luò)是ViT-H,輔助網(wǎng)絡(luò)的骨干是EfficientNet-B1。
用于視頻陰影檢測(cè)的深度模型
視頻陰影檢測(cè)處理動(dòng)態(tài)場(chǎng)景,并在視頻幀中生成一致的陰影 mask 。學(xué)習(xí)導(dǎo)向的數(shù)據(jù)集和視頻陰影檢測(cè)方法由 TVSD-Net 制定。下表 2 總結(jié)了所調(diào)查論文的基本屬性。
- TVSD-Net 作為基于深度學(xué)習(xí)的視頻陰影檢測(cè)的先驅(qū),TVSD-Net 采用三重并行網(wǎng)絡(luò)協(xié)同工作,以在視頻內(nèi)部和視頻間層面獲得區(qū)分性表示。該網(wǎng)絡(luò)包括一個(gè)雙門(mén)協(xié)同注意模塊,用于約束同一視頻中相鄰幀的特征,并引入輔助相似性損失,以捕捉不同視頻之間的語(yǔ)義信息。
- Hu et al. 該方法采用基于光流的扭曲模塊對(duì)幀之間的特征進(jìn)行對(duì)齊和組合,應(yīng)用于多個(gè)深度網(wǎng)絡(luò)層,以提取相鄰幀的信息,涵蓋局部細(xì)節(jié)和高級(jí)語(yǔ)義信息。
- STICT 該方法使用均值教師學(xué)習(xí),結(jié)合標(biāo)記圖像和未標(biāo)記視頻幀,實(shí)現(xiàn)實(shí)時(shí)陰影檢測(cè)。它引入時(shí)空插值一致性訓(xùn)練,以提高泛化能力和時(shí)間一致性。
- SC-Cor 該方法采用對(duì)應(yīng)學(xué)習(xí)以提高細(xì)粒度的像素級(jí)相似性,采用像素到集合的方式,精細(xì)化幀間陰影區(qū)域內(nèi)的像素對(duì)齊。它增強(qiáng)了時(shí)間一致性,并無(wú)縫地作為現(xiàn)有陰影檢測(cè)器中的即插即用模塊,且沒(méi)有計(jì)算成本。
- STF-Net 該方法使用 Res2Net50 作為骨干網(wǎng)絡(luò),在實(shí)時(shí)視頻中高效檢測(cè)陰影,引入一個(gè)簡(jiǎn)單而有效的時(shí)空融合模塊,以利用時(shí)間和空間信息。
- SCOTCH 和 SODA 這兩個(gè)框架形成了一個(gè)視頻陰影檢測(cè)體系。SCOTCH 使用監(jiān)督對(duì)比損失來(lái)增強(qiáng)陰影特征的區(qū)分能力,而 SODA 應(yīng)用時(shí)空聚合機(jī)制來(lái)管理陰影變形。這種組合改善了特征學(xué)習(xí)和時(shí)空動(dòng)態(tài)。
- ShadowSAM 該方法對(duì) SAM進(jìn)行微調(diào),以使用邊界框作為提示檢測(cè)第一幀中的陰影,并采用以 MobileNetV2 為骨干的長(zhǎng)短期網(wǎng)絡(luò)在視頻中傳播 mask,利用長(zhǎng)短期注意力提升性能。
- RSM-Net 該方法引入了參考視頻陰影檢測(cè)任務(wù),提出了一種參考陰影跟蹤記憶網(wǎng)絡(luò),利用雙軌協(xié)同記憶和混合先驗(yàn)陰影注意力,根據(jù)描述性自然語(yǔ)言提示在視頻中分割特定陰影。
- TBGDiff 這是第一個(gè)用于視頻陰影檢測(cè)的擴(kuò)散模型,通過(guò)提取時(shí)間引導(dǎo)和邊界信息,使用雙尺度聚合來(lái)處理時(shí)間信號(hào),并通過(guò)時(shí)空編碼embedding進(jìn)行邊界上下文提取和時(shí)間線時(shí)間引導(dǎo)。
- Duan et al. 該方法使用兩階段訓(xùn)練范式,首先使用預(yù)訓(xùn)練的圖像域模型,并通過(guò)時(shí)間適應(yīng)模塊和空間適應(yīng)模塊將其調(diào)整為視頻域,以實(shí)現(xiàn)時(shí)間一致性,并整合高分辨率局部補(bǔ)丁與全局上下文特征。這兩個(gè)模塊采用類似 ControlNet的結(jié)構(gòu)。
陰影檢測(cè)數(shù)據(jù)集
接下來(lái),本文專門(mén)討論用于模型訓(xùn)練和評(píng)估的廣泛使用的數(shù)據(jù)集,省略其他用于額外半監(jiān)督/弱監(jiān)督訓(xùn)練的數(shù)據(jù)。
用于陰影檢測(cè)的圖像數(shù)據(jù)集
早期的數(shù)據(jù)集,例如UCF和UIUC,是為了使用手工特征訓(xùn)練傳統(tǒng)機(jī)器學(xué)習(xí)方法而準(zhǔn)備的。UCF包含245張圖像,其中117張是在多樣的戶外環(huán)境中拍攝的,包括校園和市區(qū)區(qū)域。剩余的圖像來(lái)自現(xiàn)有的數(shù)據(jù)集。每張圖像中的陰影都經(jīng)過(guò)精細(xì)的像素級(jí)手動(dòng)標(biāo)注,并由兩個(gè)人進(jìn)行了驗(yàn)證。UIUC有108張陰影圖像,帶有標(biāo)記的陰影 mask 和無(wú)陰影圖像,這是首次能夠在幾十張圖像上進(jìn)行陰影去除的定量評(píng)估。
后來(lái),收集了包含數(shù)千張陰影圖像的數(shù)據(jù)集,以訓(xùn)練深度學(xué)習(xí)模型。
- SBU 和 SBU-Refine: SBU是一個(gè)大規(guī)模的陰影數(shù)據(jù)集,包含4,087張訓(xùn)練圖像和638張測(cè)試圖像,使用了一種懶惰標(biāo)注方法,用戶最初粗略地標(biāo)記陰影和非陰影區(qū)域,然后通過(guò)優(yōu)化算法對(duì)這些標(biāo)簽進(jìn)行細(xì)化。SBU-Refine手動(dòng)重新標(biāo)記測(cè)試集,并通過(guò)算法細(xì)化訓(xùn)練集中的噪聲標(biāo)簽。
- ISTD: 提供陰影圖像、無(wú)陰影圖像和陰影 mask,適用于陰影檢測(cè)和去除任務(wù)。包含1,330張訓(xùn)練圖像和540張測(cè)試圖像,以及135個(gè)不同的背景場(chǎng)景。
- CUHK-Shadow: 是一個(gè)大型數(shù)據(jù)集,包含10,500張陰影圖像,分為7,350張用于訓(xùn)練,1,050張用于驗(yàn)證,2,100張用于測(cè)試。它包括五個(gè)類別:ShadowADE、ShadowKITTI、Shadow-MAP、ShadowUSR和Shadow-WEB。
- SynShadow: 是一個(gè)合成數(shù)據(jù)集,包含10,000組陰影/無(wú)陰影/遮罩圖像三元組。利用陰影照明模型和3D模型生成,適用于預(yù)訓(xùn)練或零樣本學(xué)習(xí)。
- SARA: 包含7,019張?jiān)紙D像及其陰影 mask ,分為6,143張用于訓(xùn)練和876張用于測(cè)試,涵蓋17個(gè)類別和11個(gè)背景。
用于陰影檢測(cè)的視頻數(shù)據(jù)集
- ViSha: 包含120個(gè)多樣化視頻,提供像素級(jí)陰影標(biāo)注的二值 mask ??傆?jì)11,685幀,390秒的視頻,標(biāo)準(zhǔn)化為30幀每秒,訓(xùn)練和測(cè)試集按5:7比例劃分。
- RVSD: 從ViSha中選擇86個(gè)視頻,重新標(biāo)注為單獨(dú)的陰影實(shí)例,并添加自然語(yǔ)言描述提示,通過(guò)驗(yàn)證確保質(zhì)量。
- CVSD: 復(fù)雜視頻陰影數(shù)據(jù)集,包含196個(gè)視頻片段,涉及149個(gè)類別,具有多樣的陰影模式。包括278,504個(gè)標(biāo)注的陰影區(qū)域和19,757幀的陰影 mask ,適用于復(fù)雜場(chǎng)景。
評(píng)估指標(biāo)
圖像陰影檢測(cè)的評(píng)估指標(biāo)
- BER(平衡錯(cuò)誤率)是一種常用的評(píng)估陰影檢測(cè)性能的指標(biāo)。在這種評(píng)估中,陰影和非陰影區(qū)域的貢獻(xiàn)相等,無(wú)論它們的相對(duì)面積如何。BER的計(jì)算公式為:
其中,、、 和 分別表示真正例、真負(fù)例、假正例和假負(fù)例。為了計(jì)算這些值,首先將預(yù)測(cè)的陰影 mask 量化為二值 mask。當(dāng)像素值超過(guò)0.5時(shí)設(shè)為1,否則設(shè)為0。然后將此二值 mask 與真實(shí) mask 進(jìn)行比較。BER值越低,檢測(cè)結(jié)果越有效。有時(shí)還會(huì)分別提供陰影和非陰影區(qū)域的BER值。
- -measure 被提出用于評(píng)估陰影 mask 中的非二值預(yù)測(cè)值。該指標(biāo)以加權(quán)方式計(jì)算精準(zhǔn)率和召回率,較高的值表示更優(yōu)的結(jié)果。
視頻陰影檢測(cè)的評(píng)估指標(biāo)
視頻陰影檢測(cè)中使用深度學(xué)習(xí)的首篇論文采用平均絕對(duì)誤差(MAE)、F-測(cè)量()、交并比(IoU)和平衡錯(cuò)誤率(BER)來(lái)評(píng)估性能。然而,評(píng)估僅限于單個(gè)圖像(幀級(jí)別),未能捕捉時(shí)間穩(wěn)定性。Ding等人引入了時(shí)間穩(wěn)定性指標(biāo)。
時(shí)間穩(wěn)定性(TS) 計(jì)算兩個(gè)相鄰幀的真實(shí)標(biāo)簽之間的光流,記為和。雖然ARFlow最初用于光流計(jì)算,但本文采用了RAFT。這是因?yàn)殛幱暗倪\(yùn)動(dòng)在RGB幀中難以捕捉。定義為和之間的光流。然后,通過(guò)光流對(duì)進(jìn)行變形得到的重建結(jié)果記為。是視頻幀的數(shù)量。接下來(lái),視頻陰影檢測(cè)的時(shí)間穩(wěn)定性基于相鄰幀之間的流變形交并比(IoU)進(jìn)行測(cè)量:
實(shí)驗(yàn)結(jié)果
在已有方法的原始論文中報(bào)告的比較結(jié)果在輸入尺寸、評(píng)估指標(biāo)、數(shù)據(jù)集和實(shí)現(xiàn)平臺(tái)上存在不一致。因此,本文標(biāo)準(zhǔn)化實(shí)驗(yàn)設(shè)置,并在相同平臺(tái)上對(duì)各種方法進(jìn)行實(shí)驗(yàn),以確保公平比較。此外,本文進(jìn)一步在多個(gè)方面比較這些方法,包括模型的大小和速度,并進(jìn)行跨數(shù)據(jù)集評(píng)估,以評(píng)價(jià)其泛化能力。
圖像陰影檢測(cè)
整體性能基準(zhǔn)測(cè)試結(jié)果。本文使用 SBU-Refine和 CUHK-Shadow來(lái)評(píng)估各種方法的性能。SBU-Refine 通過(guò)糾正錯(cuò)誤標(biāo)記的 mask 提高了評(píng)估準(zhǔn)確性,從而減少了比較方法中的過(guò)擬合問(wèn)題。CUHK-Shadow 是最大的真實(shí)數(shù)據(jù)集,提供了多樣化的場(chǎng)景以進(jìn)行全面測(cè)試。比較的方法列在下表 3 中,本文排除了那些沒(méi)有代碼可用的方法。除了 DSC(在 PyTorch 中使用 ResNeXt101 主干實(shí)現(xiàn))外,本文使用原始源代碼重新訓(xùn)練了這些方法。所有比較方法都省略了后處理,例如 CRF。先前的方法采用了不同的輸入尺寸。在本文中,本文將輸入尺寸設(shè)置為 和 ,以在兩種分辨率下呈現(xiàn)結(jié)果。本文采用平衡錯(cuò)誤率(BER)作為評(píng)估指標(biāo),使用 Python 代碼計(jì)算。報(bào)告了陰影區(qū)域(BERS)和非陰影區(qū)域(BERNS)的 BER。為公平比較,評(píng)估時(shí)結(jié)果被調(diào)整到與真實(shí)值相同的分辨率。
上表 3 和下圖 1 展示了每種方法的準(zhǔn)確性、運(yùn)行時(shí)間和參數(shù)。本文可以觀察到:
- 一些相對(duì)較舊的方法比最近的方法表現(xiàn)更好,表明在原始 SBU 數(shù)據(jù)集上存在過(guò)擬合問(wèn)題;
- FSDNet 是唯一一個(gè)開(kāi)源(提供訓(xùn)練和測(cè)試代碼)的實(shí)時(shí)陰影檢測(cè)器,具有較少的參數(shù)和快速的推理速度;
- DSDNet 在其訓(xùn)練過(guò)程中結(jié)合了 DSC和 BDRAR的結(jié)果,并在性能上與最近的方法 SDDNet相當(dāng);
- 較大的輸入尺寸通常會(huì)帶來(lái)性能提升,但也需要更多時(shí)間;
- CUHK-Shadow 比 SBU-Refine 更具挑戰(zhàn)性。FDRNet在檢測(cè) CUHK-Shadow 中的陰影時(shí)對(duì)輸入分辨率特別敏感,其中包含復(fù)雜的陰影或更細(xì)的細(xì)節(jié),這些在更高分辨率的輸入()下更有利。
跨數(shù)據(jù)集泛化評(píng)估。 為了評(píng)估陰影檢測(cè)方法的泛化能力,本文通過(guò)使用在 SBU-Refine 訓(xùn)練集上訓(xùn)練的模型,檢測(cè) SRD 測(cè)試集上的陰影來(lái)進(jìn)行跨數(shù)據(jù)集評(píng)估。由于 SRD 在背景特征的復(fù)雜性上與 SBU 相似,因此被使用。請(qǐng)注意,這是首次在大規(guī)模數(shù)據(jù)集上評(píng)估泛化能力。
上表 3 中最右邊的三列顯示了結(jié)果,其中性能顯著下降,尤其是在陰影區(qū)域。這突顯了跨數(shù)據(jù)集評(píng)估對(duì)于穩(wěn)健陰影檢測(cè)的重要性。陰影區(qū)域的性能下降表明這些方法在應(yīng)對(duì) SRD 中存在的不同光照條件和復(fù)雜背景紋理時(shí)存在困難。未來(lái)的工作應(yīng)著重于提高陰影檢測(cè)模型的穩(wěn)健性,以更好地在不同數(shù)據(jù)集間泛化。
總結(jié) 實(shí)驗(yàn)結(jié)果表明,如何開(kāi)發(fā)一個(gè)高效且穩(wěn)健的模型,以在復(fù)雜場(chǎng)景下實(shí)現(xiàn)高精度的圖像陰影檢測(cè),仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
視頻陰影檢測(cè)
ViSha 數(shù)據(jù)集用于評(píng)估視頻陰影檢測(cè)方法,輸入尺寸為 512×512,參考 [88], [92]。由于 SAM 預(yù)訓(xùn)練模型的位置信息embedding,ShadowSAM 使用 1024×1024 的輸入尺寸。SC-Cor使用 DSDNet作為基礎(chǔ)網(wǎng)絡(luò)。STICT在訓(xùn)練中使用了額外的 SBU 數(shù)據(jù)集圖像。除了常用的圖像級(jí)評(píng)估指標(biāo) BER 和 IoU,本文還采用了通常被忽略的時(shí)間穩(wěn)定性(TS)。結(jié)果被調(diào)整為 512×512 用于 TS 的光流計(jì)算,并調(diào)整為真實(shí)分辨率用于其他指標(biāo)。
下表 4 顯示了結(jié)果,揭示了視頻陰影檢測(cè)方法的顯著優(yōu)勢(shì)和權(quán)衡。SCOTCH 和 SODA 展現(xiàn)了最佳的整體性能,具有最低的 BER 和最高的 AVG,而 ShadowSAM 雖然模型較大,但達(dá)到了最高的 IoU。STICT 因其最快的推理速度而突出,盡管 IoU 較低,但非常適合實(shí)時(shí)應(yīng)用。SC-Cor 和 TVSD-Net 展示了平衡的性能,BER、IoU 和 TS 得分適中。
總結(jié) 實(shí)驗(yàn)結(jié)果表明,在視頻陰影檢測(cè)中,如何在幀級(jí)準(zhǔn)確性、時(shí)間穩(wěn)定性、模型復(fù)雜性和推理速度之間實(shí)現(xiàn)最佳平衡仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
實(shí)例陰影檢測(cè)
這一部分介紹了另一個(gè)任務(wù),即實(shí)例陰影檢測(cè),其目標(biāo)是同時(shí)找到陰影及其關(guān)聯(lián)的物體。了解物體與其陰影之間的關(guān)系對(duì)許多圖像/視頻編輯應(yīng)用大有裨益,因?yàn)檫@樣可以輕松地同時(shí)操作物體及其關(guān)聯(lián)的陰影。這個(gè)任務(wù)最初在圖像層面由[108]提出,隨后在視頻中由[111]擴(kuò)展。下表5總結(jié)了所調(diào)查方法的基本特性。
用于圖像實(shí)例陰影檢測(cè)的深度模型
實(shí)例陰影檢測(cè)旨在檢測(cè)陰影實(shí)例及其投射每個(gè)陰影的相關(guān)物體實(shí)例。
- LISA:首先生成可能包含陰影/物體實(shí)例及其關(guān)聯(lián)的區(qū)域建議。對(duì)于每個(gè)建議,它預(yù)測(cè)單個(gè)陰影/物體實(shí)例的邊界框和 mask ,生成陰影-物體關(guān)聯(lián)(對(duì))的邊界框,并估計(jì)每個(gè)陰影-物體關(guān)聯(lián)的光照方向。最后通過(guò)將陰影和物體實(shí)例與其對(duì)應(yīng)的陰影-物體關(guān)聯(lián)配對(duì)來(lái)完成過(guò)程。
- SSIS:引入了一種單階段全卷積網(wǎng)絡(luò)架構(gòu),包含一個(gè)雙向關(guān)系學(xué)習(xí)模塊,用于直接端到端學(xué)習(xí)陰影和物體實(shí)例之間的關(guān)系。該模塊深入研究陰影-物體關(guān)聯(lián)對(duì),學(xué)習(xí)從每個(gè)陰影實(shí)例中心到其關(guān)聯(lián)物體實(shí)例中心的偏移向量,反之亦然。
- SSISv2:通過(guò)新技術(shù)擴(kuò)展了SSIS,包括可變形的MaskIoU頭、陰影感知的復(fù)制粘貼數(shù)據(jù)增強(qiáng)策略和邊界損失,旨在增強(qiáng)陰影/物體實(shí)例和陰影-物體關(guān)聯(lián)的分割效果。
用于視頻實(shí)例陰影檢測(cè)的深度模型
視頻實(shí)例陰影檢測(cè)不僅涉及在視頻幀中識(shí)別陰影及其關(guān)聯(lián)的物體,還需要在整個(gè)視頻序列中持續(xù)跟蹤每個(gè)陰影、物體及其關(guān)聯(lián),即使在關(guān)聯(lián)中陰影或物體部分暫時(shí)消失的情況下也要進(jìn)行處理。
- ViShadow 是一種半監(jiān)督框架,訓(xùn)練于標(biāo)注的圖像數(shù)據(jù)和未標(biāo)注的視頻序列上。初始訓(xùn)練通過(guò)中心對(duì)比學(xué)習(xí)在不同圖像中配對(duì)陰影和物體。隨后,利用未標(biāo)注視頻和相關(guān)的循環(huán)一致性損失來(lái)增強(qiáng)跟蹤。此外,它通過(guò)檢索機(jī)制解決了物體或陰影實(shí)例暫時(shí)消失的挑戰(zhàn)。
實(shí)例陰影檢測(cè)數(shù)據(jù)集
- SOBA 是首個(gè)用于圖像實(shí)例陰影檢測(cè)的數(shù)據(jù)集,包含1,100張圖像和4,293個(gè)標(biāo)注的陰影-物體關(guān)聯(lián)。最初,[108]收集了1,000張圖像,[110]又增加了100張具有挑戰(zhàn)性的陰影-物體對(duì)圖像用于專門(mén)測(cè)試。訓(xùn)練集包括840張圖像和2,999個(gè)對(duì)。陰影實(shí)例、物體實(shí)例及其關(guān)聯(lián)的標(biāo)簽使用Affinity Photo App和Apple Pencil進(jìn)行了精細(xì)標(biāo)注。
- SOBA-VID 是為視頻實(shí)例陰影檢測(cè)設(shè)計(jì)的數(shù)據(jù)集,包含292個(gè)視頻,共7,045幀。數(shù)據(jù)集分為232個(gè)視頻(5,863幀)的訓(xùn)練集和60個(gè)視頻(1,182幀)的測(cè)試集。值得注意的是,測(cè)試集為每個(gè)陰影和物體實(shí)例提供詳細(xì)的逐幀標(biāo)注,而訓(xùn)練集每四幀中標(biāo)注一幀。
評(píng)估指標(biāo)
- SOAP (陰影-物體平均精度)通過(guò)計(jì)算交并比(IoU)的平均精度(AP)來(lái)評(píng)估圖像實(shí)例陰影檢測(cè)性能。它擴(kuò)展了真正例的標(biāo)準(zhǔn),要求預(yù)測(cè)和真實(shí)陰影實(shí)例、物體實(shí)例以及陰影-物體關(guān)聯(lián)的 IoU 閾值大于或等于 。評(píng)估時(shí)使用特定的 值 0.5(SOAP50)或 0.75(SOAP75),并在 從 0.5 到 0.95 以 0.05 為增量的范圍內(nèi)計(jì)算平均值(SOAP)。
- SOAP-VID 通過(guò)將 SOAP 中的 IoU 替換為時(shí)空 IoU 來(lái)評(píng)估視頻實(shí)例陰影檢測(cè)。
實(shí)驗(yàn)結(jié)果
圖像實(shí)例陰影檢測(cè)評(píng)估
整體性能基準(zhǔn)結(jié)果 使用SOAP作為數(shù)據(jù)集,SOBA作為評(píng)估指標(biāo)。比較的方法列在下表6中。本文使用其原始代碼重新訓(xùn)練這些方法,將輸入圖像的短邊在訓(xùn)練期間調(diào)整為六個(gè)尺寸之一:640、672、704、736、768或800。在推理過(guò)程中,本文將短邊調(diào)整為800,確保長(zhǎng)邊不超過(guò)1333。
上表6展示了每種方法的準(zhǔn)確性、運(yùn)行時(shí)間和參數(shù)數(shù)量,觀察到:(i) SSISv2達(dá)到最佳性能,但速度最慢;(ii) 所有方法在處理復(fù)雜場(chǎng)景時(shí)性能有限;(iii) 復(fù)雜場(chǎng)景中的更多實(shí)例顯著降低推理速度。
跨數(shù)據(jù)集泛化評(píng)估 為評(píng)估泛化能力,本文進(jìn)行了跨數(shù)據(jù)集評(píng)估,將在SOBA訓(xùn)練集上訓(xùn)練的模型應(yīng)用于SOBA-VID測(cè)試集的視頻幀中檢測(cè)圖像實(shí)例陰影/物體。注意,沒(méi)有進(jìn)行時(shí)間一致性評(píng)估。下表7顯示了結(jié)果,觀察到:(i) 比較方法的趨勢(shì)與在SOBA測(cè)試集上觀察到的趨勢(shì)一致;(ii) 性能沒(méi)有顯著下降,展示了實(shí)例陰影檢測(cè)方法強(qiáng)大的泛化能力。
總結(jié) 實(shí)驗(yàn)結(jié)果表明,如何開(kāi)發(fā)一個(gè)高效的模型以準(zhǔn)確分割陰影和物體實(shí)例仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
視頻實(shí)例陰影檢測(cè)的評(píng)估 在此,本文展示ViShadow [111]在SOBA-VID測(cè)試集上的性能指標(biāo):SOAP-VID為39.6,關(guān)聯(lián)AP為61.5,實(shí)例AP為50.9。20幀的總推理時(shí)間為93.63秒,處理速度約為0.21幀每秒,模型參數(shù)為66.26M。
陰影去除
陰影去除旨在通過(guò)恢復(fù)陰影下的顏色生成無(wú)陰影的圖像或視頻幀。除了普通場(chǎng)景,文檔和面部陰影去除也是重要的特定應(yīng)用。本小節(jié)全面概述了用于陰影去除的深度模型,并總結(jié)了評(píng)估陰影去除方法的常用數(shù)據(jù)集和指標(biāo)。此外,為了評(píng)估各種方法的有效性,本文進(jìn)行了實(shí)驗(yàn)并展示了比較結(jié)果。
用于圖像陰影去除的深度模型
以下是下表 8 中關(guān)于圖像陰影去除的論文綜述。
按監(jiān)督級(jí)別分類的方法:
監(jiān)督學(xué)習(xí)。 監(jiān)督通?;谝韵聝煞N情況:
- 無(wú)陰影圖像
- 無(wú)陰影圖像和陰影 mask
(i)基于 CNN 的方法:
- CNN-CRF: 使用多個(gè) CNN 學(xué)習(xí)檢測(cè)陰影,并構(gòu)建貝葉斯模型去除陰影。深度網(wǎng)絡(luò)僅用于檢測(cè)陰影。
- DeshadowNet: 一種端到端網(wǎng)絡(luò),包含三個(gè)子網(wǎng)絡(luò),從全局視角提取圖像特征。
- SP+M-Net: 將陰影圖像建模為無(wú)陰影圖像、陰影參數(shù)和陰影啞光的組合,然后使用兩個(gè)獨(dú)立的深度網(wǎng)絡(luò)預(yù)測(cè)陰影參數(shù)和陰影啞光。在測(cè)試中,使用預(yù)測(cè)的陰影 mask 作為額外輸入。
- DSC: 引入方向感知空間上下文模塊分析具有方向感的圖像上下文。使用多個(gè) DSC 模塊的 CNN 生成殘差,與輸入結(jié)合生成無(wú)陰影圖像。
- DHAN+DA: 提出分層聚合注意力模型,結(jié)合多重上下文和來(lái)自陰影 mask 的注意力損失,使用 Shadow Matting GAN 網(wǎng)絡(luò)合成陰影圖像。
- SP+M+I-Net: 擴(kuò)展SP+M-Net,通過(guò)約束 SP-Net 和 M-Net 的搜索空間,添加半影重構(gòu)損失幫助 M-Net 關(guān)注陰影半影區(qū)域,利用 I-Net 進(jìn)行修復(fù),并引入平滑損失以調(diào)節(jié)啞光層??蓴U(kuò)展用于基于補(bǔ)丁的弱監(jiān)督陰影去除。
- Auto: 匹配陰影區(qū)域與非陰影區(qū)域的顏色生成過(guò)曝圖像,通過(guò)陰影感知的 FusionNet 合并輸入,生成自適應(yīng)內(nèi)核權(quán)重圖。最后,邊界感知的 RefineNet 減少陰影邊界的半影效果。
- CANet: 采用兩階段上下文感知方法:首先采用上下文補(bǔ)丁匹配模塊尋找潛在的陰影和非陰影補(bǔ)丁對(duì),促進(jìn)跨不同尺度的信息傳遞,并使用編碼器-解碼器進(jìn)行細(xì)化和最終化。
- EMDNet: 提出基于模型驅(qū)動(dòng)的網(wǎng)絡(luò)進(jìn)行陰影去除的迭代優(yōu)化。每個(gè)階段更新變換圖和無(wú)陰影圖像。
- BMNet: 雙射映射網(wǎng)絡(luò),集成陰影去除和陰影生成共享參數(shù)。具有用于仿射變換的可逆塊,并包括利用 U-Net 派生的陰影不變顏色進(jìn)行顏色恢復(fù)的陰影不變顏色指導(dǎo)模塊。
- G2C-DeshadowNet: 兩階段陰影去除框架,首先從灰度圖像中去除陰影,然后利用修改的自注意力塊優(yōu)化全局圖像信息進(jìn)行上色。
- SG-ShadowNet: 兩部分風(fēng)格引導(dǎo)的陰影去除網(wǎng)絡(luò):基于 U-Net 的粗略去陰影網(wǎng)絡(luò)進(jìn)行初步陰影處理,風(fēng)格引導(dǎo)的再去陰影網(wǎng)絡(luò)精細(xì)化結(jié)果,采用空間區(qū)域感知原型標(biāo)準(zhǔn)化層,將非陰影區(qū)域風(fēng)格渲染到陰影區(qū)域。
- MStructNet: 重建輸入圖像的結(jié)構(gòu)信息以去除陰影,利用無(wú)陰影的結(jié)構(gòu)先驗(yàn)進(jìn)行圖像級(jí)陰影消除,并結(jié)合多級(jí)結(jié)構(gòu)洞察。
- DNSR: 基于 U-Net 的架構(gòu),具有動(dòng)態(tài)卷積、曝光調(diào)整和蒸餾階段以增強(qiáng)特征圖。集成通道注意力和融合池以改善特征融合。
- PES: 使用金字塔輸入處理各種陰影大小和形狀,以 NAFNet為基礎(chǔ)框架。通過(guò)三階段訓(xùn)練過(guò)程,改變輸入和裁剪大小、損失函數(shù)、批量大小和迭代次數(shù),并通過(guò)模型湯精煉,在 NTIRE 2023 圖像陰影去除挑戰(zhàn)賽的 WSRD 中獲得最高 PSNR。
- Inpaint4shadow: 通過(guò)在修復(fù)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練來(lái)減少陰影殘留,利用雙編碼器處理陰影和陰影 mask 圖像,使用加權(quán)融合模塊合并特征,并通過(guò)解碼器生成無(wú)陰影圖像。
- LRA&LDRA: 通過(guò)優(yōu)化堆疊框架 中的殘差來(lái)改進(jìn)陰影檢測(cè)和去除。它通過(guò)混合和顏色校正重建陰影區(qū)域。研究表明,在包含配對(duì)陰影圖像、無(wú)陰影圖像和陰影 mask 的大規(guī)模合成數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練顯著提高了性能。
- SHARDS: 使用兩個(gè)網(wǎng)絡(luò)從高分辨率圖像中去除陰影:LSRNet 從陰影圖像及其 mask 生成低分辨率的無(wú)陰影圖像,而 DRNet 使用原始高分辨率陰影圖像細(xì)化細(xì)節(jié)。由于 LSRNet 在較低分辨率下處理主要的陰影去除工作,這一設(shè)計(jì)使 DRNet 保持輕量。
- PRNet: 將通過(guò)淺層六塊 ResNet 的陰影特征提取與通過(guò)再集成模塊和基于 ConvGRU 的更新 [155] 的漸進(jìn)陰影去除相結(jié)合。再集成模塊迭代增強(qiáng)輸出,更新模塊生成用于預(yù)測(cè)的陰影衰減特征。
(ii) 基于 GAN 的方法采用生成器預(yù)測(cè)無(wú)陰影圖像,判別器進(jìn)行判斷。
- ST-CGAN: 使用一個(gè)條件 GAN 檢測(cè)陰影,并利用另一個(gè)條件 GAN 去除陰影。
- AngularGAN: 使用 GAN 端到端預(yù)測(cè)無(wú)陰影圖像。該網(wǎng)絡(luò)在合成配對(duì)數(shù)據(jù)上進(jìn)行訓(xùn)練。
- ARGAN: 首先開(kāi)發(fā)一個(gè)陰影注意力檢測(cè)器生成注意力圖以標(biāo)記陰影,然后遞歸恢復(fù)較輕或無(wú)陰影的圖像。注意,它可以使用未標(biāo)記數(shù)據(jù)和 GAN 中的對(duì)抗損失以半監(jiān)督方式進(jìn)行訓(xùn)練。
- RIS-GAN: 在編碼器-解碼器結(jié)構(gòu)中采用四個(gè)生成器和三個(gè)判別器來(lái)生成負(fù)殘差圖像、中間陰影去除圖像、反向光照?qǐng)D和精細(xì)化陰影去除圖像。
- TBRNet: 是一個(gè)具有多任務(wù)協(xié)作的三分支網(wǎng)絡(luò)。它由三個(gè)專門(mén)分支組成:陰影圖像重建以保留輸入圖像細(xì)節(jié);陰影遮罩估計(jì)以識(shí)別陰影位置并調(diào)整光照;陰影去除以對(duì)齊陰影區(qū)域與非陰影區(qū)域的光照,從而生成無(wú)陰影圖像。
(iii) 基于Transformer的方法通過(guò)自注意力機(jī)制更好地捕獲全局上下文信息。
- CRFormer: 是一個(gè)混合CNN-Transformer框架,使用不對(duì)稱的CNN從陰影和非陰影區(qū)域提取特征,采用區(qū)域感知的交叉注意力機(jī)制聚合陰影區(qū)域特征,并使用U形網(wǎng)絡(luò)優(yōu)化結(jié)果。
- CNSNet: 采用雙重方法進(jìn)行陰影去除,集成了面向陰影的自適應(yīng)歸一化以保持陰影和非陰影區(qū)域之間的統(tǒng)計(jì)一致性,并使用Transformer進(jìn)行陰影感知聚合以連接陰影和非陰影區(qū)域的像素。
- ShadowFormer: 使用通道注意力編碼器-解碼器框架和陰影交互注意力機(jī)制,利用上下文信息分析陰影和非陰影塊之間的相關(guān)性。
- SpA-Former: 由Transformer層、系列聯(lián)合傅里葉變換殘差塊和雙輪聯(lián)合空間注意力組成。雙輪聯(lián)合空間注意力與DSC相同,但使用陰影 mask 進(jìn)行訓(xùn)練。
- TSRFormer: 是一個(gè)兩階段架構(gòu),采用不同的Transformer模型進(jìn)行全局陰影去除和內(nèi)容細(xì)化,有助于抑制殘留陰影并優(yōu)化內(nèi)容信息。SpA-Former和ShadowFormer是其骨干。
- ShadowMaskFormer: 將Transformer模型與補(bǔ)丁embedding中的陰影 mask 集成,采用0/1和-1/+1二值化以增強(qiáng)陰影區(qū)域的像素。
- ShadowRefiner: 使用基于ConvNeXt的U-Net提取空間和頻率表示,將受陰影影響的圖像映射到無(wú)陰影圖像。然后,它使用快速傅里葉注意力Transformer確保顏色和結(jié)構(gòu)一致性。
- HomoFormer: 是一個(gè)基于局部窗口的Transformer用于陰影去除,均勻化陰影退化。它使用隨機(jī)打亂操作及其逆操作來(lái)重新排列像素,使局部自注意力層能夠有效處理陰影并消除歸納偏差。新的深度卷積前饋網(wǎng)絡(luò)增強(qiáng)了位置建模并利用了圖像結(jié)構(gòu)。
(iv) 基于擴(kuò)散的方法有助于生成更具視覺(jué)吸引力的結(jié)果。
- ShadowDiffusion(J): 使用分類器驅(qū)動(dòng)的注意力進(jìn)行陰影檢測(cè),使用DINO-ViT特征的結(jié)構(gòu)保留損失進(jìn)行重建,并使用色度一致性損失確保無(wú)陰影區(qū)域的顏色均勻。
- ShadowDiffusion(G): 通過(guò)退化和擴(kuò)散生成先驗(yàn)逐步優(yōu)化輸出,并增強(qiáng)陰影 mask 估計(jì)的準(zhǔn)確性,作為擴(kuò)散生成器的輔助方面。
- DeS3: 使用自適應(yīng)注意力和ViT相似性機(jī)制去除硬陰影、軟陰影和自陰影。它采用DDIM作為生成模型,并利用自適應(yīng)分類器驅(qū)動(dòng)的注意力強(qiáng)調(diào)陰影區(qū)域,DINO-ViT損失作為推理過(guò)程中的停止準(zhǔn)則。
- Recasting: 包含兩個(gè)階段:陰影感知分解網(wǎng)絡(luò)使用自監(jiān)督正則化分離反射率和照明,雙邊校正網(wǎng)絡(luò)使用局部照明校正模塊調(diào)整陰影區(qū)域的照明。然后,使用照明引導(dǎo)的紋理恢復(fù)模塊逐步恢復(fù)退化的紋理細(xì)節(jié)。
- LFG-Diffusion: 訓(xùn)練一個(gè)擴(kuò)散網(wǎng)絡(luò)在無(wú)陰影圖像上,以在潛在特征空間中學(xué)習(xí)無(wú)陰影先驗(yàn)。然后使用這些預(yù)訓(xùn)練的權(quán)重進(jìn)行高效的陰影去除,最小化編碼的無(wú)陰影圖像和帶有 mask 的陰影圖像之間的不變損失,同時(shí)增強(qiáng)潛在噪聲變量與擴(kuò)散網(wǎng)絡(luò)之間的交互。
- Diff-Shadow: 是一個(gè)全球引導(dǎo)的擴(kuò)散模型,具有并行的 U-Nets:一個(gè)用于局部噪聲估計(jì)的分支和一個(gè)用于無(wú)陰影圖像恢復(fù)的全局分支。它使用重新加權(quán)的交叉注意力和全球引導(dǎo)采樣來(lái)探索非陰影區(qū)域的全局上下文,并確定補(bǔ)丁噪聲的融合權(quán)重,保持光照一致性。
無(wú)監(jiān)督學(xué)習(xí)
這類方法在訓(xùn)練深度網(wǎng)絡(luò)時(shí)不使用成對(duì)的陰影和無(wú)陰影圖像,因?yàn)檫@些圖像難以獲取。
- Mask-ShadowGAN: 是第一個(gè)無(wú)監(jiān)督陰影去除方法,它自動(dòng)學(xué)習(xí)從輸入陰影圖像中生成陰影 mask ,并利用 mask 通過(guò)重新制定的循環(huán)一致性約束來(lái)指導(dǎo)陰影生成。該框架同時(shí)學(xué)習(xí)生成陰影 mask 和去除陰影。
- PUL: 通過(guò)四個(gè)附加損失改進(jìn)了 Mask-ShadowGAN:mask 損失(采樣和生成 mask 之間的 差異)、顏色損失(平滑圖像之間的均方誤差)、內(nèi)容損失(來(lái)自 VGG-16 的特征損失)和風(fēng)格損失(VGG-16 特征的 Gram 矩陣)。
- DC-ShadowNet: 使用陰影/無(wú)陰影域分類器處理陰影區(qū)域。它通過(guò)熵最小化在對(duì)數(shù)色度空間中訓(xùn)練一個(gè)基于物理的無(wú)陰影色度損失,以及使用預(yù)訓(xùn)練的 VGG-16 的陰影魯棒感知特征損失、邊界平滑損失和一些類似于 Mask-ShadowGAN 的附加損失。
- LG-ShadowNet: 使用一個(gè)亮度引導(dǎo)網(wǎng)絡(luò)改進(jìn)了 Mask-ShadowGAN。在 Lab 顏色空間中,CNN 首先調(diào)整 L 通道中的亮度,然后另一個(gè) CNN 使用這些特征在所有 Lab 通道中去除陰影。多層連接在雙流架構(gòu)中融合亮度和陰影去除特征。
- SG-GAN+DBRM: 包含兩個(gè)網(wǎng)絡(luò)。(i) SG-GAN 基于 Mask-ShadowGAN,產(chǎn)生粗略的陰影去除結(jié)果和合成的成對(duì)數(shù)據(jù),由使用 CLIP的多模態(tài)語(yǔ)義提示器引導(dǎo)文本語(yǔ)義。(ii) DBRM 是一個(gè)擴(kuò)散模型,精細(xì)化粗略結(jié)果,該模型在真實(shí)無(wú)陰影圖像和陰影去除圖像上訓(xùn)練,去除前的陰影由 Mask-ShadowGAN 合成。
弱監(jiān)督學(xué)習(xí)
這類方法僅使用陰影圖像和陰影 mask 訓(xùn)練深度網(wǎng)絡(luò)。陰影 mask 可以通過(guò)陰影檢測(cè)方法預(yù)測(cè)。
- Param+M+D-Net: 使用陰影分割 mask 作為監(jiān)督在陰影圖像上訓(xùn)練。它將圖像劃分為補(bǔ)丁,學(xué)習(xí)從陰影邊界補(bǔ)丁到非陰影補(bǔ)丁的映射,并應(yīng)用基于物理陰影形成模型的約束。
- G2R-ShadowNet: 包含三個(gè)子網(wǎng)絡(luò):生成、去除和細(xì)化陰影。陰影生成網(wǎng)絡(luò)在非陰影區(qū)域創(chuàng)建偽陰影,與非陰影區(qū)域形成訓(xùn)練對(duì)用于陰影去除網(wǎng)絡(luò)。細(xì)化階段確保顏色和光照一致性。陰影 mask 引導(dǎo)整個(gè)過(guò)程。
- BCDiff: 是一個(gè)邊界感知條件擴(kuò)散模型。通過(guò)迭代維護(hù)反射率來(lái)增強(qiáng)無(wú)條件擴(kuò)散模型,支持陰影不變的內(nèi)在分解模型,以保留陰影區(qū)域內(nèi)的結(jié)構(gòu)。它還應(yīng)用光照一致性約束以實(shí)現(xiàn)均勻照明?;A(chǔ)網(wǎng)絡(luò)使用 Uformer。
單圖像自監(jiān)督學(xué)習(xí)
此任務(wù)通過(guò)在測(cè)試期間對(duì)圖像本身進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)去除陰影,消除了對(duì)訓(xùn)練數(shù)據(jù)的需求。然而,陰影 mask 是必需的。
- Self-ShadowGAN: 采用陰影重光網(wǎng)絡(luò)作為陰影去除的生成器,由兩個(gè)判別器支持。重光網(wǎng)絡(luò)使用輕量級(jí) MLPs 根據(jù)物理模型預(yù)測(cè)像素特定的陰影重光系數(shù),參數(shù)由快速卷積網(wǎng)絡(luò)確定。它還包括一個(gè)基于直方圖的判別器,使用無(wú)陰影區(qū)域的直方圖作為參考來(lái)恢復(fù)陰影區(qū)域的光照,以及一個(gè)基于補(bǔ)丁的判別器來(lái)提高去陰影區(qū)域的紋理質(zhì)量。
文檔陰影去除
去除文檔中的陰影可以提高數(shù)字副本的視覺(jué)質(zhì)量和可讀性。一般的陰影去除方法在處理文檔時(shí)面臨挑戰(zhàn),因?yàn)樾枰罅颗鋵?duì)數(shù)據(jù)集,并且缺乏對(duì)特定文檔圖像屬性的考慮。下表9總結(jié)了用于此任務(wù)的深度模型。
BEDSR-Net: 是第一個(gè)專為文檔圖像陰影去除設(shè)計(jì)的深度網(wǎng)絡(luò)。它由兩個(gè)子網(wǎng)絡(luò)組成:
- BE-Net 估計(jì)全局背景顏色并生成注意力圖。這些結(jié)果與輸入陰影圖像一起被 SR-Net 用來(lái)生成無(wú)陰影圖像。
- BGShadowNet: 利用來(lái)自顏色感知背景提取網(wǎng)絡(luò)的背景進(jìn)行陰影去除,采用兩階段過(guò)程。
第一階段:融合背景和圖像特征以生成逼真的初始結(jié)果。
第二階段:使用基于背景的注意力模塊校正光照和顏色不一致,并通過(guò)細(xì)節(jié)增強(qiáng)模塊(受圖像直方圖均衡化啟發(fā))增強(qiáng)低級(jí)細(xì)節(jié)。
FSENet: 旨在通過(guò)首先將圖像分割為低頻和高頻分量來(lái)實(shí)現(xiàn)高分辨率文檔陰影去除。
- 低頻部分 使用 Transformer 進(jìn)行光照調(diào)整。
- 高頻部分 使用級(jí)聯(lián)聚合和膨脹卷積來(lái)增強(qiáng)像素并恢復(fù)紋理。
面部陰影去除
面部陰影去除涉及消除外部陰影、柔化面部陰影以及平衡光照。上表9總結(jié)了深度模型。這一主題與面部重光照相關(guān),因?yàn)闇?zhǔn)確的陰影處理對(duì)實(shí)現(xiàn)照片級(jí)真實(shí)效果至關(guān)重要。此外,去除陰影還能提高面部特征點(diǎn)檢測(cè)的魯棒性。
- Zhang 等人提出了第一個(gè)針對(duì)面部圖像陰影去除的深度學(xué)習(xí)方法。該方法使用兩個(gè)獨(dú)立的深度模型:一個(gè)用于去除外部物體投射的外部陰影,另一個(gè)用于柔化面部陰影。這兩個(gè)模型都基于修改后的GridNet。
- He 等人提出了第一個(gè)無(wú)監(jiān)督的面部陰影去除方法,將其框定為圖像分解任務(wù)。該方法處理單個(gè)有陰影的肖像,生成無(wú)陰影圖像、全陰影圖像和陰影 mask ,使用預(yù)訓(xùn)練的面部生成器如StyleGAN2和面部分割 mask 。
- GS+C通過(guò)將陰影去除分為灰度處理和上色來(lái)實(shí)現(xiàn)。陰影在灰度中被識(shí)別和去除,然后通過(guò)修補(bǔ)恢復(fù)顏色。為了在視頻幀中保持一致性,它包含一個(gè)時(shí)間共享模塊,解決姿勢(shì)和表情變化。
- Lyu 等人提出了一個(gè)兩階段模型,用于去除眼鏡及其陰影。第一階段使用跨域分割模塊預(yù)測(cè) mask ,第二階段使用這些 mask 指導(dǎo)去陰影和去眼鏡網(wǎng)絡(luò)。該模型在合成數(shù)據(jù)上訓(xùn)練,并使用域適應(yīng)網(wǎng)絡(luò)處理真實(shí)圖像。
- GraphFFNet是一個(gè)基于圖的特征融合網(wǎng)絡(luò),用于去除面部圖像中的陰影。它使用多尺度編碼器提取局部特征,圖像翻轉(zhuǎn)器利用面部對(duì)稱性生成粗略的無(wú)陰影圖像,并使用基于圖的卷積編碼器識(shí)別全局關(guān)系。特征調(diào)制模塊結(jié)合這些全局和局部特征,融合解碼器生成無(wú)陰影圖像。
用于視頻陰影去除的深度模型
PSTNet 是一種用于視頻陰影去除的方法,結(jié)合了物理、空間和時(shí)間特征,并通過(guò)無(wú)陰影圖像和 mask 進(jìn)行監(jiān)督。它使用物理分支進(jìn)行自適應(yīng)曝光和監(jiān)督注意力,空間和時(shí)間分支則用于提高分辨率和連貫性。特征融合模塊用于優(yōu)化輸出,S2R策略使得在不重新訓(xùn)練的情況下,將合成數(shù)據(jù)上訓(xùn)練的模型適應(yīng)于真實(shí)世界的應(yīng)用。
GS+C 是一種用于視頻中面部陰影去除的方法。
陰影去除數(shù)據(jù)集
通用圖像陰影去除數(shù)據(jù)集
- SRD: 是第一個(gè)大規(guī)模的陰影去除數(shù)據(jù)集,包含 3,088 對(duì)陰影和無(wú)陰影的圖像。該數(shù)據(jù)集的多樣性涵蓋四個(gè)維度:光照(硬陰影和軟陰影)、廣泛的場(chǎng)景(從公園到海灘)、在不同物體上投射陰影的反射率變化,以及使用不同形狀的遮擋物產(chǎn)生的多樣輪廓和半影寬度。SRD 的陰影 mask 由 Recasting 重新標(biāo)注。
- ISTD和 ISTD+: 兩者都包含陰影圖像、無(wú)陰影圖像和陰影 mask ,具有 1,330 張訓(xùn)練圖像和 540 張來(lái)自 135 個(gè)獨(dú)特背景場(chǎng)景的測(cè)試圖像。ISTD 存在陰影和無(wú)陰影圖像之間的顏色和亮度不一致問(wèn)題,ISTD+ 通過(guò)顏色補(bǔ)償機(jī)制修正了這一問(wèn)題,以確保在真實(shí)圖像中像素顏色的一致性。
- GTAV: 是一個(gè)合成數(shù)據(jù)集,包含 5,723 對(duì)陰影和無(wú)陰影圖像。這些場(chǎng)景由 Rockstar 的電子游戲 GTAV 渲染,描繪了兩種版本的真實(shí)世界場(chǎng)景:有陰影和無(wú)陰影。它包括 5,110 個(gè)標(biāo)準(zhǔn)日光場(chǎng)景和額外的 613 個(gè)室內(nèi)和夜間場(chǎng)景。
- USR: 旨在用于無(wú)配對(duì)陰影去除任務(wù),包含 2,511 張帶陰影圖像和 1,772 張無(wú)陰影圖像。該數(shù)據(jù)集涵蓋了多種場(chǎng)景,展示了由各種物體投射的陰影。它跨越了超過(guò)一千個(gè)獨(dú)特場(chǎng)景,為陰影去除技術(shù)的研究提供了豐富的多樣性。
- SFHQ: Shadow Food-HQ,包含 14,520 張高分辨率食物圖像(12MP),并附有標(biāo)注的陰影 mask 。它包括在各種光照和視角下的多樣場(chǎng)景,分為 14,000 個(gè)訓(xùn)練和 520 個(gè)測(cè)試三元組。
- WSRD: 在一個(gè)受控的室內(nèi)環(huán)境中創(chuàng)建,具有定向和漫射光照。它包含 1,200 對(duì)高分辨率(1920x1440)圖像:1,000 張用于訓(xùn)練,100 張用于驗(yàn)證,100 張用于測(cè)試。該數(shù)據(jù)集包括各種顏色、紋理和幾何形狀的表面,以及不同厚度、高度、深度和材料(包括不透明、半透明和透明類型)的物體。它被 19 個(gè)團(tuán)隊(duì)用于 NTIRE23 圖像陰影去除挑戰(zhàn)。
通用視頻陰影去除數(shù)據(jù)集
- SBU-Timelapse: 是一個(gè)視頻陰影去除數(shù)據(jù)集,包含50個(gè)靜態(tài)場(chǎng)景視頻,主要特征是只有陰影移動(dòng),沒(méi)有物體移動(dòng)。每個(gè)視頻使用“max-min”技術(shù)生成一個(gè)偽無(wú)陰影幀。
- SVSRD-85: 是一個(gè)來(lái)自 GTAV 的合成視頻陰影去除數(shù)據(jù)集,包含85個(gè)視頻,共4,250幀。通過(guò)切換陰影渲染器收集,涵蓋了各種對(duì)象類別和運(yùn)動(dòng)/光照條件,每幀都配有無(wú)陰影圖像。
文檔陰影去除數(shù)據(jù)集
- SDSRD:這是一個(gè)用 Blender 創(chuàng)建的合成數(shù)據(jù)集,包含970張文檔圖像和8,309張?jiān)诓煌庹蘸驼趽鯒l件下合成的陰影圖像。數(shù)據(jù)集有7,533個(gè)訓(xùn)練三元組和776個(gè)測(cè)試三元組。
- RDSRD:這是一個(gè)通過(guò)相機(jī)捕獲的真實(shí)數(shù)據(jù)集,包含540張圖像,涉及25個(gè)文檔,包括陰影圖像、無(wú)陰影圖像和陰影 mask 。該數(shù)據(jù)集僅用于評(píng)估。
- RDD:使用了文檔背景如紙張、書(shū)籍和小冊(cè)子。包含4,916對(duì)圖像,每對(duì)圖像分別在有陰影和無(wú)陰影的情況下拍攝,通過(guò)放置和移除遮擋物獲得。其中4,371對(duì)用于訓(xùn)練,545對(duì)用于測(cè)試。
- SD7K:包含7,620對(duì)高分辨率的真實(shí)世界文檔圖像,有陰影和無(wú)陰影版本,并附有標(biāo)注的陰影 mask 。涵蓋各種文檔類型(如漫畫(huà)、紙張、圖表),使用了30多種遮擋物和350多份文檔,在三種光照條件(冷光、暖光和日光)下拍攝。
Facial Shadow Removal Datasets
- UCB: 包含合成的外部和面部陰影。外部陰影是通過(guò)在一個(gè)包含5,000張沒(méi)有外部陰影的人臉數(shù)據(jù)集上,使用陰影蒙版混合明亮和陰影圖像創(chuàng)建的;然而,眼鏡陰影被視為固有的。面部陰影是通過(guò)對(duì)85名受試者進(jìn)行Light Stage 掃描生成的,涵蓋各種表情和姿勢(shì),使用加權(quán)的一次一光組合。
- SFW: 是為真實(shí)環(huán)境中的面部陰影去除而組裝的,包含來(lái)自20名受試者的280個(gè)視頻,大多數(shù)視頻以1080p分辨率錄制。提供了各種陰影蒙版的標(biāo)簽,如投射陰影、自身陰影、明亮或飽和的面部區(qū)域,以及眼鏡,共440幀。
- PSE: ,即帶眼鏡的肖像合成,是通過(guò)3D渲染生成的合成數(shù)據(jù)集。它通過(guò)節(jié)點(diǎn)注冊(cè)模擬3D眼鏡在面部掃描上的效果,并在各種光照條件下渲染,生成四種帶有蒙版的圖像類型。在438個(gè)身份中,選擇了73個(gè),每個(gè)都有20個(gè)表情掃描,配有五種眼鏡樣式和四種HDR照明條件,生成了29,200個(gè)訓(xùn)練樣本。
Evaluation Metrics
- RMSE在LAB色彩空間中計(jì)算出地面真實(shí)無(wú)陰影圖像與恢復(fù)圖像之間的均方根誤差,確保局部感知的一致性。
- LPIPS(Learned Perceptual Image Patch Similarity)評(píng)估圖像塊之間的感知距離,得分越高表示相似性越低,反之亦然。本文采用VGG作為L(zhǎng)PIPS中的特征提取器。
SSIM(結(jié)構(gòu)相似性指數(shù))和PSNR(峰值信噪比)有時(shí)用于評(píng)估。
實(shí)驗(yàn)結(jié)果
一般圖像陰影去除
整體性能基準(zhǔn)測(cè)試結(jié)果。 采用了兩個(gè)廣泛使用的數(shù)據(jù)集,SRD 和 ISTD+,來(lái)評(píng)估陰影去除方法的性能。比較的方法列在下表10中,本文排除了那些代碼不可用的方法。使用原始代碼重新訓(xùn)練了比較的方法,輸入尺寸設(shè)置為 和 ,以在兩個(gè)分辨率下報(bào)告結(jié)果。
對(duì)于 DSC,本文將代碼從 Caffe 轉(zhuǎn)換為 PyTorch,并使用 ResNeXt101 作為主干網(wǎng)絡(luò)。ShadowDiffusion(G)使用了預(yù)訓(xùn)練的 Uformer權(quán)重進(jìn)行 ISTD+ 推理。對(duì)于需要陰影 mask 作為輸入的方法,與之前一些在訓(xùn)練期間使用預(yù)測(cè)陰影 mask 的方法不同,本文在 SRD 和 ISTD+ 中采用了標(biāo)注良好的 mask 。與某些依賴于推理期間的真實(shí) mask 的方法不同(可能導(dǎo)致數(shù)據(jù)泄漏),本文使用由 SDDNet 檢測(cè)器生成的陰影 mask 。該檢測(cè)器在 分辨率的 SBU 數(shù)據(jù)集上訓(xùn)練,顯示出卓越的泛化能力,如上表3所示。使用的評(píng)估指標(biāo)包括 RMSE、PSNR、SSIM 和 LPIPS。結(jié)果被調(diào)整為與真實(shí)分辨率匹配,以便進(jìn)行公平比較。一些調(diào)整真實(shí)圖像尺寸的論文是錯(cuò)誤的,因?yàn)檫@會(huì)扭曲細(xì)節(jié),導(dǎo)致對(duì)圖像質(zhì)量的評(píng)估偏差且不準(zhǔn)確。上表10和下圖2總結(jié)了每種方法的準(zhǔn)確性、運(yùn)行時(shí)間和模型復(fù)雜性。關(guān)鍵見(jiàn)解包括:
- (i)早期方法如 DSC 和 ST-CGAN 在多個(gè)評(píng)估指標(biāo)上優(yōu)于后來(lái)的方法;
- (ii)無(wú)監(jiān)督方法在 SRD 和 ISTD+ 上表現(xiàn)出與有監(jiān)督方法相當(dāng)?shù)男阅?,可能是因?yàn)橛?xùn)練集和測(cè)試集中的背景紋理相似,其中 Mask-ShadowGAN 在效果和效率之間提供了最佳平衡;
- (iii)較小的模型如 BMNet (0.58M) 提供了具有競(jìng)爭(zhēng)力的性能,而沒(méi)有顯著增加模型大??;
- (iv)大多數(shù)方法在更高分辨率(如 )下顯示出改進(jìn)的結(jié)果。
跨數(shù)據(jù)集泛化評(píng)估。 為了評(píng)估陰影去除方法的泛化能力,本文使用在 SRD 訓(xùn)練集上訓(xùn)練的模型進(jìn)行跨數(shù)據(jù)集評(píng)估,以檢測(cè) DESOBA訓(xùn)練和測(cè)試集上的陰影。兩個(gè)數(shù)據(jù)集都包含戶外場(chǎng)景,但 SRD 缺乏投射陰影的遮擋物,而 DESOBA 則呈現(xiàn)出更復(fù)雜的環(huán)境。這標(biāo)志著首次在如此具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行的大規(guī)模泛化評(píng)估。請(qǐng)注意,DESOBA 僅標(biāo)記投射陰影,本文在評(píng)估中將物體上的自陰影設(shè)為“不關(guān)心”。SSIM 和 LPIPS 被排除,因?yàn)?SSIM 依賴于圖像窗口,LPIPS 使用網(wǎng)絡(luò)激活,這兩者都與“不關(guān)心”政策相沖突。上表10中最右邊的兩列顯示,在像 SRD 和 ISTD+ 這樣的受控?cái)?shù)據(jù)集上表現(xiàn)良好的模型在 DESOBA 的更復(fù)雜環(huán)境中表現(xiàn)不佳。這是因?yàn)?SRD 主要特征是簡(jiǎn)單、局部場(chǎng)景中的投射陰影,陰影較軟且無(wú)遮擋物,而 DESOBA 則呈現(xiàn)出更復(fù)雜的場(chǎng)景,具有更硬的陰影和遮擋。這突出了需要多樣化的訓(xùn)練數(shù)據(jù)和更能適應(yīng)處理現(xiàn)實(shí)世界陰影場(chǎng)景的模型。
總結(jié) 實(shí)驗(yàn)結(jié)果表明,如何開(kāi)發(fā)一個(gè)穩(wěn)健的模型并準(zhǔn)備一個(gè)具有代表性的數(shù)據(jù)集,以在復(fù)雜場(chǎng)景中實(shí)現(xiàn)高性能的圖像陰影去除,仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
文檔陰影去除
RDD 數(shù)據(jù)集用于訓(xùn)練和評(píng)估文檔陰影去除方法,輸入尺寸為 。結(jié)果如下表 11 所示,本文觀察到 FSENet 在準(zhǔn)確性和效率上顯著優(yōu)于 BEDSR-Net,使其在所有指標(biāo)上成為更好的方法。
陰影生成
陰影生成主要有三個(gè)目的:
- (i)圖像合成,涉及為照片中的物體生成投影陰影,以便能夠插入或重新定位照片中的物體;
- (ii)數(shù)據(jù)增強(qiáng),旨在在圖像中創(chuàng)建投影陰影,以生成逼真的圖像來(lái)支持深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;
- (iii)素描,專注于為手繪草圖生成陰影,以加速繪圖過(guò)程。
圖像陰影生成的深度模型
圖像合成的陰影生成
- ShadowGAN: 使用生成對(duì)抗網(wǎng)絡(luò)(GAN)為圖像中的虛擬物體生成逼真的陰影。它具有一個(gè)生成器和雙鑒別器,確保陰影的形狀和場(chǎng)景的整體光照相協(xié)調(diào)。
- ARshadowGAN: 是一種GAN模型,在單光源條件下為增強(qiáng)現(xiàn)實(shí)中的虛擬物體添加陰影。它使用注意力機(jī)制,通過(guò)建模虛擬物體陰影與現(xiàn)實(shí)世界對(duì)手之間的關(guān)系來(lái)簡(jiǎn)化陰影生成,無(wú)需估計(jì)光照或3D幾何。
- SSN: 提供了一個(gè)實(shí)時(shí)交互系統(tǒng),使用二維物體遮罩在照片中創(chuàng)建可控的柔和陰影。它使用動(dòng)態(tài)陰影生成和環(huán)境光照?qǐng)D來(lái)訓(xùn)練其網(wǎng)絡(luò),生成多樣化的柔和陰影數(shù)據(jù)。同時(shí),它預(yù)測(cè)環(huán)境遮擋以增強(qiáng)真實(shí)性。
- SSG: 引入了像素高度,一種新的幾何表示法,可以在圖像合成中精確控制陰影的方向和形狀。該方法使用投影幾何進(jìn)行硬陰影計(jì)算,并包括一個(gè)訓(xùn)練過(guò)的U-Net來(lái)為陰影添加柔和效果。
- SGRNet: 是一個(gè)兩階段網(wǎng)絡(luò),首先通過(guò)合并前景和背景的生成器創(chuàng)建陰影遮罩,然后預(yù)測(cè)陰影參數(shù)并填充陰影區(qū)域,生成具有逼真陰影的圖像。
- Liu 等人 通過(guò)多尺度特征增強(qiáng)和多層次特征融合來(lái)增強(qiáng)圖像合成中的陰影生成。該方法提高了遮罩預(yù)測(cè)的準(zhǔn)確性,并在陰影參數(shù)預(yù)測(cè)中最大限度地減少信息損失,從而增強(qiáng)了陰影的形狀和范圍。
- PixHt-Lab: 將像素高度映射到三維空間,以創(chuàng)建逼真的光照效果,如陰影和反射。它通過(guò)重建剪切物體和背景的3D幾何,使用3D感知緩沖通道和神經(jīng)渲染器來(lái)克服傳統(tǒng)2D限制,提高柔和陰影的質(zhì)量。
- HAU-Net & IFNet: 由兩個(gè)組件組成:層次注意力U-Net(HAU-Net)用于推斷背景光照并預(yù)測(cè)前景物體的陰影形狀;以及光照感知融合網(wǎng)絡(luò)(IFNet),使用增強(qiáng)的光照模型融合曝光不足的陰影區(qū)域,創(chuàng)造出更自然的陰影。
- Valen?a 等人通過(guò)解決真實(shí)地面陰影與投影到虛擬實(shí)體的交互來(lái)增強(qiáng)照片編輯時(shí)的陰影整合。其生成器從虛擬陰影和場(chǎng)景圖像創(chuàng)建陰影增益圖和陰影遮罩,然后通過(guò)光照和相機(jī)參數(shù)進(jìn)行后處理,實(shí)現(xiàn)無(wú)縫整合。
- DMASNet: 是一種兩階段方法,用于生成逼真的陰影。第一階段將任務(wù)分解為盒子和形狀預(yù)測(cè),以形成初始陰影遮罩,然后進(jìn)行細(xì)化以增強(qiáng)細(xì)節(jié)。第二階段專注于填充陰影,調(diào)整局部光照變化以與背景無(wú)縫融合。
- SGDiffusion: 使用穩(wěn)定擴(kuò)散模型,結(jié)合自然陰影圖像的知識(shí),克服與精確陰影形狀和強(qiáng)度生成相關(guān)的困難。具體來(lái)說(shuō),它通過(guò)ControlNet適配和強(qiáng)度調(diào)制模塊增強(qiáng)陰影強(qiáng)度。
用于陰影消除的陰影生成
請(qǐng)參見(jiàn)前文中Mask-ShadowGAN、Shadow Matting GAN和G2R-ShadowNet。
草圖的陰影生成
- 鄭等人利用指定的光照方向,從手繪草圖中創(chuàng)建詳細(xì)的藝術(shù)陰影。他們?cè)跐撛诳臻g中構(gòu)建了一個(gè)3D模型,并渲染與草圖線條和3D結(jié)構(gòu)對(duì)齊的陰影,包括自陰影和邊緣光等藝術(shù)效果。
- SmartShadow為數(shù)字藝術(shù)家提供了三個(gè)工具來(lái)為線條畫(huà)添加陰影:用于初始放置的陰影筆刷、用于邊緣精確控制的陰影邊界筆刷,以及用于保持陰影方向一致的全局陰影生成器。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN),它可以根據(jù)草圖輸入和用戶指導(dǎo)預(yù)測(cè)全局陰影方向和陰影圖。
影子生成數(shù)據(jù)集
用于圖像合成的陰影生成數(shù)據(jù)集
- Shadow-AR: 是一個(gè)合成數(shù)據(jù)集,包含3,000個(gè)五元組,每個(gè)五元組包括一個(gè)帶有和不帶有渲染陰影的合成圖像、一個(gè)合成物體的二值 mask 、一個(gè)標(biāo)注的真實(shí)世界陰影摳圖及其相關(guān)的標(biāo)注遮擋物。
- DESOBA: 是一個(gè)基于真實(shí)世界圖像的合成數(shù)據(jù)集,源自SOBA。陰影被去除以作為陰影生成的真實(shí)值。它包含840張訓(xùn)練圖像和2,999對(duì)陰影-物體對(duì),以及160張測(cè)試圖像和624對(duì)陰影-物體對(duì)。
- RdSOBA: 是使用Unity游戲引擎創(chuàng)建的合成數(shù)據(jù)集。它包含30個(gè)3D場(chǎng)景和800個(gè)物體,總計(jì)114,350張圖像和28,000對(duì)陰影-物體對(duì)。
- DESOBAv2: 是一個(gè)利用實(shí)例陰影檢測(cè)方法和修復(fù)方法構(gòu)建的大型數(shù)據(jù)集。它包含21,575張圖像和28,573個(gè)陰影-物體關(guān)聯(lián)。
草圖陰影生成數(shù)據(jù)集
SmartShadow 提供了真實(shí)和合成數(shù)據(jù),包括:
- 1,670 對(duì)由藝術(shù)家創(chuàng)作的線條藝術(shù)和陰影。
- 25,413 對(duì)由渲染引擎合成的陰影。
- 291,951 對(duì)從互聯(lián)網(wǎng)上的數(shù)字繪畫(huà)中提取的陰影。
討論
不同的方法由于其獨(dú)特的模型設(shè)計(jì)和應(yīng)用,需要特定的訓(xùn)練數(shù)據(jù)。例如,SGRNet 需要前景陰影 mask 和目標(biāo)陰影圖像用于圖像合成。相比之下,Mask-ShadowGAN 只需要未配對(duì)的陰影和無(wú)陰影圖像用于陰影去除。ARShadowGAN 使用真實(shí)陰影及其遮擋物的二值圖進(jìn)行訓(xùn)練,以生成增強(qiáng)現(xiàn)實(shí)中的虛擬對(duì)象陰影。SmartShadow 利用藝術(shù)家提供的線條畫(huà)和陰影對(duì)來(lái)訓(xùn)練深度網(wǎng)絡(luò),以在線條畫(huà)上生成陰影。由于篇幅限制,本文建議讀者探索每個(gè)應(yīng)用的結(jié)果,以了解方法的有效性和適用性。
然而,目前的陰影生成方法主要集中在圖像中的單個(gè)對(duì)象上,如何為視頻中的多個(gè)對(duì)象生成一致的陰影仍然是一個(gè)挑戰(zhàn)。此外,除了為缺乏陰影的對(duì)象生成陰影之外,通過(guò)調(diào)整光照方向來(lái)編輯各種對(duì)象的陰影提供了更多實(shí)際應(yīng)用。
結(jié)論 & 未來(lái)方向
總結(jié)而言,本論文通過(guò)調(diào)查一百多種方法并標(biāo)準(zhǔn)化實(shí)驗(yàn)設(shè)置,推進(jìn)了深度學(xué)習(xí)時(shí)代的陰影檢測(cè)、去除和生成研究。本文探索了模型大小、速度和性能之間的關(guān)系,并通過(guò)跨數(shù)據(jù)集研究評(píng)估了模型的魯棒性。以下,本文進(jìn)一步提出了開(kāi)放問(wèn)題和未來(lái)研究方向,強(qiáng)調(diào)AIGC和大模型對(duì)該領(lǐng)域?qū)W術(shù)研究和實(shí)際應(yīng)用的推動(dòng)作用。
一個(gè)集成陰影和物體檢測(cè)、去除及生成的全能模型是一個(gè)有前景的研究方向。目前大多數(shù)方法專注于某一特定任務(wù)——陰影的檢測(cè)、去除或生成。然而,所有與陰影相關(guān)的任務(wù)本質(zhì)上是相關(guān)的,可以從共享的見(jiàn)解中受益,特別是考慮到物體與其陰影之間的幾何關(guān)系。開(kāi)發(fā)一個(gè)統(tǒng)一的模型可以揭示底層關(guān)系,并最大化訓(xùn)練數(shù)據(jù)的使用,從而增強(qiáng)模型的泛化能力。
在陰影分析中,物體的語(yǔ)義和幾何特征仍未被充分探索。現(xiàn)代大型視覺(jué)和視覺(jué)語(yǔ)言模型,配備了大量的網(wǎng)絡(luò)參數(shù)和龐大的訓(xùn)練數(shù)據(jù)集,在分析圖像和視頻中的語(yǔ)義和幾何信息方面表現(xiàn)出色,且具備顯著的零樣本能力。例如,Segment Anything提供像素級(jí)分割標(biāo)簽;Depth Anything估計(jì)任何圖像輸入的深度;ChatGPT-4o預(yù)測(cè)圖像和視頻幀的敘述。利用這些語(yǔ)義和幾何見(jiàn)解進(jìn)行陰影感知,可以顯著增強(qiáng)陰影分析和編輯,甚至有助于分離重疊陰影。
陰影-物體關(guān)系有助于執(zhí)行各種圖像和視頻編輯任務(wù)。實(shí)例陰影檢測(cè)生成物體和陰影實(shí)例的 mask,促進(jìn)了如圖像修復(fù)、實(shí)例克隆和陰影修改等編輯任務(wù)。例如,通過(guò)實(shí)例陰影檢測(cè)分析觀察到的物體及其陰影,以估計(jì)未觀察到物體的布局,實(shí)現(xiàn)圖像擴(kuò)展。將這些應(yīng)用整合到手機(jī)中進(jìn)行照片和視頻編輯既簡(jiǎn)單又有益。鑒于現(xiàn)代手機(jī)配備了多個(gè)攝像頭和高動(dòng)態(tài)范圍,探索如何利用這些攝像頭進(jìn)行增強(qiáng)的陰影-物體編輯是一個(gè)新穎的研究方向。
陰影是區(qū)分AI生成視覺(jué)內(nèi)容與真實(shí)內(nèi)容的有效手段。AI生成內(nèi)容(AIGC)的最新進(jìn)展使得多樣化的圖像和視頻創(chuàng)作成為可能。然而,這些AI生成的內(nèi)容常常忽視幾何方面,導(dǎo)致陰影屬性上的差異,破壞了3D感知。實(shí)例陰影檢測(cè)被用于分析物體-陰影關(guān)系,當(dāng)光源對(duì)齊和物體幾何不一致時(shí),揭示圖像的合成性質(zhì)。AI生成的視頻(例如,Sora3)也需要遵循3D幾何關(guān)系。因此,探索未來(lái)研究方向,關(guān)注AI生成內(nèi)容中的陰影一致性,并評(píng)估或定位潛在的不一致性,既重要又有趣。此外,陰影是一種自然且隱蔽的對(duì)抗攻擊,可以破壞機(jī)器學(xué)習(xí)模型。