自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

只需1080ti,即可在遙感圖像中對(duì)目標(biāo)進(jìn)行像素級(jí)定位!代碼數(shù)據(jù)集已開源!

人工智能 新聞
指向性遙感圖像分割(RRSIS)是一種結(jié)合了計(jì)算機(jī)視覺與自然語言處理兩門學(xué)科的前沿技術(shù)。根據(jù)給定的文本描述,RRSIS 可以在遙感圖像中對(duì)目標(biāo)對(duì)象進(jìn)行像素級(jí)定位。

太長不看版

這篇論文介紹了一項(xiàng)新的任務(wù) —— 指向性遙感圖像分割(RRSIS),以及一種新的方法 —— 旋轉(zhuǎn)多尺度交互網(wǎng)絡(luò)(RMSIN)。RRSIS 旨在根據(jù)文本描述實(shí)現(xiàn)遙感圖像中目標(biāo)對(duì)象的像素級(jí)定位。為了解決現(xiàn)有數(shù)據(jù)集規(guī)模和范圍的限制,本文構(gòu)建了一個(gè)新的大規(guī)模 RRSIS 數(shù)據(jù)集(RRSIS-D),其中涵蓋了多種空間分辨率的圖像和具有尺度和角度多樣性的分割目標(biāo)(已公開?。?。

同時(shí)還提出了多尺度交互模塊和旋轉(zhuǎn)卷積(已開源?。?,以處理遙感圖像的復(fù)雜性。實(shí)驗(yàn)證明,RMSIN 方法在 RRSIS 任務(wù)上表現(xiàn)優(yōu)于當(dāng)前最先進(jìn)的方法,為未來的研究提供了有力的基線。(1080ti 即可跑?。?/span>

圖片

論文地址:https://arxiv.org/abs/2312.12470

代碼地址:https://github.com/Lsan2401/RMSIN

研究背景和意義

指向性遙感圖像分割(RRSIS)是一種結(jié)合了計(jì)算機(jī)視覺與自然語言處理兩門學(xué)科的前沿技術(shù)。根據(jù)給定的文本描述,RRSIS 可以在遙感圖像中對(duì)目標(biāo)對(duì)象進(jìn)行像素級(jí)定位。

然而,RRSIS 任務(wù)的發(fā)展受到現(xiàn)有數(shù)據(jù)集規(guī)模和范圍有限的制約。由于遙感圖像具有俯瞰拍攝的特殊視角,和自然圖片存在巨大的語義差距;且其目標(biāo)物體具有豐富的尺度和角度變化,這極大提高了數(shù)據(jù)集標(biāo)注的難度,需要投入大量人力和時(shí)間成本。這些因素限制了現(xiàn)有數(shù)據(jù)集的規(guī)模和標(biāo)注的精度,導(dǎo)致現(xiàn)存數(shù)據(jù)集無法滿足模型將訓(xùn)練到關(guān)鍵任務(wù)的實(shí)際運(yùn)用所需的精度水平。

此外,現(xiàn)有的基于自然圖像指向性分割(RIS)方法應(yīng)用于遙感圖像時(shí)面臨著局限性。如圖 1 所示,遙感圖像普遍存在多樣的大尺度空間變化和多個(gè)方向出現(xiàn)的物體,這樣巨大的語義差異使得訓(xùn)練于自然圖像的 SOTA 方法在遙感圖像上表現(xiàn)不佳。

當(dāng)前的 RIS 方法通常著重于實(shí)現(xiàn)視覺和語言特征的對(duì)齊,這些方法在邊界清晰的上下文中具有良好的表現(xiàn),但在面對(duì)遙感圖像的混亂和非結(jié)構(gòu)化性質(zhì)時(shí)精度明顯下降,在 RRSIS 任務(wù)中性能差距明顯。這些問題都呼喚一種更穩(wěn)健、更廣泛的針對(duì)遙感圖像的方法。

針對(duì)上述問題,作者構(gòu)建了一個(gè)全新的大規(guī)模 RRSIS 數(shù)據(jù)集 RRSIS-D,該數(shù)據(jù)集的規(guī)模是其前身的三倍,不僅涵蓋了多種空間分辨率的圖像,而且分割目標(biāo)也具有顯著的尺度和角度多樣性。

同時(shí),作者提出了旋轉(zhuǎn)多尺度交互網(wǎng)絡(luò)(RMSIN)。RMSIN 的結(jié)構(gòu)包含多尺度交互模塊和旋轉(zhuǎn)卷積,以應(yīng)對(duì) RRSIS 的復(fù)雜性。

圖1:遙感圖像分割普遍存在的問題。

具體來說,該研究的貢獻(xiàn)可總結(jié)為:

  • 構(gòu)建了新的指向性遙感圖像分割 benchmark 數(shù)據(jù)集 RRSIS-D。RRSIS-D 基于 SAM 強(qiáng)大的分割功能,再進(jìn)行手動(dòng)校準(zhǔn),涵蓋多種多樣的空間分辨率和物體方向的數(shù)據(jù)。新數(shù)據(jù)集能夠?yàn)閭鹘y(tǒng) RIS 方法向遙感領(lǐng)域遷移應(yīng)用提供基礎(chǔ)。
  • 提出了旋轉(zhuǎn)多尺度交互網(wǎng)絡(luò)(RMSIN),以應(yīng)對(duì)遙感圖像中普遍存在的多空間尺度和方向所帶來的挑戰(zhàn)。
  • 設(shè)計(jì)了層內(nèi)尺度交互模塊和層間尺度交互模塊來處理不同尺度內(nèi)和跨尺度的細(xì)粒度信息。同時(shí),作者在分割的解碼器端引入了旋轉(zhuǎn)自適應(yīng)卷積來增強(qiáng)模型的魯棒性,有效應(yīng)對(duì) RRSIS 中無處不在的旋轉(zhuǎn)現(xiàn)象。
  • 廣泛的實(shí)驗(yàn)證明了本文中的 RMSIN 優(yōu)于當(dāng)前 SOTA 方法,在一系列評(píng)估指標(biāo)上,持續(xù)表現(xiàn)出最佳性能,為之后的 RRSIS 的研究提供強(qiáng)有力的基線。

RRSIS-D 數(shù)據(jù)集

作者提出了一個(gè)專門指向遙感圖像分割的大規(guī)模數(shù)據(jù)集 RRSIS-D。Segment Anything Model(SAM)實(shí)現(xiàn)了卓越的分割性能。在 SAM 的基礎(chǔ)上,作者采用了一種半自動(dòng)方法實(shí)現(xiàn)數(shù)據(jù)集的標(biāo)注,利用邊界框和 SAM 生成像素級(jí)掩碼,從而在標(biāo)注過程中節(jié)約成本。

數(shù)據(jù)集 RRSIS-D 由 17402 個(gè)圖像 - 描述 - 掩碼對(duì)組成,所有圖像的分辨率統(tǒng)一為高 800px、寬 800px,包含 20 個(gè)遙感場(chǎng)景多個(gè)物體類別,圖像描述由 7 種屬性組成。圖 2 列舉了數(shù)據(jù)集掩碼占圖像總尺寸的比例(θ),并列舉了具有代表性的數(shù)據(jù)集實(shí)例,可以看出分割目標(biāo)涉及極大、極小的顯著尺度變換的目標(biāo)。豐富種類的圖片使得數(shù)據(jù)集具有挑戰(zhàn)性。

圖2:列舉了數(shù)據(jù)集掩碼占圖像總尺寸的比例。

方法

RMSIN 模型的流程如圖 3 所示。對(duì)于給定輸入圖像圖片和描述 圖片 ,首先描述 E 通過文本 backbone圖片轉(zhuǎn)換為文本特征圖片。

同時(shí),圖像通過復(fù)合尺度交互編碼器(Compounded Scale Interaction Encoder,CSIE)進(jìn)行處理并與文本特征交互,生成具有充分語義的跨多個(gè)尺度的融合特征。CSIE 由尺度內(nèi)交互模塊(Intra-scale Interaction Module,IIM)和跨尺度交互模塊(Cross-scale Interaction Module,CIM)組成,在編碼器的每層,都會(huì)應(yīng)用尺度內(nèi)交互分支來增強(qiáng)局部視覺建模,而對(duì)稱的視覺 - 語言融合分支則會(huì)對(duì)視覺和語言特征進(jìn)行調(diào)整,以改進(jìn)后續(xù)的圖像特征提取。

隨后,編碼器每層的特征都會(huì)傳遞給 CIM,該模塊通過多尺度注意(Multi-scale Attention)促進(jìn)信息交互和空間關(guān)系優(yōu)化。最后,作者提出了基于自適應(yīng)旋轉(zhuǎn)卷積(ARC)的定向感知解碼器(OAD),通過對(duì) CSIE 多個(gè)階段的特征進(jìn)行并行推理來生成分割掩碼。

圖片

圖3:RMSIN 模型的流程示意圖。

尺度內(nèi)交互模塊(Intra-scale Interaction Module)

編碼器每層通過尺度內(nèi)交互模塊(IIM)進(jìn)一步挖掘每個(gè)尺度內(nèi)的豐富信息,促進(jìn)視覺和語言模式之間的交互。IIM 基于四個(gè)階段的層次結(jié)構(gòu),可表示為圖片。通過文本 backbone 獲取文本特征圖片(其中 C 表示通道數(shù))后,IIM 在階段 i 的輸出特征圖片可描述為:圖片.

其中,圖片 是從視覺 backbone圖片和輸入 I 中提取的。具體來說,在階段 i 中,輸入特征圖片經(jīng)過降采樣和 MLP 的組合以縮小尺度并統(tǒng)一特征維度,得到圖片。經(jīng)過下采樣的特征被送入兩個(gè)分支,分別用于增強(qiáng)視覺先驗(yàn)和融合多模態(tài)信息。

多感受野分支(Various Receptive)

特征圖片通過 J 個(gè)不同卷積核大小的卷積分支進(jìn)行變換,以產(chǎn)生具有不同感受野的特征,可表述為:圖片.

其中,圖片 表示卷積的第 j 個(gè)分支,σ 表示 Sigmoid 函數(shù)。公式即表達(dá)利用不同的卷積設(shè)置來平衡所有像素之間的權(quán)重圖片。權(quán)重通過以下方式來增強(qiáng)特征:圖片.

輸出由視覺門 α (Vision Gate) 調(diào)節(jié)后,作為原始圖像特征的局部細(xì)粒度信息的補(bǔ)充特征。視覺門的具體實(shí)現(xiàn)方法是:

圖片.

其中,LN (?) 為 1×1 卷積核大小的卷積,Tanh (?) 和 ReLU (?) 表示激活函數(shù)。

跨模態(tài)對(duì)齊分支(Cross-modal Alignment)

跨模態(tài)對(duì)齊分支是專為多模態(tài)特征對(duì)齊設(shè)計(jì)的,這是使模型能夠理解自然語言的關(guān)鍵。具體來說,在輸入圖片和語言特征圖片 的情況下,首先使用圖片作為 Query,以圖片作為 Key 和 Value,實(shí)現(xiàn)縮放點(diǎn)積注意力,從而獲得多模態(tài)特征:圖片,

隨后,將注意力圖片圖片結(jié)合起來,得到語言引導(dǎo)的圖像特征:圖片,

圖片的輸出操作類似,得到的輸出由語言門 β(Language Gate) 調(diào)節(jié)并加到原始圖像特征中,作為補(bǔ)充的語言特征。語言門 β 的結(jié)構(gòu)與視覺門相同。因此,尺度內(nèi)交互模塊在 i 階段的整體輸出特性可以表示為:圖片.

跨尺度交互模塊(Cross-scale Interaction Module)

基于通過尺度內(nèi)特征交互獲得在語言特征的引導(dǎo)下的局部多尺度特征,作者提出跨尺度交互模塊以進(jìn)一步加強(qiáng)粗粒度和細(xì)粒度特征間的交互,以應(yīng)對(duì)遙感圖像中的大尺度變化。具體來說,該模塊將尺度內(nèi)交互模塊每層的輸出,即之前提到的,作為輸入,并執(zhí)行多階段交互。首先進(jìn)行多尺度特征組合,將特征圖片在空間維度降采樣到相同大小,并沿通道維度進(jìn)行拼接,公式表達(dá)如下:圖片,

圖片.

其中,圖片表示圖片降采樣后的新特征,downsample (?) 通過 Average Pooling 實(shí)現(xiàn);圖片表示沿通道維度拼接的多尺度特征,即通過圖片操作在通道維度拼接 圖片得到的多尺度特征。多尺度特征圖片隨后被輸入到不同的感受野以實(shí)現(xiàn)深度多尺度交互,通過大小和步長不同的被調(diào)整到不同的尺度,其定義如下:


其中,圖片是調(diào)整的尺度數(shù),圖片是第 m 個(gè)深度卷積的卷積核大小,圖片 和 圖片圖片的高度和權(quán)重。以此得到圖片集合,就可以在空間維度上對(duì)所有元素進(jìn)行扁平化處理,并將它們拼接成一個(gè)序列的多尺度感知特征圖片。以原特征圖片作為 Query,以多尺度感知特征圖片作為 Key 和 Value 執(zhí)行跨尺度注意力:

圖片

為了更好地保留局部細(xì)節(jié),在跨尺度注意力輸出中并行加入局部關(guān)系補(bǔ)償,得到跨尺度注意力的最終輸出:圖片,

其中,DWConv (?) 表示深度卷積,Hardswish (?) 為激活函數(shù),以增強(qiáng)多尺度局部信息的提取。 

最終,對(duì)于來自圖片的每個(gè)部分,都會(huì)執(zhí)行來自圖片相應(yīng)部分的感知門正則化,以獲得跨尺度交互的權(quán)重。該權(quán)重被視為尺度內(nèi)特征模塊輸出的輔助殘差。計(jì)算公式如下:

其中圖片。感知門的輸出被用于后續(xù)解碼器的最終掩碼預(yù)測(cè)。

自適應(yīng)旋轉(zhuǎn)動(dòng)態(tài)卷積

考慮到遙感圖像中的目標(biāo)實(shí)例通常會(huì)呈現(xiàn)不同的方向,使用靜態(tài)的水平卷積核生成掩碼可能會(huì)導(dǎo)致精度缺失。受旋轉(zhuǎn)物體檢測(cè)的啟發(fā),作者提出使用自適應(yīng)旋轉(zhuǎn)動(dòng)態(tài)卷積的分割解碼器中,以實(shí)現(xiàn)更好的掩碼預(yù)測(cè)。

自適應(yīng)旋轉(zhuǎn)卷積從輸入特征中捕捉角度信息,并動(dòng)態(tài)地重參數(shù)化卷積核權(quán)重參數(shù),以過濾冗余特征。具體來說,它提取方向特征,并根據(jù)輸入預(yù)測(cè) n 個(gè)角度圖片和相應(yīng)的權(quán)重圖片。對(duì)于輸入 Χ,θ,λ 的預(yù)測(cè)值為:,

由于靜態(tài)卷積核權(quán)重可以看作是從特征映射齊次方程的二維核空間以特定方向采樣點(diǎn)采樣得到的值。因此,卷積核的旋轉(zhuǎn)就是旋轉(zhuǎn) - 重采樣的過程。具體來說,卷積核權(quán)重圖片根據(jù)預(yù)測(cè)的角度重參數(shù)化(Rotate Block)如下所示:

其中,圖片 是原始卷積核采樣點(diǎn)的坐標(biāo),圖片是圍繞坐標(biāo)原點(diǎn)進(jìn)行旋轉(zhuǎn)仿射變換的旋轉(zhuǎn)矩陣的逆矩陣,interpolation (?) 通過雙線性插值實(shí)現(xiàn)。最后,用得到的卷積核對(duì)特征進(jìn)行過濾,并進(jìn)行加權(quán)求和運(yùn)算,以生成方向感知特征:

則自頂向下的掩碼預(yù)測(cè)整體過程可總結(jié)如下:

,

其中,Seg (?) 指的是包括 3 ×3 卷積層、Batch Normalization 層和 ReLU 激活函數(shù)的非線性模塊,以增強(qiáng)分割特征空間的非線性。而 Proj (?) 為線性變換函數(shù),用于將最終特征圖片映射到二分類的掩碼。值得注意的是,圖片輸入自適應(yīng)旋轉(zhuǎn)動(dòng)態(tài)卷積 ARC 中獲得優(yōu)化特征 圖片,以利用特征空間中的方向信息,從而消除冗余,提高邊界細(xì)節(jié)的準(zhǔn)確性。

實(shí)驗(yàn)

在實(shí)驗(yàn)中,作者在 RRSIS-D 數(shù)據(jù)集上比較了 RMSIN 與現(xiàn)有最先進(jìn)的自然圖像參考圖像分割方法的性能。為了進(jìn)行公平比較,作者遵循了這些方法的原始實(shí)現(xiàn)細(xì)節(jié)。

在驗(yàn)證集中,RMSIN 在每個(gè)指標(biāo)上都優(yōu)于所有比較方法。值得注意的是,與最近表現(xiàn)最好的 LAVT 方法相比,RMSIN 將 mIoU 提高了 3.54%。在處理非常小或旋轉(zhuǎn)物體等復(fù)雜情況時(shí),這種顯著提升尤為明顯,在 P@0.5、P@0.6 和 P@0.7 中分別提高了 5.12%、4.71% 和 4.25%。這些結(jié)果突出表明,RMSIN 能夠捕捉到詳細(xì)的局部信息和特定方向信息,從而實(shí)現(xiàn)更準(zhǔn)確的分割。

消融

作者在 RRSIS-D 上進(jìn)行了各種消融實(shí)驗(yàn),以評(píng)估 RMSIN 的網(wǎng)絡(luò)中關(guān)鍵組件的功效。

圖片


圖片

可視化

為了直觀了解 RMSIN ,作者將預(yù)測(cè)結(jié)果與基線進(jìn)行了定性比較。如圖 4 所示,RMSIN  在根據(jù)表情精確識(shí)別各種比例的目標(biāo)方面表現(xiàn)出了卓越的能力。此外,它還能在嘈雜的背景中定位微小尺度的物體,并穩(wěn)健地預(yù)測(cè)不同角度出現(xiàn)的物體。與此相反,基線模型生成的預(yù)測(cè)遮罩卻存在缺陷,包括部分缺失和明顯偏移。

圖片

圖4:RMSIN 的預(yù)測(cè)結(jié)果與基線進(jìn)行定性比較。

在圖 5 中,作者對(duì)在 ARC 和 CSIE 的消融作用下,RMSIN 在訓(xùn)練過程中生成的特征圖進(jìn)行了可視化。很明顯,在比例交互和旋轉(zhuǎn)卷積的幫助下,RMSIN 可以準(zhǔn)確捕捉邊界信息。有了 CSIE 的比例交互和 ARC 的方向提取,RMSIN 可以更敏銳地聚焦于所指的目標(biāo)。與第一行相比,CSIE 提供了更精確的深層語義,而 ARC 則提供了空間先驗(yàn),這對(duì)旋轉(zhuǎn)物體分割非常重要。

圖5:在 ARC 和 CSIE 的消融作用下,RMSIN 在訓(xùn)練過程中生成的特征圖。

結(jié)論

在本文中,作者提出了旋轉(zhuǎn)多尺度交互網(wǎng)絡(luò)(RMSIN),這是一種解決 RRSIS 中復(fù)雜空間尺度和方向問題的新型解決方案。RMSIN 中引入的 「內(nèi)尺度交互模塊」和 「跨尺度交互模塊」 專門應(yīng)對(duì)航空?qǐng)D像中不同空間尺度的挑戰(zhàn)。此外,RMSIN 還集成了自適應(yīng)旋轉(zhuǎn)卷積功能,為有效處理此類圖像的不同方向特征提供了強(qiáng)大的解決方案。在新開發(fā)的綜合性 RRSIS-D 數(shù)據(jù)集上進(jìn)行的廣泛驗(yàn)證證明了 RMSIN 的卓越性能。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2018-09-21 15:15:33

NVIDIA顯卡深度學(xué)習(xí)

2024-01-29 06:55:00

模型數(shù)據(jù)

2018-09-05 15:06:00

GTX 1080Ti顯卡NVIDIA

2017-12-18 15:16:16

GTX1080TiPhanteks散熱

2019-05-14 09:53:31

代碼開發(fā)工具

2025-02-10 16:00:00

OpenCVYOLOv8計(jì)算機(jī)視覺

2019-09-18 14:12:02

FirefoxFedora瀏覽器

2018-09-07 14:32:17

NVIDIARTX 20DLSS

2009-12-29 14:41:13

ADO.NET 數(shù)據(jù)集

2021-05-19 09:26:03

代碼開源IBM

2021-11-20 22:20:10

Windows 11Windows微軟

2016-03-07 13:49:19

2024-06-28 13:47:17

2022-06-10 15:01:30

人工智能腦部掃描數(shù)據(jù)

2020-11-16 08:05:26

API調(diào)用VS Code

2010-03-10 18:29:57

2021-02-18 00:02:53

數(shù)據(jù)庫工具低代碼

2025-02-18 09:27:20

2023-09-26 21:53:27

Java圖像處理

2018-09-10 15:02:51

開源技術(shù) 數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)