回顧60多種 Transformer 研究,一文總結(jié)遙感領(lǐng)域最新進(jìn)展
遙感成像技術(shù)在過去幾十年取得顯著進(jìn)步。現(xiàn)代機(jī)載傳感器在空間、光譜和分辨率上的不斷提升,已經(jīng)能覆蓋地球表面大部分范圍,因此遙感技術(shù)在生態(tài)學(xué)、環(huán)境科學(xué)、土壤科學(xué)、水污染、冰川學(xué)、土地測量和分析等眾多研究領(lǐng)域發(fā)揮著至關(guān)重要的作用。由于遙感數(shù)據(jù)通常是多模態(tài)的、位于地理空間(地理定位)中,并且尺度通常是全球范圍、數(shù)據(jù)規(guī)模也在不斷增長等等,這些特性都為遙感成像的自動分析帶來獨(dú)特的挑戰(zhàn)。
計(jì)算機(jī)視覺的許多領(lǐng)域中,如對象識別、檢測和分割等等,深度學(xué)習(xí)尤其是卷積神經(jīng)網(wǎng)絡(luò) (CNN) 已經(jīng)是主流。卷積神經(jīng)網(wǎng)絡(luò)通常將 RGB 圖像作為輸入并執(zhí)行一系列卷積、局部歸一化和池化操作。CNN 通常依賴于大量的訓(xùn)練數(shù)據(jù),然后將生成的預(yù)訓(xùn)練模型用作各種下游應(yīng)用的通用特征提取器?;谏疃葘W(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)的成功也啟發(fā)了遙感界,并且在許多遙感任務(wù)中取得重大進(jìn)展,如高光譜圖像分類、變化檢測。
CNN 主要基礎(chǔ)之一是卷積運(yùn)算,它捕捉輸入圖像中元素(如輪廓和邊緣信息)之間的局部交互。CNN 對空間連通性和平移等效性等偏差進(jìn)行編碼,這些特征有助于構(gòu)建通用高效的架構(gòu)。CNN 中的局部感受野限制了對圖像中的遠(yuǎn)距離依賴關(guān)系(如遠(yuǎn)距離部分間的關(guān)系)的建模。卷積是與內(nèi)容無關(guān)的,因?yàn)榫矸e濾波器的權(quán)重是固定的,無論其性質(zhì)如何,都將相同的權(quán)重應(yīng)用于所有輸入。視覺 transfomer (ViTs) 在計(jì)算機(jī)視覺的各種任務(wù)中展示了令人印象深刻的性能。ViT 基于 self-attention 機(jī)制,通過學(xué)習(xí)序列元素之間的關(guān)系有效地捕捉全局交互。最近的研究表明,ViT 具有依賴于內(nèi)容的遠(yuǎn)程交互建模能力,并且可以靈活地調(diào)整其感受野以對抗數(shù)據(jù)中的干擾并學(xué)習(xí)有效的特征表示。因此,ViT 及其變體已成功用于許多計(jì)算機(jī)視覺任務(wù),包括分類、檢測和分割。
ViT 在計(jì)算機(jī)視覺領(lǐng)域的成功,遙感分析中使用基于 transformer 框架的的任務(wù)顯著增長(見圖 1),像超高分辨率圖像分類、變化檢測、全色銳化 ,建筑物檢測和圖像字幕都有 transformer 的身影。這開啟遙感分析的新紀(jì)元,研究者采用各種不同的方法,如利用 ImageNet 預(yù)訓(xùn)練或使用視覺 transformer 執(zhí)行遙感預(yù)訓(xùn)練。
類似地,相關(guān)文獻(xiàn)中也有基于純 transformer 設(shè)計(jì)或利用基于 transformer 和 CNN 的混合方法的方法。由于針對不同遙感問題的基于 transformer 的方法的迅速涌現(xiàn),跟上最新的進(jìn)展變得越來越具有挑戰(zhàn)性。
在文章中,作者回顧遙感分析領(lǐng)域取得的進(jìn)展,并介紹在遙感領(lǐng)域中流行的基于 transformer 的方法,文章主要貢獻(xiàn)如下:
對基于 transformer 的模型在遙感成像中的應(yīng)用進(jìn)行整體概述,并且作者是第一個對遙感分析中使用 transformer 進(jìn)行調(diào)研的,彌合了計(jì)算機(jī)視覺和遙感在這個快速發(fā)展和受歡迎的領(lǐng)域的最新進(jìn)展之間的差距。
- 對 CNN 和 Transformer 進(jìn)行概述,討論它們各自的優(yōu)缺點(diǎn)。
- 回顧文獻(xiàn)中 60 多種基于 transformer 的研究工作,討論遙感領(lǐng)域的最新進(jìn)展。
- 探討遙感分析中 transformer 的不同挑戰(zhàn)和研究方向。
文章的其余部分安排:第 2 節(jié)討論有關(guān)遙感成像的其他相關(guān)調(diào)研;第 3 節(jié)概述遙感中不同的成像模式;第 4 節(jié)簡要概述 CNN 和視覺 transformer;第 5 節(jié)回顧超高分辨率 (VHR) 成像;第 6 節(jié)介紹高光譜圖像分析;第 7 節(jié)介紹合成孔徑雷達(dá)(SAR)中基于 transformer 的方法進(jìn)展;第 8 節(jié)討論未來研究方向。
更多細(xì)節(jié)請參考原論文。
- 論文鏈接:https://arxiv.org/pdf/2209.01206.pdf
- GitHub 地址:https://github.com/VIROBO-15/Transformer-in-Remote-Sensing