自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)公開發(fā)表的SAR圖像目標(biāo)識(shí)別基礎(chǔ)模型!國(guó)防科大劉永祥&劉麗教授團(tuán)隊(duì)提出SARATR-X 1.0

人工智能 新聞
國(guó)防科技大學(xué)電子科學(xué)學(xué)院劉永祥&劉麗教授團(tuán)隊(duì)提出首個(gè)公開發(fā)表的SAR圖像目標(biāo)識(shí)別基礎(chǔ)模型SARATR-X 1.0。

合成孔徑雷達(dá)(Synthetic Aperture Radar, SAR)作為一種基于電磁波的主動(dòng)探測(cè)技術(shù),具有全天時(shí)、全天候的對(duì)地觀測(cè)能力,已發(fā)展成為一種不可或缺的對(duì)地觀測(cè)工具,在軍民很多領(lǐng)域均有著重要的應(yīng)用。

目標(biāo)識(shí)別(Automatic target recognition,ATR)是 SAR 圖像智能解譯的核心問題,旨在對(duì) SAR 圖像中典型目標(biāo)(通常為車輛、艦船和飛機(jī)等目標(biāo))進(jìn)行自動(dòng)定位和分類,復(fù)雜、開放、對(duì)抗環(huán)境下的 SAR 目標(biāo)識(shí)別要做到高精準(zhǔn)、高敏捷、強(qiáng)穩(wěn)健、省資源,仍然面臨很多挑戰(zhàn)。當(dāng)前,SAR 目標(biāo)識(shí)別主要面臨兩個(gè)層面挑戰(zhàn)。

  • 技術(shù)層面,SAR 目標(biāo)識(shí)別方法多為有監(jiān)督、靜態(tài)、單任務(wù)、單模型、單平臺(tái),對(duì)特定類別的檢測(cè)和分類,都需要各自的算法模型,每個(gè)任務(wù)都必須從頭開始獨(dú)立學(xué)習(xí),這導(dǎo)致計(jì)算冗余、算法設(shè)計(jì)周期長(zhǎng)、泛化能力嚴(yán)重不足、高標(biāo)注依賴等問題。
  • 生態(tài)層面,由于 SAR 圖像數(shù)據(jù)敏感性、標(biāo)注代價(jià)昂貴等因素,缺乏良好的、開源的代碼、評(píng)估基準(zhǔn)和數(shù)據(jù)生態(tài),導(dǎo)致很多 SAR 目標(biāo)識(shí)別算法不開源、算法評(píng)估基準(zhǔn)不統(tǒng)一、目前尚無(wú)公開的百萬(wàn) / 千萬(wàn)級(jí)大規(guī)模高質(zhì)量 SAR 目標(biāo)識(shí)別基準(zhǔn)數(shù)據(jù)集等問題。

在人工智能基礎(chǔ)模型技術(shù)飛速發(fā)展的今天,SAR 圖像解譯領(lǐng)域技術(shù)創(chuàng)新與發(fā)展生態(tài)亟待突破。

圖片圖 1. 各種專門的 SAR ATR 數(shù)據(jù)集和任務(wù)。SAR ATR 包括各種成像條件(即操作條件),如目標(biāo)、場(chǎng)景和傳感器。然而,由于成本較高,通常是在特定任務(wù)和設(shè)置中收集數(shù)據(jù)集。例如,MSTAR 是 X 波段和草地場(chǎng)景中的 10 型車輛目標(biāo)分類數(shù)據(jù)集,SAR-Aircraft 是從三個(gè)機(jī)場(chǎng)和 C 波段衛(wèi)星收集的 7 型飛機(jī)檢測(cè)數(shù)據(jù)集。不同的目標(biāo)特征、場(chǎng)景信息和傳感器參數(shù)使現(xiàn)有算法的泛化困難。因此,團(tuán)隊(duì)旨在建立 SAR ATR 基礎(chǔ)模型,一種用于各種任務(wù)的通用方法。

為了解決上述技術(shù)挑戰(zhàn),國(guó)防科技大學(xué)電子科學(xué)學(xué)院劉永祥&劉麗教授團(tuán)隊(duì)提出首個(gè)公開發(fā)表的SAR圖像目標(biāo)識(shí)別基礎(chǔ)模型SARATR-X 1.0。

技術(shù)層面:①率先開展基于自監(jiān)督學(xué)習(xí)的 SAR 目標(biāo)特征表示學(xué)習(xí);②創(chuàng)新性地提出了適用于 SAR 圖像的聯(lián)合嵌入 - 預(yù)測(cè)自監(jiān)督學(xué)習(xí)新框架(Joint Embedding Predictive Architecture for SAR ATR, SAR-JEPA),讓深度神經(jīng)網(wǎng)絡(luò)僅僅預(yù)測(cè) SAR 圖像稀疏且重要梯度特征表示,有效地抑制了 SAR 圖像相干斑噪聲,避免預(yù)測(cè) SAR 圖像含相干斑噪聲的原始像素強(qiáng)度信息;③研制了首個(gè) SAR 圖像目標(biāo)識(shí)別基礎(chǔ)模型 SARATR-X(0.66 億參數(shù),基于 Transformer),突破了復(fù)雜場(chǎng)景中 SAR 目標(biāo)特征學(xué)習(xí)對(duì)大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)高度依賴的瓶頸,大幅提升了預(yù)訓(xùn)練基礎(chǔ)模型的認(rèn)知能力。

生態(tài)層面:團(tuán)隊(duì)致力于為 SAR 圖像目標(biāo)識(shí)別創(chuàng)建一個(gè)良好開源生態(tài),以促進(jìn) SAR 目標(biāo)識(shí)別技術(shù)快速創(chuàng)新發(fā)展。①規(guī)范和整合已有公開數(shù)據(jù)集,形成較大規(guī)模 SAR 圖像陸海目標(biāo)識(shí)別數(shù)據(jù)集 SARDet-180K;②為了取代 MSTAR(10 種車輛型號(hào)),耗時(shí)兩年構(gòu)建 SAR 車輛目標(biāo)識(shí)別數(shù)據(jù)集 NUDT4MSTAR(40 種車輛型號(hào)、更具挑戰(zhàn)的實(shí)際場(chǎng)景、數(shù)據(jù)公開、規(guī)模超過(guò)同類型數(shù)據(jù)集十倍),進(jìn)行了詳細(xì)性能評(píng)測(cè);③開源相關(guān)的目標(biāo)識(shí)別算法代碼和評(píng)估基準(zhǔn)。

研究成果以 “SARATR-X:面向 SAR 目標(biāo)識(shí)別的基礎(chǔ)模型(SARATR-X: Towards Building A Foundation Model for SAR Target Recognition)” 和 “預(yù)測(cè)梯度更好:探索聯(lián)合嵌入-預(yù)測(cè)框架的 SAR ATR 自監(jiān)督學(xué)習(xí)(Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture)”,被國(guó)際頂級(jí)學(xué)術(shù)期刊《IEEE Transactions on Image Processing》錄用和《ISPRS Journal of Photogrammetry and Remote Sensing》發(fā)表。

團(tuán)隊(duì)的代表性工作一經(jīng)發(fā)表、錄用后,已經(jīng)引起國(guó)內(nèi)外同行關(guān)注,獲得積極評(píng)價(jià)。引文單位包括美國(guó)空軍研究實(shí)驗(yàn)室、法國(guó)古斯塔夫?埃菲爾大學(xué)、新加坡南洋理工大學(xué)、北京大學(xué)、武漢大學(xué)、北京航空航天大學(xué)等。

例如,ISPRS Journal 主編、LASTIG 實(shí)驗(yàn)室主任 Clement Mallet 在其論文《AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities》中認(rèn)為 “SAR-JEPA [41] 首次將聯(lián)合嵌入預(yù)測(cè)框架概念應(yīng)用于對(duì)地觀測(cè),專門用于 SAR 數(shù)據(jù)。(引文原文:SAR-JEPA [41] introduces the first implementation of JEPA concepts for EO, focusing exclusively on SAR data. In this paper, we combine JEPA with a versatile spatial encoder architecture, allowing a single model to handle diverse data scales, resolutions, and modalities.)”

此外,該團(tuán)隊(duì)正在加緊研制 SARATR-X 2.0,預(yù)計(jì)參數(shù)規(guī)模 3 億,SAR 目標(biāo)切片樣本規(guī)模 200 萬(wàn),其中收集的數(shù)據(jù)將形成開源數(shù)據(jù)集以服務(wù)生態(tài)建設(shè),近期將發(fā)布 SAR 車輛目標(biāo)識(shí)別數(shù)據(jù)集 NUDT4MSTAR。

技術(shù)方案

團(tuán)隊(duì)旨在構(gòu)建一個(gè)通用 SAR 圖像目標(biāo)識(shí)別基礎(chǔ)模型以滿足實(shí)踐中多樣的識(shí)別任務(wù)需求。作為首個(gè)公開發(fā)布的 SAR 圖像目標(biāo)識(shí)別基礎(chǔ)模型 SARATR-X 1.0,該模型從大規(guī)模無(wú)標(biāo)注 SAR 目標(biāo)圖像中學(xué)習(xí)到了較為通用的特征表示,突破了傳統(tǒng)有監(jiān)督算法適應(yīng)性局限,為各種下游任務(wù)的高效適應(yīng)提供基礎(chǔ)。在系列工作中,團(tuán)隊(duì)研究了 SAR 圖像目標(biāo)識(shí)別基礎(chǔ)模型的預(yù)訓(xùn)練集、模型架構(gòu)、自監(jiān)督學(xué)習(xí)和評(píng)估基準(zhǔn)。

預(yù)訓(xùn)練集,所使用的預(yù)訓(xùn)練集包括不同的目標(biāo)類別和成像條件,以適應(yīng)各種下游任務(wù),將大部分開源數(shù)據(jù)集作為預(yù)訓(xùn)練的一部分,共納入了 14 個(gè)具有不同目標(biāo)類別和成像條件的分類和檢測(cè)數(shù)據(jù)集,作為新的預(yù)訓(xùn)練數(shù)據(jù)集,以探索基礎(chǔ)模型的潛力。

圖片

表 1. SARATR-X 用于預(yù)訓(xùn)練的 14 個(gè)開源合成孔徑雷達(dá)數(shù)據(jù)集。

模型架構(gòu),采用 HiViT 架構(gòu),旨在實(shí)現(xiàn)更好的遙感圖像空間表示,特別是對(duì)于大圖像中的小目標(biāo)。HiViT 具有 Swin Transformer 高分辨率輸入的優(yōu)勢(shì),且可在自監(jiān)督學(xué)習(xí)的掩碼圖像建模中丟棄補(bǔ)丁提高訓(xùn)練效率。

自監(jiān)督學(xué)習(xí),SAR 相干成像中的散斑噪聲會(huì)對(duì)圖像質(zhì)量產(chǎn)生負(fù)面影響。此外,SAR 幅度圖像的視覺特征不像光學(xué) RGB 圖像那樣明顯。因此,SAR SSL 的主要任務(wù)是提高特征學(xué)習(xí)和目標(biāo)信號(hào)的質(zhì)量。在前期工作 SAR-JEPA 中,重點(diǎn)研究了如何針對(duì) SAR 圖像特性設(shè)計(jì)自監(jiān)督學(xué)習(xí)方法。

SAR-JEPA 受 JEPA、MaskFeat、FG-MAE 等工作啟發(fā),這些工作利用特征空間進(jìn)行自監(jiān)督學(xué)習(xí)任務(wù),而非在原始像素空間進(jìn)行,這壓縮了圖像空間中信息冗余,且可以學(xué)習(xí)到不同特征,如目標(biāo)性質(zhì)、深層語(yǔ)義特征。SAR-JEPA 針對(duì) SAR 圖像噪聲問題,重點(diǎn)在一個(gè)降噪特征空間進(jìn)行自監(jiān)督學(xué)習(xí),通過(guò)結(jié)合傳統(tǒng)特征算子去除散斑噪聲干擾,提取目標(biāo)邊緣梯度信息用于自監(jiān)督,從而實(shí)現(xiàn)在 SAR 圖像這種噪聲數(shù)據(jù)中的大規(guī)模無(wú)標(biāo)注自監(jiān)督學(xué)習(xí)。其結(jié)果表明自監(jiān)督學(xué)習(xí)模型性能可在不同 SAR 目標(biāo)分類數(shù)據(jù)集上隨著數(shù)據(jù)量而不斷增長(zhǎng)。這推動(dòng)了我們基于大規(guī)模數(shù)據(jù)集構(gòu)建一個(gè)通用 SAR 圖像目標(biāo)識(shí)別基礎(chǔ)模型,從而實(shí)現(xiàn)在不同目標(biāo)、場(chǎng)景、傳感器和識(shí)別任務(wù)中高效復(fù)用。

因此,SARATR-X 基于 SAR-JEPA 進(jìn)行訓(xùn)練,首先在 ImageNet 數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以獲得更好的初始化模型多樣性,第二步是利用 SAR-JEPA 中高質(zhì)量的目標(biāo)信號(hào)對(duì) SAR 圖像進(jìn)行預(yù)訓(xùn)練。

圖片

圖 2. 兩步預(yù)訓(xùn)練過(guò)程。第一步是對(duì) ImageNet 數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以獲得更好的初始化模型多樣性。第二步是利用高質(zhì)量的目標(biāo)信號(hào)對(duì) SAR 圖像進(jìn)行預(yù)訓(xùn)練,比如抑制散斑噪聲和提取目標(biāo)邊緣的多尺度梯度特征。

評(píng)估任務(wù),針對(duì)全面評(píng)估基礎(chǔ)模型的性能需求,團(tuán)隊(duì)利用 3 個(gè)開源目標(biāo)數(shù)據(jù)集,首先構(gòu)建了一個(gè)包含 25 個(gè)類別的細(xì)粒度分類數(shù)據(jù)集 SAR-VSA,以評(píng)估所提改進(jìn)措施的有效性。然后,在公開分類和檢測(cè)數(shù)據(jù)集上,對(duì)所提 SARATR-X 1.0 和現(xiàn)有方法進(jìn)行了全面比較。

模型性能

受限于公開的 SAR 目標(biāo)識(shí)別數(shù)據(jù)集規(guī)模,研制的 SAR 圖像目標(biāo)識(shí)別基礎(chǔ)模型 SARATR-X 1.0 規(guī)模只有 0.66 億參數(shù),但從大規(guī)模無(wú)標(biāo)注 SAR 目標(biāo)圖像中學(xué)習(xí)到了較為通用的特征表示。在多種下游目標(biāo)識(shí)別任務(wù)上(8 個(gè)基準(zhǔn)目標(biāo)識(shí)別任務(wù),包括小樣本目標(biāo)識(shí)別、穩(wěn)健目標(biāo)識(shí)別、目標(biāo)檢測(cè)等)的性能達(dá)到國(guó)際先進(jìn)或者領(lǐng)先水平(如下圖 3 所示)。在細(xì)粒度車輛 MSTAR 數(shù)據(jù)集中,它的目標(biāo)分類性能優(yōu)于現(xiàn)有的 SSL 方法(BIDFC),提升 4.5%。

此外,它在擴(kuò)展操作條件 EOCs(擦地角 EOCs-Depression、目標(biāo)配置 EOCs-Config 和目標(biāo)版本 EOCs-Version)下表現(xiàn)良好。SARATR-X 在各種類別(多類的 SARDet-100K 和 OGSOD、船舶 SSDD 和飛機(jī) SAR-AIRcraft)的目標(biāo)檢測(cè)下也具有競(jìng)爭(zhēng)力,平均提升約 4%。并且所提方法具有良好的數(shù)據(jù)量和參數(shù)量可擴(kuò)展性,具有進(jìn)一步提升潛力。

圖片

圖 3. SARATR-X 1.0 分類和檢測(cè)的結(jié)果。

檢測(cè)結(jié)果分析,檢測(cè)可視化如下圖 4 所示,虛警和漏檢在 SAR 圖像中很常見,特別是在相似的目標(biāo)重疊和復(fù)雜的場(chǎng)景。雖然所提方法通過(guò)學(xué)習(xí)圖像中的上下文信息,有效地提高了檢測(cè)效果,但復(fù)雜場(chǎng)景和低質(zhì)量圖像的目標(biāo)檢測(cè)仍然非常困難。

圖片

圖 4. 在 SARDet-100K 上進(jìn)行檢測(cè)的可視化。

注意力多樣性分析,對(duì)于不同模型的注意力范圍進(jìn)行可視化分析,如圖 5 所示,通過(guò)模型架構(gòu)(圖 a v.s. 圖 b),初始化權(quán)值(圖 a v.s. 圖 c)和 SSL (圖 d v.s. 圖 e)改進(jìn)以確保 SAR 目標(biāo)識(shí)別的注意范圍不同,包括 HiViT 架構(gòu)、ImageNet 權(quán)重和 SAR 目標(biāo)特征。

圖片

圖 5. 不同注意頭的平均注意距離(x 軸為注意頭層數(shù),點(diǎn)顏色代表不同的層,以便更好地可視化),注意距離(Attention Distance)代表了一個(gè)接受域的范圍。

可擴(kuò)展性,盡管掩碼圖像建??梢杂行У仉S數(shù)據(jù)資源和模型參數(shù)擴(kuò)展性能,但在處理噪聲數(shù)據(jù)(如 SAR)時(shí),所提方法是否可以確保其可擴(kuò)展性?圖 6 從三個(gè)角度展示了實(shí)驗(yàn)的結(jié)果:數(shù)據(jù)集大小、模型參數(shù)量和訓(xùn)練輪數(shù)。盡管預(yù)訓(xùn)練集包含 18 萬(wàn)個(gè)圖像,比 ImageNet-1K 小,但在圖 6(a)和(b)中,隨著數(shù)據(jù)和參數(shù)量的增加,下游任務(wù)性能呈現(xiàn)顯著上升曲線。這一結(jié)果表明,通過(guò)提取高質(zhì)量的特征作為引導(dǎo)信號(hào),基礎(chǔ)模型可以充分發(fā)揮其在 SAR 目標(biāo)識(shí)別中的潛力。但由于數(shù)據(jù)量限制,模型在擴(kuò)展訓(xùn)練輪數(shù)時(shí)傾向于過(guò)擬合。此外,SAR 圖像噪聲和低分辨率進(jìn)一步加劇了過(guò)擬合。

圖片

圖 6. SARATR-X 在數(shù)據(jù)集大小、模型參數(shù)量和訓(xùn)練輪數(shù)方面的可擴(kuò)展性。雖然方法受益于這三個(gè)方面,但需要注意的是,由于數(shù)據(jù)集的大小,過(guò)大的訓(xùn)練輪數(shù)經(jīng)常會(huì)導(dǎo)致過(guò)擬合。

更多圖表分析可見原文。

論文傳送門

SARATR-X

  • 題目:SARATR-X: Towards Building A Foundation Model for SAR Target Recognition
  • 期刊:IEEE Transactions on Image Processing
  • 論文:https://arxiv.org/abs/2405.09365
  • 代碼:https://github.com/waterdisappear/SARATR-X
  • 年份:2025
  • 單位:國(guó)防科技大學(xué)、上海人工智能實(shí)驗(yàn)室
  • 作者:李瑋杰、楊威、侯躍南、劉麗、劉永祥、黎湘

SAR-JEPA

  • 題目:Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture
  • 期刊:ISPRS Journal of Photogrammetry and Remote Sensing
  • 論文:https://www.sciencedirect.com/science/article/pii/S0924271624003514
  • 代碼:https://github.com/waterdisappear/SAR-JEPA
  • 年份:2024
  • 單位:國(guó)防科技大學(xué)、上海人工智能實(shí)驗(yàn)室、南開大學(xué)
  • 作者:李瑋杰、楊威、劉天鵬、侯躍南、李宇軒、劉振、劉永祥、劉麗
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-04-18 15:14:20

科技論文

2024-02-07 12:33:00

AI訓(xùn)練

2013-05-15 10:02:22

大數(shù)據(jù)養(yǎng)豬

2012-09-24 11:01:12

云計(jì)算數(shù)據(jù)中心

2024-10-06 16:50:00

AI訓(xùn)練

2012-06-07 09:08:09

ISC12超算大賽

2012-04-19 09:25:03

超級(jí)計(jì)算機(jī)大學(xué)生超算大賽

2024-12-10 07:00:00

大模型密度定律人工智能

2022-03-03 17:47:12

3D打印生物細(xì)胞

2012-11-16 14:44:33

2012-06-18 17:53:08

大學(xué)生超算大賽

2015-11-25 09:29:41

2024-12-10 09:00:00

AI邊緣計(jì)算

2020-06-08 13:00:33

開源技術(shù) 軟件

2020-09-28 14:27:50

5G

2021-02-21 10:06:46

黃光裕獲釋國(guó)美

2025-04-23 09:06:00

AI模型LLM

2023-01-12 13:03:00

數(shù)據(jù)開源

2021-09-30 09:54:29

科技人工智能優(yōu)化

2023-03-17 07:59:57

AI數(shù)字化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)