將基于深度學(xué)習(xí)的檢測(cè)和識(shí)別算法應(yīng)用到SAR圖像智能解譯
近年來隨著阿爾法狗在圍棋上碾壓人類選手,人工智能技術(shù)變的家喻戶曉。人工智能(1956提出)是關(guān)于知識(shí)的學(xué)科―怎樣表示知識(shí)以及怎樣獲得知識(shí)并使用知識(shí)的科學(xué)。如果機(jī)器能夠通過圖靈測(cè)試,那么就可以看成具有人類智能。
深度學(xué)習(xí)簡(jiǎn)介
經(jīng)過六十年的發(fā)展,人工智能進(jìn)展緩慢,勉強(qiáng)可以說實(shí)現(xiàn)了弱人工智能(智能在某一個(gè)狹窄的領(lǐng)域具有人類的智能),距離通用人工智能和強(qiáng)人工智能還有很長(zhǎng)的路要走。早期是采用專家系統(tǒng)的方法,但是需要許多行業(yè)的專家考慮各種規(guī)則,規(guī)則表過于復(fù)雜,得到的效果也不理想。
之后從數(shù)據(jù)中學(xué)習(xí)知識(shí)(機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)習(xí))的方法慢慢的代替了專家系統(tǒng),取得了不錯(cuò)的效果。機(jī)器學(xué)習(xí)方法主要包括kNN,隨機(jī)樹,人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī),隨機(jī)森林等等。其中人工神經(jīng)網(wǎng)絡(luò)經(jīng)歷了多次的大起大落,直到近年又一次迎來了復(fù)興,只不過換了個(gè)名字叫深度學(xué)習(xí)。
深度學(xué)習(xí)來自于2006年Hinton提出的深度信念網(wǎng)絡(luò)DBN,通過逐層無監(jiān)督預(yù)訓(xùn)練成功訓(xùn)練出較深的神經(jīng)網(wǎng)絡(luò),之后稱為深度神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)的過程叫深度學(xué)習(xí)。在業(yè)界,深度學(xué)習(xí)在計(jì)算機(jī)視覺和語音方面出現(xiàn)的巨大突破是導(dǎo)致其走向復(fù)興的標(biāo)志。
2011年Hinton將深度學(xué)習(xí)介紹給微軟工程師,使在語音識(shí)別領(lǐng)域得到了巨大的突破。2012年Hinton的學(xué)生Alex提出的AlexNet在大規(guī)模物體分類數(shù)據(jù)集ImageNet上的巨大成功,使計(jì)算機(jī)視覺領(lǐng)域所有的任務(wù)都被深度學(xué)習(xí)所主宰。
一直到現(xiàn)在語音和圖像這兩個(gè)領(lǐng)域***進(jìn)的算法都是基于深度學(xué)習(xí)的方法。Hinton二十幾年磨一劍,與Bengio以及Hinton終于迎來了深度學(xué)習(xí)的第三次復(fù)興。關(guān)于深度學(xué)習(xí)的來龍去脈的細(xì)節(jié)可以參考它們?nèi)?015年在Nature上聯(lián)名發(fā)表的綜述。深度學(xué)習(xí)復(fù)興的本質(zhì)是由大數(shù)據(jù)、計(jì)算能力和算法三者推動(dòng)的。
基于深度學(xué)習(xí)的檢測(cè)和識(shí)別方法
計(jì)算機(jī)視覺的任務(wù)包括很多種,大體可以分成低級(jí)、中級(jí)和高級(jí)三類。低級(jí)計(jì)算機(jī)視覺包括分割、圖像復(fù)原和超分辨等,輸出為處理之后的像素。中級(jí)計(jì)算機(jī)視覺主要是指特征提取。
高級(jí)計(jì)算機(jī)視覺主要包括檢測(cè)和識(shí)別兩種任務(wù)。在計(jì)算機(jī)視覺領(lǐng)域用到的深度學(xué)習(xí)模型主要是卷積神經(jīng)網(wǎng)絡(luò)CNN,CNN包括交替出現(xiàn)的卷積層和池化層以及***幾個(gè)全連接層,通過局部共享權(quán)值和池化操作大大減少了參數(shù)量。
那么深度相比于傳統(tǒng)方法有什么優(yōu)點(diǎn)呢,這里借鑒中科院計(jì)算所山世光所說的一句話,“深度學(xué)習(xí)的引入體現(xiàn)了端到端、數(shù)據(jù)驅(qū)動(dòng)的思想:盡可能少的對(duì)流程進(jìn)行干預(yù)、盡可能少的做人為假設(shè)”。
其***的優(yōu)點(diǎn)是可以自動(dòng)提取***的特征,不需像傳統(tǒng)方法那樣進(jìn)行人工設(shè)計(jì)特征。
計(jì)算機(jī)視覺和SAR圖像
計(jì)算機(jī)視覺(Computer Vision, CV)的目的是模擬人的眼睛和大腦來完成自動(dòng)的檢測(cè)、識(shí)別和跟蹤等任務(wù)。計(jì)算機(jī)視覺領(lǐng)域用處特別廣,例如自動(dòng)駕駛、智能安防、智能醫(yī)療、無人超市和移動(dòng)互聯(lián)網(wǎng)(各種手機(jī)APP,例如美圖、激萌、抖音、快手等,百度、騰訊、阿里巴巴、京東、滴滴、華為和小米對(duì)這類人才的需求量也特別大)。
每一個(gè)領(lǐng)域都是上千億級(jí)的巨大市場(chǎng),所以研究特別活躍,社區(qū)發(fā)展完善,新穎的算法和思路層出不窮,而且很多都會(huì)提供開源代碼。尤其是最近進(jìn)展神速的無人超市和移動(dòng)互聯(lián)網(wǎng),正在真實(shí)的改變著我們的生活。
而相比于CV領(lǐng)域,SAR圖像研究人員較少,社區(qū)不完善,研究進(jìn)展較慢。主要原因還是由于市場(chǎng)所決定的,后者對(duì)應(yīng)的用戶太少。
現(xiàn)有的深度學(xué)習(xí)的目標(biāo)檢測(cè)算法都是對(duì)日常生活中的照片的物體進(jìn)行檢測(cè),如圖1 PASCAL VOC數(shù)據(jù)集(CV領(lǐng)域?qū)iT用于訓(xùn)練和測(cè)試檢測(cè)器的數(shù)據(jù)集)的兩個(gè)例子,而SAR圖像與這些圖像具有很大的區(qū)別。
圖1 PASCAL VOC 數(shù)據(jù)集和微波遙感數(shù)據(jù)集的部分圖片示例
1.成像機(jī)理不一樣。光學(xué)成像屬于被動(dòng)成像,通過接受物體反射的光信號(hào)來成像。SAR成像屬于主動(dòng)成像,接收發(fā)射的電磁信號(hào)并進(jìn)行距離向和方位向壓縮等操作來實(shí)現(xiàn)成像,后向反射系數(shù)較大的物體在SAR圖像上亮度較大,通過這種亮度差異形成了單通道灰度圖像,而且SAR圖像具有特殊的乘性的相干斑噪聲。這與光學(xué)成像完全是兩個(gè)不同的學(xué)科,具有本質(zhì)的區(qū)別。
2.拍攝角度不一樣。PASCAL VOC是從水平視角拍攝的自然圖像,光學(xué)遙感和SAR遙感都是從上到下的視角進(jìn)行觀測(cè)成像,這會(huì)產(chǎn)生不同的圖像,并且容易被天氣,光照和視角的影響。
SAR圖像對(duì)觀測(cè)角度極度敏感,這是由于散射信號(hào)的強(qiáng)度取決于物體不同部位的散射系數(shù),觀測(cè)角度稍微變化有可能導(dǎo)致散射強(qiáng)度變化劇烈,光學(xué)遙感不存在,這對(duì)識(shí)別造成了很大的困難。
3.SAR圖像目標(biāo)稀疏且尺寸小,輸入圖像巨大,有相干斑噪聲,訓(xùn)練數(shù)據(jù)相對(duì)缺乏。
基于深度學(xué)習(xí)的SAR圖像艦船與識(shí)別方法
SAR圖像目標(biāo)檢測(cè)與識(shí)別算法的發(fā)展脈絡(luò)與計(jì)算機(jī)視覺領(lǐng)域所類似。傳統(tǒng)方法也是人工設(shè)計(jì)特征,多個(gè)流程單獨(dú)優(yōu)化。其中檢測(cè)方法包括CFAR提取候選區(qū)域和鑒別連個(gè)過程,CFAR嚴(yán)重依賴于對(duì)SAR圖像的統(tǒng)計(jì)建模,而實(shí)際場(chǎng)景的SAR圖像變化較大,難以建立有效的適用性強(qiáng)的模型。
對(duì)于檢測(cè)和識(shí)別這兩個(gè)任務(wù)來說,SAR圖像與計(jì)算機(jī)視覺領(lǐng)域里所使用的圖像共性大于異性,所以應(yīng)該多借鑒CV領(lǐng)域優(yōu)秀的算法。
進(jìn)行基于深度學(xué)習(xí)的目標(biāo)檢測(cè)和識(shí)別之前需要建立數(shù)據(jù)集。軍用戰(zhàn)車識(shí)別的數(shù)據(jù)集有MSTAR,我們利用一些經(jīng)典的CNN(VGG/GoogLeNet/ResNet等)進(jìn)行識(shí)別,發(fā)現(xiàn)準(zhǔn)確率可以飆到99.5%[1],而且實(shí)現(xiàn)起來非常簡(jiǎn)單方便。
對(duì)于艦船目標(biāo)識(shí)別2017年上海交大提出了***個(gè)包括十類目標(biāo)的OpenSARShip數(shù)據(jù)集,但是類別間樣本數(shù)量極其不均衡,難以訓(xùn)練出較好的分類模型,所以還需一個(gè)很好的數(shù)據(jù)集出現(xiàn)。
對(duì)于SAR圖像艦船目標(biāo)檢測(cè)任務(wù)我們建立了實(shí)際上***個(gè)(據(jù)我們所知)公開的數(shù)據(jù)集SSDD[2],得到了十幾所高校和研究所的使用(中科院電子所、中科院遙感所、清華大學(xué)、中電科38所、南開大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、復(fù)旦大學(xué)、中國(guó)地質(zhì)大學(xué)、武漢大學(xué)、國(guó)防科技大學(xué)、電子科技大學(xué)、北京航空航天大學(xué)、哈工程、航天1院等)。
數(shù)據(jù)集雖然相對(duì)比較簡(jiǎn)單,但是填補(bǔ)了本領(lǐng)域的空白,提供了統(tǒng)一的數(shù)據(jù)集和測(cè)試標(biāo)準(zhǔn),促進(jìn)了這個(gè)領(lǐng)域的健康發(fā)展。在數(shù)據(jù)集上我們進(jìn)行了一些工作,驗(yàn)證了Faster R-CNN和SSD等檢測(cè)器相比于傳統(tǒng)方法的令人驚艷的優(yōu)良性能,并根據(jù)SAR圖像中艦船目標(biāo)的具體特點(diǎn)對(duì)算法進(jìn)行了改進(jìn)。
圖2是檢測(cè)效果***行是Faster R-CNN的檢測(cè)效果,第二行是SSD的檢測(cè)效果[3],第三行是利用旋轉(zhuǎn)邊框檢測(cè)效果,具體細(xì)節(jié)將在下一篇文章進(jìn)行講解[4]。從效果圖我們可以看到基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法能夠適應(yīng)所有場(chǎng)景。
優(yōu)勢(shì)分析
深度學(xué)習(xí)目標(biāo)檢測(cè)的方法優(yōu)點(diǎn):
***,雖然訓(xùn)練過程繁瑣,但是預(yù)測(cè)只需一次前向傳播,通過CNN的壓縮和加速等操作后速度會(huì)很快;
第二,深度學(xué)習(xí)的引入體現(xiàn)了端到端、數(shù)據(jù)驅(qū)動(dòng)的思想:盡可能少的對(duì)流程進(jìn)行干預(yù)、盡可能少的做人為假設(shè),能夠顯著提升分類和檢測(cè)性能。
第三,擴(kuò)展性強(qiáng),如果需要檢測(cè)和識(shí)別新目標(biāo),只需增加其樣本重新訓(xùn)練,不需要改結(jié)構(gòu),不需要專門設(shè)計(jì)特征。
第四,適應(yīng)性強(qiáng),不用區(qū)分大片海域和靠岸目標(biāo),能夠適應(yīng)各種復(fù)雜背景。
我們認(rèn)為,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)和識(shí)別算法是未來SAR圖像智能解譯的主要手段,尤其是隨著近年來巨大資本在人工智能領(lǐng)域的投入。
學(xué)習(xí)資源與交流探討
機(jī)器學(xué)習(xí)課程是必須要學(xué)習(xí)的,比較好的是斯坦福大學(xué)吳恩達(dá)的CS229課程,深度學(xué)習(xí)比較好的課程是斯坦福大學(xué)李飛飛CS231和吳恩達(dá)deeplearning.ai (網(wǎng)易云課堂手機(jī)app有視頻和中文字幕)。
Facebook人工智能研究院FAIR開發(fā)的Detectron,Google開發(fā)的Tensorflow object detection API是兩個(gè)比較好的目標(biāo)檢測(cè)框架,實(shí)現(xiàn)了大部分目標(biāo)檢測(cè)算法。
參考文獻(xiàn)
1 Jianwei Li, Changwen Qu and Shujuan Peng. Ship detection in SAR images based on an improved Faster R-CNN. 2017BIGSARDATA, Beijing.
2 Shao Jiaqi, Qu Changwen & Li Jianwei. A performance analysis of convolutional neural network models in SAR target recognition. 1-6. 10.1109/BIGSARDATA.2017.8124917.
3李健偉,曲長(zhǎng)文,邵嘉琦. 基于深度學(xué)習(xí)的SAR圖像艦船檢測(cè)數(shù)據(jù)集及性能分析, 第五屆高分辨率對(duì)地觀測(cè)學(xué)術(shù)年會(huì).
4 Jianwei Li, Changwen Qu and Shujuan Peng. Multiscale and Densely Arranged Ship Detection in SAR Images with Gated Feature Pyramid Networks and Oriented Bounding Box. IEEE ACCESS.