視頻分析技術(shù)在人員身份識(shí)別任務(wù)中的應(yīng)用
一、概述
近年來(lái),隨著硬件成本的下降和電力、通信等基礎(chǔ)設(shè)施逐步完善以及城鎮(zhèn)化水平顯著提高,越來(lái)越多的監(jiān)控?cái)z像頭被部署在公共場(chǎng)所以及家庭中,中國(guó)監(jiān)控?cái)z像頭行業(yè)市場(chǎng)規(guī)模逐年增長(zhǎng)。據(jù)統(tǒng)計(jì),2022年中國(guó)攝像頭市場(chǎng)規(guī)模已達(dá)211億元,預(yù)計(jì)到2024年市場(chǎng)規(guī)模將達(dá)到244.1億元。經(jīng)由這個(gè)龐大的監(jiān)控網(wǎng)絡(luò),每天有大量的視頻數(shù)據(jù)在被產(chǎn)生,一個(gè)中等規(guī)模的城市, 僅一天就能產(chǎn)生PB級(jí)數(shù)據(jù)量的視頻[1]。隨著計(jì)算機(jī)視覺(jué)(Computer Vision,CV)技術(shù)和深度學(xué)習(xí)算法的快速發(fā)展,從這些存在著千絲萬(wàn)縷時(shí)空關(guān)聯(lián)、包含了數(shù)以億計(jì)有效信息的海量監(jiān)控視頻數(shù)據(jù)中高效、自動(dòng)的識(shí)別提取有用信息,是視頻安防領(lǐng)域從“拍下來(lái)”到“認(rèn)出來(lái)”的智能化轉(zhuǎn)變。
對(duì)監(jiān)控視頻的運(yùn)用,從人工盯監(jiān)控階段到智能化視頻分析階段一以貫之的一個(gè)重要任務(wù)就是辨識(shí)人員的身份。在安防智能化大力推行的今天,通過(guò)對(duì)監(jiān)控視頻內(nèi)容關(guān)聯(lián)分析,確定重點(diǎn)關(guān)注人員的身份依然是重中之重的任務(wù),不論在學(xué)術(shù)研究領(lǐng)域還是在工業(yè)應(yīng)用領(lǐng)域,都是計(jì)算機(jī)視覺(jué)研究的熱點(diǎn)。除了較為成熟的人臉識(shí)別技術(shù)外,還包含步態(tài)識(shí)別技術(shù)、人員重識(shí)別技術(shù)、虹膜識(shí)別技術(shù)與跨模態(tài)行人檢測(cè)等新興技術(shù)。本文主要介紹幾種以視頻為輸入數(shù)據(jù)源的人員身份識(shí)別技術(shù),同時(shí)給出了一些對(duì)應(yīng)的應(yīng)用場(chǎng)景,并在最后對(duì)基于視頻的人員識(shí)別技術(shù)存在問(wèn)題進(jìn)行回溯及未來(lái)應(yīng)用進(jìn)行展望。
二、基于視頻的人員身份識(shí)別技術(shù)主要包含方向
2.1 基于視頻流的步態(tài)識(shí)別技術(shù)
步態(tài)識(shí)別技術(shù)是一種通過(guò)挖掘人行走方式中的特征來(lái)鑒定人員身份的技術(shù),與人臉識(shí)別技術(shù)、虹膜識(shí)別技術(shù)、指紋識(shí)別技術(shù)等其他依靠生物特征識(shí)別人員的方法相比,步態(tài)識(shí)別技術(shù)不需要近距離采集受識(shí)別者,對(duì)攝像頭的放置高度、視角以及獲取到視頻的清晰度具有更高寬容度,因此,在采集過(guò)程中更加隱蔽不易察覺(jué),不需要受識(shí)別者進(jìn)行主動(dòng)配合。此外,相比于人臉識(shí)別技術(shù)容易通過(guò)口罩遮擋、使用偽裝圖片等方式混淆識(shí)別結(jié)果,步態(tài)難以偽裝隱藏,并且每個(gè)人具有獨(dú)特性,在身份識(shí)別領(lǐng)域具有獨(dú)特優(yōu)勢(shì)。目前提出的步態(tài)識(shí)別方法基本分為基于外觀(Appearance-Based)和基于模型(Model-based)的兩種方法。
圖 1基于外觀的步態(tài)識(shí)別方法示意圖
2.1.1 基于外觀的方法
該方法通過(guò)對(duì)原始視頻幀進(jìn)行分割,得到消除了外部因素后的人體輪廓圖像,再利用卷積神經(jīng)網(wǎng)絡(luò)提取時(shí)空特征,又可分為基于特征模板的方法和基于序列的方法。
(1)基于特征模板的方法目前主要有:
-GEI-NET [2]:直接訓(xùn)練CNN分類器,在最后一層提取步態(tài)特征,結(jié)構(gòu)簡(jiǎn)單易于實(shí)現(xiàn),運(yùn)行速度快常用做baseline;
-Gait Net:分別在兩個(gè)CNN網(wǎng)絡(luò)中進(jìn)行分割和分類,并對(duì)兩個(gè)CNN聯(lián)合學(xué)習(xí)建模,使分割結(jié)果更適用于識(shí)別,原始的視頻數(shù)據(jù)在分割后得到步態(tài)輪廓,合成步態(tài)模板最終學(xué)習(xí)到步態(tài)特征;
-GaitGAN:以GAN模型生成側(cè)視圖,解決任意視角問(wèn)題;
-GEI-GAN:用GAN解決步態(tài)周期不完整問(wèn)題,重建出完整的步態(tài)能量圖,解決遮擋問(wèn)題。
(2)基于序列的方法目前主要有:
-GaitSet[3]網(wǎng)絡(luò):不再使用GEI步態(tài)能量圖,將步態(tài)剪影序列看作圖像集并從中進(jìn)行學(xué)習(xí),在多個(gè)公開跨視角數(shù)據(jù)集中測(cè)試出較好性能,如圖2所示;
-GaitPart[4]:對(duì)視頻序列進(jìn)行處理,分別利用幀級(jí)部分特征提取器FPFE以及微小運(yùn)動(dòng)捕獲器MCM來(lái)獲取短程時(shí)間特征,具有結(jié)構(gòu)簡(jiǎn)單、性能優(yōu)異、速度快、易實(shí)現(xiàn)的特點(diǎn);
-Gait Lateral Network:設(shè)計(jì)了一個(gè)壓縮模塊,顯著減少步態(tài)表示尺寸,并保證檢測(cè)結(jié)果準(zhǔn)確性;
-MT3D:將3D-CNN應(yīng)用于小時(shí)間尺寸和大空間尺度來(lái)提取時(shí)空信息,對(duì)幀進(jìn)行池化,具有高效率的特點(diǎn)。
圖 2 GaitSet特征提取示意圖
2.1.2 基于模型的方法
該方法是通過(guò)研究骨架的基本結(jié)構(gòu),從視頻中提取骨架結(jié)構(gòu)進(jìn)行位姿估計(jì),進(jìn)而提取步態(tài)特征,目前主要有Pose Gait、Gait Graph等,相比于基于外觀的方法具有更好的性能。但是基于輪廓的方法在保留身體形狀時(shí)無(wú)法處理身體重疊區(qū)域的遮蔽問(wèn)題,并且容易收到服裝變換的影響。而基于模型的方法雖然能夠保留內(nèi)部結(jié)構(gòu)信息屏蔽遮擋問(wèn)題,但因?yàn)橥耆雎暂喞獣?huì)導(dǎo)致性能不佳,因此,目前有學(xué)者在進(jìn)行兩種數(shù)據(jù)模態(tài)的聯(lián)合訓(xùn)練,以進(jìn)一步提升步態(tài)識(shí)別效果。在進(jìn)行多模數(shù)據(jù)融合時(shí),如果只是簡(jiǎn)單的進(jìn)行信息鏈接,無(wú)法有效捕獲更細(xì)粒度的空間信息,也無(wú)法對(duì)兩種模態(tài)的時(shí)間信息進(jìn)行充分利用,
近年來(lái)步態(tài)識(shí)別解決方案逐步從傳統(tǒng)的非深度學(xué)習(xí)方法向深度學(xué)習(xí)方法轉(zhuǎn)變,但目前基于視頻的步態(tài)識(shí)別算法仍存在容易受到跨視角、著裝變化、外物遮擋、攜帶物品等因素的干擾等問(wèn)題,檢測(cè)算法魯棒性有待提升。
2.2 基于視頻流的人員重識(shí)別技術(shù)
在實(shí)際應(yīng)用場(chǎng)景中經(jīng)常會(huì)出現(xiàn)如下需求:某一特定人員通過(guò)了多個(gè)監(jiān)控區(qū)域,且視域互不重疊,需要人工在各個(gè)監(jiān)控視角中尋找該人員的身影并串聯(lián)出他的行進(jìn)路線。在機(jī)器視覺(jué)領(lǐng)域,對(duì)這種可以銜接目標(biāo)對(duì)象在不同監(jiān)控區(qū)域內(nèi)運(yùn)動(dòng)軌跡,實(shí)現(xiàn)跨時(shí)間、跨地點(diǎn)和跨設(shè)備的行人跟蹤的自動(dòng)化行人檢索技術(shù)稱為行人重識(shí)別技術(shù)(person re-identification,Re-ID)。行人重識(shí)別自2006年首次在國(guó)際計(jì)算機(jī)視覺(jué)與模式會(huì)議中提出后,得到了快速的發(fā)展和大量的關(guān)注,逐漸形成日趨成熟的模型框架和算法。在視頻安全領(lǐng)域,在大規(guī)模的視頻監(jiān)控系統(tǒng)中應(yīng)用該技術(shù),能夠有效彌補(bǔ)攝像頭視覺(jué)局限,提高人員識(shí)別的檢測(cè)效率以及準(zhǔn)確性,具有重要應(yīng)用價(jià)值。
早期人員重識(shí)別主要基于傳統(tǒng)計(jì)算機(jī)視覺(jué)方法,需要手工提取圖像特征后再進(jìn)行匹配,隨著深度學(xué)習(xí)技術(shù)的突飛猛進(jìn),研究者也將深度學(xué)習(xí)的方法引入人員重識(shí)別領(lǐng)域。首先,根據(jù)行人特征提取方法從檢索圖片/視頻庫(kù)中提取特征; 隨后,針對(duì)提取的特征利用相似性判別模型進(jìn)行訓(xùn)練, 獲得能夠描述和區(qū)分不同行人的特征表達(dá)向量, 度量計(jì)算特征表達(dá)向量之間的相似性; 最后,根據(jù)相似性大小對(duì)圖像進(jìn)行排序, 將相似度最高的圖像作為最終的識(shí)別結(jié)果。
在實(shí)際實(shí)驗(yàn)中,特征提取階段會(huì)因?yàn)椴杉降娜藛T視頻數(shù)據(jù)存在遮擋、部位不對(duì)齊以及姿態(tài)差異等問(wèn)題,導(dǎo)致直接提取圖像的全局特征并不能達(dá)到最好的識(shí)別精度。這也反映了人員重識(shí)別研究中,由于數(shù)據(jù)可能會(huì)來(lái)自于不同位置、不同品牌的攝像頭,因而成像畫質(zhì)、人物背景都存在較大差異,并且數(shù)據(jù)中人員的外觀還易受遮擋、穿著、視角、光照和姿態(tài)等多種因素的影響[5]。因此人員重識(shí)別技術(shù)還可以劃分為關(guān)注不同問(wèn)題點(diǎn)的研究方向:多源數(shù)據(jù)人員重識(shí)別、換裝人員重識(shí)別、小股人員重識(shí)別等。
2.2.1 多源數(shù)據(jù)行人重識(shí)別
多源數(shù)據(jù)行人員重識(shí)別主要針對(duì)每類數(shù)據(jù)使用一個(gè)特定于該類型的網(wǎng)絡(luò)來(lái)提取或構(gòu)造特定信息并映射到同一個(gè)表達(dá)空間,然后利用共享網(wǎng)絡(luò)在共享表達(dá)空間中生成特征,這個(gè)通用的重識(shí)別網(wǎng)絡(luò)通過(guò)中心損失、三重?fù)p失等損失函數(shù)進(jìn)行訓(xùn)練并與普通網(wǎng)絡(luò)相連,實(shí)現(xiàn)跨數(shù)據(jù)類型的人員重識(shí)別。
多源數(shù)據(jù)一般分為下列幾種:
-使用不同的相機(jī)規(guī)格和設(shè)置,如高分辨率與低分辨率圖像;
-使用不同的拍攝設(shè)備,如可見光與紅外攝像機(jī)、可見光與深度傳感器;
-根據(jù)歷史文檔記錄或?qū)π腥说拿枋霁@得的文本信息;
-由專家或者數(shù)字傳感器自動(dòng)獲得的圖像,如刑偵系統(tǒng)使用的素描與數(shù)字照片。
2.2.2 換裝行人重識(shí)別
換裝人員重識(shí)別技術(shù)主要通過(guò)提取出對(duì)著裝、視角和光照等因素具有魯棒性的身份判別特征用作相似性度量。該方向的研究近幾年蓬勃發(fā)展,涌現(xiàn)了大量大規(guī)模數(shù)據(jù)集及研究方法。換裝人員重識(shí)別技術(shù)根據(jù)數(shù)據(jù)采集樣本可分為基于非視覺(jué)傳感器的方法和基于視覺(jué)相機(jī)的方法。其中,基于非視覺(jué)傳感器的方法主要包含使用深度相機(jī)或射頻裝置;基于視覺(jué)相機(jī)的方法主要采用監(jiān)控?cái)z像頭采集RGB圖像或視頻,再?gòu)闹袑W(xué)習(xí)判別特征。主要分類情況如圖3所示。
本文主要討論基于視覺(jué)相機(jī)的方法,可分為:
-基于顯式特征構(gòu)建或?qū)W習(xí)的方法:對(duì)人的人臉、輪廓、體型等具有唯一性的生物特征構(gòu)建輪廓模型或輪廓特征約束,從輪廓中提取身份判別信息[6];
-基于解耦特征的方法[7]:從人員特征中去除著裝顏色、紋理等身份無(wú)關(guān)特性以提高性能,通??捎申P(guān)節(jié)信息、服裝模板等作為控制條件引導(dǎo)特征分離,或者基于生成對(duì)抗網(wǎng)絡(luò)進(jìn)行特征解耦;
-隱式數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)學(xué)習(xí)方法:數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)模型能夠自適應(yīng)類內(nèi)樣本間的差異,利于分類的判別行性特征,但對(duì)數(shù)據(jù)依賴嚴(yán)重,可解釋性差。
圖 3 換裝行人重識(shí)別方法分類示意圖
2.2.3 小股人員重識(shí)別
小股人員重識(shí)別結(jié)合人類的社會(huì)屬性和群居屬性,對(duì)研究對(duì)象數(shù)目進(jìn)行擴(kuò)展,將小規(guī)模人群作為重識(shí)別目標(biāo)的任務(wù),可以檢測(cè)團(tuán)伙作案等違法行為。同時(shí),利用小股人員重識(shí)別技術(shù),可以在單個(gè)人員被遮擋表觀特征不可靠時(shí),將與其同行的其他人員的表觀特征作為檢索的線索,提高人員重識(shí)別在遮擋等復(fù)雜條件下的魯棒性和判別性。因此,除了傳統(tǒng)人員識(shí)別需要面對(duì)的問(wèn)題,小股人員重識(shí)別還需要解決由群組人數(shù)變化和群組人員位置變化引起的群組結(jié)構(gòu)變化。
小股行人重識(shí)別的算法在數(shù)據(jù)類型上可分為基于靜態(tài)圖像的方法[8]和基于視頻序列的方法;在標(biāo)簽策略上可分為有監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督的方法;在模型策略上可分為基于數(shù)據(jù)增強(qiáng)、基于特征提取和基于度量學(xué)習(xí)的方法,如圖4所示。基于特征提取的方法又可細(xì)分為基于手工特征的方法和基于深度學(xué)習(xí)的方法。
各類方法的核心目的都是對(duì)群組結(jié)構(gòu)的建模與描述,早期的手工特征描述子從全圖提取群組特征;后續(xù)引入深度學(xué)習(xí)技術(shù)基于卷積神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的方法從特征層面先構(gòu)造單人特征,并進(jìn)一步在基礎(chǔ)上構(gòu)造群組特征;再后來(lái),基于自注意力模型的方法也是沿襲該研究思路并加以改進(jìn)。但目前并沒(méi)有在各種深度學(xué)習(xí)的方法中形成完全統(tǒng)一的處理框架。一般而言,基于生成對(duì)抗網(wǎng)絡(luò)的方法通常用于模型離線訓(xùn)練的數(shù)據(jù)增強(qiáng)階段;基于度量學(xué)習(xí)的方法傾向于僅在訓(xùn)練時(shí)使用。在實(shí)際工程應(yīng)用中,一般傾向于使用特征提取的網(wǎng)絡(luò)模型,并且選擇提取特征維度短、依賴額外先驗(yàn)少、檢索速度快的深度模型。
圖 4 小股人群重識(shí)別分類示意圖
人員重識(shí)別技術(shù)作為一種跨鏡頭視頻閾的任務(wù),用于采集視頻的攝像頭數(shù)量龐大品類繁雜,同一人員在不同場(chǎng)景、不同角度、不同光照條件、不同著裝、是否存在遮擋等問(wèn)題下都會(huì)呈現(xiàn)出較大的圖像差異,相信隨著對(duì)這些細(xì)分領(lǐng)域子問(wèn)題解決方案的逐步優(yōu)化,人員重識(shí)別技術(shù)可用于跨街區(qū)追蹤人員、挖掘反復(fù)出現(xiàn)可疑人員等場(chǎng)景,將有力推動(dòng)視頻安全領(lǐng)域更上一個(gè)臺(tái)階。
2.3 基于視頻的虹膜識(shí)別技術(shù)
人眼中黑色瞳孔和白色鞏膜之間的環(huán)狀部分稱為虹膜,其包含有很多相互交錯(cuò)的斑點(diǎn)、細(xì)絲、冠狀、條紋、隱窩等細(xì)節(jié)特征,且不隨年歲增長(zhǎng)而變化。相比于其他的生物特征模態(tài),虹膜具有獨(dú)特性、穩(wěn)定性和非接觸性三個(gè)特點(diǎn),因此虹膜識(shí)別技術(shù)相比于別的生物特征技術(shù)具有更高的識(shí)別精度。與近年來(lái)已經(jīng)得到大規(guī)模應(yīng)用的人臉識(shí)別技術(shù)相比,雖然都屬于依靠生物信息進(jìn)行識(shí)別,但在底層識(shí)別原理上還是存在較大不同。人臉識(shí)別技術(shù)提取眼睛、鼻子、嘴巴等面部器官的幾何特征以及皮膚紋理顏色等信息,但上述特征容易隨著年齡增長(zhǎng)、身體狀況變化而改變,同時(shí)也容易被刻意變?cè)靷窝b容顏的方法干擾;而虹膜具有復(fù)雜紋路,自嬰兒期發(fā)育穩(wěn)定后就不再變化,雖然在應(yīng)用便捷度和硬件成本上較高于人臉識(shí)別,但對(duì)具有更高安全需求的場(chǎng)景可提供更準(zhǔn)確的人員識(shí)別結(jié)果。
算法上,分為采集、預(yù)處理、模式識(shí)別三個(gè)環(huán)節(jié)。在虹膜圖像采集環(huán)節(jié),傳統(tǒng)方法是使用近距離圖像采集,隨著技術(shù)發(fā)展,利用光場(chǎng)成像進(jìn)行遠(yuǎn)距離虹膜采集的技術(shù)已經(jīng)成為主流。圖像預(yù)處理環(huán)節(jié),需要進(jìn)行虹膜檢測(cè)、活體檢測(cè)、質(zhì)量評(píng)估、分割、定位等常規(guī)流程,同時(shí)也需要對(duì)處理后的虹膜圖像進(jìn)行獨(dú)特的歸一化和圖像增強(qiáng)來(lái)將環(huán)狀虹膜區(qū)域展開成標(biāo)準(zhǔn)矩形紋理。模式識(shí)別在全流程中是最能夠?qū)ψ罱K識(shí)別結(jié)果產(chǎn)生影響的關(guān)鍵環(huán)節(jié)。
Daugma利用多尺度的 Gabor濾波器來(lái)獲得相位相關(guān)的編碼,并通過(guò)漢明距離有效地度量了兩個(gè)樣本之間的相似性;Wildes利用Laplacian塔式分解在多個(gè)尺度上進(jìn)行對(duì)比,實(shí)現(xiàn)了圖像對(duì)間的身份驗(yàn)證;Boles利用小波變換來(lái)將虹膜的環(huán)狀一維采樣結(jié)果進(jìn)行處理,實(shí)現(xiàn)了特征提取和匹配功能。為提高遠(yuǎn)距離非限制場(chǎng)景下識(shí)別效率,可引入其他生物特征進(jìn)行輔助認(rèn)證,每種生物特征根據(jù)其自身特點(diǎn)都會(huì)在具體的場(chǎng)景中具備獨(dú)特優(yōu)劣勢(shì),根據(jù)實(shí)際場(chǎng)景選擇合適的模態(tài)及融合方式,如利用虹膜和眼周的眼瞼、睫毛、瞳孔等生物特征信息豐富的部位相結(jié)合[9],提取特征信息,可以使識(shí)別可靠性和穩(wěn)定性得到提高。
2.4 跨模態(tài)行人檢測(cè)技術(shù)
在人員的識(shí)別任務(wù)中,行人檢測(cè)是重要的前置任務(wù),使用深度學(xué)習(xí)方法進(jìn)行行人檢測(cè)已經(jīng)成為主流方案并且取得了較大進(jìn)展,在該方向的研究熱點(diǎn)發(fā)展時(shí)間軸整理如圖5所示。但僅依靠可見光視頻圖像作為處理數(shù)據(jù)源,在遇到低照度、惡劣天氣等情況時(shí),很難從可見光圖像中分辨出行人輪廓,限制了應(yīng)用場(chǎng)景,此時(shí)引入一種新的模態(tài)可有效提升檢測(cè)效果。
目前研究較多的跨模態(tài)組合方式有可見光+深度圖、可見光+雷達(dá)圖以及可見光+紅外圖,其中雷達(dá)點(diǎn)云圖的細(xì)粒度不足以把人的輪廓精細(xì)的提取處理出來(lái),深度圖像可提供行人輪廓但同樣不夠精準(zhǔn),而紅外熱像儀成像原理是采集物體與絕對(duì)零度溫之差,人與周圍環(huán)境有清晰的輪廓線,因此將紅外熱像圖與可見光圖像相結(jié)合,可以有效地解決在低照度或雨雪等惡劣天氣場(chǎng)景中識(shí)別率低的問(wèn)題。
圖 5 跨模態(tài)人員識(shí)別研究熱點(diǎn)時(shí)間軸
早期處理雙模態(tài)圖像數(shù)據(jù)融合的方法主要有基于輪廓的融合方法、基于聯(lián)合雙邊濾波器的融合方法和基于黎曼流形[10]的融合方法。隨著深度學(xué)習(xí)算法的快速發(fā)展成熟,自2016年后跨模態(tài)的行人檢測(cè)任務(wù)都是基于CNN模型進(jìn)行改進(jìn)研究。檢測(cè)的基本流程為,將可見光-紅外熱像圖像對(duì)輸入,產(chǎn)生行人候選框,候選框分類與回歸,后處理階段極大值抑制,輸出檢測(cè)結(jié)果。在不同的檢測(cè)方法中,融合操作可處于不同的階段,具體分為圖像階段進(jìn)行融合、特征階段進(jìn)行融合、決策階段進(jìn)行檢測(cè)結(jié)果融合。
近年來(lái)對(duì)于跨模態(tài)行人檢測(cè)的研究主要分為對(duì)模態(tài)差異大問(wèn)題的研究和實(shí)際應(yīng)用難問(wèn)題的研究。基于模態(tài)差異大問(wèn)題的研究又可分為基于圖像未對(duì)準(zhǔn)為題的研究(兩種模態(tài)圖像存在位置偏移問(wèn)題)、基于融合不充分問(wèn)題的研究(何時(shí)融合,如何融合)。基于實(shí)際應(yīng)用難問(wèn)題的研究可分為基于標(biāo)準(zhǔn)成本問(wèn)題的研究(引入自動(dòng)標(biāo)注等方法建立場(chǎng)景多、全天候的數(shù)據(jù)集)、基于硬件成本問(wèn)題的研究、基于實(shí)時(shí)檢測(cè)問(wèn)題的研究。隨著對(duì)上述細(xì)分領(lǐng)域研究的不斷推進(jìn),跨模態(tài)人員識(shí)別算法在精度上已測(cè)試出了相對(duì)優(yōu)異的性能,但在人員密集地區(qū)存在嚴(yán)重遮擋條件下、小目標(biāo)行人檢測(cè)、檢測(cè)實(shí)時(shí)性等方面還存在較大提升空間,也是未來(lái)研究持續(xù)發(fā)力的方向。
三、結(jié)語(yǔ)
視頻智能分析技術(shù)是保障場(chǎng)所安全的重要手段,在監(jiān)控設(shè)備部署規(guī)模日臻完善、網(wǎng)絡(luò)傳輸能力極大提升、算力水平成倍增長(zhǎng)、基于各種框架的深度學(xué)習(xí)算法百花齊放的今天,視頻分析技術(shù)在實(shí)際工程中的應(yīng)用迎來(lái)了全新機(jī)遇。場(chǎng)所安全中,對(duì)于人員我們關(guān)心他是誰(shuí)、于何時(shí)、在何地、做了什么,基于這些基本屬性,我們可以結(jié)合場(chǎng)所規(guī)則的數(shù)據(jù)化解讀進(jìn)一步分析判斷是否存在安全威脅。因此人員識(shí)別可以說(shuō)是視頻智能分析在安全領(lǐng)域中最核心最基礎(chǔ)的應(yīng)用。本文就人員識(shí)別中的步態(tài)識(shí)別、人員重識(shí)別、虹膜識(shí)別、跨模態(tài)融合識(shí)別進(jìn)行了簡(jiǎn)單介紹和討論,相信隨著算法的逐漸優(yōu)化和大模型等新興技術(shù)的引入,對(duì)遮擋、偽裝、換裝、低照度場(chǎng)景、雨雪惡劣天氣等主觀、客觀制造人員識(shí)別難度的場(chǎng)景會(huì)有更快速高準(zhǔn)確率的解決方案。
參考文獻(xiàn)
[1] 中國(guó)公共安全, 高.J.: ‘視頻結(jié)構(gòu)化技術(shù)視頻數(shù)據(jù)的"賦能者"’, 2018, (5), pp. 4
[2] Shiraga, K., Makihara, Y., Muramatsu, D., Echigo, T., and Yagi, Y.J.I.: ‘GEINet: View-invariant gait recognition using a convolutional neural network’, 2016
[3] Zhang, Z., Tran, L., Yin, X., Atoum, Y., and Wang, N.J.I.: ‘Gait Recognition via Disentangled Representation Learning’, 2019
[4] Fan, C., Peng, Y., Cao, C., Liu, X., and He, Z.J.I.: ‘GaitPart: Temporal Part-Based Model for Gait Recognition’, 2020
[5] 羅浩, 姜偉, 范星, and 自動(dòng)化學(xué)報(bào), 張.J.: ‘基于深度學(xué)習(xí)的行人重識(shí)別研究進(jìn)展’, 2019, 45, (11), pp. 18
[6] Hong, P., Wu, T., Wu, A., Han, X., and Zheng, W.S.J.I.: ‘Fine-Grained Shape-Appearance Mutual Learning for Cloth-Changing Person Re-Identification’, 2021
[7] Jia, X., Zhong, X., Ye, M., Liu, W., Huang, W., and Zhao, S.: ‘Patching Your Clothes: Semantic-Aware Learning for Cloth-Changed Person Re-Identification’, in Editor (Ed.)^(Eds.): ‘Book Patching Your Clothes: Semantic-Aware Learning for Cloth-Changed Person Re-Identification’ (2022, edn.), pp.
[8] Chen, L., Yang, H., Xu, Q., and Gao, Z.J.N.: ‘Harmonious attention network for person re-identification via complementarity between groups and individuals’, 2020
[9] Algashaam, F., Nguyen, K., Banks, J., Chandran, V., Do, T.A., Alkanhal, M.J.M.V., and Applications: ‘Hierarchical fusion network for periocular and iris by neural network approximation and sparse autoencoder’, 2021, 32, (1), pp. 1-10
[10] San-Biagio, M., Crocco, M., Cristani, M., Martelli, S., and Murino, V.: ‘Low-level multimodal integration on Riemannian manifolds for automatic pedestrian detection’, in Editor (Ed.)^(Eds.): ‘Book Low-level multimodal integration on Riemannian manifolds for automatic pedestrian detection’ (2012, edn.), pp.