美團(tuán)如何基于深度學(xué)習(xí)實(shí)現(xiàn)圖像的智能審核?
導(dǎo)讀: AI(人工智能)技術(shù)已經(jīng)廣泛應(yīng)用于美團(tuán)的眾多業(yè)務(wù),從美團(tuán)App到大眾點(diǎn)評(píng)App,從外賣到打車出行,從旅游到婚慶親子,美團(tuán)數(shù)百名最優(yōu)秀的算法工程師正致力于將AI技術(shù)應(yīng)用于搜索、推薦、廣告、風(fēng)控、智能調(diào)度、語音識(shí)別、機(jī)器人、無人配送等多個(gè)領(lǐng)域,幫助美團(tuán)數(shù)億消費(fèi)者和數(shù)百萬商戶改善服務(wù)和體驗(yàn),幫大家吃得更好,生活更好。
基于AI技術(shù),美團(tuán)搭建了世界上規(guī)模最大,復(fù)雜度最高的多人、多點(diǎn)實(shí)時(shí)智能配送調(diào)度系統(tǒng);基于AI技術(shù),美團(tuán)推出了業(yè)內(nèi)第一款大規(guī)模落地的企業(yè)應(yīng)用級(jí)語音交互產(chǎn)品,為50萬騎手配備了智能語音系統(tǒng);基于AI技術(shù),美團(tuán)構(gòu)建了世界上最大的菜品知識(shí)庫,為200多萬商家、3億多件商品繪制了知識(shí)圖譜,為數(shù)億用戶提供了精準(zhǔn)的用戶畫像,并構(gòu)建了世界上用戶規(guī)模最大、復(fù)雜度最高的O2O智能推薦平臺(tái)。
美團(tuán)這個(gè)全球最大生活服務(wù)互聯(lián)網(wǎng)平臺(tái)的“大腦”是怎么構(gòu)建的?業(yè)界第一部全面講述互聯(lián)網(wǎng)機(jī)器學(xué)習(xí)實(shí)踐的圖書《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》也即將上市,敬請(qǐng)期待,本文選自書中第十五章。
背景
美團(tuán)每天有百萬級(jí)的圖片產(chǎn)生量,運(yùn)營(yíng)人員負(fù)責(zé)相關(guān)圖片的內(nèi)容審核,對(duì)涉及法律風(fēng)險(xiǎn)及不符合平臺(tái)規(guī)定的圖片進(jìn)行刪除操作。由于圖片數(shù)量巨大,人工審核耗時(shí)耗力且審核能力有限。另外對(duì)于不同審核人員來講,審核標(biāo)準(zhǔn)難以統(tǒng)一且實(shí)時(shí)變化。所以有必要借助機(jī)器實(shí)現(xiàn)智能審核。
圖像智能審核一般是指利用圖像處理與機(jī)器學(xué)習(xí)相關(guān)技術(shù)識(shí)別圖像內(nèi)容,進(jìn)而甄別圖像是否違規(guī)。圖像智能審核旨在建立圖片自動(dòng)審核服務(wù),由機(jī)器自動(dòng)禁止不符合規(guī)定(負(fù)例)的圖片類型,自動(dòng)通過符合規(guī)定(正例)的圖片類型,機(jī)器不確定的圖片交由人工審核。因此,衡量智能審核系統(tǒng)性能的指標(biāo)主要是準(zhǔn)確率和自動(dòng)化率。
通常的自動(dòng)審核思路是窮舉不符合規(guī)定的圖片(例如水印圖、涉黃圖、暴恐圖、明星臉、廣告圖等)類型,剩下的圖片作為正例自動(dòng)通過。這樣帶來的問題是對(duì)新增的違規(guī)內(nèi)容擴(kuò)展性不足,另外必須等待所有模型構(gòu)建完畢才能起到自動(dòng)化過濾的作用。如果我們能主動(dòng)挖掘符合規(guī)定的圖片(例如正常人物圖、場(chǎng)景一致圖)進(jìn)行自動(dòng)通過,將正例過濾和負(fù)例過濾相結(jié)合,這樣才能更快起到節(jié)省人工審核的作用。因此,我們的圖像智能審核系統(tǒng)分為圖片負(fù)例過濾模塊和圖片正例過濾模塊,待審圖片先進(jìn)入負(fù)例過濾模塊判斷是否違禁,再進(jìn)入正例過濾模塊進(jìn)行自動(dòng)通過,剩余機(jī)器不確定的圖片交由人工審核。整個(gè)技術(shù)方案如圖1所示。
圖1 圖像智能審核技術(shù)方案
負(fù)例過濾和正例過濾模塊中都會(huì)涉及檢測(cè)、分類和識(shí)別等技術(shù),而深度學(xué)習(xí)則是該領(lǐng)域的首選技術(shù)。下面將分別以水印過濾、明星臉識(shí)別、色情圖片檢測(cè)和場(chǎng)景分類來介紹深度學(xué)習(xí)在圖像智能審核中的應(yīng)用。
基于深度學(xué)習(xí)的水印檢測(cè)
為了保護(hù)版權(quán)和支持原創(chuàng)內(nèi)容,需要自動(dòng)檢測(cè)商家或用戶上傳的圖片中是否包括違禁水印(競(jìng)對(duì)水印、其他產(chǎn)品的Logo)。與其他類剛體目標(biāo)不同,水印具有以下特點(diǎn):
- 樣式多。線下收集所涉及的主流違禁水印有20多類,每一類水印又存在多種樣式。除此之外,線上存在大量未知類型的水印。
- 主體多變。水印在圖片中位置不固定且較小,主體存在裁切變形,并且會(huì)存在多個(gè)主體交疊(多重水印),如圖2所示。
圖2 主體多變
- 背景復(fù)雜。由于主流水印大多采用透明或半透明方式,這使得水印中的文字標(biāo)識(shí)極易受到復(fù)雜背景的干擾,如圖3所示。
圖3 背景復(fù)雜
傳統(tǒng)的水印檢測(cè)采用滑動(dòng)窗口的方法,提取一個(gè)固定大小的圖像塊輸入到提前訓(xùn)練好的鑒別模型中,得到該塊的一個(gè)類別。這樣遍歷圖片中的所有候選位置,可得到一個(gè)圖片密集的類別得分圖。得分高于一定閾值的塊被認(rèn)為是水印候選區(qū)域,通過非極大化抑制可以得到最終的結(jié)果。
鑒別模型的特征可以采用文字識(shí)別領(lǐng)域常用的邊緣方向統(tǒng)計(jì)特征,也可以通過CNN進(jìn)行特征學(xué)習(xí)來提升對(duì)裁切、形變、復(fù)雜背景的健壯性。為了進(jìn)一步改善得分的置信度,可以加入類型原型的信息,把輸入圖像塊特征與聚類中心特征的相似度(夾角余弦)作為識(shí)別置信度。但上述方法檢測(cè)效率極低,由于水印位置和大小不固定,需要在所有位置對(duì)多個(gè)尺度的圖像進(jìn)行判別,由此產(chǎn)生大量的冗余窗口。
一種思路是旨在減少滑動(dòng)窗口數(shù)目的子窗口的方法。首先通過無監(jiān)督/有監(jiān)督學(xué)習(xí)生成一系列的候選區(qū)域,再通過一個(gè)CNN分類器來判斷區(qū)域中是否包含目標(biāo)以及是哪一類目標(biāo)。這類方法比較有代表的是R-CNN系列。由于該類方法得到的候選框可以映射到原圖分辨率,因此定位框精度足夠高。
另一種解決思路時(shí)采用直接在特征圖上回歸的方法。我們知道,對(duì)于CNN網(wǎng)絡(luò)的卷積層而言,輸入圖片大小可以不固定,但從全連接層之后就要求輸入大小保持一致。因此當(dāng)把任意大小的圖片輸入CNN直到第一個(gè)全連接層,只需要一次前向運(yùn)算就可以得到所有層的特征圖。然后回歸的對(duì)象是待檢測(cè)目標(biāo)的位置信息和類別信息,它們可根據(jù)目標(biāo)大小的需要在不同層次的特征圖上進(jìn)行回歸,這類方法以Yolo、SSD為代表。該類方法的特點(diǎn)是在保證高檢測(cè)精度的前提下實(shí)時(shí)性較好。
圖4給出了上述兩類框架與DPM(可變形部件模型)最佳傳統(tǒng)方法的性能比較:
圖4 基于深度學(xué)習(xí)的主流目標(biāo)檢測(cè)方法的性能評(píng)測(cè)
考慮到水印檢測(cè)任務(wù)對(duì)定位框的精度要求不高,且需要滿足每天百萬量級(jí)圖片的吞吐量,我們借鑒了SSD框架和Resnet網(wǎng)絡(luò)結(jié)構(gòu)。在訓(xùn)練數(shù)據(jù)方面,我們通過人工收集了25類共計(jì)1.5萬張水印圖片,并通過主體隨機(jī)裁切、前背景合成等方式進(jìn)行了數(shù)據(jù)增廣。
基于訓(xùn)練得到的模型對(duì)線上數(shù)據(jù)進(jìn)行了相關(guān)測(cè)試。隨機(jī)選取3197張線上圖片作為測(cè)試集,其中2795張圖片不包含水印,包含水印的402張圖片里有302張包含訓(xùn)練集中出現(xiàn)過的水印,另外的100張包含未出現(xiàn)在訓(xùn)練集中的小眾水印?;谠摐y(cè)試集,我們?cè)u(píng)測(cè)了傳統(tǒng)方法(人工設(shè)計(jì)特征+滑窗識(shí)別)和基于SSD框架的方法。
從圖5可以看到,相比于傳統(tǒng)方法,SSD框架無論在召回和精度上都有明顯優(yōu)勢(shì)。進(jìn)一步分析發(fā)現(xiàn),深度學(xué)習(xí)方法召回了38張小眾水印圖片,可見CNN學(xué)習(xí)到的特征泛化能力更強(qiáng)。
圖5 水印檢測(cè)性能評(píng)測(cè)
明星臉識(shí)別
為了避免侵權(quán)明星肖像權(quán),審核場(chǎng)景需要鑒別用戶/商家上傳的圖像中是否包含明星的頭像。這是一類典型的人臉識(shí)別應(yīng)用,具體來說是一種1∶(N+1)的人臉比對(duì)。整個(gè)人臉識(shí)別流程包含人臉檢測(cè)、人臉關(guān)鍵點(diǎn)檢測(cè)、人臉矯正及歸一化、人臉特征提取和特征比對(duì),如圖6所示。其中深度卷積模型是待訓(xùn)練的識(shí)別模型,用于特征提取。下面我們將分別介紹人臉檢測(cè)和人臉識(shí)別技術(shù)方案。
圖6 明星臉識(shí)別流程
人臉檢測(cè)
人臉檢測(cè)方法可分為傳統(tǒng)檢測(cè)器和基于深度學(xué)習(xí)的檢測(cè)器兩類。
傳統(tǒng)檢測(cè)器主要基于V-J框架,通過設(shè)計(jì)Boosted的級(jí)連結(jié)構(gòu)和人工特征實(shí)現(xiàn)檢測(cè)。特征包括Harr特征、HOG特征和基于像素點(diǎn)比較的特征(Pico、NPD)等。
這類檢測(cè)器在約束環(huán)境下有著不錯(cuò)的檢測(cè)效果和運(yùn)行速度,但對(duì)于復(fù)雜場(chǎng)景(光照、表情、遮擋),人工設(shè)計(jì)的特征使檢測(cè)能力會(huì)大大下降。為了提升性能,相關(guān)研究聯(lián)合人臉檢測(cè)和人臉關(guān)鍵點(diǎn)定位這兩個(gè)任務(wù)進(jìn)行聯(lián)合優(yōu)化(JDA),將關(guān)鍵點(diǎn)檢測(cè)作為人臉檢測(cè)的一個(gè)重要評(píng)價(jià)標(biāo)準(zhǔn),但其準(zhǔn)確率有待進(jìn)一步提升。
深度學(xué)習(xí)的檢測(cè)器有三種思路。
- 第一類是沿用V-J框架,但以級(jí)聯(lián)CNN網(wǎng)絡(luò)(Cascaded CNN)替代傳統(tǒng)特征。
- 第二類是基于候選區(qū)域和邊框回歸的框架(如Faster R-CNN)。
- 第三類是基于全卷積網(wǎng)絡(luò)直接回歸的框架(如DenseBox)。
我們采用了Faster R-CNN框架并從以下方面進(jìn)行了改進(jìn): 難分負(fù)例挖掘(抑制人物雕像、畫像和動(dòng)物頭像等負(fù)例)、多層特征融合、 多尺度訓(xùn)練和測(cè)試、上下文信息融合,從而更好地抵抗復(fù)雜背景、類人臉、遮擋等干擾,并有效提升了對(duì)小臉、側(cè)臉的檢出率。
人臉識(shí)別
人臉識(shí)別主要有兩種思路。一種是直接轉(zhuǎn)換為圖像分類任務(wù),每一類對(duì)應(yīng)一個(gè)人的多張照片,比較有代表性的方法有DeepFace、DeepID等。另一種則將識(shí)別轉(zhuǎn)換為度量學(xué)習(xí)問題,通過特征學(xué)習(xí)使得來自同一個(gè)人的不同照片距離比較近、不同的人的照片距離比較遠(yuǎn),比較有代表性的方法有DeepID2、FaceNet等。
由于任務(wù)中待識(shí)別ID是半封閉集合,我們可以融合圖像分類和度量學(xué)習(xí)的思路進(jìn)行模型訓(xùn)練??紤]到三元組損失(Triplet Loss)對(duì)負(fù)例挖掘算法的要求很高,在實(shí)際訓(xùn)練中收斂很慢,因此我們采用了Center Loss來最小化類內(nèi)方差,同時(shí)聯(lián)合Softmax Loss來最大化類間方差。為了平衡這兩個(gè)損失函數(shù),需要通過試驗(yàn)來選擇超參數(shù)。我們采用的網(wǎng)絡(luò)結(jié)構(gòu)是Inception-v3,在實(shí)際訓(xùn)練中分為兩個(gè)階段:
- 第一階段采用Softmax Loss+C×CenterLoss,并利用公開數(shù)據(jù)集CASIA-WebFace(共包含10 575個(gè)ID和49萬人臉圖片)來進(jìn)行網(wǎng)絡(luò)參數(shù)的初始化和超參數(shù)C的優(yōu)選,根據(jù)試驗(yàn)得到的C=0.01;
- 第二階段采用Softmax Loss+0.01×Center Loss,并在業(yè)務(wù)數(shù)據(jù)(5200個(gè)明星臉I(yè)D和100萬人臉圖片)上進(jìn)行網(wǎng)絡(luò)參數(shù)的微調(diào)。
為了進(jìn)一步提升性能,借鑒了百度采用的多模型集成策略,如圖7所示。具體來說,根據(jù)人臉關(guān)鍵點(diǎn)的位置把人臉區(qū)域分割為多個(gè)區(qū)域,針對(duì)每一個(gè)區(qū)域分別訓(xùn)練特征模型。目前把人臉區(qū)域分割為9個(gè)區(qū)域,加上人臉整體區(qū)域,共需訓(xùn)練10個(gè)模型。
圖7 基于集成學(xué)習(xí)的人臉識(shí)別
在測(cè)試階段,對(duì)于待驗(yàn)證的人臉區(qū)域和候選人臉區(qū)域,分別基于圖7所示的10個(gè)區(qū)域提取特征。然后對(duì)于每個(gè)區(qū)域,計(jì)算兩個(gè)特征向量間的相似度(余弦距離)。最終通過相似度加權(quán)的方法判斷兩張人臉是否屬于同一個(gè)人。表1給出了主流方法在LFW數(shù)據(jù)集上的評(píng)測(cè)結(jié)果??梢钥闯?,美團(tuán)模型在相對(duì)有限數(shù)據(jù)下獲得了較高的準(zhǔn)確率。
表1 公開數(shù)據(jù)集評(píng)測(cè)結(jié)果
色情圖片檢測(cè)
色情圖片檢測(cè)是圖像智能審核中重要環(huán)節(jié)。傳統(tǒng)檢測(cè)方法通過膚色、姿態(tài)等維度對(duì)圖片的合規(guī)性進(jìn)行鑒別。隨著深度學(xué)習(xí)的進(jìn)展,現(xiàn)有技術(shù)雅虎NSFW(Not Suitable for Work)模型直接把色情圖片檢測(cè)定義二分類(色情、正常)問題,通過卷積神經(jīng)網(wǎng)絡(luò)在海量數(shù)據(jù)上進(jìn)行端到端訓(xùn)練。
對(duì)于已訓(xùn)練模型,不同層次學(xué)習(xí)到的特征不同,有些層次學(xué)到了膚色特征,另外一些層次學(xué)習(xí)到了部位輪廓特征,還有的層次學(xué)到了姿態(tài)特征。但由于人類對(duì)色情的定義非常廣泛,露點(diǎn)、性暗示、藝術(shù)等都可能被歸為色情類,而且在不同的場(chǎng)景下或者面對(duì)不同的人群,色情定義標(biāo)準(zhǔn)無法統(tǒng)一。因此,初始學(xué)習(xí)到的模型泛化能力有限。為了提升機(jī)器的預(yù)測(cè)準(zhǔn)確率,需要不斷加入錯(cuò)分樣本,讓機(jī)器通過增量學(xué)習(xí)到更多特征以糾正錯(cuò)誤。除此之外,我們?cè)谝韵路矫孢M(jìn)行了優(yōu)化。
- 模型細(xì)化。我們的分類模型精細(xì)化了圖片的色情程度:色情、性感、正常人物圖、其他類。其中色情、性感、正常人物圖互為難分類別,其他類為非人物的正常圖片。將性感類別和正常人物圖類別從色情類別中分離出來有助于增強(qiáng)模型對(duì)色情的判別能力。從表2中可見,相對(duì)于雅虎的NSFW模型,我們的模型在召回率方面具有明顯優(yōu)勢(shì)。
表2 色情圖片檢測(cè)準(zhǔn)確率
- 機(jī)器審核結(jié)合人工復(fù)審。在實(shí)際業(yè)務(wù)中由于涉黃檢測(cè)采用預(yù)警機(jī)制,機(jī)器審核環(huán)節(jié)需要盡可能召回所有疑似圖片,再結(jié)合適量的人工審核來提升準(zhǔn)確率。因此,上層業(yè)務(wù)邏輯會(huì)根據(jù)模型預(yù)測(cè)類別和置信度將圖片劃分為“確定黃圖”“確定非黃圖”和“疑似”三部分。“疑似”部分,根據(jù)置信度由高到底進(jìn)行排序,并轉(zhuǎn)交人工復(fù)審。在線上業(yè)務(wù)中,“確定黃圖”和“確定非黃圖”部分的精度可達(dá)到99%以上,而“疑似”部分只占總圖片量的3%左右,這樣在保證高精度過濾的條件下可大幅節(jié)省人力。
- 支持視頻內(nèi)容審核。對(duì)于短視頻內(nèi)容的審核,我們通過提取關(guān)鍵幀的方式轉(zhuǎn)化為對(duì)單張圖片的審核,然后融合多幀的識(shí)別結(jié)果給出結(jié)論。
場(chǎng)景分類
作為一個(gè)貫穿吃喝玩樂各環(huán)節(jié)的互聯(lián)網(wǎng)平臺(tái),美團(tuán)的業(yè)務(wù)涉及多種垂直領(lǐng)域,如表3所示。有必要對(duì)運(yùn)營(yíng)或用戶上傳圖片的品類進(jìn)行識(shí)別,以保持與該商家的經(jīng)營(yíng)范圍一致。此外,為了進(jìn)一步改善展示效果,需要對(duì)商家相冊(cè)內(nèi)的圖片進(jìn)行歸類整理,如圖8所示。
表3 美團(tuán)一級(jí)品類及圖片占比
圖8 商家相冊(cè)圖片分類
深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類的相關(guān)任務(wù)上(比如ILSVRC)上已經(jīng)超越人眼的識(shí)別率,但作為一種典型的監(jiān)督學(xué)習(xí)方法,它對(duì)特定領(lǐng)域的標(biāo)記樣本的數(shù)量和質(zhì)量的需求是突出的。我們的場(chǎng)景分類任務(wù),如果完全依靠審核人員進(jìn)行圖片的篩選和清洗,代價(jià)較大。因此需要基于遷移學(xué)習(xí)來對(duì)模型進(jìn)行微調(diào)。
遷移學(xué)習(xí)致力于通過保持和利用從一個(gè)或多個(gè)相似的任務(wù)、領(lǐng)域或概率分布中學(xué)習(xí)到的知識(shí),來快速并有效地為提升目標(biāo)任務(wù)的性能。模型遷移是遷移學(xué)習(xí)領(lǐng)域中一類常用的遷移方式,它通過學(xué)習(xí)原始域(Source Domain)模型和目標(biāo)域(Target Domain)模型的共享參數(shù)來實(shí)現(xiàn)遷移。由于深度神經(jīng)網(wǎng)絡(luò)具有層次結(jié)構(gòu),且其隱藏層能表示抽象和不變性的特征,因此它非常適合模型遷移。
至于原始域訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò),需要關(guān)注哪些層次的參數(shù)可以遷移以及如何遷移。不同層次的可遷移度不同,目標(biāo)域與原始域中相似度較高的層次被遷移的可能性更大。具體而言,較淺的卷積層學(xué)習(xí)到的特征更通用(比如圖像的色彩、邊緣、基本紋理),因而也更適合遷移,較深的卷積層學(xué)習(xí)的特征更具有任務(wù)依賴性(比如圖像細(xì)節(jié)),因而不適合遷移,如圖9所示。
圖9 深度卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)與特征描述
模型遷移通過固定網(wǎng)絡(luò)特定層次的參數(shù),用目標(biāo)域的數(shù)據(jù)來訓(xùn)練其他層次。對(duì)于我們的場(chǎng)景分類任務(wù)而言,首先根據(jù)分類的類別數(shù)修改網(wǎng)絡(luò)輸出層,接著固定較淺的卷積層而基于業(yè)務(wù)標(biāo)注數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)倒數(shù)若干層參數(shù)。如有更多的訓(xùn)練數(shù)據(jù)可用,還可以進(jìn)一步微調(diào)整個(gè)網(wǎng)絡(luò)的參數(shù)以獲得額外的性能提升,如圖10所示。
相比于直接提取圖像的高層語義特征來進(jìn)行監(jiān)督學(xué)習(xí),采用分階段的參數(shù)遷移對(duì)原始域與目標(biāo)域間的差異性更健壯。
圖10 基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型遷移
基于上述遷移學(xué)習(xí)策略,我們?cè)诿朗硤?chǎng)景圖和酒店房型圖分類中進(jìn)行了相關(guān)實(shí)驗(yàn),基于有限(萬級(jí)別圖片)的標(biāo)注樣本實(shí)現(xiàn)了較高的識(shí)別準(zhǔn)確率,測(cè)試集上的性能如表4所示。
表4 美食場(chǎng)景分類
如前所述,基于深度學(xué)習(xí)的圖像分類與檢測(cè)方法在圖片智能審核中替代了傳統(tǒng)機(jī)器學(xué)習(xí)方法,在公開模型與遷移學(xué)習(xí)的基礎(chǔ)上,通過從海量數(shù)據(jù)中的持續(xù)學(xué)習(xí),實(shí)現(xiàn)了業(yè)務(wù)場(chǎng)景落地。
參考文獻(xiàn)
[1]H. Chen, S. S. Tsai, G. Schroth, D. M. Chen, R. Grzeszczuk, and B. Girod. “Robust text detection in natural images with edge-enhanced maximally stable extremal regions.” ICIP 2011.
[2]Z Zhong,LJin,SZhang,ZFeng.“DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images”. Architecture Science 2015.
[3]Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu. “TextBoxes: A Fast Text Detector with a Single Deep Neural Network”. AAAI 2017.
[4]S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn.“Towards real-time object detection with region proposal networks.” NIPS 2015.
[5]Graves, A.; Fernandez, S.; Gomez, F.; and Schmidhuber, J. “Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks.” ICML 2006.
[6]R Girshick,JDonahue,TDarrell,JMalik. “Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation.” CVPR 2014.
[7]J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. “You only look once: Unified, real-time object detection”. CVPR 2016.
[8]W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. “SSD: Single shot multibox detector”. ECCV 2016.
[9] “Object detection with discriminatively trained part-based models”. TPAMI 2010.
[10]Robust Real-time Object Detection. Paul Viola, Michael Jones. IJCV 2004.
[11]N. Markus, M. Frljak, I. S. Pandzic, J. Ahlberg and R. Forchheimer. “Object Detection with Pixel Intensity Comparisons Organized in Decision Trees”. CoRR 2014.
[12]Shengcai Liao, Anil K. Jain, and Stan Z. Li. “A Fast and Accurate Unconstrained Face Detector,” TPAMI 2015.
[13]Dong Chen, ShaoQingRen, Jian Sun. “Joint Cascade Face Detection and Alignment”, ECCV 2014.
[14]Haoxiang Li, Zhe Lin, XiaohuiShen, Jonathan Brandt, Gang Hua. “A convolutional neural network cascade for face detection”, CVPR.2015.
[15]Lichao Huang, Yi Yang, Yafeng Deng, Yinan Yu.“DenseBox: Unifying Landmark Localization with End to End Object Detection” CVPR 2015.
[16]Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to human-level performance in face verification.CVPR 2014.
[17]Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes.CVPR 2014.
[18]Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification.NIPS. 2014.
[19]FaceNet: A Unified Embedding for Face Recognition and Clustering. CVPR 2015.
[20]A Discriminative Feature Learning Approach for Deep Face Recognition. ECCV 2016.
[21]Rethinking the Inception Architecture for Computer Vision. CVPR 2016.
[22]Alex Krizhevsky, IlyaSutskever, Geoffrey E. Hinton. “ImageNet Classification with Deep Convolutional Neural Networks”. 2014.
[23]Murray, N., Marchesotti, L., Perronnin, F. “Ava: A large-scale database for aesthetic visual analysis”. CVPR 2012.