曠視人臉識(shí)別商業(yè)系列大講堂—關(guān)于人臉識(shí)別你需要知道的
到底什么是人工智能,機(jī)器學(xué)習(xí)和機(jī)器視覺?
人臉識(shí)別和人工智能又有什么關(guān)系? 越來(lái)越多的人工智能正在逐步隱藏其外形,人類對(duì)它的觀察和理解也變得越加具有挑戰(zhàn)性。即使是專家們自己也并不總能完全理解人工智能系統(tǒng)是如何運(yùn)行的。那么,今日起,曠視(Face++) 將在微信公眾號(hào)( megvii-tech )開設(shè)“人臉識(shí)別商業(yè)系列大講堂”,意在讓人們對(duì)人工智能在商業(yè)領(lǐng)域的應(yīng)用層面具有基礎(chǔ)和客觀的理解,當(dāng)然希望更具象的形容“Power Human with AI.” 盡微薄之力讓更多人了解人工智能的核心。
本篇是人臉識(shí)別大講堂系列第一篇,也是一篇關(guān)于人工智能和人臉識(shí)別應(yīng)用最基本的科普。
解讀——人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí)
人工智能( Artificial Intelligence ),英文縮寫為AI。廣義上的人工智能實(shí)際上等同于機(jī)器智能,通俗的解釋就是就是賦予機(jī)器以人的智慧,讓機(jī)器像人一樣學(xué)會(huì)思考。而機(jī)器學(xué)習(xí) ( Machine Learning, ML ) 是人工智能的一個(gè)研究分支,主要是設(shè)計(jì)和分析一些讓計(jì)算及自動(dòng)獲取知識(shí)的算法,涉及到概率論、統(tǒng)計(jì)學(xué)、逼近論等多個(gè)領(lǐng)域。深度學(xué)習(xí)( Deep Learning, DL )又是機(jī)器學(xué)習(xí)的一個(gè)分支,可以理解為用計(jì)算機(jī)的算法模擬人類大腦的深度神經(jīng)網(wǎng)絡(luò),然而對(duì)于神經(jīng)網(wǎng)絡(luò)我們還沒有一個(gè)嚴(yán)格的定義,但其特點(diǎn)是試圖模仿大腦的神經(jīng)元之間傳遞,處理信息的模式。
因此,簡(jiǎn)單而言,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是一種包含關(guān)系。我們通過(guò)在計(jì)算能力和計(jì)算方式上的探索在不斷接近人工智能的本質(zhì)——一個(gè)具備自我學(xué)習(xí)和應(yīng)變能力的智能機(jī)體。但我們不能單純地認(rèn)為人工智能只是把數(shù)學(xué)模型做的更準(zhǔn)確一點(diǎn),讓機(jī)器擁有擬人化能力是一個(gè)漫長(zhǎng)的發(fā)展過(guò)程:畢竟從計(jì)算機(jī)誕生到現(xiàn)在的移動(dòng)互聯(lián)網(wǎng),我們就用了70年的時(shí)間。而現(xiàn)在我們才剛開始觸摸到到智能時(shí)代的拐點(diǎn)的邊緣。我們之所以認(rèn)為是“今天”處在智能時(shí)代的臨界點(diǎn)是因?yàn)橐韵伦钪匾膬蓚€(gè)條件的形成:
1. 計(jì)算能力到達(dá)了一定高度,摩爾定律推動(dòng)了世界的發(fā)展;
2. 大數(shù)據(jù)的積累、傳感技術(shù)的成熟。
今年正是人工智能概念提出的第六十周年,當(dāng)年參與達(dá)特茅斯會(huì)議的最后一名在世的科學(xué)家——人工智能之父馬文明斯基也于年初離世,我們經(jīng)歷了一個(gè)時(shí)代的結(jié)束也面臨著一個(gè)新的時(shí)代的開始。大數(shù)據(jù)和機(jī)器學(xué)習(xí)讓計(jì)算機(jī)變得特別聰明,以至于使計(jì)算機(jī)能夠在某些領(lǐng)域很大程度的超過(guò)人類的極限能力,比如谷歌AlphaGo戰(zhàn)勝了圍棋世界冠軍李世石,而人工智能的目的絕對(duì)不是讓計(jì)算機(jī)和人類下下棋而已,可以說(shuō)未來(lái)幾十年將面臨由大數(shù)據(jù)帶來(lái)的智能革命,機(jī)器會(huì)獲得越來(lái)越全面的能力。
但實(shí)際上,人工智能的應(yīng)用范圍博大精深,繁冗復(fù)雜,在每一個(gè)垂直領(lǐng)域的應(yīng)用都需要克服難以想象的障礙。所以,我們先拆分大腦的功能,讓機(jī)器一點(diǎn)點(diǎn)實(shí)現(xiàn)智能化。
人的大腦需要借助各種感官,如眼睛、耳朵等,感知外界信息,然后進(jìn)行判斷,這其中用機(jī)器來(lái)代替人眼來(lái)做測(cè)量跟判斷的動(dòng)作,稱為機(jī)器視覺,機(jī)器視覺是人工智能學(xué)科中發(fā)展的最為快速的分支,而當(dāng)今大家熟知的人臉識(shí)別技術(shù)就是機(jī)器視覺最富有挑戰(zhàn)性的課題之一。
人臉識(shí)別——人臉檢測(cè) | 人臉分析 | 人臉識(shí)別
在深度學(xué)習(xí)誕生前,人臉識(shí)別研究人員試圖不斷改進(jìn)、提高計(jì)算機(jī)識(shí)別人臉的能力,但相對(duì)人類本身所具有的人臉識(shí)別能力仍然望塵莫及。直到2012年,深度學(xué)習(xí)開始影響人臉識(shí)別技術(shù)的發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法在不斷突破人工智能算法的世界紀(jì)錄。如何在一張環(huán)境復(fù)雜的圖片中快速識(shí)別出人臉,對(duì)于人來(lái)說(shuō)很簡(jiǎn)單,但對(duì)于機(jī)器而言,需要經(jīng)歷以下幾個(gè)步驟: 人臉檢測(cè)、人臉分析、人臉識(shí)別。
一張圖片輸入機(jī)器后,需要先找到人臉的位置——人臉檢測(cè),然后在這個(gè)基礎(chǔ)上定位人臉關(guān)鍵點(diǎn)的位置( 如眼睛中心或嘴角等 )并提取特征值——人臉分析,每個(gè)系統(tǒng)關(guān)鍵提取的數(shù)量相差很大,有的只有左右眼睛中心兩個(gè)點(diǎn),有的可能多達(dá)近百個(gè)點(diǎn)。這些點(diǎn)的位置一是用來(lái)做人臉的幾何校正,即把人臉通過(guò)縮放、旋轉(zhuǎn)、拉伸等圖像變化變到一個(gè)比較標(biāo)準(zhǔn)的大小位置。這樣待識(shí)別的人臉區(qū)域會(huì)更加規(guī)整,便于后續(xù)進(jìn)行匹配。同時(shí),現(xiàn)在的實(shí)際系統(tǒng)一般也都配有人臉光學(xué)校正模塊,通過(guò)一些濾波的方法,去除一些對(duì)光照更加敏感的面部特征。在做完這些預(yù)處理之后,就是從人臉區(qū)域提取各種特征,包括 LBP、HOG、Gabor 等。最終相關(guān)的特征會(huì)連接成一個(gè)長(zhǎng)的特征向量( Feature Vector ),然后匹配出人臉的相似度,根據(jù)相似度的大小,系統(tǒng)會(huì)判定兩張圖片到底是不是一個(gè)人——人臉識(shí)別。所以,想要降低人臉識(shí)別的失誤率,需要強(qiáng)大的算法支撐。
但失誤率低是否就能在商業(yè)領(lǐng)域中站穩(wěn)腳跟?
產(chǎn)學(xué)研用——人臉識(shí)別的商業(yè)應(yīng)用價(jià)值
常言道:實(shí)踐出真知。
再?gòu)?qiáng)大的算法如果不和現(xiàn)實(shí)的應(yīng)用場(chǎng)景相結(jié)合也無(wú)異于紙上談兵,除了名次的提升和無(wú)限接近于100%的實(shí)驗(yàn)結(jié)果,并沒有帶來(lái)實(shí)際的價(jià)值,更何談社會(huì)效益。人工智能產(chǎn)生的初衷是為了取代人力,將人類解放出來(lái)去創(chuàng)造更多的價(jià)值,人臉識(shí)別技術(shù)也同樣應(yīng)該遵循這個(gè)基本原則。目前,隨著技術(shù)的發(fā)展和市場(chǎng)需求的快速增長(zhǎng),人臉已經(jīng)在很多領(lǐng)域發(fā)揮了這樣的價(jià)值,如遠(yuǎn)程在線核身,用刷臉替代實(shí)名場(chǎng)景中需要的人力和物力。
而在實(shí)際應(yīng)用場(chǎng)景中,我們通常會(huì)提到兩個(gè)概念:即 1:1 和 1:N 。
1:1 可以粗暴地理解為證明你就是你。事實(shí)上,1:1 屬于一種靜態(tài)比對(duì),在泛金融的核身、信息安全領(lǐng)域中還有潛在巨大的商用價(jià)值。例如在機(jī)場(chǎng)安檢口,總是需要有一個(gè)人拿著你的身份證看看你再看看證件,來(lái)確認(rèn)你就是持證人,這種場(chǎng)景就是典型的 1:1 場(chǎng)景。然而人的肉眼識(shí)別精準(zhǔn)度是在95%左右,且長(zhǎng)時(shí)間工作容易疲勞,所以機(jī)場(chǎng)安檢人員需要在半個(gè)小時(shí)到一個(gè)小時(shí)之內(nèi)換班一次來(lái)保證識(shí)別的準(zhǔn)確率。而人臉識(shí)別技術(shù)的出現(xiàn),就完全能夠解決這種場(chǎng)景下“需要一個(gè)人”的問題,當(dāng)然,這種價(jià)值同樣能在考試考生身份的審核、酒店入住辦理,火車站人票合一認(rèn)證等任何需要實(shí)名制的場(chǎng)景中體現(xiàn)。
人證合一比對(duì)終端是典型1:1應(yīng)用場(chǎng)景
1:N 的概念則是在 N 個(gè)人中找出你。這里的 N 是一個(gè)數(shù)據(jù)庫(kù),里面有無(wú)數(shù)張人臉信息,那么計(jì)算機(jī)要做的就是在無(wú)數(shù)的人臉中找到你是誰(shuí)。1: N 具有動(dòng)態(tài)比對(duì)和非配合的特點(diǎn),所謂的動(dòng)態(tài)也就是識(shí)別的不是照片,不是圖片,而是一個(gè)動(dòng)態(tài)的視頻流;非配合是指識(shí)別對(duì)象不用感知到攝像頭的位置只要走進(jìn)識(shí)別范圍就能完成識(shí)別工作。這兩個(gè)特點(diǎn)使 1:N 的難度要遠(yuǎn)高于靜態(tài) 1: 1,因?yàn)闄C(jī)器面臨著曝光過(guò)度、逆光、側(cè)臉、遠(yuǎn)距離等挑戰(zhàn)。
曠視(Face++)的智能門禁是典型的1:N 應(yīng)用場(chǎng)景
在行業(yè)應(yīng)用中,1:1 更多是應(yīng)用在金融、核身、信息安全領(lǐng)域,特點(diǎn)是精準(zhǔn)安全。而1:N主要應(yīng)用的方向是在商業(yè)、安防等。比如一個(gè)女士去商場(chǎng)買包包,店員不知道她是否是會(huì)員。如果引用機(jī)器視覺技術(shù),不管店員換沒換,當(dāng)顧客進(jìn)門的時(shí)候她的信息就被推送給店員完成精準(zhǔn)的推薦,這就是機(jī)器視覺在商業(yè)領(lǐng)域VIP客戶識(shí)別的典型應(yīng)用。在安防方面的應(yīng)用比如公共場(chǎng)所動(dòng)態(tài)監(jiān)控、緝拿逃犯、人員布控等。
需要說(shuō)明的是,人臉識(shí)別技術(shù)的成熟雖然能讓計(jì)算機(jī)替代人眼取代一大部分在審核、找人工作中的勞動(dòng)力,但它并不能作為嚴(yán)肅場(chǎng)景中的唯一的驗(yàn)證方式。舉例說(shuō)明,在某公共場(chǎng)所動(dòng)態(tài)監(jiān)控緝拿逃犯時(shí),因受外界環(huán)境干預(yù),可能會(huì)同時(shí)彈出5個(gè)疑似的人選,這時(shí)就需要人工協(xié)助,共同完成識(shí)別確認(rèn)過(guò)程;又或者在企業(yè)應(yīng)用中,具有較高機(jī)密性質(zhì)的場(chǎng)所可以采用人臉識(shí)別和刷卡的雙重認(rèn)證來(lái)確保安全性。
可以肯定的是,相比于人眼的效率來(lái)說(shuō),人工智能的人臉識(shí)別能力要遠(yuǎn)遠(yuǎn)超過(guò)人類。但這并不代表機(jī)器不會(huì)出錯(cuò),因此在準(zhǔn)確形容人臉識(shí)別通過(guò)率的專用詞匯中,有誤識(shí)率一詞,就曠視(Face++)而言,完全可以做到在萬(wàn)分之一誤識(shí)率下使通過(guò)率達(dá)到98%,能夠滿足日常生活中的應(yīng)用場(chǎng)景。畢竟,人工智能的意義是賦予人類更強(qiáng)大的能力、協(xié)助人類更高效的工作——正如如我們開篇說(shuō)的,Power human with AI,而并非取代人類。