揭秘格靈深瞳:計(jì)算機(jī)如何看懂我們的世界?
發(fā)現(xiàn)雪白桌面上一張同樣雪白的 A4 紙?提前一秒預(yù)知你的動(dòng)作是否存在威脅?出現(xiàn)危險(xiǎn)情況時(shí),對(duì)著鏡頭做「SOS」的手勢(shì)警察就會(huì)來幫助你?
這些太像科幻片?格靈深瞳都做得到。
比爾蓋茨聽罷產(chǎn)品介紹直呼「This is very cool」,紐約警察局(NYPD)前來尋找解決方案,英偉達(dá)將其列為與小米同等重要的客戶……
一家 2013 年創(chuàng)立的國(guó)內(nèi)公司,憑什么如此「高調(diào)」?
格靈深瞳正在制造能看懂現(xiàn)實(shí)的計(jì)算機(jī)之眼,邁出的***步是保護(hù)我們的安全。
從安防監(jiān)控開始
2012 年夏天的圖書館,我將書包存于寄包柜,借書完畢發(fā)現(xiàn)錢包不翼而飛。報(bào)警、調(diào)監(jiān)控錄像、確認(rèn)有人從柜子中拿走我的書包取出錢包又大搖大擺的放回,可直到畢業(yè)錢包依舊杳無音信。
聽說這是個(gè)慣犯,校方多次查找都沒能捉到。如果攝像頭能夠識(shí)別這個(gè)人、識(shí)別、自動(dòng)報(bào)警,也許一切就會(huì)不一樣。
安防監(jiān)控一直被認(rèn)為替代了大量人工,延長(zhǎng)人眼觀察距離,又能在惡劣環(huán)境下工作。但實(shí)際上它們還只是用光纖、同軸電纜或微波在閉合環(huán)路內(nèi)傳輸視頻信號(hào)的系統(tǒng),雖能實(shí)時(shí)播放記錄圖像,但面對(duì)威脅時(shí)仍需要觸發(fā)現(xiàn)場(chǎng)的報(bào)警系統(tǒng)才能引起警覺。
如果沒有人觀看,這些實(shí)時(shí)傳輸?shù)膱D像就毫無意義。即便是為了尋找證據(jù),事后查找也需要回溯錄像,在模糊的視頻中尋找線索,是一項(xiàng)極其繁重的工作。
能不能讓這些攝像頭就像我們的眼睛一樣看懂這個(gè)世界,自己發(fā)現(xiàn)危險(xiǎn)和異常?
人們用兩只眼睛獲得原始的三維數(shù)據(jù),再由大腦處理信息做出適當(dāng)?shù)姆磻?yīng)。而在過去的十幾年中研究者們一直相信光學(xué)鏡頭+計(jì)算機(jī)算法就能看懂我們的世界,但光學(xué)鏡頭丟失了三維世界的重要信息——深度。
格靈深瞳使用的設(shè)備
格靈深瞳的設(shè)備看上去和普通的安防監(jiān)控設(shè)備不太一樣。與一般球狀單攝像頭相比并列采用了三枚攝像頭:左側(cè)是與普通安防攝像頭一樣的 RGB 攝像頭,另兩個(gè)是激光發(fā)射器和接收器,外形與微軟 Kinect 非常相似。
通過它真的能看懂我們的世界么?
格靈深瞳CTO趙勇還在谷歌時(shí)就相信想要讓計(jì)算機(jī)要看懂圖像,必須通過三維這條路。通過激光發(fā)射器的發(fā)射與接收,以結(jié)構(gòu)光源實(shí)現(xiàn)深度的方式讓攝像頭對(duì)三維的空間變化有了感知能力。但這只是***步,通過人眼接收光線僅僅是提供了信息。真正要「看懂」圖像,還需要大腦將光信號(hào)轉(zhuǎn)換成神經(jīng)信號(hào)。
一整套將三維世界原始數(shù)據(jù)轉(zhuǎn)換為最原始、電腦能看懂的數(shù)據(jù)的系統(tǒng),才是格靈深瞳的核心所在。
讓機(jī)器看懂世界
「格靈深瞳可以做到兩件事:***個(gè)是以人為單位,十幾、二十幾個(gè)人在屋子里互相交錯(cuò),比如地鐵,我們會(huì)對(duì)行人的軌跡和速度進(jìn)行非常精確的跟蹤。另一個(gè)是在中遠(yuǎn)距離對(duì)人的肢體行為,近距離對(duì)人手的行為都可以識(shí)別?!垢耢`深瞳 CEO 何搏飛告訴極客公園。
格靈深瞳 CEO 何搏飛為極客公園解釋設(shè)備原理
明明光沿直線傳播,格靈深瞳的設(shè)備如何做到人與人之間的遮蔽不會(huì)影響系統(tǒng)判斷?因?yàn)槿耸沁B續(xù)的——既不可能憑空出現(xiàn),也不可能憑空消失,這也是格靈深瞳算法的前提。遮蔽情況出現(xiàn)時(shí),系統(tǒng)會(huì)一直跟蹤到「失蹤」的人再次出現(xiàn)。
那么格靈深瞳如何提前預(yù)知犯罪?將所有的不正常(推搡、撞擊)行為都模型化后再匹配?不用這么復(fù)雜。以暴力行為為例,空間中的人動(dòng)作的速度、幅度以及強(qiáng)度經(jīng)過衡量,暴力動(dòng)作與正常的動(dòng)作相比強(qiáng)度非常不同。通過肢體的動(dòng)作幅度對(duì)異常舉動(dòng)進(jìn)行分析和判斷,這個(gè)人的動(dòng)作幅度超出安全值,格靈深瞳可以實(shí)現(xiàn)再行為發(fā)生前 0.5 秒或 1 秒報(bào)警。
目前銀行、特別是 ATM 自助銀行是格靈深瞳最主要的應(yīng)用場(chǎng)景。具有學(xué)習(xí)能力的系統(tǒng)放在 ATM 機(jī)環(huán)境下,在一個(gè)月時(shí)間左右系統(tǒng)可以學(xué)習(xí)到大部分人都是一樣的進(jìn)門、排隊(duì)、走到機(jī)器面前、插卡、按鍵盤、等一會(huì)兒取錢離開,并認(rèn)為這樣的流程是正常行為。如果晚上 10 點(diǎn)有人進(jìn)入一個(gè)北京城鄉(xiāng)結(jié)合部的營(yíng)業(yè)廳,沒有取錢而是蹲在墻角,系統(tǒng)就會(huì)認(rèn)為這是異常情況進(jìn)行上報(bào)?;蛘哂腥嗽诓蹇谔幾龀龃罅縿?dòng)作,可能在安裝讀卡器、或者薄膜鍵盤,這時(shí)系統(tǒng)也會(huì)提示異常。
雖然產(chǎn)品叫做無人安防監(jiān)控系統(tǒng),格靈深瞳無意以此代替所有的監(jiān)控人力。人類的世界太復(fù)雜,機(jī)器會(huì)幫助人類從重復(fù)性的工作中解放出來,但***的決定還是需要人來做出。格靈深瞳系統(tǒng)的存在是為安保人員提供極大的效率的提升,告訴他們「嘿,這里有點(diǎn)不太對(duì)勁,看看是不是有什么問題?」而不是取代他們。
三維的數(shù)據(jù)會(huì)不會(huì)大很多?傳統(tǒng)計(jì)算機(jī)真的能處理這些數(shù)據(jù)嗎?
沒錯(cuò)三維的數(shù)據(jù)總量要比二維數(shù)據(jù)大得多,因此格靈深瞳選擇全部數(shù)據(jù)在本地進(jìn)行結(jié)構(gòu)化處理,再上傳云端。對(duì)帶寬的占用和現(xiàn)階段二維的安防監(jiān)控沒有質(zhì)的區(qū)別,至于現(xiàn)有計(jì)算機(jī)能不能處理,那就要看 GPU 了——這也是英偉達(dá)看重格靈深瞳的原因。
一家計(jì)算機(jī)視覺+人工智能公司
2013 年 4 月,格靈深瞳成立三個(gè)月就拿到真格基金和聯(lián)創(chuàng)策源的聯(lián)合天使投資,今年 6 月,格靈深瞳又拿到紅杉資本 A 輪高達(dá)數(shù)千萬美元的投資。
乘上樓電梯、ATM 機(jī)取現(xiàn)、超市購物,監(jiān)控我們攝像頭無所不在。你猜北京 T3 航站樓正在盯著我們的「眼睛」有沒有一萬個(gè)?答案是五倍——五萬個(gè)。
在 CEO 何搏飛看來,安防監(jiān)控?fù)碛斜戎悄苁謾C(jī)更龐大的市場(chǎng),銀行僅僅是其中的一部分。通過這些項(xiàng)目梳理全流程的格靈深瞳,平行進(jìn)入其他行業(yè)也是順其自然的事。
但讓一個(gè)團(tuán)隊(duì)、一家公司改變?nèi)袠I(yè)是不可能的事,格靈深瞳常說自己是一家「一家計(jì)算機(jī)視覺+人工智能公司」。他們更希望在安防監(jiān)控這個(gè)「驗(yàn)證點(diǎn)」成功之后,能以計(jì)算機(jī)視覺為基礎(chǔ)提供一個(gè)平臺(tái),讓更多行業(yè)的人接入其中,體驗(yàn)到這項(xiàng)技術(shù)所能帶來的、***的力量。
比如運(yùn)用到醫(yī)療領(lǐng)域,現(xiàn)階段心臟手術(shù)需要人為讓心臟暫停跳動(dòng)轉(zhuǎn)向體外循環(huán),計(jì)算機(jī)視覺則可以讓手術(shù)刀與心臟跳動(dòng)同步運(yùn)動(dòng),實(shí)現(xiàn)相對(duì)靜止的心臟手術(shù)。這種應(yīng)用正處在試驗(yàn)階段,也許不遠(yuǎn)的將來每個(gè)人都可以從中獲益。
或者在空巢老人家中感知老人的意外情況及時(shí)提醒家人、課堂上通過學(xué)生的表情感知學(xué)習(xí)效果改善教學(xué)計(jì)劃……擁有感知能力的計(jì)算機(jī)視覺在這個(gè)世界里,可以有更多想像。
在格靈深瞳會(huì)議室天花板上有一個(gè)大大的X,代表著未知
格靈深瞳希望自己的未來是個(gè)人工智能公司,「在那個(gè)階段我希望能把計(jì)算機(jī)的認(rèn)知能力,感知能力結(jié)合起來,去做一些非常有意思的事情」。
如果你覺得格靈深瞳被「神化」,那說明 CV 領(lǐng)域需要更多關(guān)注、更多參與。與短平快的 to C 項(xiàng)目相比,人工智能領(lǐng)域充滿太多變數(shù),因此注定更加荊棘密布也孕育著更多可能。
極客是意識(shí)到趨勢(shì),然后埋頭去做的人——何搏飛如是解讀「極客」精神。格靈深瞳也在根據(jù)現(xiàn)實(shí)不斷調(diào)整自己的步伐和方向,每一次的拜訪,都有新變化。
當(dāng)互聯(lián)網(wǎng)和云成為基礎(chǔ),機(jī)器學(xué)習(xí)、大數(shù)據(jù)成為常態(tài),你猜下一個(gè)風(fēng)口,是不是人工智能?