波士頓馬拉松爆炸案的大數(shù)據(jù)難題
Photo:latimes
在波士頓馬拉松爆炸案發(fā)生后,在IT業(yè)和企業(yè)界炙手可熱的新技術(shù)——大數(shù)據(jù),能否體現(xiàn)自己的價(jià)值,在分析海量數(shù)據(jù)后揪出嫌犯?政府執(zhí)法部門(mén)如何在偵查和預(yù)防犯罪的大數(shù)據(jù)采集和分析過(guò)程中避免觸及公民自由和公民隱私紅線?甚至,如何通過(guò)大數(shù)據(jù)技術(shù)預(yù)防犯罪的發(fā)生?這些都是大數(shù)據(jù)專(zhuān)業(yè)人士和各國(guó)政府和公安部門(mén)需要從波士頓馬拉松爆炸案的偵破過(guò)程中吸取的經(jīng)驗(yàn)。
根據(jù)《洛杉磯時(shí)報(bào)》對(duì)本周一爆炸案的報(bào)道,F(xiàn)BI已經(jīng)在波士頓馬拉松爆炸事件后在案發(fā)現(xiàn)場(chǎng)附近采集了10TB左右的數(shù)據(jù)。根據(jù)《時(shí)代周刊》的報(bào)道,這些數(shù)據(jù)包括采集自移動(dòng)基站的電話通訊記錄,附近商店、加油站、報(bào)攤的監(jiān)控錄像以及志愿者提供的圖片和影像資料。(這引發(fā)了一個(gè)爭(zhēng)議,那就是能否將一些犯罪偵查工作眾包出去,從而保護(hù)公民的隱私權(quán)利。)
目前來(lái)看,F(xiàn)BI采集到的10TB的數(shù)據(jù)量與“大數(shù)據(jù)”的"Volume"有些差距,但影響數(shù)據(jù)分析結(jié)果的不僅僅是數(shù)據(jù)規(guī)模,另外幾個(gè)重要因素是數(shù)據(jù)來(lái)源和質(zhì)量。與在海量銀行交易記錄中識(shí)別地下錢(qián)莊洗錢(qián)交易不同,在波士頓爆炸案中,通過(guò)數(shù)據(jù)分析鎖定嫌疑犯或找到炸彈來(lái)源要困難得多。根據(jù)數(shù)據(jù)分析專(zhuān)家Jeff Jonas的一篇博文,常規(guī)的數(shù)據(jù)來(lái)源往往無(wú)法提供任何有助于找到炸彈的信息。
Jeff Jonas指出當(dāng)常規(guī)的數(shù)據(jù)源不充足,偵破甚至預(yù)測(cè)犯罪需要增加新的觀察空間(即數(shù)據(jù)源)時(shí)需要注意以下幾點(diǎn):
1.在分析中整合外部數(shù)據(jù)源是一門(mén)藝術(shù),需要對(duì)防火墻內(nèi)和墻外的數(shù)據(jù)流轉(zhuǎn)機(jī)制,以及相關(guān)的法律和政策問(wèn)題有充分的了解。
2.增加數(shù)據(jù)源的順序是先內(nèi)后外。當(dāng)然也可以加大舊的數(shù)據(jù)源的采集范圍。(編者注,在波士頓爆炸案中,增加范圍意味著不僅僅采集馬拉松沿途的視頻監(jiān)控和移動(dòng)基站數(shù)據(jù))
3.抓住壞人的關(guān)鍵是其中一些數(shù)據(jù)源(暫時(shí))不為犯罪分子所知的。
4.利用好社交媒體。
5.給數(shù)據(jù)的優(yōu)先級(jí)排序。
對(duì)于FBI和波士頓警方來(lái)說(shuō),擴(kuò)大數(shù)據(jù)的來(lái)源和觀察空間不僅僅意味著增加監(jiān)控和監(jiān)控?cái)?shù)據(jù)的分析能力,更重要的是增加社交媒體和群眾數(shù)據(jù)的采集和整合能力。在本周的一次研討會(huì)上,IBM I2首席專(zhuān)家王海波以長(zhǎng)春盜車(chē)殺嬰案為例提出“天網(wǎng)工程”的幾點(diǎn)疑問(wèn):
1.從報(bào)案到第二天上午群眾舉報(bào)為什么沒(méi)有找到車(chē)?
2.攝像頭精度不足,還是無(wú)法處理視頻記錄?
3.報(bào)案后卡口無(wú)法及時(shí)收到通知并攔截?
4.罪犯當(dāng)時(shí)和誰(shuí)在一起,能否取證,能否證明自首者是真兇?
天網(wǎng)工程的掉鏈子說(shuō)明,一味增加舊有數(shù)據(jù)源的采集力度未必能解決問(wèn)題。數(shù)據(jù)質(zhì)量、可視化和智能化、非結(jié)構(gòu)化數(shù)據(jù)的快速甚至實(shí)時(shí)分析、預(yù)測(cè)都是“警務(wù)大數(shù)據(jù)”需要面對(duì)的重大議題。
作為美國(guó)警界最早的大數(shù)據(jù)預(yù)測(cè)分析試點(diǎn)單位,圣克魯斯警察局通過(guò)城市大數(shù)據(jù)預(yù)測(cè)犯罪地點(diǎn)和時(shí)間,分析歷史案件, 發(fā)現(xiàn)犯罪趨勢(shì)和犯罪模式, 找出共同點(diǎn)和相關(guān)性,通過(guò)分析城市數(shù)據(jù)源和社交網(wǎng)絡(luò)數(shù)據(jù),甚至能預(yù)測(cè)犯罪。過(guò)去需要幾天, 幾周甚至幾個(gè)月的數(shù)據(jù)資料分析, 在最新的警用Hadoop大數(shù)據(jù)分析系統(tǒng)中幾個(gè)小時(shí)內(nèi)就完成,從而大大加速了警察辦案的效率。參考閱讀:警務(wù)2.0:用大數(shù)據(jù)預(yù)防犯罪
雖然FBI和波士頓警察局昨日發(fā)布聲明譴責(zé)并否認(rèn)包括CNN、路透社在內(nèi)的多家媒體的“已經(jīng)鎖定并逮捕嫌疑犯”的報(bào)道(編者按:這些大媒體的爆料很可能來(lái)自類(lèi)似Reddit民間調(diào)查小組的小道消息),但是社交媒體相比FBI的800電話在收集民眾手中的圖片和視頻方面顯然效率要高得多(但存在諸多法律風(fēng)險(xiǎn)和道德?tīng)?zhēng)議)。如果能事先設(shè)計(jì)明確的警務(wù)社交媒體規(guī)范和信息分享機(jī)制,就能有效擴(kuò)大警務(wù)數(shù)據(jù)分析的來(lái)源,提高刑偵效率,同時(shí)減少和避免謠言的流傳。
原文鏈接:http://www.ctocio.com/hotnews/12101.html