外媒質(zhì)疑美國(guó)安局天網(wǎng),或已誤殺千人
我們?cè)鴪?bào)道過(guò)美國(guó)國(guó)安局NSA一項(xiàng)名為“天網(wǎng)”SKYNET的計(jì)劃,根據(jù)The Intercept公布了一份文檔顯示,“天網(wǎng)”使用機(jī)器學(xué)習(xí)算法分析幫助NSA尋找潛在恐怖分子。如今,外媒卻在質(zhì)疑,這個(gè)項(xiàng)目可能已經(jīng)在巴勒斯坦“誤殺上千無(wú)辜平民”。
NSA:數(shù)據(jù)說(shuō)了算 VS 專(zhuān)家:你們一派胡言
2014年,一名CIA和NSA前負(fù)責(zé)人宣稱(chēng):我們殺人是基于元數(shù)據(jù)的。其本意大概是,我們不會(huì)濫殺無(wú)辜……但是,一名來(lái)自“人權(quán)數(shù)據(jù)分析組織”(Human Rights Data Analysis Group)的數(shù)據(jù)科學(xué)家Patrick Ball對(duì)NSA提出強(qiáng)烈質(zhì)疑,他曾評(píng)價(jià)NSA機(jī)器學(xué)習(xí)算法“盲目樂(lè)觀”并且“一派胡言”。
自2004年以來(lái),巴基斯坦地區(qū)死于無(wú)人機(jī)轟炸下的人數(shù)介于2500至4000人,其中絕大部分人被美國(guó)政府定義為“極端分子”。而從此前流出的幻燈片不難發(fā)現(xiàn),SKYNET機(jī)器學(xué)習(xí)程序早在2007年就在秘密開(kāi)發(fā)中了。
SKYNET:披著大數(shù)據(jù)外衣的喪鐘
“天網(wǎng)”就是一個(gè)很典型的大數(shù)據(jù)業(yè)務(wù)應(yīng)用,程序進(jìn)行元數(shù)據(jù)收集并儲(chǔ)存到NSA云服務(wù)器,在提取所需相關(guān)信息之后運(yùn)用機(jī)器學(xué)習(xí)從事有針對(duì)性的識(shí)別。NSA將其運(yùn)用于巴基斯坦地區(qū),分析了巴基斯坦地區(qū)5500萬(wàn)移動(dòng)電話記錄,其中包括手機(jī)通話數(shù)據(jù)(就是所謂的“DNR”或號(hào)碼識(shí)別數(shù)據(jù),如通話時(shí)間、持續(xù)時(shí)間、通話對(duì)象等等),用戶(hù)定位和旅程詳細(xì)情況,以及關(guān)機(jī)或換SIM卡操作。任何可疑的行為都會(huì)被做上記號(hào)。
簡(jiǎn)而言之,NSA通過(guò)生活模式、社交網(wǎng)絡(luò)以及旅游行為三個(gè)維度來(lái)進(jìn)行數(shù)據(jù)的收集和計(jì)算。在得到了較為完整的元數(shù)據(jù)集之后,SKYNET可以速寫(xiě)出人們典型的日常生活——某些人一起旅行、分享聯(lián)系人、在一起過(guò)夜、訪問(wèn)其他國(guó)家或***移居。最終,NSA機(jī)器學(xué)習(xí)算法使用超過(guò)80種不同屬性為人們的“恐怖分子率”打分。
然而,就是這一權(quán)威機(jī)構(gòu)的科學(xué)算法卻出現(xiàn)一個(gè)令人大跌眼鏡的結(jié)果:
去年The Intercept公開(kāi)了根據(jù)這一算法得分***的“恐怖分子”——竟然是一名受人敬仰的記者Ahmad Muaffaq Zaidan。
作為記者,Zaidan有著廣泛的通訊網(wǎng)絡(luò),并采訪過(guò)包括本拉登在內(nèi)的多名基地組織領(lǐng)導(dǎo)人。對(duì)于“天網(wǎng)”系統(tǒng)的誤殺,Zaidan十分憤慨。
解密“天網(wǎng)”為何疏而有漏
SKYNET的分類(lèi)算法對(duì)元數(shù)據(jù)與基礎(chǔ)事實(shí)進(jìn)行分析,然后為每個(gè)人進(jìn)行打分。理論上真正的恐怖分子會(huì)得到高分。
想要訓(xùn)練出這樣的機(jī)器學(xué)習(xí)算法就像訓(xùn)練Bayesian垃圾郵件過(guò)濾器一樣:你要給它“喂食”已知的垃圾郵件和非垃圾郵件。從這些最為基本的“真理”中,算法便會(huì)掌握怎樣才能正確過(guò)濾垃圾郵件。
同理,“天網(wǎng)”項(xiàng)目中最為關(guān)鍵的部分便是算法的訓(xùn)練,而為數(shù)不多“已知恐怖分子”造成的局限性就顯現(xiàn)出來(lái)。
小編從華盛頓大學(xué)Data Lab數(shù)據(jù)學(xué)研究者CHI那里了解到,NSA在“天網(wǎng)”中采用的隨機(jī)森林算法在機(jī)器學(xué)習(xí)中很常用,而且一般來(lái)說(shuō)效果也很好的,但是在用于發(fā)現(xiàn)恐怖分子時(shí)還存在諸多問(wèn)題。
百科:隨機(jī)森林算法
隨機(jī)森林算法是采用用隨機(jī)的方式建立一個(gè)有很多不相關(guān)決策樹(shù)的森林,在得到森林之后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入的時(shí)候,就讓森林中的每一棵決策樹(shù)分別進(jìn)行一下判斷,看看這個(gè)樣本應(yīng)該屬于哪一類(lèi),然后看看哪一類(lèi)被選擇最多,就預(yù)測(cè)這個(gè)樣本為那一類(lèi)。
Ball解釋道“天網(wǎng)”算法是通過(guò)10萬(wàn)隨機(jī)挑選的個(gè)體和已知的7名恐怖分子進(jìn)行訓(xùn)練。NSA給算法提供6名恐怖分子,讓它找出第7個(gè)。
安全專(zhuān)家Bruce Schneier認(rèn)為政府在使用大數(shù)據(jù)時(shí)不同于其他情況:
“如果谷歌犯了個(gè)錯(cuò)誤,人們最多是看到一輛汽車(chē)的廣告而并不會(huì)想要購(gòu)買(mǎi)??扇绻噶藗€(gè)錯(cuò),可能會(huì)傷及無(wú)辜人的性命。”
在NSA的測(cè)試中甚至出現(xiàn)了0.18%的錯(cuò)誤率,這就意味著在5500萬(wàn)樣本中將近9.9萬(wàn)人進(jìn)行了錯(cuò)誤標(biāo)記,而Ars暗示這一結(jié)果可能導(dǎo)致NSA對(duì)目標(biāo)發(fā)起無(wú)人機(jī)轟炸。
科技之光,還是科技之殤?
算法已經(jīng)開(kāi)始統(tǒng)治我們的生活,用“天網(wǎng)”尋找恐怖分子這僅僅是個(gè)開(kāi)始,采用相同邏輯尋找“毒販”、“抗議者”或“異見(jiàn)人士”的手段可能不久之后或已經(jīng)出現(xiàn)了?;谠獢?shù)據(jù)的“殺人游戲”此刻就在進(jìn)行著,而千里之外的我們對(duì)此視而不見(jiàn)。倘若有天,“天網(wǎng)”認(rèn)定了你是恐怖分子,那時(shí)你該怎么辦?