機會和隱憂:人類最大的生物識別數(shù)據(jù)庫正在印度實施
印度實施的唯一身份識別(Unique Identification)項目(也被稱作 Aadhar 計劃),本周早些時候完成了人口統(tǒng)計和生物識別數(shù)據(jù)的收集,總量超過 5 億印度居民——是目前全球同類生物識別項目規(guī)模最大的一個。
該項目實施的幾年來一直伴隨著來自隱私和安全以及其他方面的爭議聲音。Aadhar 項目最新的進展又引來了有關其捕獲、存儲以及管理數(shù)據(jù)方法的擔憂,特別是一家美國創(chuàng)業(yè)公司 MongoDB 在其中所扮演的角色。
MongoDB 是一家非關系型數(shù)據(jù)庫(NoSQL database)創(chuàng)業(yè)公司,去年從美國中情局資助的 In-Q-Tel 機構中募集了資金。In-Q-Tel 是一家獨立的非盈利資本機構,由 CIA 和一些美國其他的情報機構在背后支持。
過去幾天,幾家印度媒體的報道引述了該國政黨和活動人士們的意見,懷疑 Aadhar 項目的隱私數(shù)據(jù)被盜用,直指該項目的負責人 Infosys 的聯(lián)合創(chuàng)始人 Nandan Nilekani。
也有一些報道文章將 MongoDB 列入批評對象當中。
全球各國政府都在日益警惕美國國家安全局(NSA)的竊聽行動,任何與美國政府情報機構有絲毫聯(lián)系的事情都會鬧得沸沸揚揚。不僅如此,因為印度明年普選在即,該國政治意見的發(fā)聲更是達到前所未有的程度。
諸如此類指控的時機不能來得再糟糕了,至少對于這個野心龐大的身份識別項目來說是如此,Aadhar 正在等待國會法案的通過,要在今年完全成為憲法承認的機構。
筆者訪問了位于班加羅爾(Bangalore)的 Aadhar 項目辦公地點,說實話,按照向我介紹信息的工作人員的說法,雖然有人指摘大額合同中包含與 MongoDB 分享數(shù)據(jù)的內容,其實 Aadhar 使用的是 MongoDB 的開源代碼,并不會觸及敏感數(shù)據(jù)。這次會面同樣有機會了解到目前地球上最大的生物識別數(shù)據(jù)庫如何運作,如何處理安全和隱私方面的隱患。
不僅如此,印度唯一身份識別局(the Unique Identification Authority of India)反駁了與任何美方機構分享印度國民數(shù)據(jù)信息的指控。
Aadhar 對于印度來說,意味著什么?
首先要理清談論 Aadhar 的語境,這個項目對于印度這樣的國家來說意味著什么?該國有超過 5 億人口沒有任何正式的身份證明(ID)或諸如此類的憑證,這就導致了許多其他問題,比如沒辦法領取政府補貼、注冊銀行賬戶、申請貸款、考取駕照等等。Aadhar 數(shù)據(jù)庫項目,目前以每天新增 100 萬印度國民的速度在記錄,預計于明年底注冊完成大約 12 億人口,介時將成為地球上最大的生物識別數(shù)據(jù)庫。
獲得 12 位數(shù)字長度 Aadhar 編碼的最大優(yōu)勢是該國政府能夠將銀行賬戶與貧困人口聯(lián)系起來,直接現(xiàn)金權益和其他補貼做銀行轉賬。目前,印度已經(jīng)有將近 4000 萬個銀行賬戶與 Aadhar 數(shù)據(jù)建立了匹配。
市場研究機構 CLSA 的報告顯示,印度政府總值 2500 億美元的補貼和其他國民待遇中有超過 40% 是針對該國貧困人口的,但是卻將在未來幾年浪費在政府腐敗當中。Aadhar 計劃能夠把過程的中間環(huán)節(jié)去掉,向需要政府補貼的人直接現(xiàn)金轉賬,用這種方式抑制腐敗。
但也有包括位于班加羅爾的互聯(lián)網(wǎng)和社會中心(Centre for Internet & Society)在內的智庫和活動家對于隱私方面的問題始終持懷疑態(tài)度,甚至質疑整個項目能夠發(fā)揮多大的效果。
深入全球最大的生物識別數(shù)據(jù)庫
筆者多方嘗試與 Aadhar 項目官員進行會面,了解安全方面的問題,目前的進展,以及他們對于批評使用 MongoDB 技術的反應。
周五 Aadhar 終于同意在班加羅爾南部郊區(qū)的總部與我見面,英特爾和思科在印度的總部也位于該地區(qū)。從外表來看,存儲了全體印度國民數(shù)據(jù)(目前數(shù)據(jù)總量 5 Petabytes)的 Aadhar 技術中心一點也不像是個政府建筑——很容易讓人以為是附近的英特爾或者思科公司辦公樓中的一個。
走進內部,我來到了一間中央位置有十幾個電視屏幕的房間,幾位二十多歲的年輕工程師興奮地坐在前面,在各自的電腦鍵盤上敲擊,查詢數(shù)據(jù)包裹傳輸?shù)拇鎯π畔ⅲ麄€場面很像一個先進的控制中心。他們盯著的電視屏幕顯示了這些數(shù)據(jù)包裹(每個 5MB 左右)的記錄,從全國 30000 個錄入中心進入開始,經(jīng)過至少三次信息核實過程。核實過程包裹為每一份檔案進行重復性檢驗,確保同一個人不會被生成兩次 Aadhar 號碼。
也就是說,每建立一個新數(shù)據(jù)檔,就要針對所有現(xiàn)存的檔案運行一次“去重復性”檢驗,目前這個數(shù)字已經(jīng)超過了 5 億。
前英特爾工程師 Srikanth Nadhamuni 于 2010 年 9 月幫助設計了 Aadhar 的技術平臺,該平臺目前在班加羅爾的 Khosla 實驗室運行。他告訴我,這些數(shù)據(jù)包都經(jīng)過 2048-bit 加密存儲處理,一旦有未授權的調用嘗試即觸發(fā)自我銷毀(self-destruction)功能。
有關針對 MongoDB 的批評
那么為什么 Aadhar 一開始要與 MongoDB 合作?這種合作關系是否會繼續(xù)下去呢?
Aadhar 技術中心的助理總干事 Sudhir Narayana 表示,MongoDB 只是最初為數(shù)據(jù)檢索所選擇的幾種產品之一,其他還包括 MySQL、Hadoop 和 HBase。與只能夠存儲人口數(shù)據(jù)的 MySQL 不同,MongoDB 還能夠存儲圖像。
但是后來 Aadhar 逐漸將大部分數(shù)據(jù)庫方面的工作轉移到 MySQL 平臺上,因為他們意識到 MongoDB 無法處理大規(guī)模的數(shù)據(jù),也就是上百萬的數(shù)據(jù)包裹。
目前他們已經(jīng)在使用“數(shù)據(jù)庫分片(database sharding)”技術:將數(shù)據(jù)包裹存儲在不同的機器上,確保系統(tǒng)不會在數(shù)據(jù)量增加時崩潰。
這種做法幫助 Aadhar 減少了對于 MongoDB 的依賴,而改用 MySQL 存儲大部分數(shù)據(jù)。
Aadhar 技術中心的副總干事 Ashok Dalwai 告訴我,MongoDB 無法調用任何生物識別數(shù)據(jù)。
“我們認為使用開源技術可以避免過分依賴某一供應商的情況,但是這不代表我們以任何方式在安全方面做出妥協(xié)。”Ashok Dalwai 這樣說道。
MongoDB 方面的一位發(fā)言人在我們聯(lián)系采訪時,建議我們到該公司網(wǎng)站上閱讀有關 In-Q-Tel 投資的聲明文件。
更重要的是,印度唯一身份識別局(UIDAI)早在這家創(chuàng)業(yè)公司從 In-Q-Tel 獲得投資之前就開始使用 MongoDB 的開源軟件技術。Crunchbase 的數(shù)據(jù)顯示,MongoDB 僅僅在 2012 年從紅帽(Red Hat)、英特爾資本(Intel Capital)和 In-Q-Tel 三方募集了總共 770 萬美元。
Aadhar 前景如何?
拋開所有的爭議不談,Aadhar 將于 2014 年完成錄入超過 12 億印度國民數(shù)據(jù)的目標,數(shù)據(jù)庫總量將達到 15 petabytes。目前項目的進展速度是每天 100 萬人,從明年開始將會實現(xiàn)每天大約 200 萬人的速度,將剩下的 7 億人納入此數(shù)據(jù)庫系統(tǒng)當中。
原文鏈接:http://www.huxiu.com/article/24311/1.html