為什么我們的數(shù)據(jù)還不夠開放?
6,000英里的馬路,600英里的地鐵,400英里的自行車道和0.5英里的電車軌道——這是羅斯福島上測(cè)量到的數(shù)據(jù)。
上述基礎(chǔ)設(shè)施數(shù)據(jù),來自市政機(jī)構(gòu)的發(fā)布,比如:交通部會(huì)告訴你未來將有多少通向國(guó)外的公路,大紐約交通運(yùn)輸管理局會(huì)自信滿滿告訴你一條地鐵軌道延伸的長(zhǎng)度,同樣,大多數(shù)市政機(jī)構(gòu)會(huì)給出類似的數(shù)據(jù)。
以下是來自出租車管理委員會(huì)的報(bào)告:紐約市范圍內(nèi)大概有13,500輛出租車。
這些數(shù)據(jù)是不是很有趣?但是你有想過這些數(shù)據(jù)來自何處嗎?
擁有這些數(shù)據(jù)固然很好,政府機(jī)構(gòu)里總有人也許會(huì)說:或許我們的市民對(duì)這個(gè)或者那個(gè)數(shù)字感興趣呢。所以他們就重新將原始數(shù)據(jù)撿拾起來,做些加加減減的運(yùn)算,成了我們剛才看到的數(shù)字。
那么問題來了——我們?cè)趺凑磉@些數(shù)字呢?
事實(shí)上,我們對(duì)這個(gè)城市有著太多的好奇和疑問,以至于這些機(jī)構(gòu)無法回答詳盡,如此以來,這些數(shù)據(jù)并沒有發(fā)揮出應(yīng)有的作用。
我們的政策制定者并沒有忽視這個(gè)問題,早在2012年,Bloomberg市長(zhǎng)就簽署了一個(gè)數(shù)據(jù)開放的法案,該法律強(qiáng)制要求城市機(jī)構(gòu)把他們得到的所有數(shù)據(jù)公開到線上且可搜索,在我們看來,這已經(jīng)是全國(guó)范圍內(nèi)最全面和最有雄心的數(shù)據(jù)開放法案了。在簽署法案的這兩年以來,開放數(shù)據(jù)門戶上已經(jīng)公布了一千來?xiàng)l的數(shù)據(jù),這真的很酷。
所以你不必只是單純地去計(jì)算出租車的數(shù)量,而是應(yīng)進(jìn)一步的問一些問題,比如:紐約的交通高峰是在什么時(shí)刻?交通擁堵的確很令人頭疼呀。
我們將出租車數(shù)量只看成數(shù)字,而GPS記錄儀則記錄走街串巷的每一次路程——根據(jù)這些數(shù)據(jù),我做了一個(gè)紐約出租車全天時(shí)速均值的圖表:從午夜時(shí)分到早上5點(diǎn)18分,車速一直在增加,隨后一切都在變慢,直到早上8點(diǎn)35分,平均車速達(dá)到了11.5英里每小時(shí)并一直保持著這個(gè)車速,一直到下午六點(diǎn)半——這意味著,出租車全天都在以這個(gè)速度行駛,所以,紐約市沒有交通高峰“時(shí)刻”,紐約“全天”都處于高峰狀態(tài)。
這是不是很有道理的樣子?這些都是數(shù)據(jù)的功勞。
如果你是交通規(guī)劃師,你會(huì)很有興趣了解這個(gè)情況;如果你想要快點(diǎn)去到某個(gè)地方,只需要把鬧鐘定在早上4點(diǎn)45分,那可就萬事大吉了。
剛才我所說的“紐約全天高峰”這個(gè)結(jié)論并不是自然而來的,而是要?dú)w功于我們的信息自由法。
在出租車委員會(huì)的網(wǎng)站上,你想要獲得你想要的數(shù)據(jù)的話,有一張表格要填,然后就坐等他們聯(lián)系你吧——有一個(gè)叫做Chris Wong的人真的就這么做了。Chris來了之后,他們要求他帶一個(gè)全新的硬盤,全新的哦,5個(gè)小時(shí)之后,數(shù)據(jù)就都拷貝下來了。像Chirs這樣的人希望數(shù)據(jù)能夠公開,于是把他拿到的數(shù)據(jù)掛在網(wǎng)上供下載,這就是剛才“紐約全天高峰”的原始數(shù)據(jù)的來源。
這個(gè)結(jié)論不得不讓我們大吃一驚,當(dāng)然GPS記錄儀也十分給力。
市民們需要大老遠(yuǎn)拿一個(gè)移動(dòng)硬盤取得這些數(shù)據(jù),才得以讓政府部門數(shù)據(jù)公開——這樣的“公開”真的夠“公開”了嗎?這充其量只是“公共數(shù)據(jù)”,還算不得我們期待的“數(shù)據(jù)公開”呢。
我們希望市民可以足不出戶就可以去分析政府的公開數(shù)據(jù),而不是填寫申請(qǐng)表長(zhǎng)途跋涉帶著硬盤漫長(zhǎng)等待……
我還根據(jù)自行車事故數(shù)量,做了一個(gè)紐約市最危險(xiǎn)的十字路口的地圖。地圖上紅色部分最為危險(xiǎn)。
由圖可知,Manheim以東,尤其是它的低洼路段,是自行車事故高發(fā)路段,這可以理解,因?yàn)楹芏嘧孕熊噺臉蛏舷聛?;但是像Williamsburg和皇后大道(Avenue Queens)為什么也是危險(xiǎn)地區(qū),這是值得城市規(guī)劃者考慮的。
這才是我們需要的數(shù)據(jù),這才是我們一直在尋找的數(shù)據(jù),這些數(shù)據(jù)并不是憑空得來的,它們經(jīng)過了有心人對(duì)原始數(shù)據(jù)的再挖掘。
我們?cè)诤粲蹰_放數(shù)據(jù)的時(shí)候,遇到了另一個(gè)問題:PDF文件格式。
或許有人曾經(jīng)嘗試過從PDF上拷貝數(shù)據(jù),這顯然是吃力不討好的活計(jì)。而你們需要的自行車事故數(shù)據(jù),來自紐約警署,并且是成百上千頁(yè)的PDF文件——要知道,光是復(fù)制粘貼這些數(shù)據(jù),可能就要花上一兩百個(gè)小時(shí)呢。
有一個(gè)叫做John Kraus的人,他沒有選擇復(fù)制粘貼,而是開發(fā)了一個(gè)“紐約警署數(shù)據(jù)解碼程序”,然后登陸紐約警署官網(wǎng),下載了這些人們需要的數(shù)據(jù),并進(jìn)行內(nèi)容抓取,將結(jié)果放在網(wǎng)上,人們才得以做出“紐約市最危險(xiǎn)十字路口”的地圖。
從我們獲取的數(shù)據(jù)來看,每次事故都是茫茫表格中的一列,很難想象:我們需要多少這樣的PDF才能完成這個(gè)地圖呢?我們能獲得這些數(shù)據(jù)的PDF當(dāng)然已經(jīng)很好了,畢竟我們有“數(shù)據(jù)解碼程序”,可是對(duì)于想要分析數(shù)據(jù)的市民來說,PDF格式遠(yuǎn)遠(yuǎn)不夠,甚至太浪費(fèi)時(shí)間。
我們的城市應(yīng)該在“數(shù)據(jù)易得”和“數(shù)據(jù)易讀”這兩方面更加努力才行呀。
值得肯定的是,最近幾個(gè)月,許多職能部門都公開了他們的數(shù)據(jù);但是有太多的數(shù)據(jù)還被禁錮在PDF格式里,觸不可及,比如犯罪數(shù)據(jù)、城市預(yù)算,只提供了PDF版本。試想一下,那些決定城市預(yù)算的立法者們,他們也無法對(duì)預(yù)算進(jìn)行詳細(xì)分析,那他們投票的意義是不是大打折扣了呢。
如此想來,我們的城市也許應(yīng)該在“數(shù)據(jù)易讀”上面做得更好。
當(dāng)然也有很多不是PDF格式的數(shù)據(jù),就比如我做的一個(gè)地圖,關(guān)于紐約最臟的30條水道。
聽起來雖然奇怪,但是我依據(jù)的是水中糞便大腸菌的含量。圖上圓圈越大,水質(zhì)越差,圈圈小的水比較干凈。這個(gè)數(shù)據(jù)來自過去五年里,對(duì)內(nèi)陸水道的水質(zhì)監(jiān)測(cè)數(shù)據(jù)。內(nèi)陸的水道的圓圈都比較大,普遍都比較臟。
從中,我們可以有所收獲的是:***,千萬不要在排入小溪或運(yùn)河的水域游泳,第二,通過這個(gè)方法,我得知紐約最臟的下水道在哪里。因?yàn)槲迥陙恚?4%的水質(zhì)樣本數(shù)據(jù)都顯示某地的下水道糞便大腸菌含量過高,觸犯了“讓人們無法游泳”的法律。
這些數(shù)據(jù)你可沒辦法在城市報(bào)告上看到,當(dāng)然也不會(huì)出現(xiàn)在城市官網(wǎng)的首頁(yè)上,盡管我們能達(dá)到這個(gè)原始數(shù)據(jù)就已經(jīng)值得高興了;由于這些數(shù)據(jù)還不是公布在開放數(shù)據(jù)門戶網(wǎng)站上,所以獲取這個(gè)原始數(shù)據(jù)也并不是那么簡(jiǎn)單。
要是你去開放數(shù)據(jù)門戶上面逛一逛,你就會(huì)發(fā)現(xiàn),我們能看到的是一連串的年份和月份;剛才那些數(shù)據(jù)是來自環(huán)保部門的網(wǎng)站,每個(gè)鏈接打開都是一個(gè)Excel表格,每個(gè)Excel表格又是如此不同,連標(biāo)題都不同。你只能復(fù)制、粘貼、重新排版……
當(dāng)然,依據(jù)這些數(shù)據(jù)作出“水質(zhì)地圖”是挺不錯(cuò)的。