可視化告訴你,大數(shù)據(jù)究竟是什么?
在谷歌圖片搜索有關(guān)“大數(shù)據(jù)”,會(huì)出現(xiàn)很多個(gè)由三維“0”和“1”組成的圖片;有一些解釋性的信息圖表;甚至出現(xiàn)“黑客帝國(guó)”的界面。在人類能夠理解的范圍內(nèi),大數(shù)據(jù)究竟是什么樣子呢?
如果問一家大公司的***執(zhí)行官什么是“大數(shù)據(jù)”,他們可能會(huì)描述一些類似于黑匣子(飛機(jī)上的飛行記錄器)的東西,或者在白板上畫一朵云。如果問數(shù)據(jù)科學(xué)家,他們可能會(huì)向你解釋一下4v的概念,試圖使用信息圖表(其實(shí)只是事實(shí)的可視化集合),當(dāng)然還帶有相應(yīng)地說明。之所以不同人給出不同答案是因?yàn)?ldquo;大數(shù)據(jù)”是一個(gè)有著多種含義、象征,應(yīng)用于不同組織的模糊術(shù)語。
可 以理解的是,要想弄明白大數(shù)據(jù)是發(fā)源于哪、什么時(shí)候盛行是很難的。從最早開始有記錄直到2003年,人類共創(chuàng)造了5EB的數(shù)據(jù)(五十億千兆字節(jié))。到了 2011年,每?jī)商炀蜁?huì)產(chǎn)生這么多的數(shù)據(jù)。與前幾代數(shù)據(jù)相比,我們正真實(shí)現(xiàn)了飛躍式地發(fā)展。談到今天的大數(shù)據(jù),數(shù)據(jù)的呈現(xiàn)方式有助于傳遞信息,不過它需要 的不僅僅是漂亮和表面文章。它必須有效,展現(xiàn)多個(gè)維度,還要考慮實(shí)用性。
新的軟件和技術(shù)使得我們能夠更深入的理解和利用這些龐大的數(shù)據(jù)集。然而,我們要去真正收集和加工有價(jià)值的大數(shù)據(jù),唯一方法是要提高數(shù)據(jù)可視化的水平。 我們?cè)鯓舆M(jìn)行可行性分析、深入了解、全面可視化地表示信息呢? 答案是我們需要使數(shù)據(jù)更人性化。
新的可視化 新的挑戰(zhàn)
讓 大數(shù)據(jù)有意義,使之更貼近大多數(shù)人,最重要的手段之一就是數(shù)據(jù)可視化。數(shù)據(jù)可視化是尋路儀,從字面上理解,就如同街頭的路標(biāo)指引你到公路,從象征意義上理 解,其顏色、大小或抽象元素的位置都會(huì)傳達(dá)信息。在某種意義上,恰當(dāng)?shù)目梢暬瘶?biāo)識(shí)可以提供較短的路線,幫助指導(dǎo)決策,成為通過數(shù)據(jù)分析傳遞信息的一種重要工具。然而,要真正可行,數(shù)據(jù)可視化應(yīng)有適當(dāng)?shù)亟换バ?。它們必須設(shè)計(jì)良好、易于使用、易于理解、有意義、更容易被人接受。
Michal Migurski說:“數(shù)據(jù)可視化是一個(gè)相對(duì)的概念… …通常說它是即將出現(xiàn)在地平線上的新事物。”隨著技術(shù)的變化而改變,我們不斷地開發(fā)新的工具以利用它實(shí)現(xiàn)跨行業(yè)應(yīng)用。一些熟悉的可視化包括信息圖示、臭名遠(yuǎn)揚(yáng)的看板,當(dāng)然還有地圖。
現(xiàn) 今無所不在的信息圖示是解釋復(fù)雜問題的好方法。在此類別中,Visua.ly是一個(gè)很重要的資源。圖表通常是在精心制作的海報(bào)或演示文稿中來傳達(dá)意思,但 因它們往往是固定時(shí)間,當(dāng)需要提供實(shí)時(shí)信息就表現(xiàn)地不如人意了??窗?dashboard)或許是一個(gè)有用的工具,但它們往往設(shè)計(jì)的不好。同樣的圖表和圖 形重復(fù)地出現(xiàn)。
當(dāng)看板被望文生義地理解為類似車輛儀表盤和里程計(jì)時(shí)就更糟了。最致命的是當(dāng)想要通過看板傳達(dá)有關(guān)人的信息時(shí),他們往往不夠人 性化。***,地圖作為一個(gè)依賴于地理的重要的信息層,是我最喜歡的可視化之一。當(dāng)你可以依靠一個(gè)國(guó)家或省的地形等可識(shí)別的圖形處理數(shù)據(jù),地圖是很有用的, 但如果不是地理數(shù)據(jù)怎么辦?
想想谷歌地圖, 它可以說是現(xiàn)今世界上最全面和最成功的數(shù)據(jù)可視化集。它提供多種形式的廣泛的數(shù)據(jù)集,不斷更新而且相當(dāng)容易使用。其界面提供滿足個(gè)人需求和查詢數(shù)據(jù)的多個(gè) 視圖,可以跨設(shè)備使用。它還提供了一個(gè)強(qiáng)大的API,使其不再僅僅是個(gè)軟件,而成為一個(gè)平臺(tái)。它的 API能夠?qū)崿F(xiàn)從基礎(chǔ)地圖功能到呈現(xiàn)難以窮盡的地理信息。
看看Weldon Cooper Center服務(wù)大眾的 Racial Dot Map(基于谷歌API創(chuàng)建),使用顏色編碼描繪了在美國(guó)分布的種族多樣性(類似于在熱圖上看早晨的天氣報(bào)告)。你也可以放大一個(gè)特定區(qū)域或地區(qū)來獲取細(xì)節(jié)(每個(gè)人代表一個(gè)點(diǎn),按種族用顏色編碼)。
有了谷歌,如何顯示信息和組織信息成為了大家關(guān)心的問題。但這需要一個(gè)群落具有穩(wěn)健性(400多位谷歌員工在為地理信息產(chǎn)品服務(wù))。然而對(duì)于數(shù)據(jù)可視化來講,來源越少,風(fēng)險(xiǎn)越小。
數(shù)據(jù)光譜的另一端,可以看看紐約時(shí)報(bào)是怎樣用視覺效果為它的報(bào)道增光加彩的。例如,一篇關(guān)于NASA的開普勒任務(wù)的報(bào)道,記錄了超過190個(gè)被證實(shí)圍繞遙遠(yuǎn)恒星運(yùn)轉(zhuǎn)的行星,它們?cè)谛行擒壍郎线\(yùn)行的速度,到距離恒星的距離、恒星溫度和星系的大小都被加入了淺顯易懂的可視化效果。
另一個(gè)例子就是用圖形描繪絲綢之路,描述這著名的貿(mào)易路線的現(xiàn)代版本。彩色照片和精心編輯的視頻,按沿路線上的重要地點(diǎn)分組,傳達(dá)絲綢之路的內(nèi)涵,旁邊有信息圖表幫助從地理上理解這些照片和視頻。
通 過這些可視化成果,你也會(huì)開始認(rèn)識(shí)到一些限制,我們是否能夠呈現(xiàn)出所有可以想象到的數(shù)據(jù)(想象一下檢查19億而不是使190顆的系外行星),或者是否需要 從多個(gè)維度上理解數(shù)據(jù)。這些例子就像發(fā)展大數(shù)據(jù)可視化的路標(biāo)。我們從這些零散的示例到更大數(shù)據(jù)集的應(yīng)用中又可以學(xué)到什么?
大數(shù)據(jù)才剛剛開始 出現(xiàn),我們管理后端的方式也在不斷變化。我們要通過有意義的、交互性的方式,利用強(qiáng)大的工具來可視化數(shù)據(jù)。我們需要跨學(xué)科的團(tuán)隊(duì),而不是單個(gè)數(shù)據(jù)科學(xué)家、 設(shè)計(jì)師或數(shù)據(jù)分析員,我們需要重新思考我們所知道的數(shù)據(jù)可視化。圖表和圖形還只能在一個(gè)或兩個(gè)維度上傳遞信息,那么他們?cè)鯓硬拍芘c其他維度融合到一起深入 挖掘大數(shù)據(jù)呢?我們的大數(shù)據(jù)可視化(BDV)工具需要實(shí)現(xiàn)更多過功能和更新,而不僅僅是個(gè)軟件。
在此過程中,數(shù)據(jù)可以變得更具可塑性、可行 性,最終更加人性化。通過靈活的數(shù)據(jù)和可視化框架,我們希望能容納多種意見,使我們能夠利用數(shù)據(jù)適應(yīng)不斷變化的需求和查詢。接受大數(shù)據(jù)的模糊性,但要提供 并找到讓它和你聯(lián)系的更加緊密的工具。數(shù)據(jù)的可視化解釋會(huì)因你的目標(biāo)和對(duì)目標(biāo)的回應(yīng)的不同而不同。因此,雖然會(huì)存在視覺上的相似之處,但沒有兩個(gè)可視化結(jié) 果是相同的,就像世界上不可能有完全相同的兩片葉子。