數(shù)據(jù)可視化——“科學(xué)與藝術(shù)的結(jié)合”
數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺(jué)表現(xiàn)形式,在大數(shù)據(jù)領(lǐng)域中,素來(lái)有“科學(xué)與藝術(shù)的結(jié)合”的說(shuō)法。這種數(shù)據(jù)的視覺(jué)表現(xiàn)形式被定義為,一種以某種概要形式抽提出來(lái)的信息,包括相應(yīng)信息單位的各種屬性和變量。
事實(shí)上,數(shù)據(jù)可視化是一個(gè)處于不斷演變之中的概念,其邊界在不斷地?cái)U(kuò)大。這里的變化主要指的是技術(shù)上較為高級(jí)的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計(jì)算機(jī)視覺(jué)以及用戶(hù)界面,通過(guò)表達(dá)、建模以及對(duì)立體、表面、屬性以及動(dòng)畫(huà)的顯示,對(duì)數(shù)據(jù)加以可視化解釋。與立體建模之類(lèi)的特殊技術(shù)方法相比,數(shù)據(jù)可視化所涵蓋的技術(shù)方法要廣泛得多。
數(shù)據(jù)可視化源于統(tǒng)計(jì)學(xué),而且由來(lái)已久。
弗羅倫斯·南丁格爾(國(guó)際護(hù)士節(jié)是其生日),除了是人道主義具象化的護(hù)士界偶像,更是一名統(tǒng)計(jì)學(xué)家,其發(fā)明的“南丁格爾玫瑰圖”被推崇至今。
南丁格爾玫瑰圖
出于對(duì)資料統(tǒng)計(jì)的結(jié)果會(huì)不受人重視的憂(yōu)慮,她發(fā)展出一種色彩繽紛的圖表形式,讓數(shù)據(jù)能夠更加讓人印象深刻。 這種圖表形式有時(shí)也被稱(chēng)作「南丁格爾的玫瑰」,是一種圓形的直方圖。 南丁格爾自己常昵稱(chēng)這類(lèi)圖為雞冠花圖(coxcomb),并且用以表達(dá)軍醫(yī)院季節(jié)性的死亡率,對(duì)象是那些不太能理解傳統(tǒng)統(tǒng)計(jì)報(bào)表的公務(wù)人員。 她的方法打動(dòng)了當(dāng)時(shí)的高層,包括軍方人士和維多利亞女王本人,于是醫(yī)事改良的提案才得到支持。
南丁格爾在1859年南丁格爾被選為英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)的第一個(gè)女成員,她后來(lái)成為美國(guó)統(tǒng)計(jì)協(xié)會(huì)的名譽(yù)會(huì)員
今天就來(lái)講一講如何制作數(shù)據(jù)可視化報(bào)表。
數(shù)據(jù)可視化的魅力并不在于統(tǒng)計(jì),而是在于表現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。
數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。通常一個(gè)數(shù)據(jù)可視化的表格需要的數(shù)據(jù)有兩個(gè):
1:維度
2:度量(數(shù)字)
一個(gè)完整的圖表是必須同時(shí)有維度和度量?jī)蓚€(gè)指標(biāo)的。
對(duì)應(yīng)圖表中的指標(biāo)通常有四個(gè):
1:行
2:列
3:篩選邏輯(變量關(guān)系)
4:標(biāo)記(圖形表現(xiàn))
我們以天通苑地區(qū)海鮮餐館數(shù)據(jù)為例,在大數(shù)據(jù)魔鏡公開(kāi)的免費(fèi)版中制作了一張散點(diǎn)氣泡圖,旨在表現(xiàn)不同餐館在不同人均消費(fèi)和人氣間的分布關(guān)系。(此次數(shù)據(jù)為示例數(shù)據(jù),并無(wú)商業(yè)參考價(jià)值,圖表制作工具為大數(shù)據(jù)魔鏡)
其中人氣和人均是度量,地址是維度,以人氣和人均生成數(shù)軸,以地址為顏色篩選信息,就會(huì)以不同地址不同顏色的形式生成氣泡分布在各個(gè)人氣和人均的范圍內(nèi)。
以此類(lèi)推,我們將篩選的邏輯替換為大小,那么不同地址的信息就會(huì)以不同大小的形式展現(xiàn)。
如果著重表現(xiàn)對(duì)比情況,且表現(xiàn)數(shù)據(jù)不存在同屬關(guān)系(鐵桌子與木桌子同屬桌子),可以用更直觀的大線(xiàn)條大色塊圖表。比如條形圖:
我們將人均提交到列,地址提交到行,以人氣為顏色篩選基礎(chǔ),所生成的條形圖,除了表現(xiàn)在不同維度(地址)之下,各家餐館的人均水平,更以顏色區(qū)分出了人氣高低。這樣我們就可以先行從顏色區(qū)分出生意比較好的幾家餐館,參考其在市場(chǎng)中占據(jù)了哪些檔次的消費(fèi)。可以得出判斷在中低檔的市場(chǎng)中,這兩家對(duì)手取得了絕對(duì)優(yōu)勢(shì),如果再行入場(chǎng),未免過(guò)度競(jìng)爭(zhēng)壓力,可以?xún)?yōu)先考慮高端市場(chǎng),又因?yàn)楦叨耸袌?chǎng)體量不大,所以更適合精細(xì)化運(yùn)營(yíng)節(jié)省成本做小而美的路子。
類(lèi)似這樣能快速篩選出不同指標(biāo)的強(qiáng)勁維度所適合的圖表還有樹(shù)狀圖:
當(dāng)然在剛開(kāi)頭時(shí),我們就講,數(shù)據(jù)可視化的魅力,并不在于統(tǒng)計(jì),而是展示出數(shù)據(jù)之間的邏輯關(guān)系。
所以當(dāng)我們加入新維度,篩選出主要的對(duì)標(biāo)企業(yè)時(shí),并生成可折疊樹(shù)形圖時(shí),我們就可以看到目前主要的對(duì)標(biāo)企業(yè)都在干什么:
當(dāng)要參考的維度足夠多,而指標(biāo)趨于簡(jiǎn)單時(shí),和弦圖和顯然會(huì)更適合這樣的情況。
對(duì)于一個(gè)報(bào)表而言,其展現(xiàn)的邏輯關(guān)系是與其維度的數(shù)量息息相關(guān)的。當(dāng)維度足夠多,就需要更復(fù)雜的力布局圖形,一般這種圖表在各大公司都是收費(fèi)的,如下圖:
此外常見(jiàn)的數(shù)據(jù)可視化圖,還有地圖類(lèi)的圖表(地圖類(lèi)示例來(lái)自地圖慧)
除了色塊地圖,比較受歡迎的地圖類(lèi)圖表還有:
詞云圖現(xiàn)在也常被媒體拿出來(lái)總結(jié)輿情:
在乙方公司的收費(fèi)可視化產(chǎn)品里,還有很多分析更復(fù)雜維度的企業(yè)用視覺(jué)可視化圖表:
Gephi
birdeye
Better World Flux
目前,在研究、教學(xué)和開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)可視化乃是一個(gè)極為活躍而又關(guān)鍵的方面。“數(shù)據(jù)可視化”這條術(shù)語(yǔ)實(shí)現(xiàn)了成熟的科學(xué)可視化領(lǐng)域與較年輕的信息可視化領(lǐng)域的統(tǒng)一。
盡管看起來(lái)只是簡(jiǎn)單的表格,但實(shí)際上數(shù)據(jù)可視化包含了數(shù)據(jù)空間、數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)分析、數(shù)據(jù)可視化。
數(shù)據(jù)可視化已經(jīng)提出了許多方法,這些方法根據(jù)其可視化的原理不同可以劃分為基于幾何的技術(shù)、面向像素技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的技術(shù)、基于圖像的技術(shù)和分布式技術(shù)等等。
但數(shù)據(jù)可視化的要點(diǎn)從來(lái)沒(méi)有變過(guò),可視化的唯一目的就是為了溝通。然而,設(shè)計(jì)人員往往并不能很好地把握設(shè)計(jì)與功能之間的平衡,從而創(chuàng)造出華而不實(shí)的數(shù)據(jù)可視化形式,無(wú)法達(dá)到其主要目的。這就需要多動(dòng)動(dòng)腦筋了。