如何成為數(shù)據(jù)分析師系列(二):可視化圖表進階
繼上一篇??如何成為數(shù)據(jù)分析師系列(一):可視化圖表初階??整理了折線圖、柱形圖、散點圖、餅圖4種基本圖表的特性及其使用場景,這次整理了一些平常不太使用,但在合適的場景的使用它們,往往能為你的分析報告加分不少的圖表。
需要說明的是,這次演示的圖表幾乎都是用Tableau制作的「因自身學習的原因」,不再是Excel制作的圖表。其中有部分圖,仍舊能用Excel制作,有部分已經(jīng)不適合使用Excel制作了。
樹狀圖(TreeMap)
功能&應用場景
主要功能用于可視化整體與部分關系,以區(qū)塊表示部分層級(不同區(qū)塊用顏色區(qū)分),用矩形面積表示大小關系。
缺點
以面積表示大小,當數(shù)值相近時人眼難以辨別,當然可通過填充數(shù)值彌補。
漏斗圖(FunnelPlot)
應用場景
適用于關鍵業(yè)務環(huán)節(jié)數(shù)據(jù)比較,將各環(huán)節(jié)串聯(lián)起來構成漏斗,量化流程內(nèi)環(huán)節(jié),追蹤各環(huán)節(jié)轉化率。轉化是漏斗圖主要表達信息。
- 電商類:訪問 -> 注冊 -> 購物車 -> 下單 -> 付款;
- 營銷推廣:展現(xiàn) -> 點擊 -> 訪問 -> 咨詢 -> 下單 -> 付款;
- CRM:潛在客戶階段 -> 意向客戶階段 -> 談判階段 -> 成交簽約。
以上只是常見漏斗,實際各種業(yè)務流程都可構建漏斗。
缺點
漏斗圖在實際分析中并不常見,但在PPT中用作信息描述卻明顯優(yōu)于干巴巴的數(shù)字
- 追蹤流程較困難,而企業(yè)是結果導向的,我們更在意整個流程的轉化率,有時不會深究細節(jié);
- 有時候我們更關心某環(huán)節(jié)轉化率在時間維度上的變化。
漏斗圖 vs 行為路徑分析
漏斗圖要區(qū)分于行為分析路徑圖,行為分析路往往是你對用戶的訪問路徑未知,而漏斗圖則是基于已知關鍵流程構建。
樣式變種:將面積形式變種為柱形圖樣式,顯得更加清晰
雷達圖(RadarChart)
應用場景
雷達圖主要用于靜態(tài)的多維對比,它直觀地呈現(xiàn)幾個觀察對象在多個指標上對比情況。
缺點
能表達的靜態(tài)數(shù)據(jù)信息有限,線條不宜超過5條,指標不宜超過8個。
注意事項
雷達圖中的指標必須是正向且可以比較的,也就是指標代表越好,且當指標差異較大時,需要進行標準化,消除單位影響。
- 指標必須是相同表征含義:如都是越大代表越好,或越小代表越好;
- 雷達圖的數(shù)據(jù)必須進行標準化;
- 雷達圖是靜態(tài)數(shù)據(jù)很量,不可能有時間維度。
制作過程
數(shù)據(jù)如圖
- 數(shù)據(jù)源-***個指標要重復一列,作為環(huán)形的起點和終點;
- 在Tableau中要進行透視表操作;
- 生成路徑: CASE [數(shù)據(jù)透視表字段名稱]
WHEN '認證兩分鐘回復率' then 1
WHEN '認證數(shù)' then 2
WHEN '消息兩分鐘內(nèi)回復率' then 3
WHEN '消息回復率' then 4
WHEN '回復消息數(shù)' then 5
WHEN '質(zhì)檢得分' then 6
ELSE 7
END
- 生成弧度:IF [路徑]=7 THEN pi()/2 ELSE PI()/2 - ([路徑]-1)*2*PI()/6 END
- 生成X = [數(shù)據(jù)透視表字段值]*COS([弧度])、Y = [數(shù)據(jù)透視表字段值]*SIN([弧度])
箱線圖/盒須圖(Box plot)
箱線圖是利用五個統(tǒng)計量:最小值、第1分位數(shù)、第2分位數(shù)、第3分位數(shù)、***值 來描述數(shù)據(jù)的圖形。
應用場景
主要用于觀察數(shù)據(jù)分布:觀察分布&異常值&偏態(tài)等
- 箱線圖可直觀明了地觀察數(shù)據(jù)的分布情況,對不同數(shù)據(jù)批的數(shù)據(jù)分布進行對比;
- 箱線圖可直觀明了地識別數(shù)據(jù)批中的異常值;
- 箱線圖可初步判斷數(shù)據(jù)批中的偏態(tài)和尾重; 異常值出現(xiàn)于一側的概率越大,中位數(shù)也越偏離上下四分位數(shù)的中心位置; 異常值集中在較小值一側,則分布呈現(xiàn)左偏態(tài);異常值集中在較大值一側,則分布呈現(xiàn)右偏態(tài)。
圖形元素說明
矩盒兩端的位置分別對應數(shù)據(jù)的Q1、Q3分位數(shù),矩形盒內(nèi)部繪制一中位數(shù)線
- 內(nèi)限=Q1-1.5*IQR、=Q3+1.5*IQR IQR(四分位矩)=Q3-Q1,它反映了中間50%數(shù)據(jù)的離散程度(數(shù)值越小,中間50%數(shù)據(jù)越集中)
- 外限=Q1-3*IQR、=Q3+3*IQR 內(nèi)限以外位置都是異常值,其中在內(nèi)限與外限之間的為溫和異常值(Mild outliers),外限以外的稱為極端異常值(extreme outliers)。
應用舉例
甘特圖(Gantt chart)
應用場景:項目管理
甘特圖對于說明項目各元素的起始與終止日期效果非常好,清楚看到需要完成的內(nèi)容和截止時間對于項目的成功非常關鍵。 多數(shù)情況下,我們把甘特圖和項目管理聯(lián)系到一起,不過它其實還可以用來表現(xiàn)隨時間推移事物的變化(人員、機器、訂單等)。
- 顯示項目進度。例如:說明關鍵可交付成果、所有者、截止期限。
- 顯示隨時間推移的其他事物使用事項。例如:機器使用的持續(xù)時間、團隊成員有空與否,訂單發(fā)貨時間等。
?;鶊D(Sankey diagram)
?;鶊D,即桑基能量分流圖,也叫桑基能量平衡圖。
起源
- 1898年Matthew Henry Phineas Riall Sankey繪制的“蒸汽機的能源效率圖”而聞名世界,此后便以其名字命名為“桑基圖”。
應用場景
- 展示分類維度間的相關性,以流的形式呈現(xiàn)同一類別的元素數(shù)量;
- 表示集群的發(fā)展,比如特定人群的分布,如:杏仁活躍醫(yī)生在一段時間的活躍狀態(tài)變遷;
- 具有流程圖的性質(zhì),表示能量/物質(zhì)流轉。
核心特征
最明顯的特征是始末端的分支寬度總各相等,即所有主支寬度的總和應與所有分出去的分支寬度的總和相等,保持能量的平衡。
圖形制作
- 1.S型曲線-sigmoid Fuction
該函數(shù)圖像的特點有: 1. 連續(xù),光滑,嚴格單調(diào); 2. 關于(0, 0.5)中心對稱; 3. 值域為(0,1).
1. 簡單桑基圖 數(shù)據(jù)格式如下。左為Data,右為模型Model,要求制作?;鶊D表示用戶ID從position 1變化為position 2的路徑。
- a. 連接Excel文件,將Data與Model均拖入數(shù)據(jù),并由Link進行inner join連接;
- b. 創(chuàng)建計算字段Sigmoid Function代表S曲線函數(shù):1/(1+EXP(1)-[t]);
- c. 創(chuàng)建計算字段Curve代表曲線:[Position 1]+(([Position 2]-[Position 1])*[Sigmoid Function]);
- d. 將t拖拽至[列],Curve拖拽至[行],并調(diào)整為連續(xù)的維度; e. 將Name、ID拖到詳細信息,Name拖拽到顏色;
- f. 選擇標記類型為 線,一個簡單的桑基圖就完成了,示例可參見Tableau文件。
難點理解:曲線是如何生成的!
每一個用戶有position 1、position 2,以ID=1的用戶為例:
position 1=1
position 2= 100
[Position 2]-[Position 1]=99
([Position 2]-[Position 1])*[Sigmoid Function]
將上式記作A,根據(jù)S曲線特性,當t->負無窮時,函數(shù)s->0,A->0;因s函數(shù)嚴格單調(diào),當t增大時,s增大;當t->正無窮時,s->1,A->([Position 2]-[Position 1])。所以curve=[Position 1]+(([Position 2]-[Position 1])*[Sigmoid Function])可生成一條S曲線.
難點是設置position,讓每個類別的點靠近。不僅是大類別要靠近,細分類別也要靠近
詞云
應用場景
詞云圖是為了描述事物的主要特征,要求能夠讓人一眼看出一個事物的主要特征,越明顯的特征越要突出顯示。不要為了詞云而詞云,要關注制作詞云要表達什么信息(包括數(shù)據(jù)的關系是什么)
- 內(nèi)容型網(wǎng)站對內(nèi)容關鍵詞提取制作詞云作為網(wǎng)站導航;
- 人物肖像刻畫、事物肖像刻畫、小說核心主題刻畫,總之對于各種事物進行某種主題的刻畫,可以選用詞云,如果是表現(xiàn)層次化關系,則不建議使用詞云。(下圖就不是詞云最合適的運用場景)
主要特征
詞云是可視化中較為藝術化的圖表。 Word直接展示對象,Word字體大小表示某種度度量。
以上就是圖表類型的介紹了。其實圖表類型還有很多很多,如基于鼠標點擊的熱力圖、基于網(wǎng)絡傳播的關系圖等等,但它們都不再適合用Excel或Tableau制作,需要用R/Python進行繪圖,暫時用不上,故沒有再往下寫的必要。
此外,圖表制作還有很多主意事項,比如:背景色的使用
黑色背景給人以震撼,但它的情感色調(diào)是鄭重、悲傷、緊張 白色背景比較單調(diào),但它的情感色調(diào)是以輕松
具體的圖表如何使用,它是非常靈活的,見仁見智。這些基礎理論只是將圖形的特征介紹清楚,具體如何用仍需要結合業(yè)務場景、分析目標等。