如何利用Tableau對Amazon Redshift數(shù)據(jù)進(jìn)行可視化
譯文【51CTO.com快譯】作為數(shù)據(jù)分析師,相信大家對于Tableau與AWS Redshift不會陌生。而且很明顯,將Reshift列式數(shù)據(jù)庫的成熟度與速度優(yōu)勢與Tableau的功能豐富性與交互能力相結(jié)合,會帶來極為出色的實(shí)際體驗(yàn)。
在今天的文章中,我們將共同了解二者的整合過程,而最終目標(biāo)則是建立展示頁面以查看訪問者數(shù)量對性能造成的影響。
備注:在本文中,我們使用Tableau桌面版10.0,大家可以免費(fèi)進(jìn)行下載。下載并安裝完成后,大家可以通過下文內(nèi)容將其接入Redshift。當(dāng)然,您需要確保擁有自己的Redshift信息(包括主機(jī)名稱、數(shù)據(jù)庫名稱、用戶名及密碼)。
連接
在Tableau桌面版的啟動頁中,于Coonect下選擇Amazon Redshift選項。
輸入您的Redshift信息,而后點(diǎn)擊Sign In。
在上圖所示的數(shù)據(jù)源頁面執(zhí)行以下操作:
點(diǎn)擊頁面頂部的數(shù)據(jù)源名稱,而后輸入Tableau所將使用的惟一數(shù)據(jù)源名稱。***按照數(shù)據(jù)源命名約定選擇名稱,以幫助其他用戶了解Tableau當(dāng)前接入了哪個數(shù)據(jù)源。
在Schema下拉菜單中選擇schema,或者使用搜索schema名稱后出現(xiàn)的文本框亦可。
在Table下選擇table,或者使用搜索table名稱后出現(xiàn)的文本框亦可。
將該表拖入操作區(qū),而后點(diǎn)擊sheet tab以開始分析。
現(xiàn)在Tableau已經(jīng)接入我們的Redshift數(shù)據(jù)庫,接下來開始對數(shù)據(jù)進(jìn)行可視化。
可視化
在Tableau桌面版的菜單欄中選擇Data,而后在彈出菜單下方的數(shù)據(jù)源列表中選擇一個table。在本示例中,我們希望基于clientid表創(chuàng)建報告與圖表(如下圖)。
接下來,在該菜單欄中選擇Dashboard > New Dashboard。
當(dāng)前顯示的圖像會返回Timestamp、PagePath以及Clientid進(jìn)行的頁面訪問數(shù)字:
如上一階段所示,到這里我們已經(jīng)可以嘗試?yán)肨ableau的簡單UI與過濾器根據(jù)實(shí)際業(yè)務(wù)需求進(jìn)行數(shù)據(jù)可視化了:
在menu欄中選擇Worksheet > New worksheet。
接下來在menu欄中選擇Data > Users。
在左側(cè)的Dimensions and Measures部分,大家可以選擇相關(guān)列與行進(jìn)行工作表調(diào)整。
舉例來說,以下截屏按日期顯示出哪些頁面曾被查看及具體查看次數(shù)。
另外,如果大家希望查看某一特定Clientid(通用版本尚不支持現(xiàn)成的此信息查看),則可為其創(chuàng)建類似的圖像:
特定clientid截至目前的特定頁面訪問次數(shù)
或者,大家也可以對數(shù)據(jù)排列進(jìn)行簡單更改,從而為同一示例創(chuàng)建不同的可視化方式:
由特定clientid按timestamp對特定頁面進(jìn)行的訪問次數(shù)
如大家所見,利用Tableau桌面版能夠輕松完成Redshift數(shù)據(jù)的可視化處理。
高級用例:使用Panoply
雖然Tableau與Redshift能夠很好地實(shí)現(xiàn)整合,但由于期間需要配合大量準(zhǔn)備步驟,因此相關(guān)工作可能繁瑣、冗長且難以維護(hù)。在高級用例當(dāng)中,數(shù)據(jù)庫通常會保存大量表,且需要連續(xù)處理以實(shí)現(xiàn)可視化。
正因?yàn)槿绱?,我們?yīng)當(dāng)利用Panoply.io解決相關(guān)難題:
Panoply.io可視化插件
Panoply.io提供一套數(shù)據(jù)倉庫解決方案,可實(shí)現(xiàn)從數(shù)據(jù)源提取到加載再到轉(zhuǎn)換的整個流程。除了能夠直接與Tableau相集成外,Panoply服務(wù)還可與Chart.io、Looker及PowerBI等外部商業(yè)智能工具進(jìn)行對接。
這套自動化數(shù)據(jù)管理解決方案利用Redshift基礎(chǔ)設(shè)施并通過消除日常管理流程對其進(jìn)行增強(qiáng),這種強(qiáng)化能力同時涵蓋底層基礎(chǔ)設(shè)施與數(shù)據(jù)庫層。大家可以將Panoply視為一款自動化數(shù)據(jù)工程機(jī)器人,用以處理大部分?jǐn)?shù)據(jù)工程技術(shù)任務(wù)及數(shù)據(jù)庫管理操作。
原文標(biāo)題:How to Visualize Your Amazon Redshift Data Using Tableau,原文作者:Alon Brody
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】