自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)可視化的開源方案: Superset vs Redash vs Metabase (一)

大數(shù)據(jù) 數(shù)據(jù)可視化
今天給大家介紹三個(gè)比較知名的項(xiàng)目,分別是Superset, Redash和Metabase。前兩個(gè)我都在產(chǎn)生環(huán)境中實(shí)際使用過,在本文中會(huì)重點(diǎn)介紹。Metabase我只是試玩了一下,但我覺得這是一個(gè)非常有想法的項(xiàng)目,所以也會(huì)和大家聊聊我對(duì)它的看法。

人是視覺動(dòng)物,要用數(shù)據(jù)把一個(gè)故事講活,圖表是必不可少的。如果你經(jīng)??吹阶鰯?shù)據(jù)分析同事,在SQL客戶端里執(zhí)行完查詢,把結(jié)果復(fù)制/粘貼到Excel里再做成圖表,那說明你的公司缺少一個(gè)可靠的數(shù)據(jù)可視化平臺(tái)。數(shù)據(jù)可視化是Business Intelligence(簡(jiǎn)稱BI)中的核心功能,有許多成熟的商用解決方案,如老牌的Tableau, Qilk,新生代的Looker,國內(nèi)的FineBI等等。不過對(duì)于許多小公司來說,這些服務(wù)的License費(fèi)用是一筆不小的開銷,且有一種“殺雞用牛刀”的感覺。那在開源軟件如此發(fā)達(dá)的今天,在數(shù)據(jù)可視化方面,有什么靠譜的方案可以選擇呢?今天給大家介紹三個(gè)比較知名的項(xiàng)目,分別是Superset, Redash和Metabase。前兩個(gè)我都在產(chǎn)生環(huán)境中實(shí)際使用過,在本文中會(huì)重點(diǎn)介紹。Metabase我只是試玩了一下,但我覺得這是一個(gè)非常有想法的項(xiàng)目,所以也會(huì)和大家聊聊我對(duì)它的看法。

選擇一個(gè)稱手的工具,功能上能滿足我的需求肯定是首要的。就先從功能需求講起,我們的數(shù)據(jù)倉庫用的是Amazon Redshift(如果你沒聽過Redshift,就把它看作是為大數(shù)據(jù)優(yōu)化過的PostgreSQL),所以大部分的實(shí)際用例都是要將一個(gè)SQL查詢的結(jié)果可視化。我們所需的圖表類型也就是常用的那幾種,包括折線圖,柱形圖,餅圖等。有了圖表之后,接下去就是把相關(guān)的圖表排版,生成報(bào)表頁面(Dashboard)。從數(shù)據(jù)安全性角度,我不希望每個(gè)員工都能自由訪問所有的Dashboard,所以每個(gè)Dashboard需要設(shè)置不同的訪問級(jí)別。另外,我會(huì)看重它是否有REST API,能否通過API來創(chuàng)建與管理報(bào)表,這部分我們放在以后的文章中再講。

除了滿足功能性需求,易用性與文檔在評(píng)判一個(gè)工具時(shí)也是非常重要的。誰不想要一個(gè)簡(jiǎn)單好用,文檔清晰的產(chǎn)品呢?

下面我們就從功能性、易用性與文檔等方面,來看看這三個(gè)開源項(xiàng)目的實(shí)際表現(xiàn)吧

Superset

數(shù)據(jù)可視化的開源方案: Superset vs Redash vs Metabase (一)

Superset最初是由Airbnb的數(shù)據(jù)團(tuán)隊(duì)開源的,目前已進(jìn)入Apache Incubator,算是明***的開源項(xiàng)目。老實(shí)講,我也是被Airbnb與Apache兩塊金字招牌吸引才入了坑。目前公司絕大部分報(bào)表都在Superset上,大大小小有50個(gè)Dashboard,包含了近900個(gè)圖表。在使用Superset之前我們用的是Looker(很不錯(cuò)的商用BI工具,可惜太貴),一年半前把Looker上所有的Dashboard遷移到Superset上,整個(gè)過程也很順利。用了一年多,雖然在不少小地方有些不滿意,但總體來說Superset很好地滿足了公司現(xiàn)階段在數(shù)據(jù)可視化與業(yè)務(wù)報(bào)表方面的需求。

當(dāng)你把一個(gè)數(shù)據(jù)庫連接到Superset上以后,你定義你要用的每一張表。Superset里表的定義不但包括字段,還需要定義指標(biāo)(Metric)。指標(biāo)是對(duì)字段的某種統(tǒng)計(jì)結(jié)果,比如字段上值的求和、平均值、***值、最小值等。是不是有點(diǎn)糊涂了?但請(qǐng)回想一下,BI工具通常是用來做商業(yè)分析的。假想一個(gè)電商數(shù)據(jù)庫,雖然在數(shù)據(jù)表我們存儲(chǔ)每筆訂單的交易額,但在商業(yè)分析時(shí)上我們不關(guān)心單筆交易,我們關(guān)心的可能是一個(gè)時(shí)間段內(nèi)的總交額,或是平均交易額。當(dāng)你畫交易月報(bào)表時(shí),你不會(huì)把每筆交易畫在圖上,而是把每天的總交易額用一個(gè)柱形在圖上表示。這就是為什么Superset要引入“指標(biāo)”這個(gè)概念。

對(duì)于數(shù)據(jù)分析人員來說,由于在Superset上他們不是直接寫SQL,而是通過選擇指標(biāo)(Metric), 分組條件(Group)和過濾條件(Filter)來畫圖表,所以在構(gòu)建復(fù)雜查詢時(shí)可能會(huì)有些不適應(yīng)。另一個(gè)難題是Superset里的表不支持join,如果一個(gè)圖表里的數(shù)據(jù)要從多個(gè)數(shù)據(jù)表里取,那只能通過建視圖來實(shí)現(xiàn)。Superset在0.11版本之后加入SQL Lab功能,支持從SQL查詢結(jié)果直接生成圖表??上?,由于這個(gè)功能與Superset的核心設(shè)計(jì)格格不入,所以實(shí)現(xiàn)得比較差,沒什么實(shí)用價(jià)值。

客觀地講,Superset里引入自己的表與指標(biāo)的概念,在邏輯上是合理的,在統(tǒng)一各種異型的數(shù)據(jù)源時(shí)也是必要的。但實(shí)際操作中仍會(huì)讓人覺得有些麻煩,不夠直接了當(dāng)。

Superset在可視化方面做得很出色,不但是開源領(lǐng)域中的佼佼者,也把很多商用BI工具甩在身后。在0.20版本中支持的圖表類型已經(jīng)達(dá)到了36種,而且在選擇圖表類型時(shí),你可以看到每一種圖表的縮略圖,下面這張截圖大家可以感受一下

數(shù)據(jù)可視化的開源方案: Superset vs Redash vs Metabase (一)

Superset的另一個(gè)亮點(diǎn)是可以在多個(gè)時(shí)間維度上觀察,因?yàn)樯虡I(yè)分析中的很多問題都是與時(shí)間密切相關(guān)的。Superset有4種專門針對(duì)時(shí)間序列的圖表,使用這些圖表時(shí),你需要指定一個(gè)字段為時(shí)間維度,之后就可以對(duì)時(shí)間維度做豐富的操作

  • 從不同時(shí)間粒度去查看你關(guān)心的指標(biāo)(小時(shí)/日/周/月/季度/年)
  • 對(duì)時(shí)間序列做rolling average,比如看一個(gè)指標(biāo)的7日平均線
  • 可以對(duì)時(shí)間序列做偏移,再做對(duì)比,比如把本周的銷售業(yè)績(jī)與上周同期放在一張圖表中對(duì)比
  • 不在圖表上顯示指標(biāo)的絕對(duì)值,而是顯示它隨著時(shí)間變化的增長(zhǎng)速度
  • 以上這些都是在數(shù)據(jù)分析中非常實(shí)用的功能。

說完優(yōu)點(diǎn),再說說Superset的槽點(diǎn),***的槽點(diǎn)是當(dāng)圖表與報(bào)表多了以后,管理不方便。這個(gè)問題其實(shí)很好解決,只要在圖表和報(bào)表管理時(shí),加上分組或是文件夾的概念就可以了,但至今未見類似的功能?,F(xiàn)在公司900多個(gè)圖表都在一個(gè)大列表下,雖然Superset支持Search, Filter或是Favorite,但查找起來還是太麻煩。

Superset的文檔也比較糟糕,雖然在安裝與快速入門方面提供了很完整的文檔,但在具體功能的介紹方面文檔嚴(yán)重缺失。就算有些功能有文檔,文檔的結(jié)構(gòu)也很混亂,所以大部分功能只能自己去嘗試,好在這個(gè)工具本身并不難用,自己去摸索各個(gè)功能也不太困難。

Redash

數(shù)據(jù)可視化的開源方案: Superset vs Redash vs Metabase (一)

如果說Superset是構(gòu)建一個(gè)BI平臺(tái),那Redash目標(biāo)就是更純粹地做好數(shù)據(jù)查詢結(jié)果的可視化。Redash支持很多種數(shù)據(jù)源,除了最常用的SQL數(shù)據(jù)庫,也支持MongoDB, Elasticsearch, Google Spreadsheet甚至是一個(gè)JSON文件。Redash的官方文檔里列出了它所支持的所有數(shù)據(jù)源。

它不需要像Superset那樣在創(chuàng)建圖表前先定義表和指標(biāo),而是可以非常直觀地將一個(gè)SQL查詢的結(jié)果可視化,這使得它上手很簡(jiǎn)易?;蛘哒fRedash僅僅實(shí)現(xiàn)了Superset中SQL Lab的功能,但卻把這個(gè)功能做到了***。

Redash有兩個(gè)非常實(shí)用的功能,Query Snippet與Query Parameters。

Query Snippet很好地解決了查詢片段的復(fù)用問題。做數(shù)據(jù)報(bào)表時(shí)經(jīng)常要用到十分復(fù)雜的SQL語句,這些語句是肯定有一些片段是可以在多個(gè)Query中復(fù)用的。在Redash中我們可以將這些片段定義成Snippet,之后方便地復(fù)用。

Query Parameters可以為查詢添加可定制參數(shù),讓這個(gè)圖表變得更靈活。比如一個(gè)App的日活指標(biāo),我可能有時(shí)要按iOS/Android切分,有時(shí)要按地域切分,或是按新老用戶切分。在Superset的Dashboard上我要做三個(gè)表圖。Redash里我可以把Query的groupby做為一個(gè)參數(shù),這樣就可以在一張圖上搞定。用的時(shí)候,運(yùn)營人員可以圖表上方的一個(gè)下拉框里選擇切分的方式,非常直觀好用。

數(shù)據(jù)可視化的開源方案: Superset vs Redash vs Metabase (一)

Redash的Dashboard可以通過命名來進(jìn)行分組,Dashboard的名字可以有一個(gè)前綴并以冒號(hào)結(jié)尾,前綴相同的Dashboard就會(huì)自動(dòng)被分為一組。例如“Growth: Daily”,“Growth: Weekly”這兩個(gè)Dashboard都會(huì)被分到“Growth”組下。

相比Superset,Redash在文檔方面做得更好,除了快速入門教程以外,每一個(gè)功能模塊都有文檔且條理清晰。

當(dāng)然Redash也有自己的不足之處,它的可視化種類比Superset遜色不少(不過其實(shí)也夠用了)。另外,由于它只是純粹地把數(shù)據(jù)查詢結(jié)果可視化,所以也沒有Superset里那些對(duì)時(shí)間維度上的聚合與對(duì)比的操作。

Metabase

數(shù)據(jù)可視化的開源方案: Superset vs Redash vs Metabase (一)

由于我并沒有在生產(chǎn)環(huán)境下使用過Metabase,只在自己本本上試用過這個(gè)工具。所以我只能說一下對(duì)它的***印象。

剛開始用的就覺得這個(gè)工具的界面好漂亮,明顯是經(jīng)過UI設(shè)計(jì)師仔細(xì)調(diào)校過的。相對(duì)的,Superset與Redash一看就是程序員充當(dāng)設(shè)計(jì)師的產(chǎn)物。

用了一會(huì)兒之后,我覺得Metabase與Superset雖然都想要打造一個(gè)完整的BI平臺(tái),但在理念上是不同的。Metabase非常注重非技術(shù)人員(如產(chǎn)品經(jīng)理、市場(chǎng)運(yùn)營人員)在使用這個(gè)工具時(shí)的體驗(yàn),讓他們能自由地探索數(shù)據(jù),回答自己的問題。而在Superset或是Redash里,非技術(shù)人員基本上只能看預(yù)先建好的Dashboard,不懂SQL或是數(shù)據(jù)庫結(jié)構(gòu)的他們,很難自己去摸索。我非常喜歡Metabase的理念,它更接近一款成熟的商業(yè)化產(chǎn)品。當(dāng)然要把這個(gè)理念變?yōu)楝F(xiàn)實(shí)是很有挑戰(zhàn)的,目前我不知道在面臨復(fù)雜的真實(shí)業(yè)務(wù)環(huán)境中,Metabase是否有想像中那樣美好。

另外值得一提的是,Metabase的文檔也是三個(gè)項(xiàng)目中寫得***最完整的,內(nèi)容非常豐富。

將來若是有機(jī)會(huì),我很愿意更深入地去體驗(yàn)這個(gè)產(chǎn)品。

小結(jié)

本文簡(jiǎn)單地介紹了三個(gè)開源的數(shù)據(jù)可視化工具Superset, Redash和Metabase,三者各有所長(zhǎng),我覺得并不存在絕對(duì)的***者。對(duì)于剛剛開始搭建BI平臺(tái)的公司,我相信它們都可以滿足大部分報(bào)表與業(yè)務(wù)分析的需求。

雖然Superset是我們公司現(xiàn)在主要使用的可視化工具,但我問過自己“如果現(xiàn)在讓我重新選擇,我會(huì)使用哪個(gè)開源項(xiàng)目?”我的答案是Redash,而原因主要不是功能層面,而是技術(shù)層面。這里正好可以引出我們下篇要聊的內(nèi)容,從技術(shù)框架與源代碼層面來比較一下這三個(gè)項(xiàng)目,以及我選擇開源項(xiàng)目的一些通用原則,敬請(qǐng)期待!

責(zé)任編輯:未麗燕 來源: Glow 技術(shù)團(tuán)隊(duì)博客
相關(guān)推薦

2017-03-28 14:57:23

kylinsuperset可視化

2020-02-27 08:59:11

DebugCode開源工具

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2017-10-14 13:54:26

數(shù)據(jù)可視化數(shù)據(jù)信息可視化

2020-02-25 14:38:05

代碼開發(fā)工具

2017-06-19 08:30:35

大數(shù)據(jù)數(shù)據(jù)可視化報(bào)表

2022-06-20 09:45:48

Python開源可視化庫

2017-06-02 15:32:09

大數(shù)據(jù)數(shù)據(jù)可視化

2016-12-15 13:51:30

開源數(shù)據(jù)可視化

2017-02-23 09:42:53

大數(shù)據(jù)數(shù)據(jù)可視化技術(shù)誤區(qū)

2020-04-10 14:20:47

算法可視化Github

2020-09-07 12:42:18

表單可視化開源

2012-12-27 16:18:57

開源虛擬化

2023-04-14 08:21:55

2020-06-05 14:15:29

可視化數(shù)據(jù)集分析

2017-03-14 14:58:16

可視化互聯(lián)網(wǎng)專利

2025-02-25 11:14:39

2022-05-23 17:18:19

可視化數(shù)據(jù)

2015-08-20 10:00:45

可視化

2019-06-27 14:30:22

VSCodium開源VS Code
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)