5個大數(shù)據(jù)處理/數(shù)據(jù)分析/分布式工具
1.Hadoop
Hadoop是一個開源框架,它允許在整個集群使用簡單編程模型計算機的分布式環(huán)境存儲并處理大數(shù)據(jù)。它的目的是從單一的服務(wù)器到上千臺機器的擴展,每一個臺機都可以提供本地計算和存儲。
2.Druid
Druid是實時數(shù)據(jù)分析存儲系統(tǒng),Java語言中***的數(shù)據(jù)庫連接池。Druid能夠提供強大的監(jiān)控和擴展功能。
Druid是一個分布式的、面向列的、實時的分析數(shù)據(jù)存儲庫,通常用于為多租戶環(huán)境中的探索性儀表板供電。
Druid作為一種數(shù)據(jù)倉庫解決方案,擅長于對petabyte大小的數(shù)據(jù)集進行快速聚合查詢。Druid支持各種靈活的過濾器、精確計算、近似算法和其他有用的計算。
Druid可以同時加載流數(shù)據(jù)和批處理數(shù)據(jù),并與Samza、Kafka、Storm、SPark和Hadoop集成。
3.Ambari
大數(shù)據(jù)平臺搭建、監(jiān)控利器;類似的還有CDH
Ambari能夠:
提供Hadoop集群
- Ambari為在任意數(shù)量的主機上安裝Hadoop服務(wù)提供了一個逐步向?qū)А?/li>
- Ambari處理集群Hadoop服務(wù)的配置。
管理Hadoop集群
- Ambari為整個集群提供啟動、停止和重新配置Hadoop服務(wù)的中央管理。
監(jiān)視Hadoop集群
- Ambari為監(jiān)視Hadoop集群的健康狀況和狀態(tài)提供了一個儀表板。
- 安巴里杠桿Ambari度量系統(tǒng)用于度量集合。
- 安巴里杠桿Ambari警報框架用于系統(tǒng)警報,并在需要注意時通知您(例如,節(jié)點下降,剩余磁盤空間較低等)。
4.Spark
一個快速通用的集群計算系統(tǒng).它在Java、Scala、Python和R中提供了高級API,并提供了支持通用執(zhí)行圖的優(yōu)化引擎。大規(guī)模數(shù)據(jù)處理框架(可以應(yīng)付企業(yè)中常見的三種數(shù)據(jù)處理場景:復(fù)雜的批量數(shù)據(jù)處理(batch data processing);基于歷史數(shù)據(jù)的交互式查詢;基于實時數(shù)據(jù)流的數(shù)據(jù)處理,Ceph:Linux分布式文件系統(tǒng)。
5.Storm
Storm是一個免費開源、分布式、高容錯的實時計算系統(tǒng)。Storm令持續(xù)不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經(jīng)常用于在實時分析、在線機器學(xué)習(xí)、持續(xù)計算、分布式遠(yuǎn)程調(diào)用和ETL等領(lǐng)域。Storm的部署管理非常簡單,而且,在同類的流式計算工具,Storm的性能也是非常出眾的。