本片博客介紹大數(shù)據(jù)相關(guān)的開源系統(tǒng)以及他們對(duì)應(yīng)的一句話簡(jiǎn)介, 對(duì)于各位想大概了解大數(shù)據(jù)都有哪些開源系統(tǒng)的同學(xué)有幫助。
本片博客介紹大數(shù)據(jù)相關(guān)的開源系統(tǒng)以及他們對(duì)應(yīng)的一句話簡(jiǎn)介, 對(duì)于各位想大概了解大數(shù)據(jù)都有哪些開源系統(tǒng)的同學(xué)有幫助。各種相關(guān)開源系統(tǒng)簡(jiǎn)介:

如下是Apache基金支持的開源軟件
- hdfs
跟GFS類似, 一個(gè)分布式文件系統(tǒng)。
- mapreduce
跟Google的MapReduce類似, 一個(gè)典型的簡(jiǎn)單的分布式計(jì)算框架。
- yarn
資源管理系統(tǒng), 跟Mesos類比。
- Avro
跟PB類似, 用于將數(shù)據(jù)結(jié)構(gòu)序列化成字節(jié)碼, 在不同的語言之間切換。
官方舉例是將C轉(zhuǎn)換給Pig。
- BigTop
一個(gè)給Hadoop打包和測(cè)試的軟件。其本來是cloudera公司自己給自己寫的一個(gè)方便OP部署和搭建環(huán)境的工具, 不過因?yàn)閷懙貌诲e(cuò), 已經(jīng)成為了Apache***項(xiàng)目。目前支持系列Hadoop生態(tài)鏈中的軟件: Zookeeper, Flume, HBase, Pig, Hive, Sqoop, Oozie, Whirr, Mahout, SolrCloud, Crunch, DataFu and Hue
- Chukwa
收集各種實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)(比如日志)并固化到HDFS上的事情。
- Drill
Google的Dremel的開源版本。PB以上數(shù)據(jù)實(shí)時(shí)秒級(jí)查詢。
- Flume
用來做數(shù)據(jù)遷移的工具。支持?jǐn)?shù)據(jù)包括Avro, files, 系統(tǒng)日志, 落地的系統(tǒng)包括HDFS, HBase。
- HBase
Google的BigTable的開源版本。寬列存儲(chǔ), 底層基于HDFS。
- HCatalog
為HDFS做的一個(gè)管理metadata的系統(tǒng)。基于Hive, 提供服務(wù)給MapReduce, Pig, 將來會(huì)支持HBase。
- Hive
支持HSQL, 將SQL轉(zhuǎn)換成MapReduce任務(wù)。
- Mahout
一個(gè)數(shù)據(jù)挖掘, 機(jī)器分析的算法庫。
- Oozie
用來管理Hadoop中的多輪任務(wù)的工具, 類似DAG管理工具。
- Tez
也是多個(gè)任務(wù)的DAG管理工具, 但是其做得更底層,直接替代了MR的調(diào)度程序,多個(gè)任務(wù)之間的數(shù)據(jù)傳遞不用再落地到hdfs上了。
- Pig
跟Hive類似, 提供比裸寫MR更友好的界面, 然后翻譯成MapReduce。只是Hive提供的是SQL, Pig提供的是更高級(jí)別的語言Pig-Latin, 供用戶做數(shù)據(jù)挖掘和分析。
- Sqoop
Sql-to-Hadoop。將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到Hadoop當(dāng)中。
- ZooKeeper
提供高可用的存儲(chǔ)服務(wù)。內(nèi)部采用paxos一致性協(xié)議。
- Whirr
用于將Hadoop放到各種IaaS里面去運(yùn)行的環(huán)境部署類項(xiàng)目。
- Crunch
用來管理Hadoop/Spark上面的Pipeline的軟件。應(yīng)該是比Pig/Hive更低一個(gè)級(jí)別的抽象, 提供數(shù)據(jù)的join/aggregation的Java API。
- DataFu
為Pig而準(zhǔn)備的系列數(shù)據(jù)挖掘算法軟件包。
- Hue
Hadoop的漂亮平臺(tái)化界面。
如下是非Apache組織的一些項(xiàng)目
- Spark
支持迭代式計(jì)算。將MapReduce的一輪一輪計(jì)算的概念轉(zhuǎn)換成同一批數(shù)據(jù)不停處理的概念, 并提供高級(jí)語言。
- Shark
Hive On Spark。即支持HSQL。
- Impala(Cloudera)
另一個(gè)Google的Dremel的開源版本, 界面跟Hive類似(事實(shí)上就是使用的Hive-SQL的子集), 只是不是翻譯成MapReduce而是直接查詢。
- Sentry(Cloudera)
在Hive/Impala之上獨(dú)立的一層專門做認(rèn)證授權(quán)的系統(tǒng)。
- SolrCloud
Solr+Hadoop, Big Data Search。