自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="fsnx6"><samp id="fsnx6"></samp></ruby>

<legend id="fsnx6"><track id="fsnx6"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

后Hadoop時代的大數(shù)據(jù)架構(gòu)

2015-04-24 11:20:15

大數(shù)據(jù) Hadoop

提到大數(shù)據(jù)分析平臺，不得不說Hadoop系統(tǒng)，Hadoop到現(xiàn)在也超過10年的歷史了，很多東西發(fā)生了變化，版本也從0.x 進(jìn)化到目前的2.6版本。我把2012年后定義成后Hadoop平臺時代，這不是說不用Hadoop，而是像NoSQL （Not Only SQL）那樣，有其他的選型補(bǔ)充。我在知乎上也寫過Hadoop的一些入門文章如何學(xué)習(xí)Hadoop – 董飛的回答，為了給大家有個鋪墊，簡單講一些相關(guān)開源組件。

背景篇

Hadoop: 開源的數(shù)據(jù)分析平臺，解決了大數(shù)據(jù)（大到一臺計(jì)算機(jī)無法進(jìn)行存儲，一臺計(jì)算機(jī)無法在要求的時間內(nèi)進(jìn)行處理）的可靠存儲和處理。適合處理非結(jié)構(gòu)化數(shù)據(jù)，包括HDFS，MapReduce基本組件。
HDFS：提供了一種跨服務(wù)器的彈性數(shù)據(jù)存儲系統(tǒng)。
MapReduce：技術(shù)提供了感知數(shù)據(jù)位置的標(biāo)準(zhǔn)化處理流程：讀取數(shù)據(jù)，對數(shù)據(jù)進(jìn)行映射（Map），使用某個鍵值對數(shù)據(jù)進(jìn)行重排，然后對數(shù)據(jù)進(jìn)行化簡（Reduce）得到最終的輸出。
Amazon Elastic Map Reduce(EMR)：托管的解決方案，運(yùn)行在由Amazon Elastic Compute Cloud（EC2）和Simple Strorage Service（S3）組成的網(wǎng)絡(luò)規(guī)模的基礎(chǔ)設(shè)施之上。如果你需要一次性的或不常見的大數(shù)據(jù)處理，EMR可能會為你節(jié)省開支。但EMR是高度優(yōu)化成與S3 中的數(shù)據(jù)一起工作，會有較高的延時。
Hadoop 還包含了一系列技術(shù)的擴(kuò)展系統(tǒng)，這些技術(shù)主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。

Pig：分析大數(shù)據(jù)集的一個平臺，該平臺由一種表達(dá)數(shù)據(jù)分析程序的高級語言和對這些程序進(jìn)行評估的基礎(chǔ)設(shè)施一起組成。
Hive：用于Hadoop的一個數(shù)據(jù)倉庫系統(tǒng)，它提供了類似于SQL的查詢語言，通過使用該語言，可以方便地進(jìn)行數(shù)據(jù)匯總，特定查詢以及分析。
Hbase：一種分布的、可伸縮的、大數(shù)據(jù)儲存庫，支持隨機(jī)、實(shí)時讀/寫訪問。
Sqoop：為高效傳輸批量數(shù)據(jù)而設(shè)計(jì)的一種工具，其用于Apache Hadoop和結(jié)構(gòu)化數(shù)據(jù)儲存庫如關(guān)系數(shù)據(jù)庫之間的數(shù)據(jù)傳輸。
Flume：一種分布式的、可靠的、可用的服務(wù)，其用于高效地搜集、匯總、移動大量日志數(shù)據(jù)。
ZooKeeper：一種集中服務(wù)，其用于維護(hù)配置信息，命名，提供分布式同步，以及提供分組服務(wù)。

Cloudera：最成型的Hadoop發(fā)行版本，擁有最多的部署案例。提供強(qiáng)大的部署、管理和監(jiān)控工具。開發(fā)并貢獻(xiàn)了可實(shí)時處理大數(shù)據(jù)的Impala項(xiàng)目。
Hortonworks：使用了100%開源Apache Hadoop提供商。開發(fā)了很多增強(qiáng)特性并提交至核心主干，這使得Hadoop能夠在包括Windows Server和Azure在內(nèi)平臺上本地運(yùn)行。
MapR：獲取更好的性能和易用性而支持本地Unix文件系統(tǒng)而不是HDFS。提供諸如快照、鏡像或有狀態(tài)的故障恢復(fù)等高可用性特性。領(lǐng)導(dǎo)著Apache Drill項(xiàng)目，是Google的Dremel的開源實(shí)現(xiàn)，目的是執(zhí)行類似SQL的查詢以提供實(shí)時處理。

#p#

原理篇

數(shù)據(jù)存儲

我們的目標(biāo)是做一個可靠的，支持大規(guī)模擴(kuò)展和容易維護(hù)的系統(tǒng)。計(jì)算機(jī)里面有個locality（局部性定律），如圖所示。從下到上訪問速度越來越快，但存儲代價更大。

相對內(nèi)存，磁盤和SSD就需要考慮數(shù)據(jù)的擺放，因?yàn)樾阅軙町惡艽?。磁盤好處是持久化，單位成本便宜，容易備份。但隨著內(nèi)存便宜，很多數(shù)據(jù)集合可以考慮直接放入內(nèi)存并分布到各機(jī)器上，有些基于 key-value, Memcached用在緩存上。內(nèi)存的持久化可以通過 (帶電池的RAM)，提前寫入日志再定期做Snapshot或者在其他機(jī)器內(nèi)存中復(fù)制。當(dāng)重啟時需要從磁盤或網(wǎng)絡(luò)載入之前狀態(tài)。其實(shí)寫入磁盤就用在追加日志上面，讀的話就直接從內(nèi)存。像VoltDB, MemSQL，RAMCloud 關(guān)系型又基于內(nèi)存數(shù)據(jù)庫，可以提供高性能，解決之前磁盤管理的麻煩。

HyperLogLog & Bloom Filter & CountMin Sketch

都是是應(yīng)用于大數(shù)據(jù)的算法，大致思路是用一組相互獨(dú)立的哈希函數(shù)依次處理輸入。HyperLogLog 用來計(jì)算一個很大集合的基數(shù)（即合理總共有多少不相同的元素），對哈希值分塊計(jì)數(shù)：對高位統(tǒng)計(jì)有多少連續(xù)的0；用低位的值當(dāng)做數(shù)據(jù)塊。 BloomFilter,在預(yù)處理階段對輸入算出所有哈希函數(shù)的值并做出標(biāo)記。當(dāng)查找一個特定的輸入是否出現(xiàn)過，只需查找這一系列的哈希函數(shù)對應(yīng)值上有沒有標(biāo)記。對于BloomFilter，可能有False Positive，但不可能有False Negative。BloomFilter可看做查找一個數(shù)據(jù)有或者沒有的數(shù)據(jù)結(jié)構(gòu)（數(shù)據(jù)的頻率是否大于1）。CountMin Sketch在BloomFilter的基礎(chǔ)上更進(jìn)一步，它可用來估算某一個輸入的頻率（不局限于大于1）。

CAP Theorem

簡單說是三個特性：一致性，可用性和網(wǎng)絡(luò)分區(qū)，最多只能取其二。設(shè)計(jì)不同類型系統(tǒng)要多去權(quán)衡。分布式系統(tǒng)還有很多算法和高深理論，比如：Paxos算法（paxos分布式一致性算法–講述諸葛亮的反穿越），Gossip協(xié)議（Cassandra學(xué)習(xí)筆記之Gossip協(xié)議），Quorum (分布式系統(tǒng))，時間邏輯，向量時鐘（一致性算法之四: 時間戳和向量圖），拜占庭將軍問題，二階段提交等，需要耐心研究。

#p#

技術(shù)篇

來自：http://thinkbig.teradata.com/leading_big_data_technologies/big-data-reference-architecture/

根據(jù)不同的延遲要求（SLA），數(shù)據(jù)量存儲大小，更新量多少，分析需求，大數(shù)據(jù)處理的架構(gòu)也需要做靈活的設(shè)計(jì)。上圖就描述了在不同領(lǐng)域中大數(shù)據(jù)組件。

說大數(shù)據(jù)的技術(shù)還是要先提Google，Google 新三輛馬車，Spanner, F1, Dremel

Spanner：高可擴(kuò)展、多版本、全球分布式外加同步復(fù)制特性的谷歌內(nèi)部數(shù)據(jù)庫，支持外部一致性的分布式事務(wù);設(shè)計(jì)目標(biāo)是橫跨全球上百個數(shù)據(jù)中心,覆蓋百萬臺服務(wù)器,包含萬億條行記錄！(Google就是這么霸氣^-^)

F1: 構(gòu)建于Spanner之上,在利用Spanner的豐富特性基礎(chǔ)之上,還提供分布式SQL、事務(wù)一致性的二級索引等功能,在AdWords廣告業(yè)務(wù)上成功代替了之前老舊的手工MySQL Shard方案。

Dremel: 一種用來分析信息的方法，它可以在數(shù)以千計(jì)的服務(wù)器上運(yùn)行，類似使用SQL語言，能以極快的速度處理網(wǎng)絡(luò)規(guī)模的海量數(shù)據(jù)(PB數(shù)量級)，只需幾秒鐘時間就能完成。

Spark

2014年最火的大數(shù)據(jù)技術(shù)Spark，有什么關(guān)于 Spark 的書推薦？ – 董飛的回答做了介紹。主要意圖是基于內(nèi)存計(jì)算做更快的數(shù)據(jù)分析。同時支持圖計(jì)算，流式計(jì)算和批處理。Berkeley AMP Lab的核心成員出來成立公司Databricks開發(fā)Cloud產(chǎn)品。

Flink

使用了一種類似于SQL數(shù)據(jù)庫查詢優(yōu)化的方法，這也是它與當(dāng)前版本的Apache Spark的主要區(qū)別。它可以將全局優(yōu)化方案應(yīng)用于某個查詢之上以獲得更佳的性能。

Kafka

Announcing the Confluent Platform 1.0 Kafka 描述為 LinkedIn 的“中樞神經(jīng)系統(tǒng)”，管理從各個應(yīng)用程序匯聚到此的信息流，這些數(shù)據(jù)經(jīng)過處理后再被分發(fā)到各處。不同于傳統(tǒng)的企業(yè)信息列隊(duì)系統(tǒng)，Kafka 是以近乎實(shí)時的方式處理流經(jīng)一個公司的所有數(shù)據(jù)，目前已經(jīng)為 LinkedIn, Netflix, Uber 和 Verizon 建立了實(shí)時信息處理平臺。Kafka 的優(yōu)勢就在于近乎實(shí)時性。

Storm

Handle Five Billion Sessions a Day in Real Time，Twitter的實(shí)時計(jì)算框架。所謂流處理框架，就是一種分布式、高容錯的實(shí)時計(jì)算系統(tǒng)。Storm令持續(xù)不斷的流計(jì)算變得容易。經(jīng)常用于在實(shí)時分析、在線機(jī)器學(xué)習(xí)、持續(xù)計(jì)算、分布式遠(yuǎn)程調(diào)用和ETL等領(lǐng)域。

Samza

LinkedIn主推的流式計(jì)算框架。與其他類似的Spark，Storm做了幾個比較。跟Kafka集成良好，作為主要的存儲節(jié)點(diǎn)和中介。

Lambda architecture

Nathan寫了文章《如何去打敗CAP理論》How to beat the CAP theorem，提出Lambda Architecture，主要思想是對一些延遲高但數(shù)據(jù)量大的還是采用批處理架構(gòu)，但對于即時性實(shí)時數(shù)據(jù)使用流式處理框架，然后在之上搭建一個服務(wù)層去合并兩邊的數(shù)據(jù)流，這種系統(tǒng)能夠平衡實(shí)時的高效和批處理的Scale，看了覺得腦洞大開，確實(shí)很有效，被很多公司采用在生產(chǎn)系統(tǒng)中。

Summingbird

Lambda架構(gòu)的問題要維護(hù)兩套系統(tǒng)，Twitter開發(fā)了Summingbird來做到一次編程，多處運(yùn)行。將批處理和流處理無縫連接，通過整合批處理與流處理來減少它們之間的轉(zhuǎn)換開銷。下圖就解釋了系統(tǒng)運(yùn)行時。

NoSQL

數(shù)據(jù)傳統(tǒng)上是用樹形結(jié)構(gòu)存儲（層次結(jié)構(gòu)），但很難表示多對多的關(guān)系，關(guān)系型數(shù)據(jù)庫就是解決這個難題，最近幾年發(fā)現(xiàn)關(guān)系型數(shù)據(jù)庫也不靈了，新型 NoSQL出現(xiàn) 如Cassandra，MongoDB，Couchbase。NoSQL 里面也分成這幾類，文檔型，圖運(yùn)算型，列存儲，key-value型，不同系統(tǒng)解決不同問題。沒一個one-size-fits-all 的方案。

Cassandra

大數(shù)據(jù)架構(gòu)中，Cassandra的主要作用就是存儲結(jié)構(gòu)化數(shù)據(jù)。DataStax的Cassandra是一種面向列的數(shù)據(jù)庫，它通過分布式架構(gòu)提供高可用性及耐用性的服務(wù)。它實(shí)現(xiàn)了超大規(guī)模的集群，并提供一種稱作“最終一致性”的一致性類型，這意味著在任何時刻，在不同服務(wù)器中的相同數(shù)據(jù)庫條目可以有不同的值。

SQL on Hadoop

開源社區(qū)業(yè)出現(xiàn)了很多 SQL-on-Hadoop的項(xiàng)目，著眼跟一些商業(yè)的數(shù)據(jù)倉庫系統(tǒng)競爭。包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook Presto, Apache Tajo，Apache Drill。有些是基于Google Dremel設(shè)計(jì)。

Impala

Cloudera公司主導(dǎo)開發(fā)的新型查詢系統(tǒng)，它提供SQL語義，能夠查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)，號稱比Hive快5-10倍，但最近被Spark的風(fēng)頭給罩住了，大家還是更傾向于后者。

Drill

Apache社區(qū)類似于Dremel的開源版本—Drill。一個專為互動分析大型數(shù)據(jù)集的分布式系統(tǒng)。

在大數(shù)據(jù)集之上做實(shí)時統(tǒng)計(jì)分析而設(shè)計(jì)的開源數(shù)據(jù)存儲。這個系統(tǒng)集合了一個面向列存儲的層，一個分布式、shared-nothing的架構(gòu)，和一個高級的索引結(jié)構(gòu)，來達(dá)成在秒級以內(nèi)對十億行級別的表進(jìn)行任意的探索分析。

Berkeley Data Analytics Stack

上面說道Spark，在Berkeley AMP lab 中有個更宏偉的藍(lán)圖，就是BDAS，里面有很多明星項(xiàng)目，除了Spark，還包括：

Mesos：一個分布式環(huán)境的資源管理平臺，它使得Hadoop、MPI、Spark作業(yè)在統(tǒng)一資源管理環(huán)境下執(zhí)行。它對Hadoop2.0支持很好。Twitter，Coursera都在使用。

Tachyon：是一個高容錯的分布式文件系統(tǒng)，允許文件以內(nèi)存的速度在集群框架中進(jìn)行可靠的共享，就像Spark和MapReduce那樣。項(xiàng)目發(fā)起人李浩源說目前發(fā)展非?？?，甚至比Spark當(dāng)時還要驚人，已經(jīng)成立創(chuàng)業(yè)公司Tachyon Nexus.

BlinkDB：也很有意思，在海量數(shù)據(jù)上運(yùn)行交互式 SQL 查詢的大規(guī)模并行查詢引擎。它允許用戶通過權(quán)衡數(shù)據(jù)精度來提升查詢響應(yīng)時間，其數(shù)據(jù)的精度被控制在允許的誤差范圍內(nèi)。

Cloudera

Hadoop老大哥提出的經(jīng)典解決方案。

HDP （Hadoop Data Platform)

Hortonworks 提出的架構(gòu)選型。

Redshift

Amazon RedShift是 ParAccel一個版本。它是一種（massively parallel computer）架構(gòu)，是非常方便的數(shù)據(jù)倉庫解決方案，SQL接口，跟各個云服務(wù)無縫連接，***特點(diǎn)就是快，在TB到PB級別非常好的性能，我在工作中也是直接使用，它還支持不同的硬件平臺，如果想速度更快，可以使用SSD。

Netflix

完全基于AWS的數(shù)據(jù)處理解決方案。

Intel

參考鏈接

The Hadoop Ecosystem Table

How to beat the CAP theorem

Lambda Architecture

Questioning the Lambda Architecture

責(zé)任編輯：王雪燕來源：知乎

Hadoop 大數(shù)據(jù)架構(gòu)大數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="qd6va"></style>
<cite id="qd6va"></cite>

<cite id="qd6va"></cite>