自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

大數(shù)據(jù) Hadoop
國內(nèi)外對Hadoop生態(tài)系統(tǒng)的生存狀況爭論不休,既然如此,我們不妨摸底調(diào)查一番,看看國內(nèi)一線互聯(lián)網(wǎng)公司(具備自我搭建大數(shù)據(jù)平臺能力的廠商)的大數(shù)據(jù)平臺是如何搭建的?是否基于Hadoop生態(tài)系統(tǒng)?Hadoop的存在感有多少?龐大的Hadoop生態(tài)系統(tǒng)中又有哪些組件真正脫穎而出了呢?

國內(nèi)外對Hadoop生態(tài)系統(tǒng)的生存狀況爭論不休,既然如此,我們不妨摸底調(diào)查一番,看看國內(nèi)一線互聯(lián)網(wǎng)公司(具備自我搭建大數(shù)據(jù)平臺能力的廠商)的大數(shù)據(jù)平臺是如何搭建的?是否基于Hadoop生態(tài)系統(tǒng)?Hadoop的存在感有多少?龐大的Hadoop生態(tài)系統(tǒng)中又有哪些組件真正脫穎而出了呢?(本文內(nèi)容來源于公開資料整理)

BAT之阿里巴巴

如果要論數(shù)據(jù),恐怕只有以電商起家的阿里巴巴才能擁有如此豐富且龐大的數(shù)據(jù)。有業(yè)務(wù)場景也有技術(shù)能力,阿里巴巴的大數(shù)據(jù)實力不容置疑。目前,阿里巴巴對外提供基于阿里云的大數(shù)據(jù)服務(wù)。眾多大數(shù)據(jù)產(chǎn)品中,筆者看到了Elasticsearch的身影。

在數(shù)據(jù)分析和搜索等方面,阿里提供基于開源Elasticsearch及商業(yè)版X-Pack插件。Elasticsearch想必大家都不陌生,是繼Hadoop之后非常受歡迎的后起之秀。阿里巴巴的大數(shù)據(jù)解決方案中會有它的出現(xiàn)一點也不讓人驚訝,有了Elasticsearch還有Hadoop的用武之地嗎?

在阿里巴巴早年的數(shù)加平臺(整個大數(shù)據(jù)部分統(tǒng)稱為數(shù)加)介紹中,阿里云大數(shù)據(jù)事業(yè)部數(shù)加平臺技術(shù)負責(zé)人陳廷曾表示,阿里統(tǒng)一的自主可控的大數(shù)據(jù)平臺是在Hadoop的基礎(chǔ)上構(gòu)建的,這套平臺支撐了阿里很重要的一些業(yè)務(wù),可見Hadoop對于阿里大數(shù)據(jù)平臺的構(gòu)建起到了至關(guān)重要的作用。

BAT之騰訊

騰訊的數(shù)據(jù)量雖然也不小,但多來源于社交數(shù)據(jù)。在離線數(shù)據(jù)處理的介紹中,我們看到騰訊大數(shù)據(jù)套件基于Hadoop體系的MapReduce、HIVE、PIG、Spark技術(shù)向企業(yè)用戶提供強大的數(shù)據(jù)離線批處理能力。

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

除此之外,Hadoop生態(tài)體系還包括Yarn、HBase、Sqoop、Ambari、Zookeeper、Flume、Kafka、Storm、Spark Streaming、Elastic Search、Impala、Presto、HAWQ、HUE、Log Search、Solr、Kylin。

很多人認(rèn)為Hadoop生態(tài)體系中實力最弱的就是MapReduce,然而目前的騰訊大數(shù)據(jù)體系中仍然可以看到MapReduce的身影,不知道之后是否會考慮更換。

BAT之百度

百度的數(shù)據(jù)與上述兩家又不同,百度的數(shù)據(jù)來源多為搜索數(shù)據(jù),依托自身百度引擎。進入百度的大數(shù)據(jù)產(chǎn)品頁面,可以發(fā)現(xiàn)百度主打的招牌是“智能”。百度的大數(shù)據(jù)產(chǎn)品中應(yīng)用了大規(guī)模的機器學(xué)習(xí)、深度學(xué)習(xí)等能力。

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

百度的大數(shù)據(jù)基礎(chǔ)套件“魯班”的基礎(chǔ)架構(gòu)如下,可以很直觀地看到,百度大數(shù)據(jù)基礎(chǔ)套件中的Kafka和YARN均來源于Hadoop生態(tài)系統(tǒng)。

京東:

京東的電商業(yè)務(wù)和物流業(yè)務(wù)如今也是越做越大,京東大數(shù)據(jù)部為了解決公司越來越廣泛的實時業(yè)務(wù)需求,推出了一整套技術(shù)解決方案——JRDW(JD Realtime Data Warehouse)。

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

根據(jù)介紹,整個大數(shù)據(jù)平臺有不少開源組件的加入,京東大數(shù)據(jù)部門在開源組件的基礎(chǔ)上又針對其缺點進行了部分調(diào)整,形成了最終框架。在后期的發(fā)展中,京東意識到如果要搭建一個穩(wěn)定可靠的實時任務(wù)運行平臺很重要,通過對Storm、Hadoop、HBase、Kafka等的研究,京東自主開發(fā)了高可用調(diào)度平臺Magpie。

圖中可以很直接地看出Hadoop的身影,明顯Hadoop對其大數(shù)據(jù)平臺架構(gòu)的搭建過程起到了啟發(fā)作用。

美團:

美團的大數(shù)據(jù)平臺主要支撐了美團的到店餐飲、到店綜合、酒店旅游、貓眼電影、外賣配送等業(yè)務(wù),中間則是基礎(chǔ)數(shù)據(jù)部,最下層基于美團云。如果將基礎(chǔ)數(shù)據(jù)部放大,基本如下圖所示:

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

離線計算部分是基于Hadoop的數(shù)據(jù)倉庫數(shù)據(jù)應(yīng)用。具體到組件,基礎(chǔ)服務(wù)層有HDFS和YARN的參與,計算引擎層有HBase、Kylin、Hive、Spark、Presto等來自Hadoop生態(tài)系統(tǒng)的組件參與。

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

根據(jù)一年前的統(tǒng)計數(shù)據(jù),這套平臺有42P+總存儲量,每天有15萬個MapReduce和Spark任務(wù),現(xiàn)在想必數(shù)據(jù)量和復(fù)雜度已經(jīng)再一次升高了。

網(wǎng)易:

網(wǎng)易的一站式大數(shù)據(jù)管理和應(yīng)用開發(fā)平臺——網(wǎng)易猛犸,覆蓋了大閨蜜數(shù)據(jù)存儲與計算、應(yīng)用開發(fā)、數(shù)據(jù)管理與集成等場景。

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

在其公布的大數(shù)據(jù)架構(gòu)圖中,我們可以看到底層基本完全構(gòu)建于Hadoop生態(tài)系統(tǒng),數(shù)據(jù)集成、數(shù)據(jù)存儲、資源管理都和Hadoop生態(tài)系統(tǒng)有關(guān)。這套系統(tǒng)支持HDFS、Hbase、Kudu等從GB到PB級別的存儲方案,支持Hive和MapReduce等批量計算、Spark內(nèi)存計算、Kylin多維分析等多種計算方案。

今日頭條:

2014年之前,今日頭條并沒有專門的人負責(zé)做數(shù)據(jù)。隨著活躍用戶數(shù)的迅猛增長,各種各樣的需求不斷,今日頭條意識到幾個數(shù)據(jù)工程師單打獨斗根本解決不了問題,于是數(shù)據(jù)平臺團隊成立了。

該團隊將Hadoop、Hive、Spark和Kylin等封裝成工具,將工具與分析模式相結(jié)合包裝成解決方案以提供給業(yè)務(wù)部門。在數(shù)據(jù)生成與采集方面,今日頭條使用Spark實現(xiàn)類Sqoop的分布式抓取;在數(shù)據(jù)傳輸方面,采用Kafka作為數(shù)據(jù)總線,連接在線和離線系統(tǒng);在數(shù)據(jù)計算方面,今日頭條使用了Spark SQL和Hive;在Cube類查詢引擎,今日頭條已經(jīng)成為Kylin國內(nèi)最大使用用戶之一。

滴滴:

作為目前最大且最活躍的獨角獸企業(yè),滴滴的大數(shù)據(jù)架構(gòu)部門十分年輕,成立時間僅一年有余。去年,滴滴宣布向各地交通管理部門開放“滴滴交通信息平臺”數(shù)據(jù),而滴滴當(dāng)時的平臺日訂單量已經(jīng)超過2000萬,流量高峰期每分鐘接到的用戶需求高達兩萬次。

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

從圖中不難看出,滴滴大數(shù)據(jù)平臺分為多個組成部分,數(shù)據(jù)加工和數(shù)據(jù)采集兩階段明顯用到了不少Hadoop生態(tài)系統(tǒng)的組件,數(shù)據(jù)加工部分完全依托Hadoop生態(tài)系統(tǒng)。

知乎

截止2017年8月,知乎注冊用戶數(shù)破億,全站DAU達2600萬,月瀏覽量180億......知乎大數(shù)據(jù)架構(gòu)分為數(shù)據(jù)采集、數(shù)據(jù)計算、數(shù)據(jù)服務(wù)和數(shù)據(jù)產(chǎn)品層。

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

對于很多公司都會出現(xiàn)的MySQL數(shù)據(jù)實時查詢需求,知乎調(diào)研了Hive和HBase,但最后選擇了將BinLog實時打入Kafka,起一套Spark Streaming程序,將數(shù)據(jù)寫入Kudu,這樣做的性能會更高一些。雖然這部分組件來源Hadoop生態(tài)系統(tǒng),但知乎內(nèi)部架構(gòu)師曾表示公司正在考慮采用TiDB。

新浪

新浪同樣掌握著大量社交數(shù)據(jù),在之前有關(guān)新浪大數(shù)據(jù)體系架構(gòu)的介紹中,我們可以了解到新浪的技術(shù)架構(gòu)同樣基于Hadoop生態(tài)圈,最下面是日志接受傳輸,然后進入Hadoop層,在這之上是ETL數(shù)據(jù)的整合,隨后是中央數(shù)據(jù)倉庫,數(shù)據(jù)挖掘、實時統(tǒng)計與計算等操作。

近幾年,隨著新技術(shù)的不斷發(fā)展,新浪的大數(shù)據(jù)體系也在不斷改變,但Hadoop生態(tài)體系依舊占據(jù)著重要位置。

58同城

58的大數(shù)據(jù)體系主要分為數(shù)據(jù)應(yīng)用、數(shù)據(jù)應(yīng)用平臺、數(shù)據(jù)基礎(chǔ)平臺三層。在接入層,58使用了Canal/Sqoop解決數(shù)據(jù)接入問題,另一部分?jǐn)?shù)據(jù)使用Flume,其中Sqoop和Flume均來源于Hadoop生態(tài)體系;存儲層全是熟人:HDFS、HBase、Kafka;調(diào)度層是Yarn;計算層全部來自于Hadoop生態(tài)體系,比如MR、Hive等。

 

Hadoop生態(tài)系統(tǒng)應(yīng)用狀況大調(diào)查:互聯(lián)網(wǎng)篇!

......

總結(jié)

最新調(diào)查結(jié)果顯示,中國每年進口最多的不是石油,而是芯片。國內(nèi)一線互聯(lián)網(wǎng)公司的大數(shù)據(jù)生態(tài)體系建設(shè)基本被Hadoop包圓,這種存在感快趕上芯片在中國的地位了。龐大的Hadoop生態(tài)體系中,MapReduce、HDFS、Kafka和Yarn的出現(xiàn)頻度最高。然而,不少言論都認(rèn)為MapReduce的市場競爭力在逐漸減弱,如今這個應(yīng)用狀況似乎一點失寵的意思都沒有啊!

責(zé)任編輯:未麗燕 來源: it168網(wǎng)站原創(chuàng)
相關(guān)推薦

2015-10-19 10:17:48

2013-11-04 16:57:21

Hadoop大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)

2024-05-10 14:10:24

2010-09-13 17:28:31

Linux調(diào)查

2017-08-02 13:08:30

物聯(lián)網(wǎng)生態(tài)系統(tǒng)邊緣計算

2015-07-31 14:07:06

譯云

2011-12-09 11:02:52

NoSQL

2011-05-03 14:57:31

2011-12-02 10:07:26

國際寬帶

2023-07-04 19:15:15

AI

2014-12-17 09:40:59

移動互聯(lián)網(wǎng)

2022-05-10 16:03:30

數(shù)字貨幣去中心化VPN

2020-06-02 21:02:48

物聯(lián)網(wǎng)硬件威脅物聯(lián)網(wǎng)安全

2011-05-05 11:15:03

2015-11-06 11:14:35

2015容器生態(tài)系統(tǒng)調(diào)查報告

2022-01-06 18:21:00

Hadoop生態(tài)系統(tǒng)

2009-10-20 14:43:22

moblin開發(fā)移動

2013-05-27 10:01:33

HadoopHadoop系統(tǒng)

2010-06-01 16:48:23

SVN錯誤

2014-06-16 17:28:24

可穿戴設(shè)備物聯(lián)網(wǎng)博通
點贊
收藏

51CTO技術(shù)棧公眾號