自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

耗時(shí)兩個(gè)月,國(guó)內(nèi)傳統(tǒng)企業(yè)對(duì)Hadoop到底什么態(tài)度?

大數(shù)據(jù) Hadoop
前有Gartner報(bào)告對(duì)Hadoop發(fā)行版的看衰論斷,后有加拿大皇家銀行和美國(guó)富國(guó)銀行對(duì)Hadoop應(yīng)用的不看好,到底國(guó)內(nèi)傳統(tǒng)企業(yè)對(duì)Hadoop持什么態(tài)度?是否與國(guó)內(nèi)的互聯(lián)網(wǎng)企業(yè)一致呢?Hadoop生態(tài)中哪些組件獲一致好評(píng)?哪些組件被群嘲?

年初,筆者開始調(diào)研Hadoop在國(guó)內(nèi)企業(yè)的應(yīng)用現(xiàn)狀,在前期的互聯(lián)網(wǎng)企業(yè)應(yīng)用現(xiàn)狀調(diào)研中,筆者發(fā)現(xiàn)目前比較知名的互聯(lián)網(wǎng)企業(yè)基本都在使用Hadoop,其生態(tài)組件,比如HDFS、Zookeeper、MapReduce等出現(xiàn)頻率極高(完整調(diào)研可在文末獲取鏈接)。但是,Hadoop在國(guó)外卻接連遇冷,前有Gartner報(bào)告對(duì)Hadoop發(fā)行版的看衰論斷,后有加拿大皇家銀行和美國(guó)富國(guó)銀行對(duì)Hadoop應(yīng)用的不看好,到底國(guó)內(nèi)傳統(tǒng)企業(yè)對(duì)Hadoop持什么態(tài)度?是否與國(guó)內(nèi)的互聯(lián)網(wǎng)企業(yè)一致呢?Hadoop生態(tài)中哪些組件獲一致好評(píng)?哪些組件被群嘲?

[[239401]]

本次調(diào)研共耗時(shí)兩個(gè)月(具體話題詳見文末鏈接),共吸引17865人次點(diǎn)擊(截至發(fā)文時(shí)),眾多用戶圍繞Hadoop生存現(xiàn)狀主要討論了以下三大問題:

  1. 您對(duì)Gartner的報(bào)告結(jié)論如何看待?就國(guó)內(nèi)現(xiàn)狀而言,Hadoop在傳統(tǒng)企業(yè)的受歡迎程度會(huì)和互聯(lián)網(wǎng)企業(yè)相同嗎?
  2. 您認(rèn)為Hadoop生態(tài)最大的優(yōu)勢(shì)和劣勢(shì)分別是什么?Spark生態(tài)也在漸漸完善,其機(jī)器學(xué)習(xí)方面的能力更強(qiáng),未來與Hadoop生態(tài)的關(guān)系會(huì)是什么樣的?
  3. 您認(rèn)為Hadoop生態(tài)中表現(xiàn)最好、生命力最旺盛的組件有哪些?為什么?最容易被替換、表現(xiàn)欠佳的組件又有哪些呢?為什么?

(注:為了防止因行業(yè)不同而對(duì)事情的理解造成偏差,每位答題者被要求給出所屬行業(yè),以供用戶結(jié)合行業(yè)屬性參考)

一、國(guó)內(nèi)傳統(tǒng)行業(yè)對(duì)Hadoop態(tài)度如何?是否與互聯(lián)網(wǎng)企業(yè)一致?

Itpub網(wǎng)友jieforest(制造業(yè)): Gartner的調(diào)查報(bào)告一向有比較高的可信度和權(quán)威性,但是Gartner報(bào)告未必明確指出Hadoop將在什么時(shí)間淘汰。我雖然未讀Gartner報(bào)告,但我估計(jì)其報(bào)告應(yīng)該是講述當(dāng)前大數(shù)據(jù)平臺(tái)的技術(shù)發(fā)展趨勢(shì)。從趨勢(shì)上看,Hadoop在未來可能會(huì)被更好的技術(shù)所取代,未來會(huì)面臨淘汰的風(fēng)險(xiǎn)。

結(jié)合今年福布斯大數(shù)據(jù)市場(chǎng)預(yù)測(cè),到2022年,Hadoop市場(chǎng)預(yù)計(jì)將達(dá)到99.31億美元,復(fù)合年增長(zhǎng)率為42.1%。從福布斯的數(shù)據(jù)來看,Hadoop還將興旺好些年。Hadoop解決方案這些年在國(guó)內(nèi)經(jīng)過了各公司的檢驗(yàn),大家逐步認(rèn)識(shí)到它是一個(gè)成熟靠譜的解決方案,確實(shí)能解決企業(yè)大數(shù)據(jù)過程面臨的問題,但Hadoop也并非包治百病,有些需求很容易搞定,而有些則很難搞定或者需要另謀別的解決方案。

傳統(tǒng)企業(yè)往往喜歡采用比較成熟的解決方案,因此Hadoop還將在國(guó)內(nèi)有比較長(zhǎng)的生命周期。就像Java語言,現(xiàn)在已經(jīng)是第10版了,但很多傳統(tǒng)企業(yè)仍然堅(jiān)持使用Java SE 6.0。

Itpub網(wǎng)友ceo_lxy(傳統(tǒng)制造行業(yè)): 在傳統(tǒng)制造行業(yè),Hadoop大數(shù)據(jù)方案感覺實(shí)用不強(qiáng),不是很受歡迎,原因有以下三點(diǎn):一是傳統(tǒng)制造行業(yè)沒有這么大的數(shù)據(jù)量,都是內(nèi)部運(yùn)營(yíng)數(shù)據(jù)及少量供應(yīng)商和客戶數(shù)據(jù);二是Hadoop技術(shù)更新快且成本較高,制造業(yè)利潤(rùn)普遍不高的前提下,Hadoop技術(shù)短期帶來不了直接回報(bào);三是傳統(tǒng)制造行業(yè)更青睞成熟的技術(shù)方案,而不僅僅是開源。

Itpub網(wǎng)友luckyrandom: 各自面對(duì)和專注的領(lǐng)域不同,開發(fā)設(shè)計(jì)也有不同的立場(chǎng)、角度,Hadoop是個(gè)更通用的框架和平臺(tái)。就好像即使MySQL如此流行,但Oracle和SQL Server還是有自己的市場(chǎng),真正適合用戶需求的產(chǎn)品才是好產(chǎn)品,這個(gè)產(chǎn)品會(huì)包括產(chǎn)品本身質(zhì)量、發(fā)展勢(shì)頭、生態(tài)鏈等。傳統(tǒng)企業(yè)的量級(jí)難以達(dá)到“大數(shù)據(jù)”的級(jí)別,除了極少數(shù)之外,互聯(lián)網(wǎng)企業(yè)才是Hadoop應(yīng)用主角。

Itpub網(wǎng)友13572******(金融行業(yè)): 大數(shù)據(jù)殺熟的新聞曝光后,傳統(tǒng)企業(yè)對(duì)大數(shù)據(jù)的信任度有所下降,大數(shù)據(jù)的缺點(diǎn)一下子就暴露了出來,只有加強(qiáng)大數(shù)據(jù)在制造業(yè)、農(nóng)業(yè)等領(lǐng)域的應(yīng)用監(jiān)管,才可以避免此類投機(jī)取巧事件的發(fā)生。

Itpub網(wǎng)友a(bǔ)loki(服務(wù)業(yè)): 我認(rèn)為Gartner報(bào)告有點(diǎn)危言聳聽,Hadoop即使在使用過程存在問題,但并不是沒辦法解決。就國(guó)內(nèi)現(xiàn)狀而言,Hadoop在傳統(tǒng)企業(yè)的受歡迎程度與互聯(lián)網(wǎng)企業(yè)相同,幾乎覆蓋全行業(yè)。

Itpub網(wǎng)友help01(信息服務(wù)): Gartner的報(bào)告應(yīng)該還是可信的。在國(guó)內(nèi),Hadoop應(yīng)用主要以互聯(lián)網(wǎng)公司為主,由此可以推斷Hadoop在互聯(lián)網(wǎng)企業(yè)比在傳統(tǒng)企業(yè)更受歡迎。

Itpub網(wǎng)友renxiao2003(傳統(tǒng)醫(yī)療制造): 上世紀(jì)70年代發(fā)明的C語言,好多機(jī)構(gòu)和“專家”都曾斷言C語言會(huì)死,但直到今天C語言依舊是一個(gè)流行和不可或缺的開發(fā)語言。所以我們不能盲目的去相信報(bào)告,要客觀的分析和處理。至于Hadoop在傳統(tǒng)企業(yè)的受歡迎程度和互聯(lián)網(wǎng)企業(yè)肯定是不同的。

二、Hadoop生態(tài)目前最大的優(yōu)勢(shì)和劣勢(shì)是什么?未來與Spark的關(guān)系更傾向于哪一種方式?

Itpub網(wǎng)友a(bǔ)loki(服務(wù)業(yè)): Hadoop的優(yōu)勢(shì)是可擴(kuò)展性和容錯(cuò)性,支持從GB到PB級(jí)別多種業(yè)務(wù)需求,支持PB級(jí)別海量數(shù)據(jù)批處理需求;劣勢(shì)是使用門檻略高,技術(shù)迭代快導(dǎo)致學(xué)習(xí)成本和運(yùn)維成本升高。Spark大部分情況下與Hadoop配合出現(xiàn),Spark作為通用計(jì)算引擎,而Hadoop提供存儲(chǔ)和資源管理框架等服務(wù)。

Itpub網(wǎng)友jieforest (制造業(yè)) : Hadoop和Apache Spark都是大數(shù)據(jù)框架,但它們的實(shí)現(xiàn)目標(biāo)有所不同。Hadoop本質(zhì)上是一個(gè)分布式數(shù)據(jù)基礎(chǔ)架構(gòu),在大量商品服務(wù)器的多個(gè)節(jié)點(diǎn)上分發(fā)海量數(shù)據(jù)集合,這意味著用戶不需要購(gòu)買和維護(hù)昂貴的定制硬件,它還對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤,使大數(shù)據(jù)處理和分析能夠比以前更有效。

Spark沒有自己的文件管理系統(tǒng),Spark可以看成是一種數(shù)據(jù)處理工具,可以對(duì)這些分布式數(shù)據(jù)集進(jìn)行操作,但其自身不會(huì)做分布式存儲(chǔ)。Hadoop不僅包含一個(gè)稱為Hadoop分布式文件系統(tǒng)的存儲(chǔ)組件(HDFS),還包含一個(gè)名為MapReduce的處理組件,因此不需要Spark即可完成大數(shù)據(jù)處理。

[[239402]]

Itpub網(wǎng)友help01(信息服務(wù)): Hadoop的優(yōu)勢(shì)有以下幾方面,高可靠性:按位存儲(chǔ)和處理數(shù)據(jù)的能力值得信賴;高擴(kuò)展性:在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù),這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn);高效性:Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非常快;高容錯(cuò)性:Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。

劣勢(shì):

  • 不適合低延遲數(shù)據(jù)訪問;
  • 無法高效存儲(chǔ)大量小文件;
  • 不支持多用戶寫入及任意修改文件。

Spark目前在國(guó)內(nèi)的大型互聯(lián)網(wǎng)公司中也得到了積極推廣,百度、阿里巴巴、奇虎360、騰訊以及中國(guó)移動(dòng)等都有使用,預(yù)計(jì)Spark未來會(huì)融合到Hadoop生態(tài)當(dāng)中。

Itpub網(wǎng)友renxiao2003 (傳統(tǒng)醫(yī)療制造) : Hadoop 可以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理。Hadoop 是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop 是高效的,因?yàn)樗圆⑿械姆绞焦ぷ鳎ㄟ^并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級(jí)數(shù)據(jù)。此外,Hadoop 依賴于社區(qū)服務(wù),因此它的成本比較低,任何人都可以使用。

不足之處:

  • 全量場(chǎng)景,任務(wù)內(nèi)串行
  • 重吞吐量,響應(yīng)時(shí)間完全沒有保證
  • 中間結(jié)果不可見,不可分享
  • 單輸入單輸出,鏈?zhǔn)嚼速M(fèi)嚴(yán)重
  • 鏈?zhǔn)組R不能并行
  • 粗粒度容錯(cuò),可能會(huì)造成陷阱
  • 圖計(jì)算不友好
  • 迭代計(jì)算不友好

Hadoop和Spark解決問題的層面不一樣:Hadoop和Apache Spark都是大數(shù)據(jù)框架,但是各自存在的目的不盡相同。Hadoop實(shí)質(zhì)上更多的是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施,它將巨大的數(shù)據(jù)集分派到由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)進(jìn)行存儲(chǔ),意味著用戶不需要購(gòu)買和維護(hù)昂貴的服務(wù)器硬件。Spark專門用于對(duì)分布式存儲(chǔ)數(shù)據(jù)進(jìn)行處理,并不會(huì)進(jìn)行分布式數(shù)據(jù)存儲(chǔ)。

Hadoop和Spark可合可分:Hadoop除了提供HDFS之外,還提供了叫做MapReduce的數(shù)據(jù)處理功能,因此可以完全拋開Spark進(jìn)行數(shù)據(jù)處理。相反,Spark也不是非要依附在Hadoop身上才能生存。如上所述,畢竟它沒有提供文件管理系統(tǒng),所以,它必須和其他分布式文件系統(tǒng)集成才能運(yùn)作。

三、Hadoop生態(tài)中哪些組件表現(xiàn)較好?哪些是時(shí)候淘汰了?

耗時(shí)兩個(gè)月,國(guó)內(nèi)傳統(tǒng)企業(yè)對(duì)Hadoop到底什么態(tài)度?

總結(jié)

大部分用戶認(rèn)可Hadoop在國(guó)內(nèi)傳統(tǒng)企業(yè)的應(yīng)用狀況與互聯(lián)網(wǎng)企業(yè)不同,并更傾向于傳統(tǒng)企業(yè)不如互聯(lián)網(wǎng)企業(yè)應(yīng)用廣泛的觀點(diǎn),主要考慮到傳統(tǒng)企業(yè)的數(shù)據(jù)量不如互聯(lián)網(wǎng)企業(yè)多,且傳統(tǒng)企業(yè)部署Hadoop的成本較高。至于Hadoop與Spark的關(guān)系,大多數(shù)網(wǎng)友傾向于將Spark與Hadoop集成,以彌補(bǔ)Hadoop的劣勢(shì),但是相比較而言,Hadoop略占上風(fēng),Spark需要在HDFS之上運(yùn)行,雖然找到一個(gè)替代HDFS的組件并不難,但要想完全還原甚至超越其功能的組件目前還未曾出現(xiàn)在大規(guī)模生產(chǎn)驗(yàn)證環(huán)境中。

責(zé)任編輯:未麗燕 來源: it168網(wǎng)站
相關(guān)推薦

2013-11-27 09:26:02

遠(yuǎn)程公司

2012-09-03 14:38:57

2019-11-28 15:28:33

iOS 13蘋果更新

2018-04-18 09:07:24

iPhone X手機(jī)利潤(rùn)

2011-11-29 09:10:11

Hadoop

2012-01-11 11:13:06

惠普ProLiant

2019-06-12 09:29:44

華為禁令開發(fā)

2025-02-08 08:30:00

2014-03-13 15:49:53

大數(shù)據(jù)傳統(tǒng)企業(yè)

2014-03-12 09:58:10

大數(shù)據(jù)

2021-11-30 10:06:40

Windows 11Windows微軟

2022-03-21 14:37:17

數(shù)據(jù)存儲(chǔ)服務(wù)器IT

2016-11-09 16:52:20

Android 7.0谷歌安卓

2021-09-15 13:31:44

語言項(xiàng)目技術(shù)棧scala

2023-01-05 10:16:27

2014-08-25 11:25:52

WindowsLinux

2014-06-25 09:26:16

創(chuàng)業(yè)創(chuàng)業(yè)失敗

2023-04-13 07:55:11

項(xiàng)目Ladybird瀏覽器

2009-02-19 14:33:32

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)