自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop老矣,為什么騰訊還要花精力在其開源發(fā)布上?

新聞 大數(shù)據(jù) Hadoop
前些日子,騰訊主導開源大數(shù)據(jù)平臺 Apache Hadoop 2.8.4 新版本發(fā)布的新聞引起了筆者的注意。自 Hadoop 從雅虎誕生之日起,已經(jīng)走過了 10 來個年頭,這期間,尤其是近年來,由華人作為 Release Manager 主導新版本發(fā)布已經(jīng)有過不少先例,不過背后的公司不外乎雅虎、微軟、Hortonworks、Cloudera 等美國公司。

 

 前些日子,騰訊主導開源大數(shù)據(jù)平臺 Apache Hadoop 2.8.4 新版本發(fā)布的新聞引起了筆者的注意。自 Hadoop 從雅虎誕生之日起,已經(jīng)走過了 10 來個年頭,這期間,尤其是近年來,由華人作為 Release Manager 主導新版本發(fā)布已經(jīng)有過不少先例,不過背后的公司不外乎雅虎、微軟、Hortonworks、Cloudera 等美國公司。而這次的新版本是***由中國公司主導發(fā)布,這對于國內(nèi)的開源社區(qū)當然是一個重要的鼓勵,說明中國的開發(fā)者和開發(fā)組織完全有能力突破障礙,來勝任熱門開源社區(qū)中的更有影響力的角色;另一方面,這也意味著騰訊長期以來支持和擁抱開源以及開源社區(qū)的舉動有了回報,開始收獲開源社區(qū)影響力了。

  對于筆者來說,更加好奇的卻是另外一個問題,在國內(nèi)外紛紛唱衰 Hadoop 的論調(diào)中,為什么騰訊還要花費這么大精力去主導 Hadoop 的開源版本發(fā)布?

  Hadoop 最早誕生于 2006 年,并在 2008 年成為 Apache ***項目。雖然在誕生之初,只有國內(nèi)外幾家巨頭嘗試使用 Hadoop 技術(shù),但沒過多久,Hadoop 就成為了互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)計算的標準配置,Hadoop 也快速成為 Apache 軟件基金會的金牌項目之一。不僅如此,它還孕育了包括 HBase、Hive、ZooKeeper 等一系列知名 Apache ***項目,而這些項目一開始都是以 Apache Hadoop 子項目的形式在社區(qū)運作并為開發(fā)者熟知的。

  至今,Hadoop 已經(jīng)走過了 12 個年頭,這對于任何軟件來說生命周期都不可謂不長。而從 2016 年開始,國內(nèi)外就開始出現(xiàn)唱衰 Hadoop 的聲音。雖然對于國內(nèi)外很多企業(yè)來說,Hadoop 依然是大數(shù)據(jù)計算不可缺少的配置,但對于 Hadoop 未來的發(fā)展,很多人都并不看好,“談不上會有好的發(fā)展”。Hadoop 背后***的平臺提供商 Hortonworks 也開始往以云計算為中心的世界靠攏。

  去年 9 月,Gartner 將 Hadoop 發(fā)行版從數(shù)據(jù)管理的技術(shù)成熟度曲線中淘汰出局,原因是由于整個 Hadoop 堆棧的復雜性和可用性問題,許多組織已經(jīng)開始重新考慮其在信息基礎架構(gòu)中的角色。而今年 KDnuggets 發(fā)布的數(shù)據(jù)科學和機器學習工具調(diào)查報告則顯示 Hadoop 的使用率也下降了,這讓“Hadoop 老矣”的說法又再度流傳起來。

  2018 年數(shù)據(jù)科學和機器學習工具調(diào)查報告顯示 Hadoop 使用率下降 35%

  在這個時候,為什么騰訊要花費大力氣去主導 Hadoop 開源版本的發(fā)布?

  負責主導本次開源版本發(fā)布的騰訊云專家研究員堵俊平告訴 AI 前線,真正“老矣”的是 Hadoop 商業(yè)發(fā)行版而非 Hadoop 技術(shù)本身, 不論在國內(nèi)還是國外,Hadoop 技術(shù)都保持著大數(shù)據(jù)平臺的核心和事實標準地位。需要變革的是 Hadoop 技術(shù)的使用和發(fā)行方式, 未來越來越多的用戶從使用線下 Hadoop 發(fā)行版向云上的數(shù)據(jù)湖(對象存儲 +Hadoop)遷移可能會成為一種趨勢。

  騰訊選用 Hadoop:兼顧平臺穩(wěn)定性和技術(shù)先進性

  騰訊的大數(shù)據(jù)平臺有不少為自身特殊場景優(yōu)化甚至重新自研的產(chǎn)品和組件,但有相當大的一部分是基于開源 Hadoop 生態(tài)組件構(gòu)建的。

  目前騰訊的大數(shù)據(jù)平臺用到了非常多的 Hadoop 生態(tài)組件。以騰訊云上開放的彈性 MapReduce 服務為例,騰訊提供了 Hadoop、HBase、Spark、Hive、Presto、Storm、Flink、Sqoop 等組件服務。不同組件也發(fā)揮了不同的用處:數(shù)據(jù)存儲和計算資源調(diào)度由 Hadoop 來實現(xiàn),數(shù)據(jù)的導入可以用 Sqoop,HBase 提供了 NoSQL 數(shù)據(jù)庫服務,離線數(shù)據(jù)處理由 MapReduce、Spark、Hive 等完成,流式數(shù)據(jù)處理則由 Storm、Spark Streaming 以及 Flink 來提供等等。

  堵俊平表示,對于 Hadoop 生態(tài)的各類組件的選型,騰訊的總體原則是兼顧平臺穩(wěn)定性和技術(shù)先進性。一方面,需要理解每個組件所適用的場景以及它們的能力邊界,另一方面,從測試和運維實踐來看,要了解每個組件的穩(wěn)定程度和運維復雜度。以基于 Hadoop 的數(shù)倉組件為例,新版的 Hive 增加了 LLAP 組件來提升交互式查詢的性能和速度,但從當前運行的實際效果來看并不穩(wěn)定,所以騰訊暫緩把這個組件引入生產(chǎn)系統(tǒng),Hive 更多服務于離線計算的場景,而交互式查詢由更為穩(wěn)定的 SparkSQL 和 Presto 來提供。

  騰訊并非個例,在國內(nèi)外很多企業(yè)的大數(shù)據(jù)平臺中,Hadoop 生態(tài)的各類組件都占了相當大的比重。誰都離不開它,但可能應用太普遍,Hadoop 受到的關注反而變少了。作為 Hadoop 的 PMC,堵俊平表示,Hadoop 作為大數(shù)據(jù)平臺的核心和事實標準地位,在國內(nèi)外并沒有太大的區(qū)別。不過在各個行業(yè),Hadoop 應用的成熟度卻不盡相同。舉例來說,Hadoop 在互聯(lián)網(wǎng)公司應用的最早也最為成熟;其次是金融行業(yè),Hadoop 大數(shù)據(jù)平臺落地的成功案例很多,也相對比較成熟。當前 Hadoop 大數(shù)據(jù)平臺應用的熱點是在政務和安防領域以及 IOT 工業(yè)互聯(lián)網(wǎng)平臺,這些新的熱點帶來新的需求也會促使 Hadoop 技術(shù)和生態(tài)繼續(xù)向前進化。

  Hadoop 技術(shù)未老,但使用和發(fā)行方式需要變革

  對于 Gartner 將 Hadoop 從技術(shù)成熟度曲線中淘汰出局,堵俊平指出,Gartner 的報告是針對 Hadoop 商業(yè)發(fā)行版而非 Hadoop 技術(shù)本身。

  報告中所提到的 Hadoop 發(fā)行版的問題:比如發(fā)行版的復雜度高以及包含很多非必要性組件,從用戶的反饋來看,是真實存在的。很多商業(yè)發(fā)行版,例如 CDH 或者 HDP,都包含了洋洋灑灑十幾種甚至幾十種組件給用戶使用,在提供靈活性的同時,也給用戶帶來了很多使用和運維上的煩惱。更嚴重的是,這個問題從近幾年的觀察來看,不但沒有減輕且有愈演愈烈的趨勢。所以,Hadoop 技術(shù)的使用和發(fā)行的方式需要變革,未來越來越多的用戶從使用線下的 Hadoop 發(fā)行版向云上的數(shù)據(jù)湖(對象存儲 +Hadoop)遷移可能會成為一種趨勢。

  堵俊平坦言,Hadoop 生態(tài)確實存在一些不足。Hadoop 的生態(tài)系統(tǒng)非常復雜,每個組件都是獨立的模塊,由單獨的開源社區(qū)開發(fā)和發(fā)布,我們可以稱之為松耦合。這種松耦合的開發(fā)方式,好處是靈活、適應面廣、開發(fā)周期可控,缺點是組件之間配合的成熟度低、版本沖突嚴重、集成測試困難。這也給用戶的使用帶來了困難,因為一個場景中需要涉及到很多組件的配置工作。

  雖然流計算對于大數(shù)據(jù)處理來說越來越重要,但不支持流計算卻不會成為 Hadoop 的致命傷。雖然 Hadoop 自身不提供流計算服務,不過主要的流計算組件,如 Storm、Spark Streaming 以及 Flink 本身就屬于 Hadoop 生態(tài)系統(tǒng)的一部分,因此并不構(gòu)成太大的問題。

  Hadoop 生態(tài)組件競爭激烈,Spark 優(yōu)勢明顯,MapReduce 已進入維護模式

  曾有開發(fā)者向 AI 前線表示,Hadoop 主要是被 MapReduce 拖累了,其實 HDFS 和 YARN 都還不錯。堵俊平則認為 MapReduce 拖累 Hadoop 的說法并不準確,首先 MapReduce 還是有應用場景,只是越來越窄,它仍然適合某些超大規(guī)模數(shù)據(jù)處理的批量任務,且任務運行非常穩(wěn)定;其次,Hadoop 社區(qū)對于 MapReduce 的定位就是進入維護模式, 并不追求任何新的功能或性能演進,這樣可以讓資源投入到更新的計算框架,比如 Spark、Tez,促進其成熟。

  HDFS 和 YARN 目前還是大數(shù)據(jù)領域分布式存儲和資源調(diào)度系統(tǒng)的事實標準,不過也面臨一些挑戰(zhàn)。對 HDFS 而言,在公有云領域,越來越多的大數(shù)據(jù)應用會選擇跳過 HDFS 而直接使用云上的對象存儲, 這樣比較方便實現(xiàn)計算與存儲分離,增加了資源彈性。YARN 也面臨著來自 Kubernetes 的強大挑戰(zhàn),尤其是原生的 docker 支持,更好的隔離性以及上面生態(tài)的完整性。不過 K8S 在大數(shù)據(jù)領域還是追趕者,在資源調(diào)度器以及和對各計算框架支持上還有很大的進步空間。

  Spark 在計算框架方面基本上占據(jù)了主導地位,MapReduce 主要是一些歷史應用,而 Tez 更像是 Hive 的專屬執(zhí)行引擎。流處理方面,早期的流處理引擎 Storm 正在退役,而當前唱主角的則是 Spark Streaming 和 Flink,這兩個流處理引擎各有千秋,前者強在生態(tài),后者則在架構(gòu)方面有優(yōu)勢。一個有意思的情況是,對于 Spark Streaming 和 Flink 的應用在國內(nèi)外的情況很不一樣,國內(nèi)已經(jīng)有大量的公司開始使用 Flink 構(gòu)建自己的流處理平臺,但美國市場 Spark Streaming 還是占絕對主流的地位。當然,還有一些新的流處理框架,例如 Kafka Streams 等等,發(fā)展得也不錯。

  在大數(shù)據(jù) SQL 引擎方面,四大主流引擎 Hive、SparkSQL、Presto 以及 Impala 仍然各有所長。

  Hive 最早由 Facebook 開源貢獻也是早年應用最廣泛的大數(shù)據(jù) SQL 引擎,和 MapReduce 一樣,Hive 在業(yè)界的標簽就是慢而穩(wěn)定。其無私地提供了很多公共組件為其他引擎所使用,堪稱業(yè)界良心,比如元數(shù)據(jù)服務 Hive Metastore、查詢優(yōu)化器 Calcite、列式存儲 ORC 等。近年來,Hive 發(fā)展很快,例如查詢優(yōu)化方面采用了 CBO,在執(zhí)行引擎方面用 Tez 來替換 MapReduce,通過 LLAP 來 cache 查詢結(jié)果做優(yōu)化,以及 ORC 存儲不斷演進。不過相比較而言,這些新技術(shù)從市場應用來說還不算成熟穩(wěn)定,Hive 仍然被大量用戶定義為可靠的 ETL 工具而非即時查詢產(chǎn)品。

  SparkSQL 這兩年發(fā)展迅猛,尤其在 Spark 進入 2.x 時代,發(fā)展更是突飛猛進。其優(yōu)秀的 SQL 兼容性(唯一全部 pass TPC-DS 全部 99 個 query 的開源大數(shù)據(jù) SQL),卓越的性能、龐大且活躍的社區(qū)、完善的生態(tài)(機器學習、圖計算、流處理等)都讓 SparkSQL 從這幾個開源產(chǎn)品中脫穎而出,在國內(nèi)外市場得到了非常廣泛的應用。

  Presto 這兩年應用也非常廣泛,這款內(nèi)存型 MPP 引擎的特點就是處理小規(guī)模數(shù)據(jù)會非??欤瑪?shù)據(jù)量大的時候會比較吃力。Impala 的性能也非常優(yōu)異,不過其發(fā)展路線相對封閉,社區(qū)生態(tài)進展比較緩慢,SQL 兼容性也比較差,用戶群體相對較小。

  Hadoop 生態(tài)必然會向云發(fā)展,IOT 值得長期關注

  Hadoop 已經(jīng) 12 歲了,未來 Hadoop 生態(tài)將會如何發(fā)展?堵俊平表示,未來 Hadoop 的生態(tài)會向云的方向發(fā)展,簡化運維甚至免運維既是用戶的需求也是云廠商的優(yōu)勢所在。越來越多的數(shù)據(jù)在云中產(chǎn)生、存儲和消費,從而形成數(shù)據(jù)生命周期在云端的閉環(huán)——數(shù)據(jù)湖。所以云上的數(shù)據(jù)安全和隱私保護技術(shù)顯得十分重要。

  除此之外,Hadoop 在混合云上的部署和應用也會是一個重要的趨勢,而這方面的技術(shù)和架構(gòu)還不是非常成熟,需要持續(xù)創(chuàng)新和創(chuàng)造。在這樣的背景下,傳統(tǒng) Hadoop 發(fā)行版廠商的話語權(quán)在技術(shù)和商業(yè)層面會相對減少,而云廠商的話語權(quán)則會增大。 另外一個趨勢是 Hadoop 生態(tài)會不斷向數(shù)據(jù)應用端生長,強調(diào)從數(shù)據(jù)處理到數(shù)據(jù)治理的轉(zhuǎn)變,更方便的 ETL 工具、元數(shù)據(jù)管理與數(shù)據(jù)治理工具會逐漸走向成熟與完善。***,Hadoop 生態(tài)也會從單純的大數(shù)據(jù)平臺演化到集數(shù)據(jù)與機器學習平臺為一體, 未來可助力很多的 AI 應用場景。

  堵俊平告訴 AI 前線,未來大數(shù)據(jù)領域比較重要的發(fā)展方向中,IOT 是一個值得長期關注的領域。在大數(shù)據(jù)發(fā)展歷史上,這部分業(yè)務發(fā)展周期較短,很多技術(shù)都不是非常成熟,標準也沒有完全統(tǒng)一。除此之外,云上的大數(shù)據(jù)產(chǎn)品還有技術(shù)變革的空間,例如:跨數(shù)據(jù)中心 / 云的解決方案、自動化關鍵數(shù)據(jù)業(yè)務遷移、數(shù)據(jù)隱私保護、自動機器學習等,未來一定會有更加創(chuàng)新的產(chǎn)品來打動和吸引用戶上云。

  騰訊云會聚焦云端大數(shù)據(jù)用戶的核心痛點,制定相應的技術(shù)和產(chǎn)品路線。對于大數(shù)據(jù)平臺的底層平臺架構(gòu),騰訊云會更加強調(diào) serverless,注重性能與開銷的平衡,提高資源利用率會是一個長期的方向。而 Hadoop 生態(tài)會繼續(xù)在其中扮演重要角色,因為市場更為認可開放和開源的產(chǎn)品以及解決方案。騰訊云也會繼續(xù)貢獻和回饋開源社區(qū),和社區(qū)一起創(chuàng)造更好更新的技術(shù)來滿足未來的需要。

  結(jié)語

  Hadoop 花了 12 年從一個新興開源項目成長為大數(shù)據(jù)平臺標準配置,實屬不易。如今 Hadoop 生態(tài)內(nèi)部面臨著來自眾多年輕開源組件的競爭壓力,優(yōu)勝劣汰也很正常,世上沒有十全十美的開源平臺,憑借已有的優(yōu)勢,Hadoop 生態(tài)的地位依然十分穩(wěn)固,但未來是否還能煥發(fā)出新的活力,抑或在全面云化的進程中逐漸式微,仍是一個未知數(shù)。

責任編輯:張燕妮 來源: AI前線
相關推薦

2016-03-16 10:43:08

項目時間

2020-05-29 09:49:43

騰訊

2021-03-02 22:10:10

Java互聯(lián)網(wǎng)語言

2021-04-16 23:28:11

Java語言IT

2022-06-07 08:39:35

RPCHTTP

2020-04-29 08:04:11

NoSQLMySQLSQL

2021-05-19 09:37:45

SessionTokencookie

2019-08-05 14:23:43

DockerKubernetes容器

2024-07-11 10:41:07

HTTPSHTTP文本傳輸協(xié)議

2020-11-25 09:36:17

HTTPRPC遠程

2014-08-04 15:30:39

Linux開源軟件

2013-10-22 15:18:19

2023-09-07 08:07:56

goHTTP網(wǎng)絡

2022-10-08 00:00:00

websocket協(xié)議HTTP

2023-01-12 09:01:01

MongoDBMySQL

2022-07-19 08:01:32

HTTP協(xié)議RPC

2023-12-11 12:03:14

Python工具元組

2015-02-10 11:07:02

360域名

2021-12-20 10:30:33

forforEach前端

2022-09-13 08:44:02

IP網(wǎng)絡MAC地址
點贊
收藏

51CTO技術(shù)棧公眾號