自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hortonworks CTO:Hadoop的現(xiàn)在和將來(lái)

開(kāi)發(fā) 前端 Hadoop
Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月聯(lián)合創(chuàng)建。在激烈的市場(chǎng)環(huán)境中,與其他競(jìng)爭(zhēng)者相比Hortonworks有著自己的優(yōu)勢(shì)。出身于名門(mén)Yahoo!,Hortonworks擁有著許多Hadoop架 構(gòu)師和源代碼貢獻(xiàn)者,這些源代碼貢獻(xiàn)者以前均效力于Yahoo,而且已經(jīng)為Apache Hadoop項(xiàng)目貢獻(xiàn)了超過(guò)80%的源代碼,Hortonworks這樣說(shuō)道。

Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月聯(lián)合創(chuàng)建。在激烈的市場(chǎng)環(huán)境中,與其他競(jìng)爭(zhēng)者相比Hortonworks有著自己的優(yōu)勢(shì)。出身于名門(mén)Yahoo,Hortonworks擁有著許多Hadoop架 構(gòu)師和源代碼貢獻(xiàn)者,這些源代碼貢獻(xiàn)者以前均效力于Yahoo,而且已經(jīng)為Apache Hadoop項(xiàng)目貢獻(xiàn)了超過(guò)80%的源代碼,Hortonworks這樣說(shuō)道。這些工程師同時(shí)也為分布式領(lǐng)域的一些其他項(xiàng)目(如HCatalog、 Ambari和Pig等)做出了貢獻(xiàn),此外,在Yahoo還都曾參與過(guò)在4萬(wàn)臺(tái)服務(wù)器規(guī)模集群中運(yùn)行Hadoop的經(jīng)驗(yàn)。

Hortonworks是如何幫助企業(yè)采用Hadoop的?Hortonworks的CTO Eric談到了三個(gè)步驟:

  1. 了解需求,這和別的供應(yīng)商是一樣的;
  2. 和大家不一樣的是,Hortonworks會(huì)通過(guò)廣泛的Apache Hadoop社區(qū)的力量來(lái)根據(jù)客戶需求開(kāi)發(fā)新軟件;
  3.  在開(kāi)發(fā)完成了之后,需要將軟件進(jìn)行打包,然后進(jìn)行企業(yè)級(jí)測(cè)試,保證可用性和穩(wěn)定性 

Hortonworks提供的企業(yè)級(jí)Hadoop是什么樣子的呢?請(qǐng)看下圖。

除了在底層擁有Hadoop的核心之外,他們?cè)谏蠈蛹尤肓薋LUME和SQOOP,用于將數(shù)據(jù)注入Hadoop中。其次,又添加了Hive、PIG、 HABASE、HCATALOG來(lái)簡(jiǎn)化Hadoop中的數(shù)據(jù)管理。最后也添加了一些Apache Hadoop項(xiàng)目,AMBARI和OOZIE,用于管理和監(jiān)控集群,管理和監(jiān)控任務(wù)和工作流。這樣就能形成一個(gè)純開(kāi)源,純Apache的平臺(tái)。

接著,他分享了一些他覺(jué)得在現(xiàn)在的Apache版本中比較激動(dòng)人心的一些項(xiàng)目。

第 一個(gè)就是HCatalog。它是HIVE在表級(jí)別上的抽象,這就意味著表級(jí)別就開(kāi)放了,所有的數(shù)據(jù)工具和Hadoop都能在這個(gè)更高層級(jí)的抽象上開(kāi)展工 作。可以對(duì)表編寫(xiě)Map-Reduce,用PIG來(lái)做ETL,用HIVE格式來(lái)存儲(chǔ),所以它是可以在這些工具之間進(jìn)行協(xié)作的。除此之外,它的開(kāi)放性也支持 通過(guò)集群外來(lái)訪問(wèn)。所以,現(xiàn)在就可以用第三方的SQL工具,通過(guò)表查詢的方法來(lái)查詢其中的數(shù)據(jù),這樣就把Hadoop帶到了更多的使用場(chǎng)景中。

第二個(gè)就是Ambari。它是Apache的孵化項(xiàng)目,主要關(guān)注于Hadoop的配置、管理和監(jiān)控。他自己的團(tuán)隊(duì)在過(guò)去的一年中感覺(jué)到的是,企業(yè)不需要一個(gè) 單獨(dú)管理Hadoop的終端,企業(yè)希望能夠把Hadoop的管理工作集成至自己喜歡的工具中。所以Ambari非常注重添加API。Ambari添加的 API即可被現(xiàn)有的管理工具集成。另一個(gè)亮點(diǎn)是Ambari有任務(wù)診斷功能,用戶可以直接診斷Hadoop中的任務(wù)為什么性能低,為什么會(huì)失敗,等等。通 過(guò)集群歷史(Cluster Histroy),可以直觀地了解到集群的運(yùn)行情況,從而判斷目前集群的狀態(tài)。

接下來(lái),他談到了Hadoop 2.0中幾個(gè)比較重大的改進(jìn)。

第 一是在可擴(kuò)展性上要做得更好。今天大概最大的集群的量級(jí)在4000~4500個(gè)節(jié)點(diǎn)左右,2.0的目標(biāo)是要支持萬(wàn)級(jí)的節(jié)點(diǎn)數(shù)量。企業(yè)可以信賴Hadoop 因?yàn)樗梢猿掷m(xù)提供不斷成長(zhǎng)的數(shù)據(jù)管理架構(gòu)。Eric也談到他對(duì)大數(shù)據(jù)的定義是,企業(yè)有了大數(shù)據(jù)的問(wèn)題,現(xiàn)有的工具根本不能解決,或不能通過(guò)低成本的方式 去解決。所以Hadoop也需要不斷提升,從而保持住大數(shù)據(jù)最佳解決方案的地位。

除了可擴(kuò)展性之外,Hadoop 20.0真正的關(guān)注點(diǎn)在其延展性上。這正是采用YARN的原因。YARN是Hadoop的重構(gòu)和處理模型。在Hadoop 1.0中,只有一種語(yǔ)言,就是MapReduce。在Hadoop 2.0中,核心資源管理被分離出來(lái),可以將集群中的某部分資源分配于某些非MapReduce的特定工作。所以MapReduce就成為了眾多可以在 Hadoop中使用的編程模型之一。除了MapReduce之外,大家還能看見(jiàn)很多其他的框架,有的已經(jīng)可用了。例如處理流的低延遲性框架,支持SQL查 詢的,還有其它的一些服務(wù)性框架,例如有人提議將CloudFoundary作為Hadoop的一個(gè)服務(wù)。這樣的話,就能利用Hadoop進(jìn)行更開(kāi)放地創(chuàng) 新。

Tez是其中的一個(gè)框架,它是Apache的孵化項(xiàng)目,主要是為了在Hadoop 2.0中提供低延遲性的編程框架。Tez分成兩個(gè)部分,第一個(gè)部分關(guān)注內(nèi)循環(huán)上,也就是如何更高效地處理大量數(shù)據(jù)行的訪問(wèn);第二部分是關(guān)注如何能夠更快地 開(kāi)始進(jìn)行計(jì)算,如何保證集群的熱度(warm)和可用性,以確保在提交查詢后幾秒鐘就開(kāi)始處理,而不是幾分鐘或者幾十秒。

Tez 是一項(xiàng)大的倡議當(dāng)中的一部分,即Stinger。可能大家沒(méi)見(jiàn)過(guò)Stinger Apache,因?yàn)镾tinger是一項(xiàng)大的倡議,旨在集中社區(qū)的力量來(lái)將Hive變得更優(yōu)秀。主要的關(guān)注點(diǎn)是如何實(shí)現(xiàn)Hadoop中的低延遲SQL查 詢。之前的事實(shí)已經(jīng)證明了Hive的優(yōu)異,比如可擴(kuò)展性,和高強(qiáng)度負(fù)載下的穩(wěn)定性,功能也很完整。Stinger中把對(duì)Hive的改進(jìn)分解成了三個(gè)方面。 第一個(gè)方面已經(jīng)談到過(guò),就是Tez。第二方面是對(duì)核心Hive的改進(jìn),即提供更好的查詢計(jì)劃。例如通過(guò)更少的任務(wù),更快地完成查詢。第三方面是要提供更優(yōu) 化的列存儲(chǔ)格式。這三方面結(jié)合起來(lái),Hive的性能可能會(huì)得到成百倍地增強(qiáng)。

Knox也是Apache的孵化項(xiàng)目,專(zhuān)注于Hadoop的安全性。Knox Gateway通過(guò)在Hadoop集群之前的REST代理,可以使用現(xiàn)有工具來(lái)提供單點(diǎn)登錄,然后就可以使用Hadoop了。

Falcon是數(shù)據(jù)生命周期管理的項(xiàng)目。第一是解決了數(shù)據(jù)生命周期管理的問(wèn)題;第二也提供了移動(dòng)數(shù)據(jù)的問(wèn)題,即如何將數(shù)據(jù)移送至集群中,并在集群間移動(dòng);其它還包括如何自動(dòng)化ETL流。

 

責(zé)任編輯:陳四芳 來(lái)源: 51CTO
相關(guān)推薦

2010-10-27 13:54:47

2012-02-23 14:08:44

2010-02-04 18:46:54

2016-08-28 15:55:04

Hadoop大數(shù)據(jù)

2018-10-12 14:01:14

2021-09-26 10:47:12

預(yù)訓(xùn)練模型GPT

2013-07-02 10:56:46

2013-02-26 09:40:00

HortonworksWindowsHadoop

2012-11-12 10:13:09

2013-10-17 09:35:33

大數(shù)據(jù)HadoopHortonworks

2013-12-20 09:46:56

Hadoop大數(shù)據(jù)數(shù)據(jù)處理

2013-04-19 10:28:10

紅帽

2019-07-19 15:42:57

Hadoop大數(shù)據(jù)YuniKorn

2013-06-14 09:24:59

Hadoop云服務(wù)Altiscale

2022-05-16 10:25:03

Web內(nèi)部垃圾收集安全性

2012-02-16 09:10:31

JavaScript

2017-08-08 15:40:26

OpenStack轉(zhuǎn)型基金會(huì)

2014-11-17 09:36:46

2017-03-22 20:36:34

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-05-26 11:17:34

區(qū)塊鏈金融技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)