攜手Hortonworks市場(chǎng)副總裁:探討Hadoop目前使用情況
我們正生活在“大數(shù)據(jù)”的時(shí)代。在當(dāng)今這個(gè)技術(shù)驅(qū)動(dòng)的世界,計(jì)算能力、電子設(shè)備和Internet的可達(dá)性正在日益增長(zhǎng),同時(shí)比以往任何時(shí)候更多的數(shù)據(jù)正在被傳輸和收集。組織正在以驚人的速度產(chǎn)生數(shù)據(jù)。僅Facebook自己每天就會(huì)收集250 TB的數(shù)據(jù)。Thompson Reuters News Analytics顯示,現(xiàn)在數(shù)字?jǐn)?shù)據(jù)的產(chǎn)生量比2009年接近1 ZB(1 ZB等同于一百萬(wàn)PB)的量增長(zhǎng)了兩倍多,到2015年將有可能達(dá)到7.9 ZB,到2020年則有可能會(huì)達(dá)到35 ZB。
隨著組織已經(jīng)開(kāi)始收集并產(chǎn)生大量的數(shù)據(jù),他們也開(kāi)始認(rèn)識(shí)到數(shù)據(jù)分析的優(yōu)勢(shì),但是他們也必須奮力地管理自己所擁有大量的信息。據(jù)Alistair Croll所說(shuō):
擁有大量數(shù)據(jù)但是沒(méi)有大量線(xiàn)索的公司將會(huì)被雖然擁有更少的數(shù)據(jù)但是有更多線(xiàn)索的創(chuàng)業(yè)公司所取代… |
這意味著除非你的業(yè)務(wù)理解它所擁有的數(shù)據(jù),否則它將不能與理解這些數(shù)據(jù)的企業(yè)競(jìng)爭(zhēng)。企業(yè)已經(jīng)意識(shí)到:分析與商業(yè)競(jìng)爭(zhēng)、態(tài)勢(shì)感知、生產(chǎn)力、科學(xué)和創(chuàng)新相關(guān)的大數(shù)據(jù)能夠獲得巨大的收益。同時(shí)現(xiàn)在大部分公司將Hadoop作為自己分析大數(shù)據(jù)和掌握大數(shù)據(jù)挑戰(zhàn)的一個(gè)主要工具。
根據(jù)Hortonworks的調(diào)查,Hadoop現(xiàn)在已經(jīng)被很多大型主流組織所部署(50%的調(diào)查對(duì)象來(lái)自于收入超過(guò)$500M的組織),這些組織分布在很多行業(yè),包括:高科技、醫(yī)療保健、零售業(yè)、金融服務(wù)、政府和制造業(yè)。
大部分情況下,Hadoop并不會(huì)替代已有的數(shù)據(jù)處理系統(tǒng),而是作為已有產(chǎn)品的補(bǔ)充。Hadoop通常會(huì)與已有的系統(tǒng)互補(bǔ),它挖掘額外的業(yè)務(wù)數(shù)據(jù),同時(shí)也是一個(gè)更加強(qiáng)大的分析系統(tǒng)讓你能夠更好地洞察業(yè)務(wù)信息從而獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。54%的調(diào)查對(duì)象正在利用Hadoop捕獲新型數(shù)據(jù),同時(shí)還有48%的人打算這樣做。主要的新型數(shù)據(jù)包括:
- 服務(wù)日志數(shù)據(jù),能夠讓IT部門(mén)更好地管理他們的基礎(chǔ)設(shè)施(64%的調(diào)查對(duì)象已經(jīng)這樣做了,同時(shí)還有28%正計(jì)劃這樣做)。
- 點(diǎn)擊流數(shù)據(jù),能夠讓你更好地理解客戶(hù)是如何使用應(yīng)用程序的(52.3%的調(diào)查對(duì)象已經(jīng)這樣做了,同時(shí)還有37.4%正計(jì)劃這樣做)。
- 社交媒體數(shù)據(jù),能夠讓你了解公眾對(duì)公司的看法(36.5%的調(diào)查對(duì)象已經(jīng)這樣做了,同時(shí)還有32.5%正計(jì)劃這樣做)。
- 地理/位置數(shù)據(jù),能夠用來(lái)分析旅行模式(30.8%的調(diào)查對(duì)象已經(jīng)這樣做了,同時(shí)還有26.8%正計(jì)劃這樣做)。
- 機(jī)器數(shù)據(jù),能夠用來(lái)分析機(jī)器的使用情況(29.3%的調(diào)查對(duì)象已經(jīng)這樣做了,同時(shí)還有33.3%正計(jì)劃這樣做)。
根據(jù)調(diào)查,傳統(tǒng)數(shù)據(jù)的平均增長(zhǎng)率大約是每年8%,而新型數(shù)據(jù)的增長(zhǎng)率則超過(guò)了85%,因此離開(kāi)了Hadoop幾乎不可能收集并處理它們。
InfoQ有幸能夠與Hortonworks公司的市場(chǎng)副總裁David McJannet一起討論該調(diào)查的結(jié)果。
InfoQ:根據(jù)此次調(diào)查的結(jié)果,好像Hadoop應(yīng)用的更加廣泛但是深度卻不夠。好像越來(lái)越多的人正在開(kāi)始使用Hadoop,但是在很多情況下他們的使用僅限于大量數(shù)據(jù)的存儲(chǔ)和對(duì)這些數(shù)據(jù)執(zhí)行簡(jiǎn)單的Hive/SQL查詢(xún)。你認(rèn)為這種趨勢(shì)將會(huì)繼續(xù)么?
McJannet:我認(rèn)為Hadoop在某些行業(yè)中已經(jīng)應(yīng)用得非常深入:對(duì)于早期的采用者而言,Hadoop是整體數(shù)據(jù)架構(gòu)的基礎(chǔ),同時(shí)這些公司現(xiàn)在也已經(jīng)廣泛使用Hadoop。但是在2013年我們發(fā)現(xiàn)它開(kāi)始真正地?cái)U(kuò)大,這從Hadoop Summit的調(diào)查報(bào)告中就可以看出來(lái)。
讓我們思考一下驅(qū)動(dòng)采用率迅速攀升的原因,我認(rèn)為至少有3個(gè)明確的因素:
- 對(duì)Hadoop用例有了更好的理解。實(shí)際上這一點(diǎn)在調(diào)查結(jié)果中有所表現(xiàn),結(jié)果顯示2個(gè)主要推動(dòng)力是:(a)基于新型數(shù)據(jù)構(gòu)建的新型分析系統(tǒng),(b)作為整體架構(gòu)的一部分管理長(zhǎng)期增長(zhǎng)的數(shù)據(jù)。
- 技術(shù)本身的快速發(fā)展繼續(xù)簡(jiǎn)化了使用,同時(shí)也為大規(guī)模推廣創(chuàng)造了條件。Hadoop 2在很多方面都有巨大的進(jìn)步,同時(shí)它還吸收了廣大社區(qū)幾年來(lái)的工作。
- 市場(chǎng)上的供應(yīng)商擁抱該生態(tài)系統(tǒng)。例如,Microsoft所做的工作允許Excel用戶(hù)直接連接到Hortonworks 數(shù)據(jù)平臺(tái)(HDP)上拉取數(shù)據(jù)進(jìn)行分析。而更加復(fù)雜的分析通常會(huì)在SAS這樣的工具中完成,為了將SAS分析工具連接到HDP上他們作了非常深入的工作。這使得該工具的使用變得更加簡(jiǎn)單,在很多情況下最終用戶(hù)甚至根本就不知道他們正在使用Hadoop。
InfoQ:你認(rèn)為應(yīng)用Hadoop的下一步是什么?你會(huì)如何定義像Hortonworks這樣的公司或者供應(yīng)商在該過(guò)程中的角色?
McJannet:我看到了一個(gè)與企業(yè)使用非常一致的模式:大部分用戶(hù)最初采用Hadoop的目的是創(chuàng)建一個(gè)新型分析系統(tǒng)——在大多數(shù)情況下是由某個(gè)行業(yè)線(xiàn)(例如市場(chǎng)營(yíng)銷(xiāo))、或者由某個(gè)業(yè)務(wù)組推動(dòng)的。在***批項(xiàng)目取得成功之后,數(shù)據(jù)架構(gòu)團(tuán)隊(duì)會(huì)意識(shí)到Hadoop在整個(gè)數(shù)據(jù)架構(gòu)中的價(jià)值,進(jìn)而將推動(dòng)Hadoop下一階段的使用——通常是創(chuàng)造一個(gè)“數(shù)據(jù)湖”或者是相似的概念。對(duì)于Hortonworks,我認(rèn)為我們的角色是讓Hadoop市場(chǎng)能夠運(yùn)行起來(lái):
- 聯(lián)合該生態(tài)系統(tǒng)中的其他組織確保開(kāi)源的Hadoop能夠持續(xù)地在開(kāi)源領(lǐng)域發(fā)展同時(shí)為所有人服務(wù)
- 提供一個(gè)真正的已經(jīng)經(jīng)過(guò)大規(guī)模集成和測(cè)試的企業(yè)級(jí)平臺(tái),同時(shí)合并開(kāi)源社區(qū)最近的創(chuàng)新。
- 確保它與用戶(hù)已有的工具和技術(shù)的集成性和互操作性。這就是為什么我們會(huì)努力工作以確保HDP可以與來(lái)自于HP、Microsoft、SAP、SAS、Teradata等公司的技術(shù)進(jìn)行認(rèn)證的原因——事實(shí)上,現(xiàn)在所有的這些合作伙伴都將HDP作為他們產(chǎn)品中的一個(gè)組件進(jìn)行轉(zhuǎn)售。一般來(lái)說(shuō),大多數(shù)組織所依賴(lài)的供應(yīng)商依賴(lài)于Hortonworks針對(duì)Hadoop研發(fā)的相關(guān)產(chǎn)品,這種方式能夠讓整個(gè)市場(chǎng)更快地運(yùn)行和成熟。
InfoQ:盡管Hadoop提供了驚人的處理能力,遠(yuǎn)遠(yuǎn)超過(guò)了SQL,但是Hive在Hadoop的使用上依然有舉足輕重的地位。同時(shí)有更多的公司正在為Hadoop數(shù)據(jù)提供實(shí)時(shí)SQL查詢(xún)解決方案,強(qiáng)調(diào)將SQL作為主要的Hadoop編程語(yǔ)言的聲音似乎增長(zhǎng)得更多。你認(rèn)為這是一個(gè)短期現(xiàn)象還是一個(gè)長(zhǎng)期趨勢(shì)?
McJannet:鑒于當(dāng)今世界豐富的SQL技能,對(duì)存儲(chǔ)在Hadoop中的數(shù)據(jù)進(jìn)行訪(fǎng)問(wèn)時(shí)最常用的方式之一是使用SQL這并不稀奇。在這一方面,Apache Hive是到目前為止Hadoop SQL查詢(xún)領(lǐng)域的一個(gè)占主導(dǎo)地位的工具。當(dāng)然,一些希望抓住這一市場(chǎng)機(jī)遇的專(zhuān)有供應(yīng)商也在Hadoop之上推出了一些新產(chǎn)品,但是總的來(lái)說(shuō)Hive是標(biāo)準(zhǔn)同時(shí)也很有可能始終都是,特別是考慮到為了繼續(xù)提升Hive的速度、規(guī)模和SQL語(yǔ)義Microsoft、SAP、Hortonworks以及其他組織在Stinger Initiative上所做的工作。
除了SQL之外,還有很多其他的方式可以訪(fǎng)問(wèn)存儲(chǔ)在Hadoop中的數(shù)據(jù),但是公平一點(diǎn)地說(shuō),使用SQL/Hive將會(huì)是最主要的途徑。例如,Hive往往是所有基于Hadoop的BI工具所使用的接口。但是對(duì)于更加復(fù)雜的用例,我們確實(shí)會(huì)看到廣泛使用的技術(shù),例如Pig(腳本查詢(xún)),同時(shí)還有更加普遍的高端工具,它們所使用的接口對(duì)用戶(hù)而言并不可見(jiàn),例如R和SAS。
隨著時(shí)間的發(fā)展,最常用的接口很有可能是一個(gè)打包的應(yīng)用程序(SAS、Microstrategy、Excel、業(yè)務(wù)對(duì)象、Platfora等),最終用戶(hù)根本就不需要知道底層用了什么。
InfoQ:你認(rèn)為Hadoop將會(huì)被用于構(gòu)建主流企業(yè)應(yīng)用程序么?大約什么時(shí)候我們才能看到這些應(yīng)用程序?
McJannet:毫無(wú)疑問(wèn)!歷史告訴我們Web公司是采用這些新型技術(shù)(例如現(xiàn)在正在發(fā)展中的Hadoop)的先鋒。這些公司已經(jīng)基于Hadoop構(gòu)建他們的主流應(yīng)用程序幾年了,現(xiàn)在我們看到主流的企業(yè)也在遵循同樣的路徑。
也是出于這方面的原因,我們才有了這樣一個(gè)焦點(diǎn):與人們已經(jīng)擁有的開(kāi)發(fā)技能集成。例證:.NET開(kāi)發(fā)者?.NET SDK for Hadoop是基于開(kāi)源HDP的。Java開(kāi)發(fā)者?Java Spring(構(gòu)建Java應(yīng)用的主要框架)的HDP認(rèn)證將會(huì)是這個(gè)遷移的一個(gè)強(qiáng)力推動(dòng)者。
什么時(shí)候?做這種類(lèi)型的預(yù)測(cè)一直都非常難,但是我認(rèn)為新生技術(shù)的轉(zhuǎn)變通常會(huì)需要比預(yù)期更長(zhǎng)的時(shí)間,同時(shí)意義也要比預(yù)期更加深遠(yuǎn)。Hadoop技術(shù)的使用到現(xiàn)在已經(jīng)進(jìn)行了好幾年,現(xiàn)在才真正地開(kāi)始固定下來(lái),因?yàn)槭聦?shí)證明它能夠帶來(lái)客戶(hù)群的增長(zhǎng)。作為一個(gè)供應(yīng)商,我們認(rèn)為我們角色中的一個(gè)非常重要的方面是:關(guān)注于技術(shù)和技能的集成從而以最及時(shí)最合理的方式推動(dòng)它的發(fā)展。