自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop的夢想與現實

數據庫 Hadoop
可以說,Hadoop的出現是計算技術發(fā)展進程中一個重要的里程碑,它使實用的大規(guī)模分布式計算和存儲成為可能。因此,有專家評論,Hadoop是到目前為止最為成功的通用分布式處理框架,也是這些年來影響最為深遠的系統(tǒng)性開源項目之一。

 

[[118812]]

IDC發(fā)布的Hadoop軟件生態(tài)系統(tǒng)預測報告顯示,Hadoop市場正在以60%的年復合增長率高速擴張。Gartner也估計,2014年,Hadoop生態(tài)系統(tǒng)市場規(guī)模在7700萬美元左右,2016年,該市場規(guī)模將快速增長至8.13億美元。

另外,Allied Market Research調查報告顯示,2013年至2020年,全球Hadoop市場份額將以58.2%的年復合增長率,從20億美元增長至50.2億美元,增長幅度超24倍。其中,大數據分析需求是整個Hadoop市場的主要驅動力,也吸引了眾多IT淘金者參與。

Hadoop市場的火爆也體現在人才市場上。2013年,美國某求職網站列出的2013年高薪技術職位排行中,大數據相關技術職位囊括前三甲,分別為Hadoop、Big Data和NoSQL。

Gartner的一項研究表明,到2015年,65%的分析應用程序和先進分析工具都將基于Hadoop平臺。在未來一段時間內,Hadoop將變得更加流行。Hadoop的知名度是足夠高了,但是Hadoop在項目中到底表現怎么樣?有Hadoop項目經驗的工程師最有發(fā)言權。

上篇:優(yōu)勢與不足

事實上,很多初次接觸Hadoop的程序員都會把Hadoop當做化解大數據疑難雜癥的靈丹妙藥,希望能夠迅速地做到藥到病除。但是,當下載了Hadoop社區(qū)發(fā)行版之后,很多工程師才發(fā)現成功“馴服”Hadoop的過程是“路漫漫其修遠兮”,隨之就會產生巨大的心理落差。

Hadoop難“馴服”

曾經擔任雅虎首席云計算架構師的Todd Papaioannou曾這樣評價Hadoop:它屬于底層基礎軟件,而今天大多數IT人員都不熟悉底層基礎軟件,因此實施難度大,極為難用。如果不解決技術復雜性問題,Hadoop將被自己終結。

當年,Todd Papaioannou帶著團隊要完成一項艱巨的任務——在擁有40萬個節(jié)點的雅虎私有云中配置4.5萬臺Hadoop服務器,為5000位雅虎開發(fā)人員創(chuàng)建一個穩(wěn)定的開發(fā)平臺。

雅虎負責建設Hadoop平臺的團隊個個手忙腳亂,就像一群中學生在車庫中做手工,從Hadoop代碼庫中翻找可供粘貼整合的代碼。當基礎架構總算搭好的時候,開發(fā)者又花了4~5個月才開始發(fā)布應用,這也嚴重影響了雅虎的產品創(chuàng)新進度。

但是,并非所有人都那么懼怕Hadoop,一些技術實力強的互聯網公司在馴服了Hadoop之后,開始大膽地嘗試一些源于Hadoop尚未成熟但是更高效的開源新技術,如Spark和Yarn。

8月12日,淘寶技術部數據挖掘與計算團隊負責人明風在其個人新浪微博上透露,Spark on Yarn已經在淘寶上線一周年了。明風表示,經過團隊成員一個多月的努力,終于成功地將Spark on Yarn接入阿里云梯的Yarn生產集群,并每日調度生產作業(yè)。目前,這個基于阿里云梯的Yarn集群規(guī)模是:100臺機器,8核CPU、單個作業(yè)最大可用內存400GB。

“死磕”Hadoop

曾經擔任原北京暴風科技有限公司暴風影音平臺研發(fā)經理的童小軍,在2010年到2012年兩年多的時間里,一直在與Hadoop“死磕”。

回顧那段歷史,童小軍不無驕傲地說:“當年,暴風影音的業(yè)務部門離不開我們的數據部門,數據部門一癱瘓,業(yè)務部門就無法決策,第二天的工作也就停止了。”

當時,那頭被馴服的“小象”Hadoop成為暴風影音搜索和數據平臺的核心角色。該平臺的順利運行給當時的暴風影音帶來兩個最直接的變化:

第一是將暴風影音每天20TB日志數據的分析時間從7小時縮減為不足1小時。

第二是將整個系統(tǒng)的統(tǒng)計數據作為業(yè)務部門第二天開展工作的依據。

例如,哪個服務崩潰了、什么地方的服務出現異常、什么服務的用戶量下降了等。該平臺還給暴風影音帶來了意外收獲:隨著數據處理速度的提升,原來需要外包給其他公司分析的廣告數據,可以由暴風影音的數據部門來承擔。

童小軍直言:“雖然現在的Hadoop看起來沒有那么難掌控,但是當初我們從零起步的時候著實為Hadoop傷透了腦筋,走了很多彎路。”

童小軍表示,Hadoop很多默認配置都不能用,需要根據項目自己配置,而且每臺機器的配置都不一樣,對于初學者來說難度很大。另外,Hadoop平臺上的很多應用是用C++或VC開發(fā)的,運行前還需要轉碼。另外,一開始的Hadoop項目,并沒有得到公司領導的大力支持,公司只給數據部門配備了3臺低端服務器。

無論童小軍怎么努力,該平臺總是運營一段時間就崩潰。為了能夠把Hadoop系統(tǒng)運行起來,童小軍曾經給公司高層提議購買100臺服務器,結果被領導痛批一通。萬般無奈的情況下,童小軍冒險將該平臺系統(tǒng)搭在了公司正在使用的幾十臺服務器上,結果Hadoop系統(tǒng)一次就運行成功了。

童小軍面臨的更大困難是把暴風影音業(yè)務系統(tǒng)全部遷移到Hadoop平臺上來。從原來的平臺遷移到Hadoop平臺上,相當于把全部的程序都重寫一遍,這個工作從2010年持續(xù)到2012年。工作量大是一方面,業(yè)務系統(tǒng)千差萬別而且復雜度高更讓童小軍頭疼,沒有一定的耐心是不可能完成遷移的。不過,暴風影音的業(yè)務系統(tǒng)遷移到Hadoop平臺之后,至少在5年內都可以滿足數據增長的需求。

在Hadoop剛誕生的那幾年里,人們幾乎將Hadoop與大數據畫上了等號。似乎,企業(yè)只要下載一套Hadoop發(fā)行版馬上就能擁有大數據分析處理的能力了。但是,經過這幾年的實踐,程序員們逐漸開始明白如何正確看待Hadoop,而Hadoop表現出來的優(yōu)勢和不足之處也更加鮮明。

實時分析能力不盡如人意

說到Hadoop的不足之處,星環(huán)信息科技(上海)有限公司CTO孫元浩談到,早期在把Hadoop應用到數據倉庫時碰到過很多困難。在GB級到TB級的數據量上,MapReduce的性能會比關系數據庫或者MPP(massively parallel processing,大規(guī)模并行處理機)數據庫慢10倍左右,再加上HiveQL支持的語法只是標準SQL語法的30%,導致當初很多建設在Hadoop之上的數據倉庫項目失敗了。同時,孫元浩表示,由于企業(yè)復雜的工作流通常需要多個階段的MapReduce任務,而MapReduce的輸入輸出必須經過低速磁盤,導致運行過程復雜,迭代任務時效率非常低,因此不適合對延時要求高的交互式分析或者需要復雜迭代的數據分析任務。

Spark亞太研究院院長王家林則具體指出,MapReduce進行大數據處理是基于磁盤的,每次計算都要經歷從磁盤讀取數據、計算數據、保存數據的三階段,這就使Hadoop難以滿足人們對大數據的特別查詢需求。

賽仕軟件研究開發(fā)(北京)有限公司(以下簡稱SAS)總經理劉政也指出,Hadoop在任務展開和執(zhí)行時犧牲了部分時效,而且Hadoop的Reduce任務只有在全部Map任務完成后才能啟動執(zhí)行。因此,Hadoop對于企業(yè)的實時業(yè)務分析系統(tǒng)而言存在弱點。

北京永洪商智科技有限公司(以下簡稱永洪科技)CEO何春濤認為,Hadoop的最大不足是:Hadoop追求高吞吐量,導致時間延遲較高。Hadoop可以支持百億級的數據量,但很難應對秒級響應的需求,即使只是數億的數據量,Hadoop也只適合做分鐘級別的離線分析系統(tǒng)。因此,不適合做實時分析系統(tǒng)。何春濤從通信層的角度分析指出,當Hadoop任務分配Server時不會將信息發(fā)送到計算節(jié)點,而是讓計算節(jié)點通過心跳機制去拉動任務。

基于框架的通用性,MapReduce代碼也會在HDFS(Hadoop Distributed File System,分布式文件系統(tǒng))中傳送,在各計算節(jié)點展開,再通過啟動新JVM進程裝載并運行。類似的JVM進程啟/停的動作會有五六次之多。Reduce作業(yè)只能在全部Map 作業(yè)完成之后才能啟動。此外,何春濤認為,Hadoop缺少專業(yè)的商業(yè)支持服務,傳統(tǒng)企業(yè)需要儲備專業(yè)的Hadoop技術人才才能保證系統(tǒng)的正常運轉。

Teradata天睿公司大中華區(qū)大數據事業(yè)部總監(jiān)孔宇華也對Hadoop技術人才缺乏表示擔憂。Hadoop是一個性價比很高的數據抓取、數據管理、數據轉換平臺。有了這種比較廉價的數據處理平臺,很多企業(yè)都可以把數據保存下來挖掘更多的數據價值。但是,企業(yè)真正要在Hadoop平臺上做數據分析、數據挖掘,最大的難題是需要找到一些基于Hadoop平臺懂數據、懂分析,又懂編程的技術人才。

同時,王家林認為,Hadoop難以應對多元化的大數據處理業(yè)務。企業(yè)如果要同時部署在語言和運行機制方面都有差異的Hadoop、Storm、Impala等三套系統(tǒng),那就需要三個獨立的技術團隊開發(fā)、運營和維護,同時三個系統(tǒng)之間共享數據的代價也是非常大的,更不用談直接共享彼此的操作算子。Hadoop近三年來在架構上和性能上并無長足進步,很多新版本只不過是對系統(tǒng)錯誤和不足的修修補補而已,這就導致了系統(tǒng)代碼越來越臃腫。

同時,Hadoop系統(tǒng)編寫和開發(fā)語言采用Java,由于Java語言的特性導致在開發(fā)時語言的表現力差,在表達機器學習等算法時非常繁雜,這使得Hadoop在應對大數據處理要求時的表現越來越糟糕。

Hadoop Hadoop

高性價比的大數據處理平臺

孫元浩表示,Hadoop主要由HDFS和MapReduce組成:HDFS是一個高可擴展的分布式文件系統(tǒng),是大數據軟件棧的基石;MapReduce在處理PB級別的數據時具有高容錯性、高吞吐量的特點。

劉政認為,Hadoop是下一代海量數據分布式處理的理想基礎架構,特別是對非結構化數據的存儲和處理,它可以讓用戶比較容易地構建自己的分布式計算平臺。

Hadoop的優(yōu)勢不僅表現在海量數據存儲和處理能力方面的高可靠性,以及能夠自動保存多個數據副本和自動重新分配失敗任務的高容錯性,還表現在它能夠在計算機集群數以千計的節(jié)點間分配數據和完成計算方面的高可擴展性,另外還在于它在計算節(jié)點之間動態(tài)移動數據和保持計算負載均衡獲得較快處理速度的高效性?;贘ava技術開發(fā)的Hadoop能為企業(yè)系統(tǒng)提供穩(wěn)定可靠的API接口,為利用大規(guī)模廉價硬件設備上的計算能力構建高性能分布式計算框架提供了可能。因此,Hadoop非常適合構建非實時的離線分析系統(tǒng)。

中篇:挑戰(zhàn)與融合

Gartner預測,到2018年大數據將帶來超過1000億美元的IT開支。IDC也預測,2015年大數據市場規(guī)模將從2010年的32億美元增長到170億美元,年復合增長率為40%。

我們總是聽到大數據這個詞,那么多大的數據算是大數據,Hadoop適用于多大的數據量呢?麥肯錫曾經對大數據的范圍進行定義:傳統(tǒng)數據庫有效工作的數據量一般在10TB至100TB,100TB被成為是大數據的門檻。

IDC在給大數據做定義時也同樣把閾值設在100TB。這兩家分析機構認為,大數據大到傳統(tǒng)數據分析工具已經無法進行正常采集、存儲、管理和分析過程,這個時候恰恰就是Hadoop最適合的應用場景了。

自從IBM、甲骨文、SAP等將排名靠前的BI廠商收入囊中后,BI市場保持相對穩(wěn)定了很多年。在數據倉庫領域,Teradata多次被Gartner數據倉庫DBMS(數據庫管理系統(tǒng))魔力象限列為領導者。同時,IDC的研究數據也表明,SAS在高級分析領域占有35.4%的市場份額,超過了排名第二的競爭者兩倍以上。

Hadoop的出現似乎為打破原有的市場格局做著鋪墊。為了適應大數據時代的企業(yè)新需求,為了繼續(xù)自己的領導者地位,很多國際IT巨頭都在向Hadoop伸出橄欖枝。

軟件巨頭擁抱Hadoop

數據倉庫領域的領導者Teradata在2011年收購了Aster公司。同時,Teradata開始與Hortonworks合作兼容其商用發(fā)行的Apatch Hadoop。并且,Teradata還推出了統(tǒng)一數據架構(Teradata Unified Data Architecture,UDA),包含三層架構:Hadoop作為數據存儲和數據轉換平臺,Teradata數據倉庫作為數據分析平臺,Aster作為分析和探索平臺。

孔宇華表示,為了更增強Teradata統(tǒng)一數據架構的功能,Teradata新收購了一家公司Hadapt。收購Hadapt之后,Teradata可以把SQL數據庫創(chuàng)建在Hadoop上,可以把Aster上的應用更好地與Hadoop結合,也可以讓Teradata數據倉庫和Aster更好地配合,最終目的是實現原本獨立的三個平臺的數據共享。Teradata的QueryGrid可以從Teradata或Aster任意一個平臺上發(fā)出指令,從其他平臺抽取數據做集中分析。

孔宇華強調,Teradata最大的愿景是在不同平臺之間實現數據運作、數據管理和數據應用。

作為一家傳統(tǒng)的數據分析工具提供商,劉政表示,Hadoop項目和相關技術的廣泛應用,并沒有影響到SAS這類數據分析軟件廠商。恰恰相反,由于Hadoop非常適合構建時效性不是很強的離線分析系統(tǒng),Hadoop的廣泛應用和成熟對擅長數據分析的SAS而言是一種福音。

目前,SAS已經將Hadoop 作為下一代內存分析服務器系統(tǒng)的基礎架構組件之一,并開發(fā)了相應的數據訪問引擎。

另外,SAS對Hadoop的主要商業(yè)發(fā)行版本都有支持,包括Cloudera、Hortonworks、BigInsights、Pivotal HD和Cloudera Impala等??梢哉f,Hadoop被業(yè)界越多的采用,SAS就會有越多的潛在用戶?,F在,SAS在Hadoop 平臺上引入了Embedded Process技術。該技術將融合SAS自身的內存計算技術和Hadoop的各種服務,更好地支持Hadoop的作業(yè)調度和計算負載分配機制。

劉政認為,對SAS的用戶而言,并不存在所謂的數據和大數據的鴻溝,因為SAS 語言隔離了用戶需要面對的純粹技術性挑戰(zhàn),畢竟在分析領域,用戶其實并不關心數據的存儲架構和計算架構。

SAS選擇Hadoop作為下一代商業(yè)智能的基礎支持組件,審慎地看待Hadoop技術的實質并不斷挖掘Hadoop可能給用戶帶來的好處,降低用戶從傳統(tǒng)數據時代邁入大數據時代的技術門檻。

劉政指出,Hadoop給SAS帶來的直接挑戰(zhàn)是:許多用戶說要采用Hadoop來幫自己邁過大數據時代的門檻,但其實有些用戶并不明白Hadoop能夠給他們帶來什么價值,甚至很多用戶根本沒有必要使用大數據技術。

因此,SAS對應的策略是,讓Hadoop對用戶完全透明。用戶只要知道他們的分析已經被SAS高性能分析服務器所集成和使用,哪怕將來Hadoop本身不斷演進,用戶也不必擔心這種演進給用戶帶來的新挑戰(zhàn)。

劉政做了一個形象的比喻:“如果說Hadoop是一頭日益強壯的小象,終有一天會在大數據分析領域恣意馳騁,那么我們希望SAS就是一位馴獸師。”

何春濤表示,Hadoop和敏捷BI各自適用于不同的業(yè)務場景,兩者是互補關系。在永洪科技的諸多客戶中,有不少是采用Hadoop實現數據存儲。要實現這些企業(yè)的敏捷BI,只需要把Hadoop的數據導入永洪科技基于分布式內存計算的高性能數據集市,然后進行敏捷可視化分析即可。

由于現在Hadoop的應用相當廣泛,永洪科技產品支持開箱即用的Hadoop數據源連接,以擁抱Hadoop生態(tài)體系,既能滿足企業(yè)用戶海量數據存儲的需要,又能進行實時數據分析。

事實上,IBM、微軟、甲骨文等國際IT巨頭在更早的時候就紛紛開始擁抱Apache Hadoop。

2011年,IBM宣布在SmartCloud平臺上新增一項基于Apache Hadoop的服務——InfoSphere BigInsights分析軟件。該軟件包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數據庫的連接件和IBM BigSheets。

2012年,IBM宣布與Cloudera合作,并開始支持其他Hadoop發(fā)行版本。與此同時,IBM收購大數據工具Vivisimo公司,將大數據的搜索和分析擴展到Hadoop之外的傳統(tǒng)遺留應用和數據倉庫。日前,IBM與Veristorm合作提供業(yè)內首個商業(yè)Hadoop for System z Linux,使得客戶無需將數據搬離主機就可以更快更安全地進行基于Hadoop的各種分析。其中,zDoop軟件則是其在Hadoop方面的新產品,利用新存儲和Hadoop產品實現更佳的數據管理,獲取實時洞察。

為了更好地兼容Apache Hadoop,微軟與Hortonworks合作,推出了自己的Hadoop發(fā)布版HDInsight。微軟HDInsight平臺也完全兼容其他Apache Hadoop發(fā)行版,同時集成自己的商業(yè)智能工具,例如Excel、SQL Server和PowerBI。

隨后,微軟通過HDInsight與Active Directory的集成來增強Hadoop的安全性,通過與System Center集成,簡化Hadoop的管理,并支持IT部門在同一面板上管理Hadoop集群、SQL Server數據庫和應用程序。

Hadoop與SQL Server 2012兼容的特性是微軟與Hortonworks合作開發(fā)的結果。基于這次合作,微軟很快推出了基于SQL Server 2012的并行數據庫一體機PDW布局大數據市場。更為積極的事情是,Hortonworks在2013年2月25日發(fā)布了Windows版Hortonworks 大數據平臺HDP(Hortonworks Data Platform)。

2011年10月,甲骨文發(fā)布了新版NoSQL數據庫企業(yè)版,這是運行于Hadoop 之上的大數據軟件之一。2012年,甲骨文加強與Cloudera的合作,將Cloudera’s Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大數據機之中。

甲骨文同時還推出了Oracle Big Data Connectors,該系列軟件產品能夠幫助客戶輕松訪問通過Oracle數據庫11g集成存儲在CDH Hadoop分布式文件系統(tǒng)或Oracle NoSQL數據庫中的數據。

硬件加速Hadoop

硬件廠商走在Hadoop行列里面,似乎有些讓人驚訝,但是,通過以往的經驗來看,基于硬件的數據加速,往往比單純軟件加速更加有效。為何硬件巨頭熱衷于Hadoop發(fā)行版?那是因為,能夠駕馭大數據的最佳方法就是親自“玩”Hadoop。

2013年2月,英特爾宣布推出自己的Hadoop發(fā)行版Intel Distribution for Apache Hadoop,其中囊括了英特爾提供的HDFS、YARN、HBase和Hive等增強套件。

英特爾的想法是,通過硬件和軟件的改善,讓英特爾的芯片在預測分析、云數據收集和具體任務處理等領域有更好的性能,從而幫助客戶打造一個面向大數據應用的Hadoop高效平臺。

不過,經過一年多的實踐之后,英特爾最終還是在2014年3月停止發(fā)行自己的Hadoop發(fā)行版,轉而支持在Hadoop領域資格更老的Cloudera的

同時,英特爾投資部門前后向Cloudera投資了數億美元。

與英特爾一樣的硬件廠商,還有EMC。2010年EMC通過收購Greenplum正式進入了數據倉庫市場。EMC與Hadoop領域的翹楚Hortonworks合作,將自身存儲技術和Apache Hadoop結合起來,發(fā)布了自己的發(fā)行版Greenplum HD。

華為在Hadoop社區(qū)中的貢獻者和提交者也是國內最多的,可謂是國內在Hadoop領域關注時間較早,投入人力最多的公司之一。華為多年來在Hadoop方面的投入,使得華為與國際IT巨頭在大數據領域處于同一起跑線上。

目前來看,華為推出了一款基于開放社區(qū)發(fā)布的Hadoop發(fā)行版FusionInsight Hadoop。該版本基于華為自主研發(fā)的Hadoop HA平臺,構建NameNode、JobTracker、HiveServer的HA功能,進程故障后系統(tǒng)自動Failover,無需人工干預。

同時,該版本包含了開放社區(qū)的主要軟件及其生態(tài)圈中的主流組件,并對這些組件在高可用性、安全、易管理、性能方面進行了大量優(yōu)化。并且,該版本針對開放社區(qū)Hadoop增強了商務智能分析能力,集成各種數據分析組件的同時加強與傳統(tǒng)商務智能分析平臺的集成,讓企業(yè)可以更快、更準、更穩(wěn)地從各類繁雜無序的海量數據中洞察商機。

下篇:先機與商機

在傳統(tǒng)BI和數據倉庫領域,很難再有新公司還能撼動現在的市場格局。在大數據需求旺盛的背景下,基于Hadoop開源項目的新公司將獲得得更多的新機遇。從Hadoop誕生的那一天起,國外如Cloudera、Hortonworks、MapR等新公司就相繼成立,搶占了市場的先機。如今,它們都已經成為Hadoop領域的佼佼者,即使很多財大氣粗的國際IT巨頭要進入Hadoop領域,也會優(yōu)先考慮與它們合作。

Cloudera公司成立于2008年,CDH為其Hadoop發(fā)行版。對于Cloudera來說,2014年與英特爾深度合作是一次英明的決定,這次合作讓Cloudera得以借助英特爾的渠道進行全球化營銷。

2009年成立的MapR公司,在Hadoop領域顯得有點特立獨行。MapR認為,Hadoop的缺陷來自于其架構設計本身,小修小補不能解決問題。于是,MapR用新架構重寫了HDFS。結果證明,MapR是對的,HDFS的私有替代品比當前的開源版本快3倍,同時也通過API與其他Hadoop 發(fā)行版保持兼容。

Hortonworks公司創(chuàng)立于2011年,HDP是其Hadoop發(fā)行版。Hortonworks最為吸引合作伙伴和客戶的地方是,公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,這些工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop,這些工程師貢獻了Hadoop 80%的代碼。

2011年,剛剛成立的Hortonworks曾因為“誰對Hadoop貢獻最大”的爭論與Cloudera有一次小摩擦。不過,隨后Cloudera公布了一張各廠商貢獻的Hadoop源代碼百分比,顯示了當時各廠商對Hadoop的貢獻,同時也似乎在影射出各廠商在Hadoop領域的話語權。而國內一些基于Hadoop項目建立起來的大數據新公司,正在踏實地前行,為國內各行業(yè)的企業(yè)客戶普及和應用Hadoop做出自己的努力。

不過,孔宇華認為,國內基于Hadoop的創(chuàng)業(yè)公司還有很多機會,但是從基礎平臺的市場切入難度較大,而基于Hadoop做一些數據的應用開發(fā)機會更多一些。

北京紅象云騰系統(tǒng)技術有限公司(以下簡稱紅象云騰)成立于2013年5月,2014年5月份獲得百萬級天使投資。EasyHadoop社區(qū)發(fā)起人和負責人、Cloudera CCDH認證中國區(qū)第一個通過者、紅象云騰創(chuàng)始人童小軍表示,紅象云騰專注于企業(yè)大數據引擎研發(fā),致力于將大數據(Hadoop/Spark等)技術帶給更多的中國企業(yè)?;贖adoop,紅象云騰定制開發(fā)了RedHadoop Enterprise CRH企業(yè)版(紅象大數據平臺)。在這個平臺上,紅象云騰已經構建了相應的分析應用程序,例如,基于非結構化數據庫技術構建安防的“視頻分析系統(tǒng)”和基于實時分析查詢技術構建商業(yè)智能的“數據工廠系統(tǒng)”。

童小軍透露,紅象云騰即將在8月底發(fā)布集成批處理(MapReduce)、流處理(Storm)和內存計算(Spark)的三個引擎,并且提供一鍵式安裝部署,而且可以做到安裝過程清晰可見、簡捷易懂。值得一提的是,童小軍還有一個遠大的計劃,基于RedHadoop Enterprise CRH3打造一項面向移動APP的大數據云平臺公有云服務——紅象數據云(RedCloud.cn)。

童小軍表示:“未來,我們將在RedCloud.cn上做一個開放的平臺,吸引更多的初學者進入社區(qū),所有移動APP都可以直接調我們的API,租用我們的服務。”

同時,Spark的出現也讓星環(huán)科技CTO孫元浩看到了商機。孫元浩認為,Spark讓中國的創(chuàng)業(yè)公司可以與國外一流公司站在同一個起跑線上競爭,并且有機會超越國外公司,是一次難得的機遇。在Spark出現前,孫元浩受Google Dremel的誤導,開發(fā)新的MPP處理引擎。經過近一年的嘗試,孫元浩還是回到MapReduce計算模式這個起點上。2011年底至2012年初,大數據產品競爭的焦點轉移到SQL on Hadoop上,當時孫元浩正在尋找一種更高效的Hadoop MapReduce實現方案。

孫元浩認為:“經過近10年的演化,MapReduce計算模式被證明是高可擴展和高度容錯的,只是Hadoop MapReduce的實現比較低效。我們需要做的是重新實現MapReduce。”當Spark宣稱比MapReduce快100倍時,一下就吸引了孫元浩的注意。經過仔細評估后,孫元浩認為,Spark是MapReduce計算模式的一個全新實現,Spark架構設計的巧妙、與Hadoop良好的兼容性成為最終促成孫元浩以Spark作為重點發(fā)展方向。孫元浩指出星環(huán)科技在Spark上的兩點創(chuàng)新。

創(chuàng)新之一是提出RDD(Resilient Distributed Dataset,彈性分布數據集)的概念,所有的統(tǒng)計分析任務由對RDD的若干基本操作組成。RDD可以被駐留在內存中,后續(xù)的任務可以直接讀取內存中的數據,因此速度可以得到很大提升。創(chuàng)新之二是把一系列的分析任務編譯成一個由RDD組成的有向無環(huán)圖,根據數據之間的依賴性把相鄰的任務合并,從而減少大量的中間結果輸出,極大減少了磁盤I/O,使得復雜數據分析任務更高效。

基于這兩點創(chuàng)新,企業(yè)可以在Spark基礎上進行批處理、交互式分析、迭代式機器學習、流處理,因此Spark可以成為一個用途廣泛的計算引擎,并在未來取代MapReduce的地位。

目前,星環(huán)科技提供的交互式分析引擎名叫Inceptor,從下往上有三層架構,最下面是一個分布式緩存(Transwarp Holodesk),可以建在內存或者SSD上,中間層是Spark計算引擎層,最上層包括一個完整的SQL99和PL/SQL編譯器、統(tǒng)計算法庫和機器學習算法庫,提供完整的R語言訪問接口。

無論是對企業(yè)用戶還是對初創(chuàng)企業(yè)來說,Hadoop都是一個美麗的夢想,不過,擺在我們眼前的情況是,并非每個企業(yè)都有能力把這個夢想變?yōu)楝F實。

責任編輯:彭凡 來源: 36大數據
相關推薦

2013-01-23 11:24:23

物聯網企業(yè)物聯網IT管理

2011-11-14 16:15:05

iOS創(chuàng)業(yè)

2010-07-08 10:41:15

2012-11-14 09:49:53

大數據財務云計算

2012-02-08 14:23:29

Wi-Fi千兆Wi-Fi802.11ac

2013-09-24 09:22:32

按需數據中心數據中心SDN

2013-04-19 08:57:48

微軟Office 365云計算

2014-09-16 11:08:45

國產操作系統(tǒng)

2012-02-28 09:33:36

云計算

2011-06-30 08:58:34

程序員

2012-03-22 21:37:25

2012-11-14 16:16:13

阿里云彈性計算

2012-02-17 09:29:20

林書豪雷軍小米

2021-01-29 11:30:47

數字定義車聯網數字化

2009-06-11 19:58:27

索尼愛立信開發(fā)者世界開發(fā)創(chuàng)意大賽

2011-12-26 10:18:45

導航犬CEO錢進

2019-07-12 04:56:16

加密數據安全數據泄露

2018-05-21 09:13:18

5G運營商網絡通信

2015-12-11 14:29:50

2016-06-15 21:59:28

農產品新發(fā)地
點贊
收藏

51CTO技術棧公眾號