Hadoop 2013:最受關(guān)注的13款大數(shù)據(jù)產(chǎn)品
2013年6月26、27日兩天,在圣何塞舉行的Hadoop Summit 2013,不僅是Hadoop生態(tài)圈的盛宴,也是各路玩家的戰(zhàn)場(chǎng)。不僅有Sqrrl、Wandisco、GridGain等新創(chuàng)業(yè)公司涌現(xiàn),也能看到核心玩家Cloudera和Hortonworks互相角力。有超過(guò)60家大數(shù)據(jù)公司參與其中,既包括像英特爾和Salesforce.com這樣的知名廠商,也有像Sqrrl和Platfora這樣成立沒(méi)有多久的初創(chuàng)公司。以下是這次峰會(huì)上展示的13款全新的或者增強(qiáng)的大數(shù)據(jù)產(chǎn)品。
1、Continuuity開(kāi)發(fā)公司現(xiàn)在支持批量處理
Continuuity發(fā)布了支持批量處理的Continuuity Developer Suite 1.7,將MapReduce集成到平臺(tái)中為開(kāi)發(fā)者提供更廣泛的工作負(fù)載能力。
Continuuity幫助Java開(kāi)發(fā)者構(gòu)建能運(yùn)行Hadoop和HBase數(shù)據(jù)庫(kù)的應(yīng)用。這些應(yīng)用支持像運(yùn)作分析這樣的實(shí)時(shí)應(yīng)用。但是Continuuity的首席執(zhí)行官Jon Gray表示,一些應(yīng)用仍然要求MapReduce的批量處理架構(gòu)。
Continuuity Developer Suite 1.7還提供了一些用于流式實(shí)時(shí)分析、定位和個(gè)性化以及異常檢測(cè)的應(yīng)用模板。
2、Datameer首次展示大數(shù)據(jù)分析軟件
Datameer發(fā)布了面向企業(yè)用戶(hù)的Datameer 3.0數(shù)據(jù)集成和分析軟件。該版本增加了“智能分析”功能,可以從Hadoop中保存的大量復(fù)雜數(shù)據(jù)中自動(dòng)找出模型和關(guān)聯(lián)性。
Datameer 3.0采用四種機(jī)器學(xué)習(xí)的技術(shù):聚類(lèi)、決策樹(shù)、列依賴(lài)性和建議。雖然這些通常是數(shù)據(jù)科學(xué)家涉足的領(lǐng)域,但是被集成到了Datameer軟件中,這樣企業(yè)用戶(hù)就可以將其作為一項(xiàng)自助服務(wù)使用。
Datameer 3.0將在未來(lái)幾個(gè)月內(nèi)提供給用戶(hù)進(jìn)行beta測(cè)試。
3、Hortonwork社區(qū)預(yù)覽支持Yarn的HDP 2.0平臺(tái)
Hortonworks將在社區(qū)中預(yù)覽下一代支持Yarn(下一代Hadoop數(shù)據(jù)處理框架)的Hortonworks Data Platform。
作為ASF Hadoop項(xiàng)目的一部分,Yarm旨在實(shí)現(xiàn)多個(gè)用戶(hù)實(shí)例,而不是單一的數(shù)據(jù)集。HDP 2.0社區(qū)預(yù)覽版本中支持Yarn,將讓Hortonworks的合作伙伴和客戶(hù)能夠使用這項(xiàng)新技術(shù),參與到最終規(guī)范的制定中,Hortonworks營(yíng) 銷(xiāo)副總裁Dave McJannet這樣表示。
4、Kognitio推出第八代分析平臺(tái)
Kognitio推出了新一代的Kognitio Analytic Platform,加強(qiáng)了多種編程語(yǔ)言之間的連接性,并提高了性能。新版本提供了NoSQL處理能力,以及大規(guī)模并行處理任何腳本或者像R、Python或者Java這樣的二進(jìn)制代碼。
使用該版本進(jìn)行基準(zhǔn)測(cè)試表明,它將答案返回給復(fù)雜查詢(xún)請(qǐng)求的速度是上一版本的兩倍。
新版本還提供了高速數(shù)據(jù)輸出,針對(duì)高速數(shù)據(jù)備份以及內(nèi)存壓縮,作為一個(gè)可選功能。
5、MapR和Fusion-io聯(lián)手提高HBase性能
MapR和Fusion-io合作,在運(yùn)行讀取密集型HBase應(yīng)用的時(shí)候,將基于Hadoop的MapR M7大數(shù)據(jù)平臺(tái)與Fusion-io ioMemory系統(tǒng)結(jié)合起來(lái),實(shí)現(xiàn)重要的性能提升。
據(jù)MapR稱(chēng),HBase應(yīng)用性能通常受到磁盤(pán)存儲(chǔ)瓶頸的限制。使用Fusion-io ioMemory,MapR系統(tǒng)的性能提高25倍。
I/O性能的局限性,會(huì)使采用HBase開(kāi)源數(shù)據(jù)庫(kù)用于高性能計(jì)算任務(wù)的速度變慢。
6、Pentaho添加大數(shù)據(jù)平臺(tái)集成能力
業(yè)務(wù)分析應(yīng)用開(kāi)發(fā)公司Pentaho,推出了所謂其軟件中的“自適應(yīng)大數(shù)據(jù)層”,提供與大數(shù)據(jù)平臺(tái)集成的能力。
這項(xiàng)新技術(shù)將Pentaho與Hadoop發(fā)行版連接起來(lái),如Cloudera、Hortonwork、MapR Technologies、Intel、NoSQL數(shù)據(jù)庫(kù)Cassandra以及MongoDB。
7、RainStor升級(jí)數(shù)據(jù)庫(kù)安全性及搜索能力
RainStor推出了對(duì)其數(shù)據(jù)庫(kù)軟件的重要更新,增強(qiáng)了安全特性,并稱(chēng)這樣可以提高Hadoop在安全敏感的客戶(hù)中的采用,例如政府機(jī)構(gòu)、銀行和電信公司。
RainStor數(shù)據(jù)庫(kù)中的新安全功能,它本身運(yùn)行在Hadoo中,包括數(shù)據(jù)加密、數(shù)據(jù)掩蔽以及查看、審查跟蹤、防篡改、可配置的數(shù)據(jù)棄置,支持Kerberos、LDAP、Active Directory以及PAM(Linux的可插拔認(rèn)證模塊)。
據(jù)RainStor稱(chēng),新搜索功能提高數(shù)據(jù)庫(kù)的查詢(xún)性能達(dá)到10倍~100倍,能實(shí)現(xiàn)更高速的文本搜索?,F(xiàn)在數(shù)據(jù)庫(kù)可以搜索數(shù)十億條記錄,數(shù)PB的數(shù)據(jù)。
8、Splunk發(fā)布針對(duì)Hadoop的數(shù)據(jù)分析工具
以其實(shí)時(shí)運(yùn)作智能軟件而為大家熟知的Splunk,推出了Hunk的新測(cè)試版本:Splunk Analytics for Hadoop。
Hunk集成了對(duì)Hadoop數(shù)據(jù)進(jìn)行挖掘、分析和虛擬化的工具。它采用Splunk針對(duì)數(shù)據(jù)分析的虛擬索引技術(shù),提供了用于提供表格、圖形、自定義儀表板和報(bào)告的工具。
該軟件支持來(lái)自Cloudera、Hortonworks以及MapR的主流Hadoop發(fā)行版。
9、Sqrrl發(fā)布安全大數(shù)據(jù)平臺(tái)
初創(chuàng)公司Sqrrl即將推出Sqrrl Enterprise 1.1,一個(gè)用于開(kāi)發(fā)實(shí)時(shí)分析應(yīng)用的安全、可擴(kuò)展平臺(tái)。隨著該版本的發(fā)布,Sqrrl將從有限的發(fā)布階段接入全面供貨階段。
1.1版本還提供了更多基于Apache Accumulo的高級(jí)安全工具、增強(qiáng)的分析功能、以及像JSON這樣的特性。新的分析功能包括全文搜索,使用Apache Lucene、SQL、統(tǒng)計(jì)以及圖形搜索。
Accumulo技術(shù)最初是由美國(guó)國(guó)家安全局開(kāi)發(fā)的,在2011年被分拆出來(lái)作為一個(gè)開(kāi)源項(xiàng)目。
#p#
10、eradata發(fā)布針對(duì)Hadoop的產(chǎn)品組合
Teradata推出了Teradata Portfolio for Hadoop,一個(gè)集硬件平臺(tái)、軟件、咨詢(xún)服務(wù)、培訓(xùn)以及客戶(hù)支持的產(chǎn)品組合,用于開(kāi)發(fā)和管理Apache Hadoop。
這其中包括Teradata Appliance for Hadoop以及Teradata Aster Big Analytics Appliance這樣的“優(yōu)質(zhì)平臺(tái)”可供選擇。前者加載了Hortonworks的Hadoop發(fā)行版、Mellanox Infiniband硬件以及Teradata的BYNET V5軟件。后者包括Aster數(shù)據(jù)庫(kù)、SQL-MapReduce和Apache Hadoop。
Teradata還提供了針對(duì)那些希望在戴爾標(biāo)準(zhǔn)服務(wù)器上部署Hadoop的Teradata Commodity Configuration for Hadoop產(chǎn)品。Teradata Software Only for Hadoop是一個(gè)軟件捆綁產(chǎn)品,針對(duì)那些希望使用和配置自己的硬件的企業(yè)。
11、VMware支持Hadpp和大數(shù)據(jù)工作負(fù)載
VMware推出了公共測(cè)試版本的VMware vSphere Big Data Extensions,一項(xiàng)將VMware虛擬化平臺(tái)擴(kuò)展支持Apache Hadoop和大數(shù)據(jù)處理的新特性。
企業(yè)客戶(hù)可以使用新軟件開(kāi)發(fā)、運(yùn)行和管理Apache Hadoop集群,以及其他通用虛擬基礎(chǔ)設(shè)施上的應(yīng)用。這為Hadoop系統(tǒng)帶來(lái)了虛擬化的好處,包括可擴(kuò)展性、性能以及彈性,VMware產(chǎn)品管理高級(jí)總監(jiān)Fausto Ibarra這樣表示。
VMware vSphere Big Data Extensions源自于VMware的Serengeti開(kāi)源項(xiàng)目,預(yù)計(jì)在今年年底全面提供給客戶(hù)。
12、WANdisco發(fā)布Hadoop新發(fā)行版以及HA軟件
WANdisco將推出Non-Stop NameNode – WAN Edition,一項(xiàng)新的復(fù)制技術(shù),可以讓基于Hadoop平臺(tái)的全局分布式大數(shù)據(jù)系統(tǒng)實(shí)現(xiàn)100%正常運(yùn)行時(shí)間。該公司已經(jīng)提供了一個(gè)LAN版本的軟件。
WANdisco還展示了新版本的WANdisco Distro (WDD 3.6),基于Apache Hadoop 2.0,據(jù)稱(chēng)支持從Amazon Web Services到私有云的遷移。WANdisco還開(kāi)源了S3 API on Hadoop,讓企業(yè)能夠使用他們的定制應(yīng)用,而不是Hadoop with S3HDFS。WANdisco還將在未來(lái)提供對(duì)Shark實(shí)時(shí)分析和Spark內(nèi)存數(shù)據(jù)處理技術(shù)的支持,作為WANdisco Distro 3.6的附加選擇。
13、Zettaset展示對(duì)最新Cloudera及Hortonworks平臺(tái)的支持
Zettaset的Orchestrator Hadoop集群管理軟件現(xiàn)在支持來(lái)自Cloudera和Hortonworks的Hadoop發(fā)行版。Cloudera CDH和Hortonworks HDP用戶(hù)現(xiàn)在可以使用Orchestrator軟件自動(dòng)安全和管理他們的Hadoop基礎(chǔ)設(shè)施。
Zettaset共同創(chuàng)始人、首席技術(shù)官Brian Christian認(rèn)為,安全和管理Hadoop集群的復(fù)雜性阻礙著Hadoop的采用。Orchestrator軟件避免了手動(dòng)配置的流程,降低 Hadoop復(fù)雜性,給Hadoop帶來(lái)企業(yè)級(jí)可管理性、安全性和可用性。