拓展Hadoop范疇
十月或許是大數(shù)據(jù)歷史上值得標注的一個月。因為在這個月中,我們可以重新定義Hadoop。其既可以是大數(shù)據(jù)批量處理的一個研究框架,也可以是結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)大規(guī)模并行分析數(shù)據(jù)高速的發(fā)動機,交互分析的產(chǎn)品。
>已經(jīng)有公司試圖證明這一點。近期,業(yè)內(nèi)舉行了一場提升Hadoop本身Hadoop-plus-SQL architecture、增加先進分析功能、通過圖像展示等的專項會議。其中,三家公司頗具代表性。
Birst:Birst曾轉(zhuǎn)型為BI企業(yè)并發(fā)布了一套相關(guān)產(chǎn)品,而今其又回到基于Hadoop提供云計算與大數(shù)據(jù)的服務(wù)商的角色上。Birst Big Data Services可以實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的存儲,并在此基礎(chǔ)上使得用戶不需要更多MapReduce知識或其他復(fù)雜技能就能通過封裝功能實現(xiàn)分析應(yīng)用。由此,實現(xiàn)了結(jié)構(gòu)化關(guān)系數(shù)據(jù)存儲的新的連接服務(wù),以及對于新類型數(shù)據(jù)的可視化工具分析。
Splice Machine:Splice Machine是San Francisco的一家創(chuàng)新型公司。在SQL數(shù)據(jù)庫之上構(gòu)建了Hadoop分布式文件系統(tǒng),并與上周三宣布獲得來自Mohr Davidow Venture的第一輪400萬美元的融資。與另外一家創(chuàng)新企業(yè)Drawn to Scale一樣,Splice Machine承諾提供——在HDFS和HBase的分布式基礎(chǔ)上提供SQL函數(shù)和事務(wù)的服務(wù)。聽起來像是個可愛的故事。如果可以實現(xiàn),對于非機構(gòu)化數(shù)據(jù)的靈活架構(gòu),大量的可擴展性,就可以實現(xiàn)與諸多企業(yè)最喜歡的SQL BI產(chǎn)品的無縫結(jié)合。
Teradata:Teradata終于做了大家長久以來期望做的一些事情,構(gòu)建了一個命名為Big Analytics Appliance的,將Aster Data數(shù)據(jù)庫與Hadoop打包起來的方案。事實上,Teradata幾年前就已經(jīng)收購了Aster Data,并作為大數(shù)據(jù)領(lǐng)域核心之一——非結(jié)構(gòu)化數(shù)據(jù)而進行的必要投資,但是其與Teradata的核心數(shù)據(jù)倉庫和分析業(yè)務(wù)一直不相適應(yīng)。Aster Data名聲在外的產(chǎn)品是 SQL-MapReduce軟件,可以使用戶通過使用標準SQL實現(xiàn)MapReduce jobs的運行。將Aster-Hadoop和Teradata的旗艦版數(shù)據(jù)庫連接起來的是SQL-H。這一秘密武器使得用戶可以訪問Hadoop數(shù)據(jù),并與Aster數(shù)據(jù)相連接,進而實現(xiàn)分析。
這些獨特的產(chǎn)品所傳達的意義令人印象深刻,但我們還沒有看到任何產(chǎn)品的落地。在Hadoop生態(tài)系統(tǒng)中,這并非不可能。在下周O’Reilly Strata會議與Hadoop World中,會有更重量級企業(yè)的亮相,并分享他們?nèi)绾螌adoop技術(shù)與商業(yè)需求更緊密地結(jié)合在一起。