自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)當(dāng)?shù)?PaaS市場(chǎng)現(xiàn)狀如何?

譯文
云計(jì)算 新聞 PaaS
今年已經(jīng)被認(rèn)為是云計(jì)算時(shí)代的“大數(shù)據(jù)”元年,各大平臺(tái)即服務(wù)(PaaS)提供商備受媒體的關(guān)注,比如亞馬遜、谷歌、Heroku、IBM和微軟。但是哪些提供商在公共云領(lǐng)域真正提供最全面的Apache Hadoop實(shí)現(xiàn)方案?

   【51CTO 4月19日外電頭條】 今年已經(jīng)被認(rèn)為是云計(jì)算時(shí)代的“大數(shù)據(jù)”元年,各大平臺(tái)即服務(wù)(PaaS)提供商備受媒體的關(guān)注,比如亞馬遜、谷歌、Heroku、IBM和微軟。但是哪些提供商在公共云領(lǐng)域真正提供最全面的Apache Hadoop實(shí)現(xiàn)方案?

  這一點(diǎn)很顯然:由于許多企業(yè)日益采用平臺(tái)即服務(wù)(PaaS)云模式用于企業(yè)數(shù)據(jù)倉(cāng)庫(kù),Apache Hadoop以及Hadoop分布式文件系統(tǒng)(HDFS)、MapReduce、Hive、Pig及其他子組件日益受到追捧,用于大數(shù)據(jù)分析環(huán)境。Apache基金會(huì)將Hadoop升級(jí)到了版本1.0,這表明Hadoop已日趨成熟,準(zhǔn)備好用于生產(chǎn)型分析云環(huán)境。

  能夠借助托管型的MapReduce處理技術(shù),在提供商的數(shù)據(jù)中心為批處理任務(wù)建立高可擴(kuò)展性的、按需支付的Hadoop集群,這讓企業(yè)的IT部門(mén)得以避免為零星使用的預(yù)置型(on-premise)服務(wù)器投入資本開(kāi)支。因而,Hadoop對(duì)亞馬遜、谷歌、IBM和微軟等財(cái)力雄厚的PaaS提供商來(lái)說(shuō)已成為標(biāo)準(zhǔn),以便將Hadoop、MapReduce或兩者封裝成預(yù)制服務(wù)。

  AWS彈性MapReduce

  亞馬遜網(wǎng)絡(luò)服務(wù)公司(AWS)在2009年4月第一個(gè)推出了彈性MapReduce(EMR)。EMR可處理Hadoop集群配置,運(yùn)行和終止任務(wù),并且在亞馬遜彈性計(jì)算云(EC2)和亞馬遜簡(jiǎn)單存儲(chǔ)服務(wù)(S3)之間傳送數(shù)據(jù)。EMR還提供Apache Hive,它基于Hadoop,面向數(shù)據(jù)倉(cāng)庫(kù)服務(wù)。

 

  圖1:面向亞馬遜網(wǎng)絡(luò)服務(wù)公司彈性MapReduce特性的CloudWatch任務(wù)工作流度量標(biāo)準(zhǔn)示例。

  EMR提供了容錯(cuò)機(jī)制,防止從屬系統(tǒng)出現(xiàn)故障;亞馬遜建議在現(xiàn)貨實(shí)例(spot instance)上只運(yùn)行任務(wù)實(shí)例組(Task Instance Group),以便充分利用較低的成本,同時(shí)仍維持可用性。不過(guò),AWS直到2011年8月才添加了支持現(xiàn)貨實(shí)例的功能。

  亞馬遜就EMR向小集群到超大集群的EC2實(shí)例收取每小時(shí)0.015美元到每小時(shí)0.50美元的額外費(fèi)。據(jù)AWS聲稱,一旦你開(kāi)啟了作業(yè)流程,亞馬遜彈性MapReduce就處理亞馬遜EC2實(shí)例配置、安全設(shè)置、Hadoop配置和設(shè)置、日志收集、運(yùn)行狀況監(jiān)控及其他與硬件有關(guān)的復(fù)雜任務(wù),比如自動(dòng)從運(yùn)行中的作業(yè)流程中移除有故障的實(shí)例。AWS最近宣布了為EMR實(shí)例提供免費(fèi)的CloudWatch度量標(biāo)準(zhǔn)(見(jiàn)圖1)。

  谷歌應(yīng)用引擎-MapReduce

  據(jù)谷歌的開(kāi)發(fā)人員Mike Aizatskyi聲稱,谷歌的所有團(tuán)隊(duì)都使用MapReduce,谷歌早在2004年就引入了MapReduce。谷歌發(fā)布了一套應(yīng)用引擎-MapReduce 應(yīng)用編程接口(API),這是“MapReduce API的早期試驗(yàn)版”,旨在支持在谷歌應(yīng)用引擎上運(yùn)行的Hadoop 0.20程序。谷歌團(tuán)隊(duì)后來(lái)在2011年3月發(fā)布了低級(jí)文件API v1.4.3,為采用Blobs存儲(chǔ)的中間結(jié)果提供了一種類似文件的系統(tǒng),還提供了經(jīng)過(guò)改進(jìn)的開(kāi)源用戶空間Shuffler功能(見(jiàn)圖2)。

 

  圖2:在I/O 2012大會(huì)上演示的谷歌應(yīng)用引擎-MapReduce的Shuffle過(guò)程。

  谷歌應(yīng)用引擎-MapReduce API通過(guò)谷歌Pipeline API來(lái)協(xié)調(diào)Map、Shuffle和Reduce等操作。該公司在2012年I/O大會(huì)上的視頻演講中描述了應(yīng)用引擎-MapReduce的現(xiàn)狀。不過(guò)直到2012年春天,谷歌都沒(méi)有改變其“早期試驗(yàn)版”這一描述。應(yīng)用引擎-MapReduce面向Java和Python編程人員,而不是面向大數(shù)據(jù)科學(xué)家和分析專業(yè)人員。Shuffler只能處理最大約100MB的數(shù)據(jù)集,這樣的數(shù)據(jù)稱不上是大數(shù)據(jù)。你可以請(qǐng)求使用谷歌的BigShuffler,以處理更龐大的數(shù)據(jù)集。

  Heroku Treasure Data Hadoop附件

  Heroku的Treasure Data Hadoop附件讓開(kāi)發(fā)和運(yùn)營(yíng)(DevOps)員工能夠使用Hadoop和Hive,分析托管型應(yīng)用日志和事件,這是這項(xiàng)技術(shù)的主要功能之一。其他Heroku大數(shù)據(jù)附件包括:實(shí)現(xiàn)了Apache CouchBase的Cloudant系統(tǒng)、來(lái)自MongoLab的MongoDB、MongoHQ、Redis To Go、Neo4j(面向Java的圖形數(shù)據(jù)庫(kù)的公共測(cè)試版)以及RESTful Metrics。AppHarbor被一些人稱為是“面向.NET的Heroku”,它提供了一系列類似的附件,使用了Cloudant、MongoLab、MongoHQ和Redis To Go,外加RavenHQ NoSQL數(shù)據(jù)庫(kù)附件。Heroku和AppHarbor都不托管通用的Hadoop實(shí)現(xiàn)系統(tǒng)。

  智慧云中的IBM Apache Hadoop

  IBM在2011年10月就開(kāi)始提供基于Hadoop的數(shù)據(jù)分析產(chǎn)品,具體表現(xiàn)為基于IBM企業(yè)智慧云(IBM SmartCloud Enterprise)的InfoSphere BigInsights Basic。BigInsights Basic最多可以管理10TB的數(shù)據(jù),它還提供面向Linux系統(tǒng)的免費(fèi)下載版;BigInsights Enterprise是一款收費(fèi)的下載版。這兩個(gè)可以下載的版本都提供了Apache Hadoop、HDFS和MapReduce框架,另外提供了一整套Hadoop子項(xiàng)目??上螺d的企業(yè)版包括基于Eclipse的插件,該插件用于編寫(xiě)基于文本的分析工具、類似電子表格的數(shù)據(jù)發(fā)現(xiàn)和探究工具,還可用于編寫(xiě)JDBC與Netezza和DB2實(shí)現(xiàn)連接的代碼。這兩個(gè)版本都提供了集成的安裝和管理工具(見(jiàn)圖3)。

 

  圖3:IBM的大數(shù)據(jù)平臺(tái)和愿景。

  我之前通過(guò)分為上下兩部分的教程,試用了IBM的企業(yè)智慧云基礎(chǔ)架構(gòu)即服務(wù),里面描述了2011年春天提供的一款免費(fèi)的企業(yè)智慧云試用版具有的管理功能。IBM的技術(shù)資料沒(méi)有明確地表明可下載的BigInsight版本在公共云中提供什么樣的功能特性。面向IT專業(yè)人員的云計(jì)算:社區(qū)服務(wù)頁(yè)面(http://www.ibm.com/developerworks/cloud/devtest.html)只列出了一個(gè)BigInsights Basic 1.1:Hadoop主節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)(http://www.ibm.com/developerworks/downloads/im/biginsights/)軟件鏡像;一位IBM代表證實(shí)了智慧云版本不包括MapReduce或其他Hadoop子項(xiàng)目。智慧云版Hadoop方面的現(xiàn)有教程解釋了如何配置和測(cè)試企業(yè)智慧云上由3個(gè)節(jié)點(diǎn)組成的集群。IBM現(xiàn)有的BigInsights云版本似乎缺少數(shù)據(jù)分析方面的一些關(guān)鍵組件。

  基于Windows Azure的微軟Apache Hadoop

  微軟請(qǐng)來(lái)從雅虎分立出來(lái)的、專門(mén)提供Hadoop咨詢服務(wù)的Hortonworks公司,幫助自己在Windows Azure上實(shí)現(xiàn)Apache Hadoop,即Hadoop on Azure(HoA)。自2011年12月14日以來(lái),HoA就處于憑邀請(qǐng)才能試用的社區(qū)技術(shù)預(yù)覽版(CTP或邀請(qǐng)測(cè)試版)階段。

  微軟在搭上Hadoop這股潮流之前,依賴由微軟研究中心開(kāi)發(fā)的圖形數(shù)據(jù)庫(kù)Dryad以及高性能計(jì)算附件(LINQ to HPC)來(lái)處理大數(shù)據(jù)分析任務(wù)。Hadoop on Azure CTP讓用戶可以選擇預(yù)先定義的Hadoop集群,這些集群從小集群(4個(gè)計(jì)算節(jié)點(diǎn),存儲(chǔ)容量為4TB)到超大集群(32個(gè)節(jié)點(diǎn),存儲(chǔ)容量為16TB)不等,從而簡(jiǎn)化了MapReduce操作??梢悦赓M(fèi)加入CTP,獲取預(yù)覽版計(jì)算節(jié)點(diǎn)或存儲(chǔ)容量。

 

  圖4:微軟提供了四個(gè)示例的Hadoop/MapReduce項(xiàng)目:計(jì)算圓周率、執(zhí)行Terasort和WordCount基準(zhǔn)測(cè)試,以及演示如何使用C#來(lái)編寫(xiě)一款用于流傳送數(shù)據(jù)的MapReduce程序。

  微軟還提供了新的JavaScript庫(kù),借助Hadoop,讓JavaScript成為一門(mén)一流的編程語(yǔ)言。這意味著,JavaScript編程人員可以用JavaScript來(lái)編寫(xiě)MapReduce程序,并且從Web瀏覽器中運(yùn)行這些任務(wù),這降低了Hadoop/MapReduce的準(zhǔn)入門(mén)檻。CTP還包含一個(gè)面向Excel的Hive附件,讓用戶可以用Hadoop來(lái)處理數(shù)據(jù)。用戶可以通過(guò)附件發(fā)布Hive查詢,在Excel用戶熟悉的界面中分析來(lái)自Hadoop的非結(jié)構(gòu)化數(shù)據(jù)。預(yù)覽版還包括一個(gè)Hive ODBC驅(qū)動(dòng)程序,將Hadoop與微軟的其他商業(yè)智能工具集成起來(lái)。最近我在Apache Hadoop Services for Windows Azure(http://oakleafblog.blogspot.com/2012/01/introducing-apache-hadoop-services-for.html)上寫(xiě)了一篇博文,里面解釋了如何運(yùn)行Terasort基準(zhǔn)測(cè)試,這是四項(xiàng)示例的MapReduce任務(wù)之一(見(jiàn)圖4)。

  定于2012年年中面向Windows Azure推出新的、經(jīng)過(guò)改良的功能特性,到時(shí)HoA會(huì)有相應(yīng)的升級(jí)。該升級(jí)將讓HoA團(tuán)隊(duì)能夠準(zhǔn)許更多的測(cè)試人員試用CTP,可能還包括一個(gè)原先承諾的Apache Hadoop on Windows Server 2008 R2,面向?qū)嵤╊A(yù)置型云或私有云和混合云。微軟還在2011年年底2012年年初積極下調(diào)了Windows Azure計(jì)算實(shí)例和存儲(chǔ)服務(wù)的費(fèi)用。Hadoop on Azure發(fā)行版的價(jià)格與亞馬遜彈性MapReduce相比將頗有競(jìng)爭(zhēng)力。

  說(shuō)到大數(shù)據(jù),不是只有Hadoop和MapReduce

  我同意弗雷斯特調(diào)研公司分析師James Kobielus的觀點(diǎn),他寫(xiě)過(guò)一篇博文,主題思想是“在大數(shù)據(jù)領(lǐng)域里面,Hadoop/MapReduce將是一種關(guān)鍵的開(kāi)發(fā)框架,但不是唯一的開(kāi)發(fā)框架。”微軟還為.NET框架提供了代號(hào)為“Cloud Numerics”的CTP,這讓開(kāi)發(fā)和運(yùn)營(yíng)團(tuán)隊(duì)得以在Windows Azure中,針對(duì)大型分布式數(shù)據(jù)集執(zhí)行數(shù)字密集型的計(jì)算。

  微軟研究中心發(fā)布了源代碼,用于使用Daytona項(xiàng)目的MapReduce迭代實(shí)現(xiàn)機(jī)制,在Windows Azure中實(shí)施Excel云數(shù)據(jù)分析技術(shù)。不過(guò),開(kāi)源Apache Hadoop及相關(guān)子項(xiàng)目似乎會(huì)在可預(yù)測(cè)的將來(lái)主導(dǎo)云托管領(lǐng)域。

  提供自動(dòng)化化程度最高的Hadoop、MapReduce和Hive實(shí)現(xiàn)機(jī)制的PaaS提供商會(huì)最受大數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析從業(yè)人員的支持和追捧。微軟為商業(yè)智能應(yīng)用軟件提供了Excel前端,這讓該公司的大數(shù)據(jù)解決方案在越來(lái)越多的自助服務(wù)式商業(yè)智能用戶當(dāng)中占有先機(jī)。亞馬遜和微軟目前提供最全面、自動(dòng)化程度最高的基于云的Hadoop大數(shù)據(jù)分析服務(wù)。

 

  原文鏈接:http://searchcloudcomputing.techtarget.com/tip/Examining-the-state-of-PaaS-in-the-year-of-big-data

 

責(zé)任編輯:鳶瑋 來(lái)源: 51cto.com
相關(guān)推薦

2019-07-29 14:30:53

自動(dòng)駕駛汽車(chē)行業(yè)無(wú)人駕駛

2020-03-30 17:58:14

虛擬機(jī)網(wǎng)絡(luò)NFV

2020-10-20 13:16:02

量子計(jì)算芯片超算

2018-05-31 21:11:24

短視頻抖音快手

2017-12-17 22:16:58

2013-03-25 10:04:49

大數(shù)據(jù)云存儲(chǔ)

2013-07-30 09:39:37

大數(shù)據(jù)云存儲(chǔ)

2023-01-10 10:18:08

超算

2015-08-19 13:25:34

2012-05-09 09:27:54

大數(shù)據(jù)PaaSMapReduce

2020-12-31 14:14:35

大數(shù)據(jù)大數(shù)據(jù)應(yīng)用

2012-04-06 09:01:40

2014-01-15 13:53:23

PaaS云計(jì)算

2013-02-22 09:23:42

大數(shù)據(jù)PaaS

2021-06-10 19:10:32

大數(shù)據(jù)大數(shù)據(jù)應(yīng)用大數(shù)據(jù)技術(shù)

2018-12-07 14:59:37

2022-04-14 12:24:20

大數(shù)據(jù)現(xiàn)狀分類

2021-11-10 15:35:02

大數(shù)據(jù)

2013-06-09 09:17:05

2019-04-09 20:55:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)