2012:云計算的春天
回顧2012,更多開放,更多協(xié)作,更多機會產生。從來沒有一項服務會將幾乎所有IT、互聯網、通信技術整合在一起,沒有合作、開放的心態(tài)就沒有云計算。接下來,將從IaaS、NoSQL與NewSQL、數據中心、大數據、安全這幾個方面對過去一年作出總結。
IaaS——群雄追趕AWS
談到IaaS,Google和AWS是公認的業(yè)界最強。AWS是全球將IaaS這個business運營的最好的公司,除了技術領先,還要得益于其多年的B2C領域積累的經驗和口碑。而Google的強大在于其對技術極致的探索,從“三駕馬車”Big Table、GFS和MapReduce,到Pregel、Dremel、Big Query(與之對應的還有Twitter的Blobstore、Cloudrea Impala以及Apache Drill),能夠完成跨數據中心的數據存儲和快速SQL查詢,毫無疑問,這些技術都是互聯網巨頭和IaaS服務商必須要解決的。這背后還需要強大的網絡拓撲、IDC設計等等,今年Google一反常態(tài)的公布了數據中心內部的照片和文檔,雖然信息量不大,但這足夠證明Google在數據中心PUE控制方面的自信。

圖:AWS正在與PaaS和SaaS服務結合。Redshift大數據分析工具,其成本只有Teradata IBM Oracle的十分之一。
以下將從:私有與開源、商業(yè)模式探索、國內格局三個話題展開:
1、私有與開源
2012年不得不說的開源項目之一OpenStack,這是一個基于ASF 2.0協(xié)議的開源IaaS平臺,說白了,任何一個人通過OpenStack都可以復制出一個AWS(當然,服務器、交換機這些還是需要的。)。正因為OpenStack巨大的魅力,包括IBM、HP、Intel、Red Hat、VMware以及國內的新浪、華為均先后加入組織。OpenStack對于所有IT和通信廠商而言都是全新的機遇和挑戰(zhàn)。眾所周知,硬件利潤越來越低,而VMware等虛擬化廠商卻“肥的流油”。已經打的不可開交HP和Dell都不想錯過重新排定生態(tài)鏈次序的機會,兩者均與Cloud Foundry合作,擴展渠道,并在差異化上下足功夫。
和OpenStack擁有類似功能的開源IaaS平臺還包括CloudStack、OpenNebula和Eucalyptus。這四大開源平臺將與AWS在未來的相當一段時間共同成長。明年,CloudStack將迎來爆發(fā),更有可能成為Apache正式的項目。OpenNebula更顯低調,Eucalyptus則專注在私有云市場。
另外,IBM、HP、VMware等傳統(tǒng)IT廠商私有云或共有云產品并不是真正的IaaS,這也是這些廠商積極投入OpenStack的原因。同時,來自新浪、趣游等本土公司也在積極參與到OpenStack的貢獻和交流。
2、商業(yè)模式探索
AWS是全球最成功的IaaS服務商,雖然占Amazon整體的營收比例依然很小,外界仍十分看好AWS的未來。在Amazon披露的財報中,沒有對AWS業(yè)務的營收數據做具體描述,十分低調。只能看到:包括AWS和內容增值服務的業(yè)務,一直處于增長。包括分析師、投資公司的報告普遍認為,今年AWS的營收將達到10-15億美元,根據一般的經驗判斷,這些數據的可靠性是比較高的。
之所以AWS能夠成為IaaS的領軍者,離不開其多年在B2C領域積累的經驗和口碑,這點是Google所不具備的,國內的阿里與AWS基因最相似。同時,AWS、OpenStack的成員們都在緊密與PaaS或SaaS服務商合作。只有與用戶最接近,利潤率才越高。如果把Saleforce看作IaaS,無疑是最賺錢的IaaS平臺。
3、國內的IaaS格局
相對于國外的幾大陣營和發(fā)展趨勢,國內的情況最為復雜。割裂的網絡、不透明的準入機制、電信運營商的壟斷、信用卡支付壁壘、用戶習慣的培養(yǎng)等等,所有這些問題一個問題解決不了都可能制約IaaS運營商的發(fā)展。目前國內兩大IaaS平臺分別是阿里云和盛大云,阿里的優(yōu)勢在前文已經提到,壟斷了大量珍貴的BGP網絡,先天優(yōu)勢明顯。
微軟Azure與世紀互聯的合作可以看作國外IaaS平臺進入大陸的起點,這也讓AWS進軍國內充滿了更多期待。
第二梯隊中Ucloud、Linkcloud、西部數碼、華云等比較有代表性。當然,還有一個隱蔽的企業(yè)華為。全球電信運營商的設備大部分由華為提供,依靠多年積累的BOSS系統(tǒng)支持經驗,以及與運營商的良好關系,華為IaaS上線只待更好的時機。但關鍵在于,華為幾乎沒有B2C的經驗,這是華為必須解決的難題。#p#
NoSQL與NewSQL——快,更快
新時代的數據庫
在過去一年中隨著數據體積的爆發(fā)性增長,大數據技術也越發(fā)的炙手可熱。俗話說工欲善其事必先利其器——為了實現對越來越多數據的挖掘和分析,2012無疑是絞盡腦汁的一年。好吧,言歸正傳。下面分幾個方面簡單的討論一下2012年的數據庫發(fā)展趨勢。
SQL 、NoSQL、NewSQL
隨著NoSQL這場運動最終被定義為Not Only SQL,數據庫領域的人們也確定了NoSQL不是SQL的取代——更應該作為對數據庫領域非關系數據類型補充。而隨著各個廠商以各種方式在NoSQL數據庫產品中添加對SQL的支持,在面對大數據帶來的挑戰(zhàn)上也終于達成了“兩手抓,兩手硬”的共識。而就目前的市場調研來看10gen的MongoDB仍然是最受歡迎的NoSQL數據庫。然而NoSQL的精髓在于百花齊放,用細分的技術解決各種大數據所帶來的挑戰(zhàn);所以MongoDB不能完全的代表NoSQL。期間Neo4j等產品也是擁有了一定的擁護度。
再看NewSQL,NewSQL概念的存在更像是對早期NoSQL的補充,這里需要先看一下NoSQL以及NewSQL的設置宗旨:NoSQL數據庫,旨在滿足分布式系統(tǒng)結構的可擴展性需求和/或無模式數據管理的需求;NewSQL數據庫,旨在滿足分布式體系結構的需求,或者提高性能以便不必再進行橫向擴展。這就意味著在NoSQL數據庫發(fā)展為Not Only SQL的大趨勢下,NewSQL與NoSQL之間的界限就變的越發(fā)的模糊。所以再去強調NewSQL或者是NoSQL的意義顯然已經不大。
數據庫發(fā)展的趨勢
在這個數據的年代,更多的數據勝過更好的算法已經被大多數人所接受。然而面對數據這座寶山卻沒有對應的處理和分析技術,無疑只能望梅止渴。隨著數據能采集到數據體積的暴增,數據的實時處理無疑成為了重中之重。這里我們不得不提的就是數據處理工具。
快,還要更快

圖:Apache S4分布式流數據處理平臺
說到數據分析工具就不得不提到Apache Hadoop,它的開源和強大的批處理能力得到了眾多大數據玩家的喜愛。然而隨著數據的爆發(fā)性增長一些數據分析產品相繼問世,比如:Dremel、Storm、Impala、Apache S4和Drill;而他們共有的顯著特性就是優(yōu)于Hadoop幾倍甚至幾十倍的查詢能力。這無疑說明了各個組織及機構把數據分析和處理的關鍵聚焦于實時之上,并開始著手解決望梅止渴的窘境。
是的數據的處理和分析需要快,那么數據的存儲呢?
可靠還要更可靠
眾所周知,Hadoop及HBase、HDFS其實是在Google的MapReduce、BigTable和GFS三篇論文的啟發(fā)下開發(fā)出來的。而近年來Google的基礎機構又有了一波新的補充及更新——Caffeine、Pregel和Dremel。然而Google的腳步并不僅如此,Google在OSDI 2012上公布了世界級分布數據庫Spanner。這是第一個擴展到世界規(guī)模的數據庫系統(tǒng),并支持了外部一致性分布式事務。然而外部事務強一致性的保障以及全球及的分布,無疑確定了人們對數據庫可靠性的要求越來越高。也只有全球及數據轉移才能保證大范圍自然災害下的強可靠性,比如這次颶風Sandy的過境。#p#
數據中心——追求新能源
數據中心在這一年中有很多精彩的內容,比如亞馬遜三番五次宕機、谷歌歷經7年終于開放其數據中心等等。我們在接下來的內容里將為您盤點幾個重要公司在數據中心方面的現狀、發(fā)展、技術等內容。

圖:Google Concil Bluffs數據中心內部
亞馬遜
亞馬遜的數據中心歷來都很神秘,對其的報道也很少很少,大家的目前都集中在它的云服務上,但這離不開其龐大的數據中心支持。去年年底,亞馬遜已經增加了其第七個云數據中心,作為全球數據中心容量擴張的一部分。新設施位于美國俄勒岡州博德曼,在哥倫比亞河沿岸采用低成本的水力發(fā)電。除了廉價的水電,博德曼位于波特蘭市以東80英里,提供了充足的冷卻水供應?,F代數據中心安裝最低數量的空調,并經常使用某種形式的蒸發(fā)來冷卻外界空氣,讓其在數據中心流通。通過這種方式,兩排服務器虹吸釋放出的暖空氣到熱通道,在熱通道熱空氣被收集,強大的風扇將其排出建筑物。熱通道的溫度為華氏95-100度。
由于經濟惡化,亞馬遜在2009年停止對博德曼設施的建設,但在今年早先時候恢復工作并完成了中心的配置。并在十月初開始運營,11月9日亞馬遜開始提供服務,設置標準為IaaS:EC2的彈性計算云,簡單存儲服務,簡單的數據庫服務,亞馬遜簡單隊列服務,以及其他。
6月15日,亞馬遜北維吉尼亞的數據中心遭遇停電,由此導致亞馬遜網絡服務AWS中斷約6個小時,影響波及亞馬遜彈性計算EC2、亞馬遜關系數據庫服務以及AWS Elastic Beanstalk。今年的10月,亞馬遜再次發(fā)生宕機事故,導致用戶信心流失不少。最后再圣誕節(jié)平安夜的時候,亞馬遜AWS位于美國東部的數據中心發(fā)生故障,其彈性負載均衡服務(Elastic Load Balancing Service)中斷,導致Netflix和Heroku受到影響,不過作為Netflix的競爭對手,Amazon Prime Instant Video并未受到影響。
Facebook選擇俄勒岡州的高度沙漠化地區(qū)建立新數據中心,這里的夜晚是涼爽的,即使是在夏天。該設施坐落于尤金以東100英里,并成為Facebook四月聲稱要運行一個高效的數據中心來支撐其數以百萬計在線應用的基礎。 Facebook在其開放計算項目中發(fā)表了服務器架構的細節(jié),作為它創(chuàng)造更高效數據中心的承諾的標志。
Facebook透露,開源服務器的有效率達到94.5%,這個成績離不開整個數據中心的供電和散熱系統(tǒng)的幫助。和Facebook在Virginia和California的數據中心相比,Prineville的數據中心電力節(jié)省38%,成本降低24%。數據中心的PUE平均在1.6到1.8,然而Facebook的Prineville數據中心的PUE則達到在驚人1.05到1.10之間。
谷歌
過去,數據中心被Google視為核心技術,因此Google對自己數據中心的細節(jié)總是三緘其口。一般而言,每當Google公開一項技術,意味著Google已經掌握了更先進的技術。即便如此,已經被Google“解密”的技術依然值得深入研究、學習。谷歌于今年的10月份,終于向媒體開放了它的數據中心,并發(fā)布了一些照片。
通過照片我們可以看到,谷歌的數據中心是一個巨大的房間,而不是被分成若干獨立的區(qū)域。完全采用風道設備,徹底避免服務器或機架產生的空氣泄露。冷空氣直接流入服務器,熱空氣并不會流回,而是通過熱交換器將熱量傳遞出去??諝饬鲃涌刂聘裢庵匾?,空氣流動經濟性(air-side economization)是提升散熱效率的關鍵。提高空氣流動經濟性的關鍵是讓冷空氣流入服務器,而不是讓服務器排出熱空氣。
Google把整個建筑視為風道的一部分,并沒有完全棄用水冷系統(tǒng),而是將其升級進化,從而提高水冷系統(tǒng)的效率。固然直通到機架的水冷系統(tǒng)擁有高效率,但任何一個空氣流動經濟系統(tǒng)都可以屏蔽戶外的熱空氣,并讓冷空氣長途跋涉輸送給服務器。然而,隨著服務器密度不斷增加,單位空間的功率也隨之增長,水冷系統(tǒng)就十分必要了。
在微軟Azure宕機的同一天,Google Gmail用戶使用的Gtalk中斷了近5小時。Gtalk服務的控制面板頁為用戶提供了因服務中斷所導致的升級。Google對此也做出了道歉“請相信google是極度重視系統(tǒng)可靠性的,我們會更加注意提升我們系統(tǒng)的性能”。
GAE是用于開發(fā)和托管WEB應用程序的平臺,數據中心由google管理,中斷時間是10月26日,持續(xù)4小時,因為突然變得反應緩慢,而且出錯。受此影響,50%的GAE請求均失敗。google表示沒有數據丟失,應用程序行為也有備份可以還原。google表示他們正在加強其網絡服務以應對網絡延遲問題,“我們已經增強了流量路由能力,并調整了配置,這些將會有效防止此類問題再次發(fā)生”。
微軟
微軟今年花了1.3億美元擴展了其位于都柏林的數據中心,本次投資將新增11.2萬平方英尺第4代設備。該數據中心全年充分利用風能冷卻設備,降低能耗,減少微軟碳足跡。每年能耗高峰時期平均電源使用效率PUE為1.25。微軟稱,設備99%的剩余能耗將實現循環(huán)使用,水能耗僅相當于同等大小的數據中心水能耗的1%。此外,微軟計劃在懷俄明州夏延 (Cheyenne)建立一個新的數據中心,預計在2013年春季開工。
新的數據中心將幫助微軟承載更多的產品,而不是銷售客戶在他們自己的計算機上安裝的軟件。微軟除了提供它的PaaS產品、Azure、去年開始銷售的Office 365、提供的電子郵件托管和協(xié)作服務外,它也希望能增長其Bing搜索量,這就要求數據中心為用戶服務搜索結果。
2月28日,由于“閏年bug”導致微軟Azure在全球范圍內大面積服務中斷,中斷時間超過24小時。雖然微軟表示該軟件BUG是由于閏年時間計算不正確導致,但這一事件激起了許多用戶的強烈反應,許多人要求微軟為此做出更合理詳細的解釋。
7月26日,Azure再次故障,導致西歐用戶受影響。微軟對故障的解釋是“由于錯誤配置了網絡設備導致了西歐區(qū)域的服務網絡中斷”。此次中斷持續(xù)2.5小時。微軟表示此次事故中并無用戶數據丟失。
2013發(fā)展趨勢
今年的數據中心發(fā)展道路可以說很順利,Facebook、谷歌紛紛向媒體公開其數據中心,這表明未來的數據中心將是越來越開放的。但我們也要看到發(fā)展中遇到的一些問題,AWS今年在運行過程中三番五次的宕機,這反映出數據中心的安全運行問題值得迫切關注。還有一個趨勢就是清潔能源在數據中心運行中占的比重越來越大,風能、太陽能等清潔能源正被更多的數據中心所使用。最后,隨著科學技術向亞太地區(qū)轉移,以及亞太地區(qū)特有的人力資源優(yōu)勢,我們可以想象到隨著時間的推移更多的數據中心將向亞太地區(qū)遷移。#p#
大數據——Hadoop生態(tài)圈的天下
2012年,大數據的發(fā)展勢頭可謂“如火如荼”。因為移動互聯網和云計算的崛起,數據量的激增讓很多企業(yè)看到了無限的商機。很多人談到大數據時,首先想到的就是Hadoop,此時很多“專業(yè)人士”就會告訴你,Hadoop不是大數據的全部。當然,我們必須認識到Hadoop自身還有很多局限性。不過這也側面說明:Hadoop是大數據的“超級明星”!
在2012年1月1日,CSDN對Hadoop的開篇之作就是“Hadoop 1.0正式發(fā)布”,歷時六年,這一個頂級Apache開源項目終于發(fā)布,雅虎是其最主要的貢獻者,它也是由前雅虎開發(fā)者Doug Cutting(也是Nutch和Lucene的創(chuàng)始人)開發(fā)的分布式計算平臺,受Google的MapReduce和GFS啟發(fā),主要被應用于分析大容量數據集。Hadoop被eBay、Facebook、Yahoo、AOL和Twitter等互聯網公司廣泛采用,今年微軟、IBM和甲骨文等也都紛紛擁抱了Hadoop。
Hadoop具備低成本和前所未有的高擴展性,已被公認為是新一代的大數據處理平臺。就像30年前SQL出現一樣,Hadoop正帶來了新一輪的數據革命。如今Hadoop已從初出茅廬的小象變成了行業(yè)的巨人,但Hadoop仍需繼續(xù)完善。不過今天,Hadoop已經從初出茅廬的小象變身行業(yè)巨人。
Hadoop相關技術的那點事
技術干貨!如果想深入理解Hadoop集群和網絡,那么不妨看一下Dell企業(yè)技術專家Brad Hedlund撰寫的文章,他闡述了Hadoop主要的任務部署分為3個部分,分別是:Client機器,主節(jié)點和從節(jié)點。主節(jié)點主要負責Hadoop兩個關鍵功能模塊HDFS、Map Reduce的監(jiān)督。當Job Tracker使用Map Reduce進行監(jiān)控和調度數據的并行處理時,名稱節(jié)點則負責HDFS監(jiān)視和調度。從節(jié)點負責了機器運行的絕大部分,擔當所有數據儲存和指令計算的苦差。每個從節(jié)點既扮演者數據節(jié)點的角色又沖當與他們主節(jié)點通信的守護進程。守護進程隸屬于Job Tracker,數據節(jié)點在歸屬于名稱節(jié)點。不過如果發(fā)現部署Hadoop還有困難,那么你就需要關注管理Hadoop集群的5大工具,它們就是Apache Ambari、Apache Mesos、Platform MapReduce、StackIQ Rocks+ Big Data以及Zettaset Orchestrator。

眾所周知,Google在2003年到2004年公布了關于GFS、MapReduce和BigTable三篇技術論文,這也成為后來云計算發(fā)展的重要基石,如今Google在后Hadoop時代的新“三駕馬車”——Caffeine、Pregel、Dremel再一次影響著全球大數據技術的發(fā)展潮流。
在本質上Caffeine丟棄MapReduce轉而將索引放置在由Google開發(fā)的分布式數據庫BigTable上。作為Google繼GFS和MapReduce兩項創(chuàng)新后的又一項創(chuàng)新,其在設計用來針對海量數據處理情形下的管理結構型數據方面具有巨大的優(yōu)勢。這種海量數據可以定義為在云計算平臺中數千臺普通服務器上PB級的數據。
另一篇介紹了Pregel,Pregel主要繪制大量網上信息之間關系的“圖形數據庫”。而最吸引人的一篇論文要屬被稱之為Dremel的工具。
Dremel是一種分析信息的方式,Dremel可跨越數千臺服務器運行,允許“查詢”大量的數據,如Web文檔集合或數字圖書館,甚至是數以百萬計的垃圾信息的數據描述。這類似于使用結構化查詢語言分析傳統(tǒng)關系數據庫,這種方式在過去幾十年被廣泛使用在世界各地。

不過,CSDN總編劉江曾經撰文:有媒體稱之為后Hadoop時代的三駕馬車Caffeine、Pregel和Dremel。當然,這種說法有混淆了輩份之嫌,而且并不十分科學。Pregel是圖數據庫,據說在MapReduce之外擔負了另外20%的數據處理任務,與三大論文之間沒有承繼關系。其實某種程度上,Caffeine是MapReduce的演進,在今年OSDI上大火的Spanner可以視為BigTable的演進,而Dremel則是新出的。
Hadoop的相關產品
2012年10月24日,實時運營信息軟件供應商Splunk在Strata Conference + Hadoop World上推出Splunk Hadoop Connect和Splunk App for HadoopOps。前者實現與Hadoop相集成,并且能夠與其進行互動,后者監(jiān)控超越Hadoop本身的集群資源,這些都意味著Hadoop外延應用越來越豐富。
以此同時,大數據技術會議Strata Conference + Hadoop World同樣傳來消息,Cloudera發(fā)布了實時查詢開源項目Impala 1.0 beta版,稱比原來基于MapReduce的Hive SQL查詢速度提升3~90倍。
再看一下微軟,他已經將Hadoop作為自身大數據戰(zhàn)略的核心。微軟此舉的理由就是看中了Hadoop的潛力,在大數據領域Hadoop已經成為分布式數據處理的標準。通過集成Hadoop技術,微軟也允許客戶訪問快速增長的Hadoop生態(tài)系統(tǒng)。 讓我們一起走進“Microsoft Azure Hadoop特性一覽”。
目前Facebook Hadoop集群內的HDFS物理磁盤空間承載超過100PB的數據(分布在不同數據中心的100多個集群)。由于HDFS存儲著Hadoop應用需要處理的數據,因此優(yōu)化HDFS成為Facebook為用戶提供高效、可靠服務至關重要的因素。Facebook公開其Hadoop與Avatarnode代碼——有效解決Namenode的頑疾。
Hadoop領域的那些大牛們
其實在Hadoop領域有很多傳奇人物,先說說Hortonworks的CTO Eric Baldeschwieler,Eric在2006年毅然投入雅虎Apache Hadoop項目的懷抱,將其從20個節(jié)點的原型系統(tǒng)發(fā)展為42000個節(jié)點的服務。而后,當雅虎決定全力支持Apache Hadoop項目,并于2011年7月成立新公司Hortonworks時,Eric當之無愧地成為首任CTO。作為資深技術人士,但當CTO的Eric感覺自己面臨了諸多挑戰(zhàn)。但他對Hadoop的前景非常樂觀,“大家多貢獻一點,Hadoop將會創(chuàng)造奇跡。”
根據目前的狀況來看,Hadoop作為企業(yè)級數據倉庫體系結構核心技術,在未來的數年中將會保持持續(xù)增長的勢頭。下一代的MapReduce節(jié)點數將從目前的4000增加到6000-10000,其次并發(fā)的任務數從目前的40000增加到100000。
Hadoop不是萬能的
雖然Hadoop有很多忠實的擁護者。畢竟它可以輕而易舉地處理PB級別的數據,它可以將運算擴展到數千個節(jié)點的分布式計算能力,它也具有存儲和加載數據的靈活性。但在經歷過一系列的探索與使用之后,你會發(fā)現,Hadoop也有自己的軟肋,下面列舉了為什么不使用Hadoop做數據分析的原因:
Hadoop只是一個框架,而非一種完備的解決方案。
Pig和Hive都非常不錯,但卻受到架構的局限。
沒有軟件成本,部署相對容易,但維護和開發(fā)的代價極大。
擅長大數據分析,卻在某些特定領域表現不佳。
并行處理的性能極佳,但也不是萬能的。
不過最為諷刺的是,Hadoop最大的缺點之一就是其最大的優(yōu)勢所在——分布式文件系統(tǒng)(HDFS)?,F在越來越多想要取代HDFS的選項證明了HDFS并不是適合所有的領域。一些Hadoop用戶對于性能、可用性和企業(yè)級功能有嚴格的要求,而對直連存儲(DAS)架構并不熱衷。而關注可用性的用戶一定特別關注方方面面,比如絕不會使用沒有內建高可用性名稱節(jié)點(High Availability NameNode)的舊版本。這里就有8項產品(或方案)聲稱可以取代HDFS:Cassandra (DataStax)、CEPH、Dispersed Storage Network (Cleversafe)、GPFS(IBM)、Isilon (EMC)、Lustre、MapR File System以及NetApp Open Solution for Hadoop。
Hadoop的輝煌還能延續(xù)多久?
Hadoop的靈魂是MapReduce。但是面對數據的爆炸性增長,谷歌的工程師Jeff Dean和Sanjay Ghemawat架構并發(fā)布了兩個開創(chuàng)性的系統(tǒng):GFS和谷歌MapReduce(GMR)。前者是一個出色而實用的解決方案-使用常規(guī)的硬件擴展并管理數據,后者同樣輝煌,造就了一個適用于大規(guī)模并行處理的計算框架。不過一個有趣的現象是,MapReduce在谷歌已不再顯赫。當企業(yè)矚目MapReduce的時候,谷歌好像早已進入到了下一個時代。事實上,我們談論的這些技術早就不是新技術了,MapReduce也不例外。
盡管當前大數據技術的核心依然是Hadoop,但谷歌卻已經為我們展現了許多更先進的大數據技術。谷歌開發(fā)這些技術的本意并不是要立刻拋棄掉MapReduce,但毫無疑問這是未來大數據技術的趨勢。盡管已經出現了上述大數據技術的開源實現,但我們不禁要問,Hadoop的輝煌還能延續(xù)多久?
基于Hadoop的改進以及最新的成果
圍繞Hadoop,產業(yè)鏈更加清晰。十月或許是大數據歷史上值得標注的一個月,因為Hadoop會被重新定義:既可以是大數據批量處理的一個研究框架,也可以是結構化與非結構化數據大規(guī)模并行分析數據高速的發(fā)動機,交互分析的產品。Birst、Splice Machine和Teradata這三家企業(yè)的產品從外延提升了Hadoop的應用范疇。
接下來,就要說說一些常用的開源工具了。首先看看Storm,這是我們經常用的一個非常有效的開源實時計算工具,它由Twitter開發(fā),通常被比作“實時的Hadoop”。然而Storm遠比Hadoop來的簡單,因為用它處理大數據不會帶來新老技術的交替。當然對比Hadoop的批處理,Storm是個實時的、分布式以及具備高容錯的計算系統(tǒng)。同Hadoop一樣Storm也可以處理大批量的數據,然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時;也就是說,所有的信息都會被處理。Storm同樣還具備容錯和分布計算這些特性,這就讓Storm可以擴展到不同的機器上進行大批量的數據處理。
不過說到Twitter,就不得不提起近期剛剛發(fā)布的Blobstore圖片存儲系統(tǒng),是由Twitter開發(fā)的一個低成本和可擴展的的存儲系統(tǒng),可以用來存儲圖片以及其他的二進制對象(稱為“blob”)。不過令人遺憾的是,Blobstore并不是一個開源工具。
不過我們還有其他的選擇,Facebook最近在他們官方Github上發(fā)布了Corona的開源版本,聲稱這是下一代MapReduce,他們馬上將用這一新技術替代他們的Hadoop系統(tǒng)中的MapReduce。其實Corona就是一個取代MapReduce用來調度Hadoop Job的新的系統(tǒng)。其目的是為了更好的利用集群的資源,同時能夠讓Hadoop的應用范圍更廣。
還有上文提到的Cloudera發(fā)布了實時查詢開源項目Impala。多款產品實測表明,比原來基于MapReduce的Hive SQL查詢速度提升3~90倍。雖然Impala是Google Dremel的模仿,但在SQL功能上青出于藍勝于藍。
大數據面臨的一個很大的問題是大多數分析查詢都很緩慢且非交互式。Google的Dremel能以極快的速度處理網絡規(guī)模的海量數據。據谷歌的研究報告顯示,Dremel能以拍字節(jié)(petabyte,PB,1PB等于1024TB)的數量級來進行查詢,而且只需幾秒鐘時間就能完成。而其對應的開源版本就是Drill。 Drill與MapReduce相輔相成。在谷歌,數以千計的工程師每天都在使用Dremel和MapReduce,未來也將有著更多的人來使用Drill與MapReduce。如果想了解的更多,可能你還需要看看Google Dremel 與 Apache Hadoop的對比篇。#p#
云安全——企業(yè)端挑戰(zhàn)愈加明顯
隨著IT技術本身的發(fā)展和更加深入廣泛的生活應用,讓我們先盤點下2012年計算機安全上的大事件:
1月3號 沙特的黑客0xOmar,在網上發(fā)布了以色列40萬張信用卡信息,數天后以色列一個黑客用200張沙特的信用卡信息回擊。
1月6號: 黑客組織The Hacker Encrypters發(fā)現并且報道了Facebook的一個開放的SQLi數據庫。
1月7號:挪威黑客組織Team Appunity被捕,原因是他們入侵了挪威最大的成人網站,并且把數據庫中的數據發(fā)表了出來。
2月8日:富士康被黑客組織Swagg Security攻擊,數據庫中大量數據泄漏,包括Email密碼,服務器密碼,甚至有蘋果公司和微軟公司這樣的大公司的信用賬戶,攻擊理由是為富士康的員工打抱不平。
2月4日: 土耳其許多重要網站被土耳其黑客F0RTYS3V3N攻擊。其中包括Google、Yandex、微軟、Gmail、Msn、Hotmail、Paypal 。
5月24日:WHMCS(著名網站托管解決方案供應商)被黑客組織UGNazi攻擊,理由是WHMCS非法使用了他們的軟件。
5月31日: MyBB(著名軟件公司)被黑客組織UGNazi攻擊,網站癱瘓一天,理由是他們公司為論壇Hackforums.net提供了服務。
10月日:Farmers Insurance、MasterCard等數個高層政府網站被Swagg Security攻擊,數千個用戶的賬戶,密碼和私密信息被泄露。
隨著云計算和大數據技術的成熟,對于的安全技術也在逐漸發(fā)展,下面就一些熱門的云安全技術做下盤點:
WAF:它幾乎在每個供應商的解決方案中都會出現,主要關注SQL注入,XSS,漏洞掃描等。思科是網絡和綜合解決方案的領先企業(yè),他們就有思科Ace WAF。
SSL:SSL對大家并不陌生,然而在2012年,供應商為SSL提供了更多,更細控制粒度的選項。Symantec在早在2010就為SSL收購了VeriSign的安全業(yè)務,如今的各大安全供應商都將SSL隱含在了自己的產品中。
Control panel:以往說到安全,第一反應就是黑屏白字的命令行,在2012年,各大云安全供應商都有了自己非常人性化的控制面板,企業(yè)也不用為部署云安全而專門去高薪招聘一個安全專家了,這方面Incapsula公司做的非常優(yōu)秀。
Spam / Bot protection:垃圾郵件相信做安全系統(tǒng)的人都會想到,2012年的云計算里它依舊很熱門。
DDoS protection:這個現在大多數人都不怎么提了,然而有過使用經歷的人都會發(fā)現,其實每個公司的解決方案里都把它隱含了。
CDN & ptimizer:除這個外,2012年安全領域也將CDN和優(yōu)化包含了進來,因為有很多公司,尤其像媒體,新聞類的網站,一不小心用戶的訪問負載就超標了,為系統(tǒng)做動態(tài)負載和擴展是很熱門的安全話題。
Analystice & Monitoring:以往的安全分析和監(jiān)測往往停留在表面,如今在大數據技術的驅動下,云計算和大數據本身的技術就被用來進行安全分析和監(jiān)控上了。
Back-up and Disaster recovery:在幾個大災難后,容災備份的需求達到了一個新的高度,同時由于無法控制的數據增速,以往的數據備份方案已經不能滿足需求,同時由于應用的需求,數據生命周期理論和固態(tài)存儲技術成為了這一領域的熱門,Dell,Hp和Imation都在這塊兒有不俗的表現。
策略
以往的安全解決方案就是一套殺毒軟件,一套安全設施再加一套安全體系。如今,在云背景下安全早已經上升到企業(yè)戰(zhàn)略這個高度,那么面對云計算,對企業(yè)在策略上的變化做下盤點:
2012年云安全首先面臨的是私有云和公共云。其次還有虛擬機夾在操作系統(tǒng)和硬件之間也給云安全帶來了新的挑戰(zhàn)。
企業(yè)對于安全服務供應商的選擇也越來越傾向于尋找第三方公司做評測,Gartner今年可算忙活了一年。
系統(tǒng)安全逐漸被越來越多的企業(yè)列為風險分析的一個重要方面。
經過眾多的安全事件后,企業(yè)對于敏感數據的處理也越來越銘感,構建私有云和自己的數據中心成了12年一個熱門。
以往的安全往往關注與數據,2012年的安全更加關注業(yè)務和流程。