Hadoop Summit 2013 Day2:信息大爆炸
今天參加了3個keynotes,42個session中的8個,和一大堆廠商討論技術,真是信息大爆炸的一天。
Hadoop從誕生到今年已經有7個年頭,今年出現了很多新的變化:
1、Hadoop被公認是一套行業(yè)大數據標準開源軟件,在分布式環(huán)境下提供了海量數據的處理能力(Gartner)。幾乎所有主流廠商都圍繞Hadoop開發(fā)工具、開源軟件、商業(yè)化工具和技術服務。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明顯增加了Hadoop方面的投入,Teradata還公開展示了一個一體機;另一方面創(chuàng)業(yè)型Hadoop公司層出不窮,這次看到的幾個是Sqrrl、Wandisco、GridGain、InMobi等等,都推出了開源的或者商用的軟件。
2、Hadoop生態(tài)系統(tǒng)豐富多彩,但是核心已經被Cloudera、HortonWorks牢牢掌控,基本上沒有撼動之可能。今年Hortonworks的宣傳是100% open source,Cloudera只好干著急,誰叫他不開放Cloudera Enterprise Manager的源代碼呢?Hortonworks介紹Ambari的時候,會場至少5個Cloudera的工程師在仔細聆聽,有個小伙不停地在iPad上面速記,競爭可見一斑,個人估計,Cloudera早晚將Enterprise Manager開源。Hortonworks目前Ambari的committer是20+,Contributor 50+,后一個數字可能有些水,但是第一個是沒有問題的。目前每天有update,1.25版本比1.0x版本明顯好用了。其他大小廠商的生存之道就是搞插件,如Wandisco、vmware、mellanox、GridGain,而且插件均是不用修改內核的外掛 - 這些廠商是沒有能力動內核的,持續(xù)投入可能會有一些作用,如vmware,但是一線hadoop廠商是絕不會松手的。
3、Hadoop 2.0轉型基本上無可阻擋。Hortonworks的VPArun在介紹Tez的時候,給出了很多有趣的ppt,主旨就是一個:MapReduce已經是昨日黃花,Yarn將是未來并行計算的基礎設施。我自己還沒有使用Yarn,但是Hortonworks已經圍繞Yarn開發(fā)了很多工具,尤其是Tez,這個玩意可以提升查詢計劃的執(zhí)行時間,PIG和Hive將被改寫并重裝上陣。Hortonworks雖然沒有搞出來Impala,但是從更底層的技術上包圍Impala,兩個老大的布局和較量始終沒有停止。
4、SQL over Hadoop是一個重要的技術趨勢。去年Hadoop World時,MPP還吹噓自己如何牛X。但是Google發(fā)布了Dremel和PowerDrill,EMC搞出來HAWQ,Cloudera搞出來Impala之后,所有的MPP都開始反思自己的技術路線。和Parccel技術人員(感覺是售前)討論了一下,她找出一張卡片說Parccel速度是Hive的100X,領先Impala10年。我感覺這個說話很快就會失靈,首先是Hive的優(yōu)化一直沒有停止,Hortonworks搞出來Tez、Stinger(與Facebook合作)。雖然MPP領先Hadoop很多年,根據80:20原則,如果hadoopSQL只做用戶需要的20%特性,那么這個差距最多2年,2年內,hadoopSQL將在部分領域超越MPP。MPP企業(yè)的出路就是學習HAWQ。列存儲也是推陳出新,近期主要是ORC(MS和Hortonworks合作)、Parquet(Twitter和Cloudera合作),有木有看出來兩個巨頭PK的身影?有木有看到抱團PK?這些技術在測試中均顯示出很大的優(yōu)勢
5、IT和開源單位合作廣泛。這個不僅僅存在IT廠商和開源之間,實際上開源之間也在密切合作。不太清楚合作的內部信息,但是基本上有兩種模式:產品/軟件交叉集成(含管理系統(tǒng)集成);合作開發(fā)和推廣。在技術方面就要求軟件有很好的架構,提供開放的接口,這一點Ambari的設計和俺對HT的要求一模一樣,可以俺未能如愿,而Amabri已經開發(fā)了好幾個版本。
6、技術上看,大數據和云的整合也是一個選項(注意,不是趨勢,而是選項)。今年新增了OpenStack相關議題,一些集成商和廠商也提出了云上Hadoop的適用場景。這個并不是適用于所有人,但是部分用戶可以因此獲益。Netflix是一個典型的例子,他們的實例都在AWS上面,顯然他們的hadoop是基于虛擬機的,和一個Netflix小伙子(日本人)交流,他們大約有2000個虛擬實例,基于EMR,并開發(fā)了Gennie管理系統(tǒng)。
要睡覺了,4小時后還有一場信息大爆炸!貼一張在賓館小院乘涼,看到的小松鼠吧,也就距離我5米不到,真要贊一聲美帝的環(huán)境!