助人就是助己:IBM宣布大規(guī)模資助開(kāi)源大數(shù)據(jù)項(xiàng)目Spark
本周一,IBM宣布將對(duì)開(kāi)源實(shí)時(shí)大數(shù)據(jù)分析項(xiàng)目Apache Spark進(jìn)行大規(guī)模資助,藍(lán)色巨人宣稱,其資助的力度之大相當(dāng)于每年數(shù)億美元的投入。
Hadoop技術(shù)出自Google、Yahoo這些互聯(lián)網(wǎng)公司,主要是為了對(duì)規(guī)模龐大的各類數(shù)據(jù)進(jìn)行處理和分析。不過(guò)近年來(lái)隨著大數(shù)據(jù)應(yīng)用的流行,越來(lái)越多的公司也希望自己具備類似的能力,這使得Hadoop逐步進(jìn)入了主流。Hadoop以及相關(guān)的分發(fā)企業(yè)如Cloudera, Hortonworks等也成為了大數(shù)據(jù)領(lǐng)域的投資熱點(diǎn)。
Spark同樣也提供大數(shù)據(jù)處理與分析能力。如果說(shuō)Hadoop勝在規(guī)模的話,那么Spark就勝在速度。這項(xiàng)由2年前UC Berkeley AMP實(shí)驗(yàn)室開(kāi)發(fā)的技術(shù)將中間輸出結(jié)果保存在內(nèi)存而不是分布式文件系統(tǒng)中,從而可以提供實(shí)時(shí)的數(shù)據(jù)分析能力。與Hadoop獲得的資助相比,對(duì)Spark的支持還很不夠。
正是在此背景下IBM宣布了對(duì)Spark的大規(guī)模資助。藍(lán)色巨人將投入超過(guò)3500名開(kāi)發(fā)者到Spark相關(guān)項(xiàng)目,為項(xiàng)目提供機(jī)器學(xué)習(xí)技術(shù),并將Spark嵌入到IBM的數(shù)據(jù)分析和商用軟件中,同時(shí)還會(huì)把Spark作為服務(wù)在它的Bluemix開(kāi)發(fā)平臺(tái)上提供出來(lái)。為了鼓勵(lì)基于Spark的創(chuàng)新,IBM還將在舊金山設(shè)立一個(gè)Spark技術(shù)中心。IBM還將把自己的一個(gè)研究項(xiàng)目SystemML開(kāi)源。這個(gè)項(xiàng)目是利用機(jī)器學(xué)習(xí)技術(shù)去識(shí)別數(shù)據(jù)模式,而它正是在Spark基礎(chǔ)上開(kāi)發(fā)的。
IBM還計(jì)劃與UC Berkeley的AMPLab、DataCamp、Galvanize以及Big Data University等學(xué)術(shù)及教育組織合作提供Spark教育課程,目標(biāo)是培養(yǎng)100萬(wàn)名數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家。
IBM的大規(guī)模資助令人矚目?;仡欉^(guò)去,正是由于IBM的出手才讓若干關(guān)鍵技術(shù)得到了普及,比如說(shuō)1980年代IBM對(duì)PC的投入,2000年代對(duì)Linux的投入均加速了相關(guān)技術(shù)成為主流的進(jìn)程。
當(dāng)然,對(duì)于IBM來(lái)說(shuō),對(duì)Spark的大規(guī)模投入實(shí)際上也在幫助它自己。此舉不僅能強(qiáng)化自己在大數(shù)據(jù)領(lǐng)域的地位,同時(shí)也能吸引更多開(kāi)發(fā)者加盟它的生態(tài)體系,幫助IBM更快更好地解決其業(yè)務(wù)問(wèn)題。
而放眼更大的環(huán)境,開(kāi)源化已成不可逆轉(zhuǎn)的趨勢(shì)。技術(shù)巨頭比以往任何時(shí)候都更加熱情地涌入到這一潮流當(dāng)中。比方說(shuō)Google開(kāi)源了自己最大的秘密之一,F(xiàn)acebook更是幾乎將自己變成了一所開(kāi)源實(shí)驗(yàn)室。因?yàn)檫@些巨頭明白,如果不擁抱開(kāi)源,也許就會(huì)被開(kāi)源消滅。