Hadoop:Cloudera收購Myrrix共創(chuàng)“Big Learning”
目前機(jī)器學(xué)習(xí)已經(jīng)成為大數(shù)據(jù)的典型使用案例,通過收購機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司Myrrix,Cloudera又朝著其大數(shù)據(jù)一站式服務(wù)點(diǎn)的目標(biāo)邁進(jìn)了一步。Myrrix創(chuàng)始人Sean Owen, 7月16日上午在博客中正式宣布了這一收購,Sean Owen目前已擔(dān)任Cloudera位于倫敦的數(shù)據(jù)科學(xué)部總監(jiān)。
Cloudera在Hadoop生態(tài)系統(tǒng)中,算得上是規(guī)模最大、知名度最高的公司之一。Cloudera創(chuàng)建于2008年,致力于為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)提供基于Apache Hadoop的軟件、支持、服務(wù)和培訓(xùn)。紐約時(shí)報(bào)曾這樣報(bào)道Cloudera的成立:Cloudera的成立是一個(gè)典型的硅谷故事——來自Google(Christophe Bisciglia)、Facebook(Jeff Hammerbacher)和Yahoo!(Amr Awadallah)的頂級(jí)工程師聯(lián)合Oracle前高管(Mike Olson)共同解決快速分析大規(guī)模數(shù)據(jù)的相關(guān)問題。
2012年,Owen創(chuàng)辦了Myrrix,Myrrix是一個(gè)實(shí)時(shí)的、可擴(kuò)展的集群和推薦系統(tǒng),從Apache Mahout項(xiàng)目演變而來。
應(yīng)客戶的需求,Cloudera需要在應(yīng)用層面取得更大發(fā)展,目前還很難判斷這項(xiàng)收購對(duì)Cloudera的意義。正如Owen在文章中提到的:
機(jī)器學(xué)習(xí)已經(jīng)是一個(gè)有幾十年歷史的領(lǐng)域了,為什么大家現(xiàn)在這么熱衷于這項(xiàng)技術(shù)?Hadoop和便宜的硬件使得大數(shù)據(jù)分析更加容易了。隨著硬盤和CPU越來越便宜,以及開源數(shù)據(jù)庫和計(jì)算框架的成熟,創(chuàng)業(yè)公司甚至個(gè)人都可以進(jìn)行TB級(jí)以上的復(fù)雜計(jì)算。對(duì)于機(jī)器學(xué)習(xí)來說這是千載難逢的好機(jī)會(huì)。因?yàn)楦嗟臄?shù)據(jù)可以使機(jī)器學(xué)習(xí)算法表現(xiàn)得更好。如果收集和分析數(shù)據(jù)的成本變低,而學(xué)習(xí)的價(jià)值提高的話,機(jī)器學(xué)習(xí)的應(yīng)用場景也會(huì)呈爆炸式的增長。
Cloudera的高管們多年來一直堅(jiān)稱,該公司會(huì)一直提供平臺(tái)服務(wù),不會(huì)進(jìn)入應(yīng)用領(lǐng)域。但是該公司最近的一些動(dòng)作,比如Impala引擎和Cloudera搜索,表明他至少已經(jīng)意識(shí)到自己不應(yīng)該只做MapReduce作業(yè)的平臺(tái)。
Owen在忙于將Myrrix技術(shù)與Cloudera的CDH(Cloudera’s Distribution Including Apache Hadoop)做有效的結(jié)合,機(jī)器學(xué)習(xí)新技術(shù)還有多久才能落實(shí)到Cloudera的應(yīng)用層面還有待觀察。但是Owen相信與Cloudera的合作肯定能夠?qū)崿F(xiàn)其稱為“Big Learning”的目標(biāo):
沒有可用的上層應(yīng)用程序,便宜的基礎(chǔ)設(shè)施也于事無補(bǔ)。而且,機(jī)器學(xué)習(xí)大多數(shù)研究假設(shè)所有數(shù)據(jù)都在一臺(tái)機(jī)器上進(jìn)行計(jì)算,所以機(jī)器學(xué)習(xí)算法運(yùn)用到數(shù)據(jù)并行計(jì)算的Hadoop中需要一些巧妙的改造。這在Mahout項(xiàng)目中體現(xiàn)得最為明顯,很多算法都在Hadoop中實(shí)現(xiàn)了并行化。
將機(jī)器學(xué)習(xí)與Hadoop相結(jié)合還有很多工作要做,早期Hadooop也只是一個(gè)愛冒險(xiǎn)的專家才會(huì)積極嘗試的源代碼包。但是,Cloudera通過擴(kuò)展、打包和提供支持,將Hadoop推向了一個(gè)更大的平臺(tái)。同樣的事情也會(huì)發(fā)生在Myrrix這種“Big Learning”的應(yīng)用程序上,這一直也都是Myrrix的愿景,現(xiàn)在我們在與Cloudera合作朝著這個(gè)愿景努力。
無獨(dú)有偶,另一家機(jī)器學(xué)習(xí)的創(chuàng)業(yè)公司Ayasdi,也在7月16日宣布獲得了3060萬美元的B輪融資。Gunnar Carlsson和Gurjeet Singh共同創(chuàng)立了Ayasdi公司,該公司使用一項(xiàng)稱為拓?fù)鋽?shù)據(jù)分析的技術(shù),創(chuàng)建有視覺震撼力的視圖,幫助客戶為產(chǎn)品進(jìn)行分類。
許多人對(duì)機(jī)器學(xué)習(xí)的印象可能都是實(shí)驗(yàn)室中大量晦澀難懂的理論和數(shù)據(jù)分析,然而已經(jīng)有很多創(chuàng)業(yè)公司將其商業(yè)化,以下是五家試圖將機(jī)器學(xué)習(xí)簡單化的創(chuàng)業(yè)公司:
Alpine data Labs:Greenplum的子公司(EMC是其投資者之一),主要研究方向是預(yù)測分析,其軟件可以嵌入到公司內(nèi)部的數(shù)據(jù)存儲(chǔ)中(無論是Hadoop還是其它任意流行的數(shù)據(jù)庫)。通過繪制流程圖,用戶可以對(duì)數(shù)據(jù)進(jìn)行分析。

圖:Alpine Data的用戶界面
Context Relevant:Context Relevant通過一個(gè)預(yù)先包裝好的算法庫,可以在數(shù)秒內(nèi)為用戶數(shù)據(jù)建立預(yù)測模型,主要用于欺詐檢測、客戶流失以及其它的經(jīng)典預(yù)測分析用例。其創(chuàng)始人兼CEO Stephen Purpura說:“只要會(huì)用Excel,就能很好的使用我們的產(chǎn)品”。
Datameer:幾年前,Datameer為Hadoop分析開發(fā)了一個(gè)電子表格界面,目前,這個(gè)電子表格中已添加了數(shù)百個(gè)功能。在3.0版本中,通過預(yù)置的機(jī)器學(xué)習(xí)算法,用戶只需點(diǎn)擊幾次鼠標(biāo)就可以建立集群和列依賴。

圖:Datameer生產(chǎn)的列依賴圖表
Skytree:Skytree的主要產(chǎn)品是一些大型的企業(yè)級(jí)機(jī)器學(xué)習(xí)軟件,但是它們也推出了一個(gè)針對(duì)小型用戶的產(chǎn)品Adviser,目前還是測試版。它是一個(gè)桌面應(yīng)用程序,可以方便地連接到網(wǎng)絡(luò)、本地或數(shù)據(jù)源,用戶可以選擇算法庫以及輸出樣式。界面的設(shè)計(jì)還不太完善,但是你可以免費(fèi)的在客戶端分析10萬行的數(shù)據(jù),并得到交互式的報(bào)告結(jié)果還有什么可抱怨的!

圖:關(guān)于UFO目擊者的Skytree Adviser生成報(bào)告
Wise.io:Wise.io的計(jì)劃是將其創(chuàng)始人作為天文學(xué)研究人員的經(jīng)驗(yàn)應(yīng)用到商業(yè)領(lǐng)域。Wise.io的產(chǎn)品是一個(gè)直觀、易于使用的機(jī)器學(xué)習(xí)平臺(tái),幾個(gè)簡單的點(diǎn)擊就可以建立和部署模型,而且很快。聯(lián)合創(chuàng)始人Joshua Bloom曾說某客戶在使用其產(chǎn)品后,分析TB級(jí)大小的傳感數(shù)據(jù)所用時(shí)間從300個(gè)小時(shí)減少到了20分鐘。