被冷落的大數(shù)據(jù)熱點:圖譜分析
開源項目GraphLab的公司化,標志著圖譜數(shù)據(jù)庫和圖譜處理應(yīng)用的商業(yè)化進程已經(jīng)啟動。
GraphLab是一個流行的圖譜分析和機器學(xué)習(xí)的開源項目,最近該項目剝離出一個獨立運作的商業(yè)公司GraphLab Inc,其創(chuàng)始人,華盛頓大學(xué)機器學(xué)習(xí)專業(yè)教授Carlos Guestrin將負責公司的運作,目前GraphLab已經(jīng)從Madrona Venture Group和NEA募集了675萬美元資金。
圖譜分析是大數(shù)據(jù)集分析的熱門領(lǐng)域,主要被用來分析數(shù)據(jù)節(jié)點之間的關(guān)系和相似度。“圖譜”一詞源自社交網(wǎng)絡(luò)的人際網(wǎng)絡(luò)關(guān)系圖譜分析,但是今天圖譜分析的應(yīng)用范圍要廣得多。
根據(jù)Guestrin介紹,GraphLab的算法被應(yīng)用于很多推薦系統(tǒng),也包括銀行的欺詐偵測和電腦網(wǎng)絡(luò)中的入侵偵測等領(lǐng)域。實際上,圖譜分析模型可以適用于從內(nèi)容推薦到基因分析等各個領(lǐng)域。尤其是與機器學(xué)習(xí)結(jié)合后,圖譜分析幾乎可以分析任何有足夠多數(shù)據(jù)的分析場景。
眾所周知,Google使用了著名的圖譜處理系統(tǒng)Pregel作為PageRank算法的一部分。雖然過去幾年中冒出來不少圖譜數(shù)據(jù)庫等圖譜分析項目,但Guestrin表示GraphLab與Pregel的資歷相當。早在五年前,Guestrin就和卡內(nèi)基梅隆大學(xué)的同事開發(fā)了一個小型開源系統(tǒng),當時沒有想到會火。如今,大名鼎鼎的音樂推薦網(wǎng)站Pandora和零售巨頭沃爾瑪?shù)拇髷?shù)據(jù)實驗室WalmartLabs都在使用GraphLab。
在GraphLab之外,還有一些圖譜數(shù)據(jù)庫,例如Giraph(Facebook開發(fā)的開源軟件,基于Hadoop的Pregel克隆)和Neo4j(該項目也有一個商業(yè)化公司Neo Technology),以及Twitter的Cassovary和華盛頓大學(xué)的Grappa項目。Guestrin表示GraphLab能與上述大多數(shù)圖譜數(shù)據(jù)庫配合使用,發(fā)揮GraphLab的大規(guī)模機器學(xué)習(xí)處理能力。
據(jù)Guestrin介紹,GraphLab的商業(yè)化產(chǎn)品還需要假以時日,他目前的重點工作是七月份即將發(fā)布的GraphLab的下一個開源版本。但是未來幾個月GraphLab將開始與商業(yè)客戶接觸,了解他們對圖譜分析商業(yè)軟件的需求。
對于圖譜分析創(chuàng)業(yè)公司而言,目前最大的一個疑問是潛在市場規(guī)模到底有多大。目前市場中已經(jīng)有不少圖譜分析產(chǎn)品,其中不乏IT巨頭開發(fā)的成熟產(chǎn)品,例如超計算機廠商Cray開發(fā)的YarcData。
原文鏈接:http://www.ctocio.com/ccnews/12340.html