解決大數(shù)據(jù)的開源工具
針對大數(shù)據(jù)的開源源代碼平臺變得十分流行。在過去的幾個月里, 似乎幾乎每個人都感覺到了影響。
低成本、靈活性和適用于受過訓(xùn)練的人員是開源繁榮的主要原因。Hadoop、R和NoSQL是現(xiàn)在許多企業(yè)大數(shù)據(jù)策略的支柱,不管他們是否用它管理非結(jié)構(gòu)化數(shù)據(jù)或執(zhí)行復(fù)雜的統(tǒng)計分析。”
幾乎難以跟上它:SAP AG最近發(fā)布了一個新的產(chǎn)品, SAP BusinessObjects預(yù)測分析,軟件整合了開源R語言的算法,該語言廣泛使用在針對高級統(tǒng)計模型的學(xué)術(shù)社區(qū)。
幾周之前, Teradata公司宣布其新的整合分析組合將包括R功能以及到GeoServer的一個連接,一個基于java的開源地理定位平臺。無數(shù)其他公司正急于建立鏈接到Hadoop。
廣泛的采用狂熱的創(chuàng)新
James Kobielus,曾任Forrester研究公司的分析師 (他現(xiàn)在IBM公司大數(shù)據(jù)分析解決方案產(chǎn)品營銷任高級項目主管),在一封電子郵件中這么寫道,“開源方法有最廣泛采用的勢頭和最狂熱的創(chuàng)新”。
但急什么?
首先, Kobielus解釋說,正如開源產(chǎn)品的范圍從Mozilla到 Android,在誕生的陣痛之后已經(jīng)在IT社區(qū)贏得廣泛的接受,開源數(shù)據(jù)存儲和分析軟件現(xiàn)在已經(jīng)成熟了(“不再是一兩年以前高風(fēng)險的賭注”,正如他所說的那樣)。
其次, Kobielus寫道,像Hadoop, R和NoSQL這樣的平臺比專門的軟件享有優(yōu)勢, 因為它們能更快地演變。他們也在不斷開發(fā)并為各種團體所改進(jìn)。他預(yù)測, 開源很快將會主宰大數(shù)據(jù)市場。
“隨著封閉式源碼軟件的足跡在很多數(shù)據(jù)/分析環(huán)境中的萎縮,許多現(xiàn)有的供應(yīng)商將朝著開源的方向發(fā)展他們的商業(yè)模式,”他寫道,“也會加大專業(yè)服務(wù)及系統(tǒng)整合以幫助客戶走向開源的、基于云的分析,其中大部分集中在Hadoop和R。
例如,F(xiàn)orrester把Hadoop看作是下一代企業(yè)數(shù)據(jù)倉庫 (EDW) 在云的核心,而把R看作是未來一波大數(shù)據(jù)開發(fā)工具主要的代碼庫。我們也期望各種開源NoSQL數(shù)據(jù)庫和工具聯(lián)合成為替代封閉內(nèi)容分析產(chǎn)品的豐富選擇。”
紅帽(Red Hat)模型
不同的企業(yè)以不同的方式接近開源整合。有些企業(yè),像SAP,選擇使用他們自己內(nèi)部的專家使用 Hadoop或R的功能開發(fā)產(chǎn)品,而其企業(yè),像Teradata移交了大量的工作給像革命分析公司(Revolution Analytics Inc.)這樣有些像紅帽公司的大數(shù)據(jù)公司。該公司面向企業(yè)提供一種商業(yè)版的R, 就像紅帽公司對Linux所做的那樣。
一家小公司站在大數(shù)據(jù)巨頭之間,這家公司專門為不同的業(yè)務(wù)流程的修改R,革命分析公司(Revolution Analytics)營銷和社區(qū)副總裁David Smith說, “尤其是, 我們讓它運行在真正的大數(shù)據(jù)集上。”
在產(chǎn)品中使用開源是公司在市場中突出自己的一種方式, Smith說。“根據(jù)定義, 這意味著你不做競爭對手在做的事。”
Smith說, 對于大數(shù)據(jù)分析采取先進(jìn)的、科學(xué)的態(tài)度的企業(yè),開源技術(shù)是一種自然的選擇。“那些公司有一點數(shù)據(jù)科學(xué)的文化,對數(shù)據(jù)有探索和好奇心,真的已經(jīng)被開源技術(shù)所吸引,因為它們?nèi)绱遂`活,并且向他們提供這些不同的方法思考數(shù)據(jù)并用這些數(shù)據(jù)探索不同的事情。”
革命分析的合作伙伴,Teradata實驗室的總裁Scott Gnau說,大型企業(yè)將從開源技術(shù)的商業(yè)軟件套裝中受益最多,這樣他們能持續(xù)專注于他們的特定業(yè)務(wù)線。
“在采用一些新技術(shù)中有很多價值被創(chuàng)造,在Hadoop和MapReduce的環(huán)境中開發(fā),但將它們作為一種企業(yè)級的軟件,有可靠的版本控制,并有可靠的可擴展性和有可得到的支持。
“它必須被打包并可靠地進(jìn)入主流,因為大多數(shù)企業(yè)并不想集中去作軟件開發(fā)”他說。
EMC Greenplum的產(chǎn)品營銷經(jīng)理Will Davis表示贊同。他說, 規(guī)模較大的公司需要更穩(wěn)定、可靠的開源大數(shù)據(jù)平臺化身,不管他們是否添加了自己的改進(jìn)或依賴別人來幫他們做。
“很多企業(yè)…EMC的傳統(tǒng)客戶, 財富500強的之類的企業(yè), 真的需要該技術(shù)的部署適用于企業(yè), 以滿足嚴(yán)格的服務(wù)級合同(SLA) ,并總是在線可用的,”他說。
一些早期的開源技術(shù)采用者開發(fā)出專業(yè)知識單干,但“第二波”的公司渴望可以快速建立并運行。 它們可能沒有自己員工來作做開發(fā)的工作。
引入數(shù)據(jù)科學(xué)家
目前對大數(shù)據(jù)人才確實是有巨大的需求,而且企業(yè)正意識到運行開源平臺成為可以吸引到受過訓(xùn)練的的人才的最佳位置。開源技術(shù),尤其是R,被廣泛應(yīng)用于學(xué)術(shù)界。
此外,這些數(shù)據(jù)科學(xué)家能更好地利用開源平臺。Imran Ahmad是一個數(shù)據(jù)科學(xué)家,他已經(jīng)開發(fā)了自己的網(wǎng)格計算算法,稱為Bileg的Hadoop競爭對手,它是基于開源的Globus 工具箱(GT4)的。多倫多一家為云環(huán)境開發(fā)數(shù)據(jù)分析技術(shù)的Cloudanum公司總裁說,開源平臺最根本的優(yōu)勢是,像他這樣的人能看到它根本的數(shù)學(xué)依據(jù)。
“如果在開源上,您可以向下挖掘并看到為什么我得到這些結(jié)果,為什么這些結(jié)果是最優(yōu)的,”Ahamad說。
專有數(shù)據(jù)分析軟件大多數(shù)時候能很好地工作,他補充道。但是當(dāng)一個“不尋常的場景”出現(xiàn)時, 讓你無法信任你的結(jié)果。“它們將偏離你要找的東西,”他說。“這真是一種正可怕的情況”。
毫不意外,有統(tǒng)計建模背景的聰明才智也供不應(yīng)求,尤其是像如金融機構(gòu)這樣其它領(lǐng)域的機構(gòu)正在求賢若渴。
“他們已經(jīng)聘請了大批校外的人到數(shù)據(jù)科學(xué)部門或研發(fā)部門和建模部門,” Smith說,“而他們發(fā)現(xiàn)這些人都學(xué)習(xí)過R,而不是所說的SAS。”
所以毫不奇怪,有統(tǒng)計建模背景的聰明人才被求賢若渴,尤其當(dāng)像金融行業(yè)大量招聘他們的時候。
“我們提供Greenplum的咨詢業(yè)務(wù),”Davis說,“這是我們的數(shù)據(jù)科學(xué)團隊, 這些人是博士, 已經(jīng)是各種行業(yè)及其相關(guān)行業(yè)的專家。我有聰明而勤奮的人 ,坦白說, 這些人正與客戶一起讓他們的數(shù)據(jù)發(fā)揮作用。”
SAP集團營銷經(jīng)理Jason Kuo說,需要執(zhí)行比如預(yù)測分析這樣復(fù)雜任務(wù)的公司無疑正在搜尋著高校的人才。他說, SAP的新產(chǎn)品組合了一個友好用戶界面和拖放功能,將易于數(shù)據(jù)科學(xué)家轉(zhuǎn)換角色到企業(yè)的世界里。
“這些人帶著他們的R專長, R的背景,并尋求和R相關(guān)的工具,”他說。“現(xiàn)在有趣的是,在學(xué)術(shù)環(huán)境中,不管出于什么原因,不管是它的廉價或者熟悉度,他們更有可能使用沒有GUI的 R,而不用圖形界面。而現(xiàn)在他們走進(jìn)企業(yè)的世界, 在那里他們的要求更高了, 項目轉(zhuǎn)變的框架更快, 也許正在追蹤投資回報率(ROI)等等。
“公司能說…你需要什么才能更成功? 我們?nèi)绾文苁鼓愀行? 和他們?yōu)檫@些統(tǒng)計師準(zhǔn)備了在過去不會有的預(yù)算。”
如果你不能戰(zhàn)勝他們
SAS研究公司平臺開發(fā)副總裁Paul Kent,為一家經(jīng)常被視為屬于大數(shù)據(jù)領(lǐng)域的對立面的公司工作,開發(fā)了專有數(shù)據(jù)分析算法替代那些用于像R這樣的開源語言。
Kens說, 在某種程度上, SAS并把開源社區(qū)作為一個并肩齊驅(qū)的競爭者。新技術(shù)可以在開源環(huán)境中非常迅速地開發(fā),而他的公司在將技術(shù)轉(zhuǎn)化成適合市場的產(chǎn)品功能之前可能需要更多的時間來研究它們。
“我們需要更多一點時間對技術(shù)作出反應(yīng)并測試所有的不同角落和排列你可能使用它的方式。所以, 我們的響應(yīng)可能有點慢。
然而,他說,SAS在大型的技術(shù)支持市場有優(yōu)勢,而且有使技術(shù)適用于不同機構(gòu)的專業(yè)知識,無論是零售企業(yè)、銀行、或醫(yī)療機構(gòu)。SAS的優(yōu)勢在于“對特殊領(lǐng)域的數(shù)學(xué)應(yīng)用。”Kent說。
與此同時,他說,SAS掌握趨勢,并給它的客戶一樣的開源選項。Kent說SAS已經(jīng)“修建一座到R的橋梁”就像它對Hadoop所做的那樣。Kent表示,每當(dāng)開源社區(qū)有了好的創(chuàng)意,SAS都會關(guān)注。
“從長遠(yuǎn)看,搭建橋梁或界面到這樣的創(chuàng)意是有用的,勝過試圖假裝它不存在。”
原文鏈接:http://www.chinabi.net/Article/binews/201209/2227.html