自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)的開源之道

譯文
系統(tǒng)
德國SAP公司最近剛發(fā)布了一款新產(chǎn)品:SAP博奧杰預測分析軟件,這款軟件整合了用開源R語言開發(fā)的算法;僅僅幾個星期之前,全球領先的數(shù)據(jù)倉庫專家Teradata公司宣布,其新的集成分析產(chǎn)品系列不僅包含R功能,還包括與GeoServer的連接,GeiServer是一種基于Java的開源地理位置平臺。另外無數(shù)公司正競相開發(fā)與Hadoop相連接的產(chǎn)品。大數(shù)據(jù)的開源,正在成為趨勢。

【51CTO精選譯文】開源浪潮之所以風生水起,開源技術成本低、靈活性強,又有受過培訓的人員,這是幾大原因。Hadoop、R和NoSQL現(xiàn)在是許多企業(yè)制定的大數(shù)據(jù)戰(zhàn)略的三大支柱,無論這些戰(zhàn)略是管理非結構化數(shù)據(jù),還是對非結構化數(shù)據(jù)進行復雜的統(tǒng)計分析。

專有軟件廠商幾乎很難跟得上開源的步伐:德國SAP公司最近剛發(fā)布了一款新產(chǎn)品:SAP博奧杰預測分析軟件(SAP BusinessObjects Predictive Analysis),這款軟件整合了用開源R語言開發(fā)的算法。而R這門語言只用在學術界,用于高級統(tǒng)計建模。

僅僅幾個星期之前,全球領先的數(shù)據(jù)倉庫專家Teradata公司宣布,其新的集成分析產(chǎn)品系列不僅包含R功能,還包括與GeoServer的連接,GeiServer是一種基于Java的開源地理位置平臺。另外無數(shù)公司正競相開發(fā)與Hadoop相連接的產(chǎn)品。

廣泛采用,狂熱創(chuàng)新

James Kobielus現(xiàn)在是IBM公司大數(shù)據(jù)分析解決方案的高級項目主管,他還在知名調(diào)研機構弗雷斯特調(diào)研公司擔任分析師時,曾在一封電子郵件中寫道,“開源方案風頭甚勁,得到了最廣泛的采用,創(chuàng)新勢頭最狂熱。”

為什么會呈現(xiàn)這樣迅猛的勢頭?

Kobielus解釋,首先,正由于從Mozilla到安卓的各種開源產(chǎn)品在經(jīng)歷了一些初期的陣痛后在IT行業(yè)得到廣泛接受,開源數(shù)據(jù)存儲和分析軟件現(xiàn)在也已成熟起來(用他的話來說,“它們不再像僅僅一兩年前那樣是有風險的投入”。)

Kobielus寫道,其次,Hadoop、R和NoSQL等平臺與專有軟件相比有一個優(yōu)勢,原因在于它們能夠更快速地改進。而且它們也得到許多不同機構的不斷開發(fā)和完善。他預測,開源很快會開始主導大數(shù)據(jù)領域。

他寫道:“隨著閉源軟件在許多數(shù)據(jù)/分析環(huán)境的地盤不斷縮小,許多老牌開發(fā)商會改進各自的商業(yè)模式,向開源方案靠攏,還會加大專業(yè)服務和系統(tǒng)集成方面的力度,幫助客戶向開源、面向云的分析產(chǎn)品遷移,主要致力于Hadoop和R。”

“比如說,弗雷斯特公司認為Hadoop是下一代云端企業(yè)數(shù)據(jù)倉庫(EDW)的核心,認為R是接下來一批集成的大數(shù)據(jù)開發(fā)工具中的主要代碼庫。我們還預計,眾多開源NoSQL數(shù)據(jù)庫和工具會合并成為功能豐富的解決方案,作為閉源內(nèi)容分析解決方案之外的一種選擇。”

紅帽模式

不同的企業(yè)對待開源集成的方式各不相同。SAP等一些廠商選擇了運用自身的內(nèi)部專長,開發(fā)帶有Hadoop或R功能的產(chǎn)品;Teradata等另一些廠商則把大部分工作交給了像Revolution Analytics公司這樣的公司。Revolution Analytics這家公司有點像大數(shù)據(jù)領域的紅帽公司,它提供面向企業(yè)客戶的商用版R,就像紅帽對Linux采取的做法那樣。

Revolution Analytics的市場營銷和社區(qū)副總裁David Smith表示,這家公司與大數(shù)據(jù)巨擘相比只是家小公司,專門為不同的業(yè)務流程改動R。他說:“尤其是,我們讓它可以處理非常龐大的數(shù)據(jù)集。”

Smith表示,產(chǎn)品中使用開源技術是許多公司力求在市場中脫穎而出的一條途徑。他說:“就本身而言,這意味著你不走競爭對手所走的路子。”

Smith表示,有些企業(yè)在大數(shù)據(jù)分析方面采用了激進的、科學的方式,對它們而言開源技術是理所當然的選擇。“有些公司在數(shù)據(jù)科學、數(shù)據(jù)探究和數(shù)據(jù)分析方面有一定的基礎和傳統(tǒng),它們其實被開源技術所吸引,因為開源技術非常靈活,有助于企業(yè)從不同的角度來考慮如何處理數(shù)據(jù)、探究數(shù)據(jù)。”

Scott Gnau是與Revolution Analytics進行過合作的Teradata實驗室的總裁,他表示,大企業(yè)從商用開源技術軟件包得到的好處將***,那樣他們就能把精力集中在特定的業(yè)務活動上。

“采用在Hadoop和MapReduce環(huán)境開發(fā)出來的一些較新的技術,可以帶來很大的價值,但是把它們作為一種企業(yè)級軟件來部署;在這種環(huán)境中,有可靠的版本控制,有可靠的可擴展性,還可以獲得支持。”

他說:“產(chǎn)品想進入主流市場,就必須做成軟件包,必須可靠,因為主流用戶不想成為軟件開發(fā)公司。”

EMC Greenplum的產(chǎn)品營銷經(jīng)理Will Davis同意這一說法。他認為,大型公司需要更穩(wěn)定、更可靠的開源大數(shù)據(jù)平臺,無論它們自己加以完善,還是靠別人替自己加以完善。

他說:“許多企業(yè)是EMC的傳統(tǒng)客戶,這些都是大型的《財富》500強公司,其實需要隨時可以部署到企業(yè)環(huán)境的技術,能夠滿足嚴格的服務水平協(xié)議(SLA),能夠隨時可用。”

一砦開源技術的早期采用者已積累了單干的專長,但是“第二波公司”渴望盡快搭建并運行起來,本身可能沒有人才來自己動手干。

數(shù)據(jù)科學家登場

這年頭,大數(shù)據(jù)方面的人才的確需求量很大;許多公司認識到,如果運行開源平臺,自己就最有希望吸引來受過培訓的人員。開源技術、尤其是R在學術界廣泛使用。

此外,這些數(shù)學科學家能更嫻熟地使用開源平臺。Imran Ahmad是位數(shù)據(jù)科學家,他開發(fā)了自己的網(wǎng)格計算算法:這種與Hadoop競爭的算法名為Bileg,基于開源Globus工具包(GT4)。他現(xiàn)在是總部設在多倫多、為云環(huán)境開發(fā)數(shù)據(jù)分析技術的Cloudanum公司的總裁;他表示,開源平臺的根本優(yōu)勢在于,像他這樣的人能看到底層的數(shù)學基礎。

Ahamad說:“如果它采用開源技術,你可以深入挖掘,看看為什么我得到這些結果,為什么這些結果是***結果。”

他補充說,專有的數(shù)據(jù)分析軟件大多數(shù)時候運行起來相當好。但是出現(xiàn)“不常見的場景”時,你無法信任自己獲得的結果。他說:“它們離你所需要的結果相距甚遠。這確實是一種很可怕的情況。”

這就難怪,統(tǒng)計建模方面有基礎的最出色人才也是需求量***的,特別是由于其他行業(yè)的企業(yè)(如金融機構)在四處尋找這類人才。

Smith說:“這些企業(yè)聘請剛從學校出來的大批人,派到數(shù)據(jù)科學部門、研究開發(fā)部門和建模部門。他們發(fā)現(xiàn),所有人都接受過R方面的培訓,但沒有接受過專有技術(如SAS)方面的培訓。”

Davis說:“我們Greenplum設有一個咨詢部門,這其實是我們的數(shù)據(jù)科學團隊,成員大多是博士學位,擁有眾多行業(yè)和垂直領域方面的專長。老實對你說,我這邊有超***天才,他們與客戶共同努力,讓客戶能夠充分地利用自己的數(shù)據(jù)。”

SAP公司的集團營銷經(jīng)理Jason Kuo說,需要執(zhí)行像預測分析這些復雜任務的公司正在許多高校搜羅人才,“這是毫無疑問的事實”。他表示,SAP的新產(chǎn)品將方便數(shù)據(jù)科學家向企業(yè)界轉型。這款新產(chǎn)品結合了易于使用的界面和拖放式功能。

他說:“那些人帶來了R專長和R背景,要求使用R方面的工具。如今在學術環(huán)境值得關注的是,不知出于何種原因——無論是預算還是熟悉程度,他們使用沒有圖形用戶界面(GUI)的R的可能性大得多。而現(xiàn)在他們進入到企業(yè)界;在企業(yè)界,對他們的要求更高了,項目交付時間縮短了,可能還要考評投資回報,等等。”

“公司可以這樣說,你要怎樣才能取得更大的成功?我們怎樣讓你能提高工作效率?過去,他們可能對這些統(tǒng)計人員沒有預算,但現(xiàn)在有預算了。”

如果你打敗不了開源,那就…

SAS軟件研究所的平臺開發(fā)副總裁Paul Kent效力的這家公司經(jīng)常被認為屬于大數(shù)據(jù)鴻溝的另一個陣營,開發(fā)與R等開源語言所用的那些算法相競爭的專有數(shù)據(jù)分析算法。

Kens表示,從某種程度上來說,SAS確實把開源社區(qū)看作是自己要全力跟上的競爭對手。新技術在開源環(huán)境下能非常迅速地開發(fā)出來,而他公司需要更長的時間來研究這些新技術,之后轉變成某項有銷路的產(chǎn)品特性。

“我們需要更長一點的時間對新技術作出反應,并測試可以使用該技術的所有不同場景。所以,我們的反應可能有點慢。”

不過他表示,SAS的優(yōu)勢在于設有一個龐大的技術支持部門,而且擁有讓某些技術適用于不同企業(yè)的專長,無論是零售企業(yè)、銀行還是醫(yī)療機構。SAS的強項在于“能夠將算法運用于特定的領域,”Kent說。

他表示,與此同時,SAS及時了解趨勢,決定照樣為客戶提供開源方案。Kent表示,SAS已經(jīng)“搭起了一座通往R的橋梁”,就像它對Hadoop采取的做法那樣。Kent表示,只要開源社區(qū)提出了一種好的想法,SAS就會引起注意。

“從長遠來看,與開源想法搭起橋梁或建立接口要比試圖對開源想法視若無睹來得明智。”

原文:Open Source Answer to Big Data

 

責任編輯:yangsai 來源: 51CTO.com
相關推薦

2013-06-06 10:32:48

大數(shù)據(jù)

2013-01-31 09:04:26

Informatica大數(shù)據(jù)

2021-08-06 15:06:09

騰訊開源Apache

2013-09-27 15:43:14

2013-07-05 09:07:54

小時代大數(shù)據(jù)大數(shù)據(jù)時代

2017-08-02 15:15:33

大數(shù)據(jù)CIOCMO

2012-09-13 09:52:14

大數(shù)據(jù)數(shù)據(jù)應用開源工具

2012-12-24 09:01:35

2013-12-05 11:13:40

TechEd2013ASP.NET

2014-08-05 17:36:56

分析大數(shù)據(jù)商業(yè)

2015-07-06 10:59:11

2021-03-29 11:02:46

大數(shù)據(jù)司法大數(shù)據(jù)應用

2013-08-14 09:48:02

微軟REEF

2019-04-08 17:16:43

大數(shù)據(jù)開源工具

2020-05-03 10:09:46

紅帽開源開放混合云

2012-02-26 16:26:42

IBM大數(shù)據(jù)Hadoop

2019-11-27 10:28:11

公共安全大數(shù)據(jù)數(shù)據(jù)聯(lián)系

2018-10-15 17:10:08

2019-03-29 10:05:44

Apache開源軟件

2021-05-20 09:42:19

極狐開源開源社區(qū)
點贊
收藏

51CTO技術棧公眾號