自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌大數(shù)據(jù)工具衍生新開源平臺Drill

云計算
近日,《連線》雜志編輯凱德·梅茨近日在這份雜志的網(wǎng)絡(luò)版上撰文稱,谷歌的大數(shù)據(jù)工具Hadoop已經(jīng)衍生出了兩個開源平臺,這兩個平臺分別是由硅谷創(chuàng)業(yè)公司Cloudera和MapR所構(gòu)建的。其中,MapR已經(jīng)發(fā)布了一個名為Drill的開源項目,尋求模仿谷歌的數(shù)據(jù)分析工具。

近日,《連線》雜志編輯凱德·梅茨近日在這份雜志的網(wǎng)絡(luò)版上撰文稱,谷歌的大數(shù)據(jù)工具Hadoop已經(jīng)衍生出了兩個開源平臺,這兩個平臺分別是由硅谷創(chuàng)業(yè)公司Cloudera和MapR所構(gòu)建的。其中,MapR已經(jīng)發(fā)布了一個名為Drill的開源項目,尋求模仿谷歌的數(shù)據(jù)分析工具。

以下是這篇文章的全文:

在硅谷邱吉爾俱樂部最近召開的一次會議上,邁克·奧爾森和約翰·施羅德共用了一個講臺,但這兩人的觀點并不完全一致。

奧爾森是一家名為Cloudera的硅谷創(chuàng)業(yè)公司的首席執(zhí)行官,施羅德則是MapR的首席執(zhí)行官,這家公司很明顯是Cloudera的競爭對手。兩家公司都在開源云計算軟件平臺Hadoop上經(jīng)營自身業(yè)務(wù),這個平臺以數(shù)據(jù)中心技術(shù)為基礎(chǔ),這種技術(shù)為谷歌占據(jù)互聯(lián)網(wǎng)市場主導(dǎo)地位的搜索引擎提供支持。但在構(gòu)建各自業(yè)務(wù)的問題上,這兩家創(chuàng)業(yè)公司是從兩個十分不同的方向靠近這個平臺的。

Cloudera與開源Hadoop項目密切合作,目的是增強這個平臺免費向全世界提供的軟件代碼;而與此相比, MapR則決定從頭開始重新建設(shè)這個平臺,而當(dāng)這項工作完成以后,這家公司會將新的代碼作為專有軟件出售。在上個月專為Hadoop召開的一次專題討論會上,奧爾森和施羅德登上講臺,就哪家公司的方法最有意義進行了面對面的辯論。正如開源項目成為討論主題的許多時刻那樣,他們兩人之間的爭論也引發(fā)了聽眾們的熱議。

施羅德表示,MapR不一定非要反對開放式的開發(fā)。他解釋稱,這家公司之所以保密其所開發(fā)的代碼,至少有部分原因在于那些推動這個開源項目的人不愿迅速地作出MapR希望作出的改變。“在開源社區(qū)中有很多政治性的問題需要考慮。”他說道。“情況會因你所處的狀況而有所不同。”

似乎是為了證明他的這一觀點,MapR已經(jīng)推出了另一個開源項目,旨在將其作為Hadoop平臺的重大補充。MapR最近向阿帕奇軟件基金會——負責(zé)管理Hadoop的非盈利開源組織——提出了一個項目,其目標(biāo)是模仿Dremel,這是一種由谷歌開發(fā)和使用的十分有效的數(shù)據(jù)分析工具。這個項目名為Drill,管理該項目的MapR負責(zé)人托莫·希蘭表示,該項目適合完全開放式的開發(fā),這是該公司最初的Hadoop項目所不具備的特點。通過Hadoop平臺,MapR以往的作法是與一個根深蒂固的開發(fā)者社區(qū)就一個現(xiàn)有的項目展開合作。而在有了Drill以后,這家公司正在開創(chuàng)某種新的東西。

希蘭表示,MapR之所以將Drill的開發(fā)對外開放,其原因在于該公司希望將這個平臺變成能迅速分析在Hadoop上所存數(shù)據(jù)的業(yè)界標(biāo)準(zhǔn)。這家公司希望能促進Drill的應(yīng)用程序接口的使用,允許用戶將其他工具嵌入這個平臺。

“這是一套新的應(yīng)用程序接口,這是一個新的系統(tǒng)。”希蘭說道,他此前曾供職于惠普和IBM旗下的研究部門。“如果這些新的應(yīng)用程序接口是開放的,那么肯定會有助于提高使用量。”

通過建設(shè)開放式的Drill項目,這家公司可能還希望贏得全球開發(fā)者和IT經(jīng)理的某種認同;在構(gòu)建自己專有版本的Hadoop平臺時,該公司失去了這種認同。希蘭對此作出了否認,但開源社區(qū)中的政治性問題會在許多不同的地方出現(xiàn)——正如上個月在邱吉爾俱樂部召開的主題討論會所明確表明的那樣。當(dāng)時,施耐德表示MapR對開源“意識形態(tài)”問題并不感到擔(dān)心,因此招來了激烈的質(zhì)問。開源軟件代碼的理由幾乎從來都不明確,但很明顯的一個問題是,在當(dāng)今的軟件市場上,保持代碼的開源性正日益成為從事相關(guān)業(yè)務(wù)的重要組成部分。

這不僅有助于擴大軟件代碼的使用度,同時還能有助于傳播商譽——而商譽對于一家公司來說也是非常重要的。#p#

當(dāng)MapR從2009年開始致力于在Hadoop平臺上進行開發(fā)工作時,這個平臺已經(jīng)在整個互聯(lián)網(wǎng)范圍內(nèi)被廣泛使用。基于描述了MapReduce和谷歌文件系統(tǒng)——這是兩個意義深遠的軟件平臺,它們重新創(chuàng)造了谷歌構(gòu)建自身搜索索引的方式——的研究報告,Hadoop被雅虎、Facebook及其他公司作為使用數(shù)以千計的廉價服務(wù)器來運算海量數(shù)據(jù)的工具。作為這種工具來說,Hadoop是非常有效的——一名Facebook工程師曾將其比作我們所呼吸的空氣——但從某種程度上來說,象雅虎和Facebook這樣缺乏工程專業(yè)知識的公司并不太適合使用這種工具。

MapR解決了許多缺陷——其中包括曾困擾谷歌文件系統(tǒng)的一個顯而易見的缺陷等——但據(jù)施耐德和公司聯(lián)合創(chuàng)始人斯萊瓦斯M.C. Srivas稱,那些推動開源項目的人不愿象MapR所希望的那樣迅速地作出這些改變。因此,MapR自己對文件系統(tǒng)進行了重新構(gòu)建,并在2011年發(fā)布了自己專有版本的Hadoop,決心為其所做的工程工作謀求財務(wù)利益。

正如奧爾森所指出的那樣,開源Hadoop項目已經(jīng)解決了許多同樣的問題;而且他相信,從長期來看保持這個平臺的核心代碼的開放性是一種好得多的解決方案。“最重要的一個問題在于,你想要開源軟件,因為這種軟件能突破廠商的封鎖。”他在上個月召開的主題討論會上說道。“你可以把廠商踢出去,而且我們無法關(guān)閉數(shù)據(jù)的可獲得性,無法關(guān)閉分析信息的可獲得性,也無法關(guān)閉數(shù)據(jù)庫的可獲得性。”

但施耐德則極力主張,奧爾森和Cloudera同樣也提供專有軟件——以Hadoop管理工具的方式——而且他還指出,所有軟件公司都必須找到某種方法來利用自己的代碼賺錢。有許多方法能做到這一點,而在推出Drill項目以后,MapR也已經(jīng)證明,這家公司同樣也看重開放式開發(fā)的價值。

希蘭指出,第三方開發(fā)者已經(jīng)表現(xiàn)出自己對這個項目的興趣。在MapR向阿帕奇軟件基金會提交的Drill計劃中,兩名第三方開發(fā)者——分別是一家名為Concurrent的公司的創(chuàng)始人兼首席執(zhí)行官克里斯·溫瑟爾和Drawn to Scale的工程副總裁賴安·羅森——被列為這個項目的核心開發(fā)者。

雖然希蘭指出MapR已經(jīng)對Hadoop平臺及其各個姊妹項目作出了開源貢獻,但Drill則有所不同,原因是這家公司計劃開放式地構(gòu)建整個平臺。按希蘭所說,這樣做是有必要的。雖然谷歌在2010年發(fā)布了一份描述Dremel的研究報告,但Hadoop社區(qū)仍有待復(fù)制其相當(dāng)驚人的數(shù)據(jù)分析技術(shù),而MapR則希望確保能以“正確的方法”做到這一點。希蘭表示,這是MapR無法通過Hadoop做到的事情。

沒錯,Hadoop已經(jīng)被作為一種數(shù)據(jù)分析工具來被人們使用,這種使用應(yīng)歸功于Hive和Pig等姊妹項目;但Hadoop是一個“批處理”工具,這意味著數(shù)據(jù)請求需要相當(dāng)長的一段時間才能完成。而與此相比,Drill的設(shè)計目的則是效法Dremel,對海量數(shù)據(jù)進行幾乎實時的分析。據(jù)谷歌基礎(chǔ)設(shè)施專家烏爾斯·霍澤爾稱,Dremel能在大約三秒鐘時間里處理1拍字節(jié)的數(shù)據(jù)。

“你擁有一種類似于SQL的語言,能讓制定專設(shè)的查詢請求變得非常簡單——而且,你不需要做任何編程工作,只需將查詢請求輸入到命令行里即可。”霍澤爾在上個月向我們說到,他所指的SQL是Structured Query Language,這是傳統(tǒng)數(shù)據(jù)庫用來處理數(shù)量少得多的數(shù)據(jù)的一種語言。

希蘭表示,Drill的設(shè)計目的是為Hadoop提供補充,而并非取代后者。他指出,就轉(zhuǎn)換一個龐大的數(shù)據(jù)集而言,Hadoop是一種最好用的工具。舉例來說,你可以通過海量的網(wǎng)頁集合來建設(shè)一個搜索索引;但Drill則允許你從同一個數(shù)據(jù)集中非常迅速地抽取一小部分信息。

“能對一拍字節(jié)的數(shù)據(jù)進行運算,將其變成新的數(shù)據(jù)。”希蘭說道。“通過Dremel或是Drill,你能對一拍字節(jié)的數(shù)據(jù)進行分析,然后得出一拍字節(jié)或少于一拍字節(jié)的數(shù)據(jù)。”他表示,MapR的一些用戶已在將該公司專有版本的Hadoop平臺與谷歌在線服務(wù)BigQuery配合使用,后一種服務(wù)能讓谷歌以外的公司使用Dremel。

希蘭稱,Drill這個名稱是由一名谷歌員工提議的,MapR曾與這名員工合作開發(fā)BigQuer。MapR的聯(lián)合創(chuàng)始人斯萊瓦斯也曾在谷歌供職,當(dāng)時他曾是谷歌搜索基礎(chǔ)設(shè)施建設(shè)團隊的成員之一。就谷歌官方而言,這家公司并未正式參與Drill項目。通過這些龐大的基礎(chǔ)設(shè)施平臺,谷歌傾向于去做自己的事情。

MapR也一直都以做自己的事情而著稱,但這一次則并非如此。

責(zé)任編輯:王程程 來源: DOIT
相關(guān)推薦

2019-04-08 17:16:43

大數(shù)據(jù)開源工具

2021-04-13 14:39:08

谷歌Logica語言

2012-09-13 09:52:14

大數(shù)據(jù)數(shù)據(jù)應(yīng)用開源工具

2019-11-06 15:01:30

大數(shù)據(jù)Hadoop技術(shù)

2019-06-27 15:54:44

大數(shù)據(jù)工具開源

2016-09-27 21:35:28

BossiesSparkTensorFlow

2024-04-07 11:44:53

MagistralaIoT物聯(lián)網(wǎng)平臺

2024-02-22 09:30:15

Gemma開源模型谷歌

2014-04-28 09:35:19

紅帽開源軟件

2018-02-23 16:38:58

2018-11-13 15:05:33

大數(shù)據(jù)MapReduce機器

2023-03-24 09:17:04

微服務(wù)架構(gòu)谷歌

2017-12-03 21:47:07

開源工具JavaScript

2020-09-16 14:27:08

工具開源開發(fā)

2015-08-10 09:23:05

2011-03-01 10:47:20

開源技術(shù)

2016-03-28 10:39:00

開源大數(shù)據(jù)平臺技術(shù)架構(gòu)

2012-07-10 09:29:44

BigQuery

2015-08-10 10:37:42

點贊
收藏

51CTO技術(shù)棧公眾號