自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)五種開源處理技術介紹

數(shù)據(jù)庫
大數(shù)據(jù)領域的處理,我自己本身接觸的時間也不長,正式的項目還在開發(fā)之中,深受大數(shù)據(jù)處理方面的吸引,所以也就有寫文章的想法的了。大數(shù)據(jù)以Hadoop以及”NO SQL”為主的Mongo和Cassandra等數(shù)據(jù)庫技術在展現(xiàn)。現(xiàn)在數(shù)據(jù)的實時分析將可能容易一些?,F(xiàn)在集群的轉(zhuǎn)換將越來越可靠,20分鐘以內(nèi)就能夠完成。因為我們用表來支持?但是這些是僅僅是一些比較新的,未開發(fā)的優(yōu)點和不平凡的大機會超過了這些常規(guī)的猜想。

 你知道么,在現(xiàn)在的市場上超過25萬個開源技術出現(xiàn)了。圍繞在我們身邊,這些越來越復雜的系統(tǒng),就像我們看到的這樣,看如下圖表:

大數(shù)據(jù)技術

 

(點擊可看大圖)

在最少選擇的情況下我們還是有很多選擇的機會。哪些是你的目標?哪些是2000家公司接下來的財富?哪些項目是可以在真正的產(chǎn)品階段使用的作為可靠的候選?哪些應該受到特別關注呢?我們做了詳細的研究和測試,讓我們一起看下5種新的撼動大數(shù)據(jù)的技術。這些是整理的幾組新的工具,讓我們一起來看看吧。

Storm 和 Kafka 是未來數(shù)據(jù)流處理的主要方式,它們已經(jīng)在一些大公司中使用率餓,包括 Groupon,阿里巴巴和The Weather Channel等。Storm,誕生于Twitter,是一個分布式實時計算系統(tǒng)。Storm 設計用于處理實時計算,hadoop主要用于處理批處理運算。

kafka是由LinkedIn研發(fā)的一款消息系統(tǒng)作為一個數(shù)據(jù)處理的管道基礎部分存在于系統(tǒng)中。當你一起使用它們,你就能實時地和線性遞增的獲取數(shù)據(jù)。

你為什么需要關心?

使用Storm和Kafka,使得數(shù)據(jù)流處理線性的,確保每條消息獲取都是實時的,可靠的。前后布置的Storm和Kafka能每秒流暢的處理10000條數(shù)據(jù)。

像Storm和Kafka這樣的數(shù)據(jù)流處理方案使得很多企業(yè)引起關注并想達到優(yōu)秀的ETL(抽取轉(zhuǎn)換裝載)的數(shù)據(jù)集成方案。Storm 和 Kafka 也很擅長內(nèi)存分析和實時決策支持。企業(yè)使用批量處理的Hadoop方案無法也難怪對實時的業(yè)務需求。在企業(yè)的大數(shù)據(jù)解決方案中實時數(shù)據(jù)流處理是一個必要的模塊,因為它很優(yōu)美的處理了“3v”–volume,velocity 和 variety (容量,速率和多樣性)。Storm和Kafka這2種技術是我們(infochimps)最推薦的技術,它們也將作為一個正式組成部分存在于我們的平臺中。Drill和Dremel 實現(xiàn)了快速低負載的大規(guī)模,即席查詢數(shù)據(jù)搜索。它們提供了秒級搜索P級別數(shù)據(jù)的可能,來應對即席查詢和預測,及提供強大的虛擬化支持。

Drill和Dremel提供強大的業(yè)務處理能力,不僅僅只是為數(shù)據(jù)工程師提供。業(yè)務端的大家都將喜歡Drill和Dremel.Drill 是Google的Dremel的開源版本。Dremel是Google提供的支持大數(shù)據(jù)查詢的技術。公司將用它來開發(fā)自己的工具,這些是導致大家都密切的關注Drill的原因。雖然這些不是起步,但是開源社區(qū)強烈的興趣使得它變得更成熟。

為什么你應該關心?

Drill和Dremel相比Hadoop更好的分析即席查詢。Hadoop僅僅提供批量的數(shù)據(jù)處理工作流,這些也是缺點。

Hadoop生態(tài)圈使得MapReduce作為一個很親切有利的工具應用于廣告分析。從Sawzall到Pig到Hive,很多接口層應用的建立使得Hadoop更為友好,更接近業(yè)務,但是,像SQL體系,這些抽象層忽略一個重要的事實–MapReduce(或Hadoop)是為了系統(tǒng)化數(shù)據(jù)處理流程而存在的。如果你不擔心跑的哪些任務? 如果你不關心這些產(chǎn)生的問題和去尋求答案,那就保持沉默,保持洞察力。“即席探索” — 如果你已經(jīng)承擔數(shù)據(jù)處理,你這么優(yōu)化處理的速度?你不應該運行一個新的任務或者是等待,有時候考慮的時間還不如在問個新的問題。

在堆對比的工作流基礎的方法論中,很多業(yè)務驅(qū)動的BI和分析查詢都是很基本的和臨時交互的,低延時分析。寫Map/Reduce工作流在很多業(yè)務分析中是被禁止的。等待幾分鐘等Jobs啟動,在等幾個小時等執(zhí)行完成這些無溢于數(shù)據(jù)的交互體驗,這些對比,和縮放比較最終產(chǎn)生了基本的新的視野。一些數(shù)據(jù)科學家早已經(jīng)推測Drill和Dremel將優(yōu)于Hadoop,并達成共識,也有一些還在考慮中,還有少部分的狂熱者立即擁抱變化,但是這些是主要的優(yōu)點在更面向查詢的和低延時的情況下。在Infochimps我們喜歡使用Elasticsearch全文索引引擎來實現(xiàn)數(shù)據(jù)庫的數(shù)據(jù)搜索,但是真的在大數(shù)據(jù)處理中我們認為Drill將成為主流。

R是開源的強大的統(tǒng)計編程語言。自1997年以來,超過200萬的統(tǒng)計分析師使用R。這是一門誕生自貝爾實驗室的在統(tǒng)計計算領域的現(xiàn)代版的S語言并迅速地成為了新的標準的統(tǒng)計語言。R使得復雜的數(shù)據(jù)科學變得更廉價。R是SAS和SPASS的重要的領頭者,并作為***秀的統(tǒng)計師的重要工具。

為什么你應該關心?

因為它有一個非凡強大的社區(qū)在支持著,你可以找到所有的R的類庫,創(chuàng)建虛擬的各類型的科學數(shù)據(jù)而不用新寫代碼。R之所以令人興奮是因為維護他的人和新的每天的創(chuàng)造。R社區(qū)是大數(shù)據(jù)領域令人興奮的地方之一。R在大數(shù)據(jù)領域是一個超棒的不會過時的技術。在最近的幾個月里,幾千個新特性被日益公開的知識基礎為主的分析類型的分析師們介紹.而且,R和Hadoop協(xié)同的很好,作為一個大數(shù)據(jù)的處理的部分已經(jīng)被證明了。保持關注:Julia ,是一個有趣的R的替代者,因為它不喜歡R的死慢死慢的解釋器。Julia的社區(qū)雖然不怎么強大現(xiàn)在,但是如果你不是立即使用它的話,還是可以等等的。Gremlin 和 Giraph 幫助增強圖形分析,并在圖數(shù)據(jù)庫像Neo4j和InfiniteGraph中被使用,和與Hadoop協(xié)同工作的Giraph中被使用。Golden Orb是另一個高層面的流處理的圖基礎的項目的例子。可以看看。圖數(shù)據(jù)庫是富有魅力的邊緣化的數(shù)據(jù)庫。它們和關系型數(shù)據(jù)庫相比,有著很多有趣的不同點,這個是當你在開始的時候總是想用圖理論而不是關系型理論。

另一個類似的圖基礎的理論是Google的Pregel,相比來說Gremlin和Giraph是其的開源替代。實際上,這些都是Google技術的山寨實現(xiàn)的例子。圖在計算網(wǎng)絡建模和社會化網(wǎng)絡方面發(fā)揮著重要作用,能夠連接任意的數(shù)據(jù)。另外一個經(jīng)常的應用是映射和地理信息計算。從A到B的地點,計算最短的距離。圖在生物計算和物理計算領域也有廣泛的應用,例如,他們能繪制不尋常的分子結構。海量的圖,圖數(shù)據(jù)庫和分析語言和框架都是一種現(xiàn)實世界上實現(xiàn)大數(shù)據(jù)中的一部分。圖基礎的理論是一個殺手級的應用,為什么這么說?任何一個解決大型網(wǎng)絡節(jié)點問題,都是通過節(jié)點和節(jié)點之間的路徑來處理的。很多富有創(chuàng)造力的科學家和工程師們,都很明白的用正確的工具來解決對應的問題。確保他們都能運行的漂亮并能被廣泛傳播。

SAP Hana 是一個全內(nèi)存的分析平臺,它包含了一個內(nèi)存數(shù)據(jù)庫和一些相關的工具軟件用來創(chuàng)建分析流程和規(guī)范正確的格式來進行數(shù)據(jù)的輸入輸出。

為什么應該關心?

SAP 開始反對為固化的企業(yè)用戶提高強大的產(chǎn)品,供開發(fā)免費使用。這個不僅僅是SAP開始為初創(chuàng)著想,讓其使用Hana。他們授權培養(yǎng)社區(qū)解決方案,這些不尋常的做法是圍繞Hana的結果。

Hana 假設其他的程序處理時候還不夠快的解決遇到的問題,例如,金融建模和決策支持,網(wǎng)站個性化和欺騙檢測等等。Hana***的缺點是”全內(nèi)存“這意味著訪問軟狀態(tài)的內(nèi)存,這個是很明確的有點,但是這個也是相比磁盤存儲來說很昂貴的部分。據(jù)組織者說,不用擔心操作成本,Hana是快速的地延遲的大數(shù)據(jù)處理工具。

D3 本來不在列表中,但是它的親切感,讓我們認為有提它的價值。D3是一個javascript面向文檔的可視化的類庫,。它強大的創(chuàng)新性的讓我們能直接看到信息和讓我們進行正常的交互。它的作者是Michael Bostock一個紐約時報的圖形界面設計師。例如,你可以使用D3來從任意數(shù)量的數(shù)組中創(chuàng)建H™l表格。你能使用任意的數(shù)據(jù)來創(chuàng)建交互進度條等。這里是一個D3的實際例子,創(chuàng)建2013年奧巴馬的民意情況。使用D3,程序員能之間創(chuàng)建界面,組織所有的各種類型的數(shù)據(jù)。

雖然這篇文章不長,但是也費了我一段實際來翻譯,翻譯不足之處希望大家指正。其實看到這篇文章的時候,我就很想把它分享給喜歡它的人,得益于一個開放的環(huán)境,所以美國在IT領域總是這么的讓人驚喜,當然我們也得跟上了。

開始正式的使用Hadoop已經(jīng)有近一年的時間的了,這期間從百度出來,到初見在到現(xiàn)在的BitWare,在不同的公司,用不同的技術解決問題。但是本質(zhì)上遇到的問題總是那么幾個,當然現(xiàn)在很多公司也開始嘗鮮的使用Hadoop的了。這個是大環(huán)境是如此,可以理解。

以下說說個人對文章的理解:

Storm和Kafka 從11年起,就開始關注了,Storm在阿里也有部分二線應用,但是整體而言,剛剛滿一歲的Storm在nathanmarz大俠的打磨下越來越穩(wěn)定了,并有部分線上的應用了。所以對這個技術,總體而言,我個人還是很看好的,因為現(xiàn)在使用hadoop無法實現(xiàn)實時的處理,使用HBase來為主要的數(shù)據(jù)庫來使用了,暫時還是能解決,但是還是想嘗試下Storm,Kafka的關注不是很多,不過這個配合起來使用,據(jù)說很贊,沒有自己跑過。

Drill這個是Apache的開源項目,之前也看了Google Dremel的論文,無奈看不是很懂,現(xiàn)在也沒有遇到這樣的環(huán)境,而且社區(qū)才剛剛火起來,所以還沒有很多的時間來跟進,暫時先擱置了。

R語言,之前在百度的時候,隔壁各位做的哥們就在使用R語言干活,這個可能是只有大公司能夠有能力去真正的挖掘的方面吧,我們現(xiàn)在的業(yè)務中基本沒有用到過,對于R還是很陌生,不過我個人任務,在不同的環(huán)境下使用不同的技術手段,猶如,博士聲光電吹盒子,我們架個電風吹,是一樣的實現(xiàn)吧。

對于圖數(shù)據(jù)庫領域,還真的是沒有遇到過詳細的應用,還沒有機會進入這樣的公司,所以還是束之高閣吧。

SPA這個公司,聽過名字,但是沒有具體的接觸過,現(xiàn)在賣解決方案估計也不好過,弄個東西出來提高下知名度還是必須的?,F(xiàn)在啃老本的時代已經(jīng)過去的了。

***一個可視化的JS類庫,興趣不大,業(yè)務現(xiàn)在不去做前端的了,所以也還好。

責任編輯:彭凡 來源: 楊鑫奇的技術博客
相關推薦

2012-07-11 13:30:42

大數(shù)據(jù)開源

2014-03-17 17:16:01

大數(shù)據(jù)技術

2017-09-20 08:34:37

大數(shù)據(jù)技術開發(fā)者UI

2018-06-06 15:00:27

開源大數(shù)據(jù)大數(shù)據(jù)項目

2021-03-15 14:09:05

大數(shù)據(jù)大數(shù)據(jù)框架技術數(shù)據(jù)開發(fā)

2019-09-18 20:28:26

大數(shù)據(jù)數(shù)據(jù)處理數(shù)據(jù)采集

2013-07-02 17:48:51

Android數(shù)據(jù)存儲Android

2015-10-16 09:50:10

2022-06-30 21:08:25

大數(shù)據(jù)數(shù)據(jù)湖數(shù)據(jù)倉庫

2023-07-18 15:58:29

NodeJS開發(fā)

2012-08-14 13:30:00

XML

2012-08-15 10:44:07

JavaXML

2020-12-21 13:55:44

大數(shù)據(jù)大數(shù)據(jù)處理

2011-05-07 13:23:46

2019-08-01 11:27:46

數(shù)據(jù)復制數(shù)據(jù)源中間層

2016-03-28 10:24:49

數(shù)據(jù)湖大數(shù)據(jù)技術開源

2022-04-07 13:15:40

大數(shù)據(jù)大數(shù)據(jù)安全數(shù)據(jù)存儲

2012-09-17 13:44:16

架構數(shù)據(jù)

2015-05-05 11:18:18

大數(shù)據(jù)Hadoop技術處理

2010-07-29 13:30:54

Hibari
點贊
收藏

51CTO技術棧公眾號