自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何使用Hadoop進入大數(shù)據(jù)庫時代?

運維 系統(tǒng)運維 Hadoop
Hadoop有多火?從業(yè)界的一系列舉動就可以看出來。包括甲骨文、微軟、Sybase在內(nèi)的主流數(shù)據(jù)庫廠商都紛紛發(fā)布了Hadoop連接器產(chǎn)品,為的就是讓用戶可以在傳統(tǒng)關(guān)系型數(shù)據(jù)庫與開源分布式處理系統(tǒng)之間更輕松地傳輸信息。

 Hadoop有多火?從業(yè)界的一系列舉動就可以看出來。包括甲骨文、微軟、Sybase在內(nèi)的主流數(shù)據(jù)庫廠商都紛紛發(fā)布了Hadoop連接器產(chǎn)品,為的就是讓用戶可以在傳統(tǒng)關(guān)系型數(shù)據(jù)庫與開源分布式處理系統(tǒng)之間更輕松地傳輸信息。

  這些廠商將Hadoop連接器軟件視為“大數(shù)據(jù)管理”戰(zhàn)略的重要一環(huán),但是并不是只有主流的數(shù)據(jù)庫廠商在做這件事。像數(shù)據(jù)倉庫提供商Teradata以及惠普公司的Vertica都推出了類似的Hadoop產(chǎn)品,也不乏Informatica、Talend這樣的數(shù)據(jù)集成軟件廠商。而像Hortonworks、Cloudera以及MapR這樣的創(chuàng)業(yè)公司也在這一生態(tài)系統(tǒng)中扮演了非常重要的角色。

  OpenLogic公司的技術(shù)總監(jiān)Rod Cope在使用Hadoop方面有著非常豐富的經(jīng)驗,他告誡用戶在使用Hadoop連接器之前,需要考慮應(yīng)用到場景以及對數(shù)據(jù)的需求。Cope介紹他的公司使用了Hadoop、Hbase和一個列式的NoSQL數(shù)據(jù)庫組合,它們作為OpenLogic主營業(yè)務(wù)的一部分,能夠幫助其客戶審計軟件應(yīng)用,以核查所使用的嵌入式開源代碼是否符合相關(guān)的許可。OpenLogic目前尚未部署任何連接器軟件,但是Cope表現(xiàn)出對這一技術(shù)的幾大好奇,他認為可以使用這樣的軟件來將頻繁訪問的數(shù)據(jù)從一個關(guān)系型數(shù)據(jù)庫轉(zhuǎn)移到Hbase上面做歸檔。

  但是Cope認為,Hadoop連接器軟件也并不能解決所有問題,感興趣的用戶需要注意加載數(shù)據(jù)的速度。在處理大數(shù)據(jù)的時候,人們往往對性能的標準并不如之前那么關(guān)注,如果加載數(shù)據(jù)到Hadoop用戶的時間超長,那么使用連接器的意義就不大了。問題其實并不出在Hadoop上,而是你加載的數(shù)據(jù)源。

  Ventana研究機構(gòu)的分析師David Menninger表示,Hadoop分布式文件系統(tǒng)(HDFS)以及在其基礎(chǔ)之上構(gòu)建的數(shù)據(jù)庫產(chǎn)品能夠為用戶提供非常好的數(shù)據(jù)管理與分析解決方案,這是相對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫和數(shù)據(jù)倉庫而言。這些數(shù)據(jù)可能是機器生成的大數(shù)據(jù),比如Web搜素日志、社交媒體信息、手機通話記錄以及其他一些非結(jié)構(gòu)化的數(shù)據(jù)。

  Menninger指出,Hadoop連接器軟件使用的一個典型場景,就是企業(yè)使用Hadoop系統(tǒng)從大量的非結(jié)構(gòu)化數(shù)據(jù)源中抽取少量結(jié)構(gòu)化分析信息,然后再將其傳輸?shù)疥P(guān)系型數(shù)據(jù)庫當中以便使用BI工具進行進一步的分析。

  Menninger表示:“目前用戶將信息放到關(guān)系型數(shù)據(jù)庫中,主要是因為用Hadoop數(shù)據(jù)源還不能輕松地制作報表。業(yè)界中有一套成熟的報表和分析系統(tǒng),當然這都是針對關(guān)系型數(shù)據(jù)而言。”

這樣的數(shù)據(jù)傳輸并不一定是一錘子買賣,也許你正在計算某一事件的發(fā)生次數(shù),然后又想要計算兩件事一起發(fā)生的次數(shù)。你可以返回到數(shù)據(jù)源,然后再處理一遍信息,這就是為什么人們不會把非結(jié)構(gòu)化的數(shù)據(jù)刪除,它們可以存放在Hadoop中。

  此外,同SQL數(shù)據(jù)庫相比,Hadoop為高級分析和數(shù)據(jù)挖掘應(yīng)用提供了更好的環(huán)境。比如分析客服電話日志以及社交媒體上的信息,找出客戶的興趣點以及對某一產(chǎn)品的口碑。這對于SQL來說是非常困難的一件事,但是它可以通過Hadoop連接器來把信息傳輸?shù)疥P(guān)系型數(shù)據(jù)庫或者數(shù)據(jù)倉庫當中。

  Tynt多媒體公司的副總裁Cameron Befus表示,他們使用了Hadoop來為超過50萬的用戶提供分析服務(wù)。此外,Tynt還使用了開源的MySQL數(shù)據(jù)庫來作為后端的支持。到目前為止,Befus還沒有看到部署Hadoop連接器的必要,他說:“我們的確會把數(shù)據(jù)進行轉(zhuǎn)移,但這通常是很直接的。我們會把文件從Hadoop直接導(dǎo)入MySQL中,如果使用連接器的話也許會輕松一些,但是這對我們來說并不是什么難題。”

  但IT分析師認為隨著Hadoop的普及,這樣的連接器軟件使用頻率將逐漸多起來。像Menninger這樣的分析師認為,公司希望能夠把基于Hadoop的分析結(jié)果導(dǎo)入更大的業(yè)務(wù)環(huán)境中去,這也是連接器技術(shù)發(fā)展的推動力。當我們看大數(shù)據(jù)的時候什么最重要?那就是這些數(shù)據(jù)能夠告訴我關(guān)鍵的問題是什么。用戶希望能夠在非結(jié)構(gòu)化數(shù)據(jù)、流數(shù)據(jù)、有意義的數(shù)據(jù)以及高度結(jié)構(gòu)化的數(shù)據(jù)之間構(gòu)建一座橋梁,以便能夠通過分析來找到問題根源所在。

責任編輯:黃丹 來源: TechTarget中國
相關(guān)推薦

2013-08-20 09:26:03

大數(shù)據(jù)時代hadoop

2014-04-23 09:54:52

大數(shù)據(jù)國產(chǎn)數(shù)據(jù)庫

2019-07-05 16:40:22

大數(shù)據(jù)信息安全網(wǎng)絡(luò)安全

2014-03-28 15:10:09

大數(shù)據(jù)數(shù)據(jù)庫集群

2015-04-24 11:20:15

Hadoop大數(shù)據(jù)架構(gòu)大數(shù)據(jù)

2013-09-22 09:26:13

2012-08-31 09:49:02

2018-01-10 09:10:10

數(shù)據(jù)庫阿里實時監(jiān)控

2012-03-19 16:34:19

數(shù)據(jù)庫遷移

2015-03-27 10:25:34

Hadoop

2017-10-26 09:31:14

Hadoop維度建模Kimball

2013-11-18 20:35:03

南大通用數(shù)據(jù)庫大數(shù)據(jù)

2016-11-17 11:24:32

數(shù)據(jù)庫大數(shù)據(jù)

2018-08-21 22:31:04

數(shù)據(jù)分析單身女朋友

2014-11-11 10:47:19

hadoop數(shù)據(jù)流

2018-07-23 14:51:22

2019-01-24 10:02:02

數(shù)據(jù)庫物聯(lián)網(wǎng)

2014-04-18 17:28:10

數(shù)據(jù)庫

2012-08-01 16:49:25

大數(shù)據(jù)

2015-11-23 09:42:33

大數(shù)據(jù)數(shù)據(jù)庫
點贊
收藏

51CTO技術(shù)棧公眾號