自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù):價值在于分析 風(fēng)險如何規(guī)避?

數(shù)據(jù)庫
大數(shù)據(jù)時代的來臨已經(jīng)毋庸置疑。數(shù)據(jù),不僅是企業(yè)的生命線,而且掌控著我們?nèi)粘I畹拿}搏;大數(shù)據(jù),則更多描述的是一種趨勢,一種數(shù)據(jù)量猛增、來源各異、獲取速度加快、價值更高的趨勢。

大數(shù)據(jù)時代的來臨已經(jīng)毋庸置疑。數(shù)據(jù),不僅是企業(yè)的生命線,而且掌控著我們?nèi)粘I畹拿}搏;大數(shù)據(jù),則更多描述的是一種趨勢,一種數(shù)據(jù)量猛增、來源各異、獲取速度加快、價值更高的趨勢。

如何有效地利用這些數(shù)據(jù),通過分析獲取其中的價值,這是擺在我們面前的一個難題,也是近日在北京舉行的大數(shù)據(jù)世界論壇上眾多與會者關(guān)注的焦點話題。

來自EMC中國研發(fā)中心的首席技術(shù)官陶波在大會期間接受了ZDNet記者采訪,暢談了他對大數(shù)據(jù)給基礎(chǔ)架構(gòu)帶來的變革、云計算與大數(shù)據(jù)的整合以及數(shù)據(jù)分析的看法。

變革還是前瞻?

[[39836]]

EMC中國研發(fā)中心首席技術(shù)官陶波,負責(zé)云計算項目研發(fā)。在加入EMC之前,他曾在谷歌中國工作,負責(zé)管理谷歌北京研發(fā)團隊和諸如視頻、Youtube等產(chǎn)品的研發(fā)

根據(jù)IDC最新數(shù)字宇宙研究報告,2011年數(shù)據(jù)信息量將超過1.8ZB,需要管理的數(shù)據(jù)量將增長50倍,到2012年大量數(shù)據(jù)將會以文件的形式存儲……這給我們提出了如何管理如此海量數(shù)據(jù)的巨大難題。

最近IBM對全球CIO調(diào)查得出的結(jié)論從一個側(cè)面印證了利用和管理大數(shù)據(jù)的重要性:“從企業(yè)界搜集的大量數(shù)據(jù)中獲得的啟示,并將這些啟示轉(zhuǎn)化為具有實際商業(yè)利益的競爭優(yōu)勢,對當(dāng)今公共和私有部門機構(gòu)來說至關(guān)重要。”

大量數(shù)據(jù)需要具有高擴展性的存儲空間、讓科學(xué)家和分析師們協(xié)同工作的管理平臺以及執(zhí)行決策的工具。于是存儲廠商們開始意識到,大數(shù)據(jù)正在改變著數(shù)據(jù)存儲。Gartner稱大數(shù)據(jù)“既是一項破壞力,也是一個已經(jīng)影響到傳統(tǒng)認識和業(yè)務(wù)模式的緊迫問題。它打亂了現(xiàn)行趨勢,同時也代表了公共部門、業(yè)務(wù)和IT 領(lǐng)導(dǎo)者們無法忽略的巨大機會。”

陶波認為,與傳統(tǒng)數(shù)據(jù)倉庫不同的是,大數(shù)據(jù)涉及的量更大,而且包括大量文本等非結(jié)構(gòu)化數(shù)據(jù)的處理。在數(shù)據(jù)分析方面,傳統(tǒng)數(shù)據(jù)庫只能簡單地將所有數(shù)據(jù)處理一遍得出結(jié)論,這在數(shù)據(jù)增長如此迅猛的當(dāng)下顯示是不現(xiàn)實的,而大數(shù)據(jù)可以對過去的數(shù)據(jù)進行匯總和抽樣,通過對一小段時間內(nèi)的新數(shù)據(jù)分析得到相對精確的結(jié)論,現(xiàn)在大多數(shù)企業(yè)都不具備這樣的能力。

陶波強調(diào)說:“新技術(shù)進入企業(yè)IT中必然會帶來一定的沖擊,因此對于已經(jīng)具備一些數(shù)據(jù)分析能力的公司來說,存儲系統(tǒng)雖然不需要完全重建,但不可避免地要做出一些改變,例如增加橫向擴展存儲,甚至BI軟件都要發(fā)生深刻的變化。”

過去十幾年中我們看到更多的是縱向擴展應(yīng)用,而互聯(lián)網(wǎng)領(lǐng)域的很多應(yīng)用都是橫向擴展,例如谷歌的集群計算系統(tǒng)可以管理分布在世界各個地方的上百萬臺服務(wù)器。

Isilon是EMC在橫向擴展NAS方面的一個武器,它有144個節(jié)點和15 PB容量,能夠整合應(yīng)用與工作流。Isilon的核心是OneFS橫向擴展操作系統(tǒng),它是單卷容量達到15PB的單一文件系統(tǒng),原始存儲利用率達到80%,減小了瓶頸的發(fā)生。

如何通過分析獲取價值?

陶波認為,大數(shù)據(jù)分析需要具備四個條件:首先是數(shù)據(jù)科學(xué)家,這將成為未來最熱門的行業(yè)之一;創(chuàng)新,需要不斷提出關(guān)鍵性以及具有啟示性的問題;由大數(shù)據(jù)分析師們組成的社區(qū),協(xié)同地對數(shù)據(jù)進行分析,共享分析結(jié)果;大數(shù)據(jù)產(chǎn)品堆棧,為大數(shù)據(jù)分析提供基礎(chǔ)支撐。

技術(shù)聚合使得大數(shù)據(jù)分析得以實現(xiàn),虛擬化已經(jīng)成為云計算的代表,x86的計算性能不斷提高。大量數(shù)據(jù)被存儲和處理,云計算成為大數(shù)據(jù)分析得以成為現(xiàn)實的重要支撐

早些時候,EMC收購了小型軟件生產(chǎn)商Greenplum,獲得了后者可以用于橫向擴展和加速數(shù)據(jù)倉庫以及業(yè)務(wù)分析應(yīng)用的軟件,EMC將其打造成為一個業(yè)務(wù)分析引擎,用于處理來自在線以及傳統(tǒng)數(shù)據(jù)庫來源的大型數(shù)據(jù)集,圍繞Greenplum創(chuàng)建了EMC Hadoop和Greenplum數(shù)據(jù)庫等產(chǎn)品,與Oracle以及Teradata已有的加速業(yè)務(wù)分析平臺相競爭。

解析大數(shù)據(jù)對于新型業(yè)務(wù)分析應(yīng)用存儲所帶來的影響,首先要區(qū)分傳統(tǒng)數(shù)據(jù)倉庫多個流程,例如,標(biāo)準(zhǔn)的提取、轉(zhuǎn)換以及加載流程對于傳統(tǒng)數(shù)據(jù)倉庫應(yīng)用來說很常見,但達不到足夠的可擴展性和高速度。一款整合了服務(wù)器、存儲和網(wǎng)絡(luò)的專用設(shè)備給出了答案——Greenplum HD數(shù)據(jù)計算一體機無縫集成了結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),是Greenplum Database與Apache Hadoop的強強聯(lián)合,而Hadoop則是應(yīng)對非結(jié)構(gòu)化數(shù)據(jù)實時處理的一個關(guān)鍵手段,它使得互聯(lián)網(wǎng)企業(yè)專門為自己業(yè)務(wù)設(shè)計的一些程序和管理軟件、計算和分析方式滲透到企業(yè)中。

Greenplum Chorus是EMC的一款企業(yè)數(shù)據(jù)云平臺,堆棧了各種大數(shù)據(jù)分析工具(業(yè)務(wù)分析、BI、統(tǒng)計等)。陶波表示,Greenplum Chorus可以做到自助式的調(diào)配、數(shù)據(jù)服務(wù)協(xié)作分析。用戶同時部署Chorus、VMware和Greenplum數(shù)據(jù)庫來創(chuàng)建一個自助式的分析基礎(chǔ)架構(gòu),自助服務(wù)可以生成一個服務(wù)器或者一個沙箱,而這個沙箱既可以基于虛擬化的IT云計算平臺上,也可以是在Greenplum的數(shù)據(jù)庫之上的。同時,用戶可以把在企業(yè)云里面其他的原數(shù)據(jù)導(dǎo)入到自己的沙箱中進行操作,開發(fā)者可以創(chuàng)造一個合作環(huán)境,在分享數(shù)據(jù)的同時控制授權(quán),避免私人數(shù)據(jù)被不適當(dāng)?shù)氖褂谩?/p>

機遇還是挑戰(zhàn)?

大數(shù)據(jù)很復(fù)雜,因為它的來源很復(fù)雜,從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù);大數(shù)據(jù)很復(fù)雜,因為它交付和使用的速度,例如實時;大數(shù)據(jù)很復(fù)雜,因為我們生成的信息量是驚人的。以前,我們的家用存儲容量用MB和GB為單位,現(xiàn)在已經(jīng)是TB,企業(yè)級更是用到了PB。

大數(shù)據(jù)的復(fù)雜性也帶來了一系列挑戰(zhàn)。其中之一就是如何理解和利用非結(jié)構(gòu)化形式的大數(shù)據(jù),例如文本或者視頻。另一個挑戰(zhàn)是如何獲取最重要的數(shù)據(jù),并將其實時地交付給合適的人群。第三個挑戰(zhàn)是我們?nèi)绾伪4孢@些數(shù)據(jù),當(dāng)然還有隱私性和安全性等諸多難題。

陶波舉例說,HDFS的代碼進行改進加強安全性,如果大數(shù)據(jù)分析是在企業(yè)內(nèi)部進行,但是在大量數(shù)據(jù)交給別人的時候,數(shù)據(jù)安全和隱私都是需要特別關(guān)注的。未來如果做“分析即服務(wù)”時為防火墻外提供服務(wù)的時候,對安全性的要求就更加高了。

服務(wù)提供商還需要在云計算平臺上搭建大數(shù)據(jù)分析服務(wù),所以對云計算會有比較大的改變。對于非結(jié)構(gòu)化數(shù)據(jù)處理并不理想的BI公司來說也都需要有所改變,如果不具備應(yīng)對大數(shù)據(jù)帶來沖擊的能力,那么將喪失的不僅僅是機遇。

麥肯錫曾經(jīng)稱大數(shù)據(jù)“是創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域”。我們可以利用大數(shù)據(jù)回答以前我們無法涉及領(lǐng)域的問題,可以從中獲取知識和見解,定位趨勢并利用這些數(shù)據(jù)來提高生產(chǎn)力,贏得競爭優(yōu)勢。

與潛在機遇相比,大數(shù)據(jù)的挑戰(zhàn)是有限的,因為前者只受我們的創(chuàng)造力和能力的局限。相信在今年,我們將看到市場中將有更多針對分析應(yīng)用的存儲設(shè)備涌現(xiàn),存儲廠商必定不會錯過大數(shù)據(jù)這場盛宴。

【編輯推薦】

  1. 數(shù)據(jù)挖掘中的那些事兒
  2. 大數(shù)據(jù)下的數(shù)據(jù)分析平臺架構(gòu)
  3. 數(shù)據(jù)挖掘邏輯體系結(jié)構(gòu)的內(nèi)容類型有哪些
  4. 數(shù)據(jù)挖掘中易犯的幾大錯誤
  5. 如何在存儲過程中實現(xiàn)插入更新數(shù)據(jù)

 

 

 

責(zé)任編輯:艾婧 來源: 劉杰的日志
相關(guān)推薦

2020-09-22 19:54:39

大數(shù)據(jù)

2012-12-06 16:12:37

浪潮張東云海大數(shù)據(jù)一體機

2022-06-28 11:09:42

邊緣計算云計算IT

2013-05-17 09:51:35

大數(shù)據(jù)分析系統(tǒng)大數(shù)據(jù)

2016-12-29 19:48:01

數(shù)據(jù)分析大數(shù)據(jù)Hadoop

2010-08-30 12:01:05

曝光系數(shù)風(fēng)險估價

2018-07-23 16:45:36

數(shù)據(jù)分析RFM方法

2018-09-27 14:37:09

風(fēng)險云計算安全

2017-10-24 13:14:00

大數(shù)據(jù)數(shù)據(jù)科學(xué)數(shù)據(jù)分析

2013-07-03 16:30:14

2014-05-29 23:18:31

開源開源價值

2013-05-16 10:56:52

2015-09-08 10:11:47

大數(shù)據(jù)未來共享

2022-11-07 11:16:30

大數(shù)據(jù)數(shù)據(jù)倉庫Hadoop

2016-12-07 09:15:16

大數(shù)據(jù)崔崇彥

2016-10-13 16:02:04

2013-03-20 10:40:19

大數(shù)據(jù)大數(shù)據(jù)應(yīng)用

2014-03-12 10:10:31

大數(shù)據(jù)分析

2020-03-24 15:16:09

Salesforce大數(shù)據(jù)Einstein An

2016-12-30 16:30:52

大數(shù)據(jù)數(shù)據(jù)分析大數(shù)據(jù)報告
點贊
收藏

51CTO技術(shù)棧公眾號