你需要知道的7個大數(shù)據(jù)定義
大數(shù)據(jù)究竟是什么?很多人可能仍然有些混淆,本文讓我們來看看大數(shù)據(jù)的一些主要的定義。首先要注意的是,行業(yè)內(nèi)的所有人都普遍認(rèn)同,大數(shù)據(jù)不只是更多的數(shù)據(jù)。
(1) 最初的大數(shù)據(jù)
大數(shù)據(jù)的特征可以用很多詞來描述。2001年Doug Laney***提出“3V”模型, 包括數(shù)量 (Volume)、速度(Velocity)和種類(Variety)。在那以后,業(yè)界很多人把3V擴展到了11V,還包括有效性、真實性、價值和可見性等。
(2) 大數(shù)據(jù):技術(shù)
為什么12年前的老術(shù)語突然被放在聚光燈下?這不僅是因為我們現(xiàn)在擁有比十年前更多的數(shù)量、速度和種類。而是因為大數(shù)據(jù)受到新技術(shù)的推動,特別是快速發(fā)展的開源技術(shù),例如Hadoop和其他存儲和處理數(shù)據(jù)的NoSQL方式。
這些新技術(shù)的用戶需要一個術(shù)語來將它們區(qū)別于以前的技術(shù),于是大數(shù)據(jù)成了他們的***選擇。如果你去參加大數(shù)據(jù)會議,你肯定會發(fā)現(xiàn),涉及關(guān)系型數(shù)據(jù)庫的會議會很少,無論他們鼓吹多少個V。
(3)大數(shù)據(jù)與數(shù)據(jù)的區(qū)別
大數(shù)據(jù)技術(shù)的問題是,大數(shù)據(jù)有些含糊不清,以至于行業(yè)中的每個供應(yīng)商都可以跳進來聲稱自己的技術(shù)是大數(shù)據(jù)技術(shù)。以下是兩種很好的方法來幫助企業(yè)理解現(xiàn)在的大數(shù)據(jù)與過去單純的大數(shù)據(jù)的區(qū)別。
■交易、交互和觀察:這是由Hortonworks公司負(fù)責(zé)企業(yè)戰(zhàn)略的副總裁Shaun Connolly提出的。交易是我們過去收集、存儲和分析的主要數(shù)據(jù)。交互是人們點擊網(wǎng)頁等操作得到的數(shù)據(jù)。觀察是自動收集的數(shù)據(jù)。
■過程介導(dǎo)數(shù)據(jù)、人類產(chǎn)生的信息以及機器生成的數(shù)據(jù)。
(4)大數(shù)據(jù):信號
SAP公司的Steve Lucas認(rèn)為,應(yīng)該根據(jù)意圖和時機來劃分這個世界,而不是根據(jù)數(shù)據(jù)的類型。“舊世界”主要是關(guān)于交易,當(dāng)這些交易被記錄時,我們已經(jīng)無法對它們采取任何行動:企業(yè)都在不斷管理“失效的數(shù)據(jù)”。而在“新世界”,企業(yè)可以使用新的“信號”數(shù)據(jù)來預(yù)測將會發(fā)生什么,并進行干預(yù)來改善情況。
相關(guān)的案例有,追蹤社交媒體上人們對品牌的態(tài)度,以及預(yù)測性維護(用復(fù)雜的算法幫助你決定何時需要更換零部件)。
(5) 大數(shù)據(jù):機會
這是來自451 Research的Matt Aslett,他將大數(shù)據(jù)定位為“之前因為技術(shù)限制而被忽略的數(shù)據(jù)”。(雖然在技術(shù)上,Matt使用了“暗數(shù)據(jù)”,而不是大數(shù)據(jù),但已經(jīng)非常接近)。這是筆者最喜歡的定義,因為它符合大部分文章和討論中的說法。
(6) 大數(shù)據(jù):隱喻
Rick Smolan在其書中寫道,大數(shù)據(jù)是“幫助這個星球生成神經(jīng)系統(tǒng)的過程,其中我們?nèi)祟愔皇橇硪环N類型的傳感器”。很深奧吧?
(7) 大數(shù)據(jù):新瓶裝舊酒
很多項目基本上是使用以前的技術(shù),這些過去被稱為BI或者分析的技術(shù)突然跳入大數(shù)據(jù)的行列中。
底線:盡管大家對大數(shù)據(jù)的定義有很多爭議,但所有人都同意這個事實:大數(shù)據(jù)是一個大事件,在未來幾年將帶來巨大的機遇。