自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

忘記“大數(shù)據(jù)”,從“中數(shù)據(jù)”開始

云計算
業(yè)界對“大數(shù)據(jù)”這一概念的質(zhì)疑聲從來就沒有停止過,很多人認(rèn)為它只是一個過度炒作的營銷泡沫。確實,單就數(shù)據(jù)的體量而言,大多數(shù)企業(yè)并沒有Google, Facebook那樣的PB級數(shù)據(jù)。 那么, 大數(shù)據(jù)究竟有沒有意義呢?

 big-data1

 

對于很多市場研究人員來說, “中數(shù)據(jù)”才是真正能夠提供ROI價值回報的分析目標(biāo)。 而所謂“大數(shù)據(jù)”分析, 則會呈現(xiàn)遞減的ROI。

業(yè)界對“大數(shù)據(jù)”這一概念的質(zhì)疑聲從來就沒有停止過,很多人認(rèn)為它只是一個過度炒作的營銷泡沫。確實,單就數(shù)據(jù)的體量而言,大多數(shù)企業(yè)并沒有Google, Facebook那樣的PB級數(shù)據(jù)。 那么, 大數(shù)據(jù)究竟有沒有意義呢? 數(shù)據(jù)分析專家Tom Anderson最近給出了一個概念叫“中數(shù)據(jù)”,根據(jù)他的劃分, 數(shù)據(jù)集數(shù)據(jù)量在10萬以下的稱為“小數(shù)據(jù)”, 數(shù)據(jù)集在1000萬以上的稱為“大數(shù)據(jù)”,而在二者之間的稱為“中”數(shù)據(jù)。 Tom Anderson認(rèn)為, 企業(yè)進行數(shù)據(jù)分析的投資收益率在“中”數(shù)據(jù)范圍內(nèi)是最高的。 以下是IT經(jīng)理網(wǎng)編譯Tom Anderson的博文:

在我參加了這個星期的美國營銷協(xié)會的第一屆大數(shù)據(jù)的研討會后,我更加堅信了我這幾年與許多財富1000強企業(yè)的營銷人員溝通后的一個看法。 那就是:

很少有公司能夠分析到所謂“大”數(shù)據(jù)的量級,而事實上它們也并不需要。 其實, 大部分公司應(yīng)該開始考慮如何從“中”數(shù)據(jù)開始。

大數(shù)據(jù),大數(shù)據(jù), 大數(shù)據(jù), 人們到處在談它, 其實我發(fā)現(xiàn), 真正處理“大”數(shù)據(jù)的研究者其實很少。 我認(rèn)為我們應(yīng)該把“大數(shù)據(jù)”的概念范圍縮小。 引入一個新的更有意義的名詞:“中”數(shù)據(jù)來描述我們目前的大數(shù)據(jù)熱潮。

要了解什么是“中”數(shù)據(jù),進而理解大數(shù)據(jù), 我們得先知道什么是“小”數(shù)據(jù)。

“小數(shù)據(jù)”

 

clip_image002

 

上面的圖簡單地按照數(shù)據(jù)記錄的規(guī)?;蛘哒f樣本的規(guī)模對數(shù)據(jù)的“大”“中”“小”進行了劃分

小數(shù)據(jù)可以包括從定性研究的某個訪談到幾千個調(diào)查問卷的結(jié)果。在這個規(guī)模上, 定性分析和定量分析可以從技術(shù)上結(jié)合起來。 而這兩者都不能稱之為現(xiàn)在定義的“大數(shù)據(jù)”。 目前對大數(shù)據(jù)的定義隨著企業(yè)對數(shù)據(jù)的處理水平的不同而不同。通常的的大數(shù)據(jù)定義指的是用現(xiàn)有普通軟件很難分析的數(shù)據(jù)量。

而這個定義是從IT或者軟件提供商的角度來說的。 它描述了企業(yè)無法利用現(xiàn)有能力, 必須進行大量硬件軟件升級進行有價值的數(shù)據(jù)分析的情況。

中數(shù)據(jù)

那么,什么是中數(shù)據(jù)呢? 進入大數(shù)據(jù)時代, 有些我們認(rèn)為是小數(shù)據(jù)的數(shù)據(jù)集可能會迅速成長為大數(shù)據(jù)。 比如 3萬到5萬條用戶滿意度調(diào)查記錄可以用類似IBM的SPSS軟件分析。 可是, 如果把這些數(shù)據(jù)集中加入了用戶的評論這樣的文本數(shù)據(jù), 同樣的分析可能就會變得緩慢了。 這同樣的數(shù)據(jù)集現(xiàn)在需要更長的時間來分析,甚至可能導(dǎo)致分析軟件崩潰。

如果我們把同樣的文本數(shù)據(jù)用文本挖掘的方式處理的話,新加入數(shù)據(jù)集的數(shù)據(jù)將會極大地增加數(shù)據(jù)量。 這常常就會被認(rèn)為是大數(shù)據(jù), 需要更加強大的軟件來處理它。 不過, 我認(rèn)為, 一個更準(zhǔn)確的描述應(yīng)該是“中”數(shù)據(jù), 它其實只是真正大數(shù)據(jù)的起步階段(這與IT經(jīng)理網(wǎng)之前的文章“大數(shù)據(jù)需大處著眼,小處著手”中的觀點不謀而合)。而且對于這個規(guī)模的數(shù)據(jù)量, 其實還是有很多簡單的處理手段的。

大數(shù)據(jù)

好了,我們把大數(shù)據(jù)的一部分切出來叫做“中”數(shù)據(jù)。 現(xiàn)在, 我們可以重新定義“大”數(shù)據(jù)了。

為了理解“大”數(shù)據(jù)與“中”數(shù)據(jù)的區(qū)別, 我們需要考慮一些不同的維度。 Gartner的分析師Doug Laney曾經(jīng)對大數(shù)據(jù)有一個著名的描述, 把大數(shù)據(jù)分為3個維度:規(guī)模(Volume), 種類(Variety)和 速度(Velocity), 通常叫做3V模型。

在理解“中”數(shù)據(jù)與“大”數(shù)據(jù)的區(qū)別時, 我們只需要考慮兩個因素, 成本與價值。

成本(以時間計量或者按照金錢計量)與期望價值構(gòu)成了所謂的投資收益率(ROI)。 這也可以應(yīng)用于大數(shù)據(jù)項目的可行性研究。

我們知道, 有些數(shù)據(jù)天然的比其他數(shù)據(jù)具有更高的價值。 (100個客戶投訴郵件可能比1000個微博上提到你的產(chǎn)品比起來, 對你的運營分析更有價值。) 當(dāng)然, 有一點是肯定的: 沒有經(jīng)過分析的數(shù)據(jù)是沒有價值的。

相對于“中”數(shù)據(jù)來說, “大”數(shù)據(jù)或者說“真正的大”數(shù)據(jù)量的分界點在于, 對于分析進行的投入, 相對成本(包括可能從中發(fā)現(xiàn)不了什么的風(fēng)險)來說,并不具有吸引力。 比“中”數(shù)據(jù)更大的數(shù)據(jù)量來說, 大數(shù)據(jù)分析要么并不現(xiàn)實, 要么對企業(yè)來說ROI太低。

而“中”數(shù)據(jù)則是正好在數(shù)據(jù)分析的最佳范圍內(nèi), 可以在相對可控的預(yù)算前提下進行有價值的分析。

對于很多市場研究人員來說, “中”數(shù)據(jù)才是一個真正能夠提供有價值, 有足夠ROI的分析目標(biāo)。 而真正“大”數(shù)據(jù)分析, 則會呈現(xiàn)遞減的ROI。

在最近我去德國的一次出差中, 我有幸遇到了一位在歐洲核子研究中心從事大型對撞機項目的科學(xué)家。 相對于大型核子對撞機來說, 普通的商業(yè)企業(yè)不需要像那樣的軟件和硬件來進行那個規(guī)模的大數(shù)據(jù)分析。 對撞機的1億5千萬個傳感器每秒鐘產(chǎn)生4000萬條數(shù)據(jù)。 而實際上, 即使是歐洲核子研究中心的科學(xué)家們, 也不會去分析如此打規(guī)模的數(shù)據(jù)量。 他們在分析前過濾掉來99.999%的粒子對撞數(shù)據(jù)!

對我們普通企業(yè)來說, 對消費者的分析相對簡單得多。 對于數(shù)據(jù)或者文本挖掘, 我們不需要EB或者PB級別的處理能力或者在數(shù)以千計的服務(wù)器上跑大型并發(fā)軟件, 目前其實有一些很好的軟件能夠處理我們一般企業(yè)的“中”數(shù)據(jù)需求。 一提到大數(shù)據(jù), 媒體常常提到的是亞馬遜, 谷歌或者Facebook。 就算是這些案例中(很多 聽上去更像是IT銷售鼓吹的科幻小說), 也并沒有提到這些公司在數(shù)據(jù)分析中實際使用的樣本的量。

就像歐洲核子研究中心的科學(xué)家發(fā)現(xiàn)的那樣, 相對一股腦處理全部數(shù)據(jù)的做法, 更重要的是能夠正確的分析對研究相關(guān)的那部分重要數(shù)據(jù)。

那么, 讀者可能會問“既然‘中’數(shù)據(jù)比‘大’數(shù)據(jù)更加具有吸引力, 為什么我們分析‘小’數(shù)據(jù)不是更好嗎?”

這里的關(guān)鍵是, 隨著數(shù)據(jù)量的增加, 我們不但可以對分析結(jié)果更加具有信心, 而且可能會發(fā)現(xiàn)一些傳統(tǒng)的“小”數(shù)據(jù)所不能發(fā)現(xiàn)的現(xiàn)象。 對市場分析來說, 這可能意味著發(fā)現(xiàn)了一個新的細(xì)分產(chǎn)品市場或者競爭對手的新動向, 對藥物研究來說, 可能意味著發(fā)現(xiàn)一些小的人群細(xì)分與某些癌癥的高風(fēng)險關(guān)聯(lián)從而拯救生命。

“中”數(shù)據(jù)應(yīng)該被更加明確的定義, 而且也需要更多的最佳實踐。 不幸的是, 經(jīng)常有一些企業(yè)的CEO或者CIO會要求IT人員“采集所有的數(shù)據(jù), 全面分析數(shù)據(jù)”。 這樣的過程, 他們其實在制造真正的“大”數(shù)據(jù), 這種數(shù)據(jù)量常常是超過需要的。 這就產(chǎn)生了我一直在提的ROI的問題。 追求真正的“大”數(shù)據(jù)常常不能給你帶來任何優(yōu)勢。 經(jīng)驗豐富的“小”數(shù)據(jù)或者“中”數(shù)據(jù)的分析人員知道, 對于“大”數(shù)據(jù)的分析常常是沒有滿意結(jié)果的。 而相對投入的成本來說, 從ROI的角度是不值得的。

因此, 對于“大”數(shù)據(jù)分析而言, “中”數(shù)據(jù)才應(yīng)該是我們真正需要瞄準(zhǔn)的目標(biāo)。

原文鏈接:http://www.ctocio.com/hotnews/11715.html

責(zé)任編輯:王程程 來源: IT經(jīng)理網(wǎng)
相關(guān)推薦

2013-03-20 11:03:05

大數(shù)據(jù)

2012-11-08 09:32:24

2013-11-29 14:39:05

2016-12-12 13:47:40

大數(shù)據(jù)大數(shù)據(jù)決策

2016-12-13 09:27:04

大數(shù)據(jù)慣例目標(biāo)

2022-11-07 11:16:30

大數(shù)據(jù)數(shù)據(jù)倉庫Hadoop

2016-11-16 13:10:10

2013-05-23 09:21:56

2024-09-29 18:41:58

2017-09-06 15:43:46

大數(shù)據(jù)挖掘分析數(shù)據(jù)挖掘

2017-02-08 10:00:29

大數(shù)據(jù)hadoopHDFS

2017-07-03 13:53:17

大數(shù)據(jù)大數(shù)據(jù)平臺數(shù)據(jù)治理

2024-08-07 15:27:50

2018-03-28 17:16:09

大數(shù)據(jù)

2016-10-19 13:13:49

2020-11-17 10:50:04

加密貨幣大數(shù)據(jù)分析大數(shù)據(jù)

2020-09-24 22:54:46

大數(shù)據(jù)IT技術(shù)

2013-01-16 10:10:26

2014-08-05 09:37:07

大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號