忘記“大數(shù)據(jù)”,從“中數(shù)據(jù)”開始
對于很多市場研究人員來說, “中數(shù)據(jù)”才是真正能夠提供ROI價值回報的分析目標(biāo)。 而所謂“大數(shù)據(jù)”分析, 則會呈現(xiàn)遞減的ROI。
業(yè)界對“大數(shù)據(jù)”這一概念的質(zhì)疑聲從來就沒有停止過,很多人認(rèn)為它只是一個過度炒作的營銷泡沫。確實,單就數(shù)據(jù)的體量而言,大多數(shù)企業(yè)并沒有Google, Facebook那樣的PB級數(shù)據(jù)。 那么, 大數(shù)據(jù)究竟有沒有意義呢? 數(shù)據(jù)分析專家Tom Anderson最近給出了一個概念叫“中數(shù)據(jù)”,根據(jù)他的劃分, 數(shù)據(jù)集數(shù)據(jù)量在10萬以下的稱為“小數(shù)據(jù)”, 數(shù)據(jù)集在1000萬以上的稱為“大數(shù)據(jù)”,而在二者之間的稱為“中”數(shù)據(jù)。 Tom Anderson認(rèn)為, 企業(yè)進行數(shù)據(jù)分析的投資收益率在“中”數(shù)據(jù)范圍內(nèi)是最高的。 以下是IT經(jīng)理網(wǎng)編譯Tom Anderson的博文:
在我參加了這個星期的美國營銷協(xié)會的第一屆大數(shù)據(jù)的研討會后,我更加堅信了我這幾年與許多財富1000強企業(yè)的營銷人員溝通后的一個看法。 那就是:
很少有公司能夠分析到所謂“大”數(shù)據(jù)的量級,而事實上它們也并不需要。 其實, 大部分公司應(yīng)該開始考慮如何從“中”數(shù)據(jù)開始。
大數(shù)據(jù),大數(shù)據(jù), 大數(shù)據(jù), 人們到處在談它, 其實我發(fā)現(xiàn), 真正處理“大”數(shù)據(jù)的研究者其實很少。 我認(rèn)為我們應(yīng)該把“大數(shù)據(jù)”的概念范圍縮小。 引入一個新的更有意義的名詞:“中”數(shù)據(jù)來描述我們目前的大數(shù)據(jù)熱潮。
要了解什么是“中”數(shù)據(jù),進而理解大數(shù)據(jù), 我們得先知道什么是“小”數(shù)據(jù)。
“小數(shù)據(jù)”

上面的圖簡單地按照數(shù)據(jù)記錄的規(guī)?;蛘哒f樣本的規(guī)模對數(shù)據(jù)的“大”“中”“小”進行了劃分
小數(shù)據(jù)可以包括從定性研究的某個訪談到幾千個調(diào)查問卷的結(jié)果。在這個規(guī)模上, 定性分析和定量分析可以從技術(shù)上結(jié)合起來。 而這兩者都不能稱之為現(xiàn)在定義的“大數(shù)據(jù)”。 目前對大數(shù)據(jù)的定義隨著企業(yè)對數(shù)據(jù)的處理水平的不同而不同。通常的的大數(shù)據(jù)定義指的是用現(xiàn)有普通軟件很難分析的數(shù)據(jù)量。
而這個定義是從IT或者軟件提供商的角度來說的。 它描述了企業(yè)無法利用現(xiàn)有能力, 必須進行大量硬件軟件升級進行有價值的數(shù)據(jù)分析的情況。
中數(shù)據(jù)
那么,什么是中數(shù)據(jù)呢? 進入大數(shù)據(jù)時代, 有些我們認(rèn)為是小數(shù)據(jù)的數(shù)據(jù)集可能會迅速成長為大數(shù)據(jù)。 比如 3萬到5萬條用戶滿意度調(diào)查記錄可以用類似IBM的SPSS軟件分析。 可是, 如果把這些數(shù)據(jù)集中加入了用戶的評論這樣的文本數(shù)據(jù), 同樣的分析可能就會變得緩慢了。 這同樣的數(shù)據(jù)集現(xiàn)在需要更長的時間來分析,甚至可能導(dǎo)致分析軟件崩潰。
如果我們把同樣的文本數(shù)據(jù)用文本挖掘的方式處理的話,新加入數(shù)據(jù)集的數(shù)據(jù)將會極大地增加數(shù)據(jù)量。 這常常就會被認(rèn)為是大數(shù)據(jù), 需要更加強大的軟件來處理它。 不過, 我認(rèn)為, 一個更準(zhǔn)確的描述應(yīng)該是“中”數(shù)據(jù), 它其實只是真正大數(shù)據(jù)的起步階段(這與IT經(jīng)理網(wǎng)之前的文章“大數(shù)據(jù)需大處著眼,小處著手”中的觀點不謀而合)。而且對于這個規(guī)模的數(shù)據(jù)量, 其實還是有很多簡單的處理手段的。
大數(shù)據(jù)
好了,我們把大數(shù)據(jù)的一部分切出來叫做“中”數(shù)據(jù)。 現(xiàn)在, 我們可以重新定義“大”數(shù)據(jù)了。
為了理解“大”數(shù)據(jù)與“中”數(shù)據(jù)的區(qū)別, 我們需要考慮一些不同的維度。 Gartner的分析師Doug Laney曾經(jīng)對大數(shù)據(jù)有一個著名的描述, 把大數(shù)據(jù)分為3個維度:規(guī)模(Volume), 種類(Variety)和 速度(Velocity), 通常叫做3V模型。
在理解“中”數(shù)據(jù)與“大”數(shù)據(jù)的區(qū)別時, 我們只需要考慮兩個因素, 成本與價值。
成本(以時間計量或者按照金錢計量)與期望價值構(gòu)成了所謂的投資收益率(ROI)。 這也可以應(yīng)用于大數(shù)據(jù)項目的可行性研究。
我們知道, 有些數(shù)據(jù)天然的比其他數(shù)據(jù)具有更高的價值。 (100個客戶投訴郵件可能比1000個微博上提到你的產(chǎn)品比起來, 對你的運營分析更有價值。) 當(dāng)然, 有一點是肯定的: 沒有經(jīng)過分析的數(shù)據(jù)是沒有價值的。
相對于“中”數(shù)據(jù)來說, “大”數(shù)據(jù)或者說“真正的大”數(shù)據(jù)量的分界點在于, 對于分析進行的投入, 相對成本(包括可能從中發(fā)現(xiàn)不了什么的風(fēng)險)來說,并不具有吸引力。 比“中”數(shù)據(jù)更大的數(shù)據(jù)量來說, 大數(shù)據(jù)分析要么并不現(xiàn)實, 要么對企業(yè)來說ROI太低。
而“中”數(shù)據(jù)則是正好在數(shù)據(jù)分析的最佳范圍內(nèi), 可以在相對可控的預(yù)算前提下進行有價值的分析。
對于很多市場研究人員來說, “中”數(shù)據(jù)才是一個真正能夠提供有價值, 有足夠ROI的分析目標(biāo)。 而真正“大”數(shù)據(jù)分析, 則會呈現(xiàn)遞減的ROI。
在最近我去德國的一次出差中, 我有幸遇到了一位在歐洲核子研究中心從事大型對撞機項目的科學(xué)家。 相對于大型核子對撞機來說, 普通的商業(yè)企業(yè)不需要像那樣的軟件和硬件來進行那個規(guī)模的大數(shù)據(jù)分析。 對撞機的1億5千萬個傳感器每秒鐘產(chǎn)生4000萬條數(shù)據(jù)。 而實際上, 即使是歐洲核子研究中心的科學(xué)家們, 也不會去分析如此打規(guī)模的數(shù)據(jù)量。 他們在分析前過濾掉來99.999%的粒子對撞數(shù)據(jù)!
對我們普通企業(yè)來說, 對消費者的分析相對簡單得多。 對于數(shù)據(jù)或者文本挖掘, 我們不需要EB或者PB級別的處理能力或者在數(shù)以千計的服務(wù)器上跑大型并發(fā)軟件, 目前其實有一些很好的軟件能夠處理我們一般企業(yè)的“中”數(shù)據(jù)需求。 一提到大數(shù)據(jù), 媒體常常提到的是亞馬遜, 谷歌或者Facebook。 就算是這些案例中(很多 聽上去更像是IT銷售鼓吹的科幻小說), 也并沒有提到這些公司在數(shù)據(jù)分析中實際使用的樣本的量。
就像歐洲核子研究中心的科學(xué)家發(fā)現(xiàn)的那樣, 相對一股腦處理全部數(shù)據(jù)的做法, 更重要的是能夠正確的分析對研究相關(guān)的那部分重要數(shù)據(jù)。
那么, 讀者可能會問“既然‘中’數(shù)據(jù)比‘大’數(shù)據(jù)更加具有吸引力, 為什么我們分析‘小’數(shù)據(jù)不是更好嗎?”
這里的關(guān)鍵是, 隨著數(shù)據(jù)量的增加, 我們不但可以對分析結(jié)果更加具有信心, 而且可能會發(fā)現(xiàn)一些傳統(tǒng)的“小”數(shù)據(jù)所不能發(fā)現(xiàn)的現(xiàn)象。 對市場分析來說, 這可能意味著發(fā)現(xiàn)了一個新的細(xì)分產(chǎn)品市場或者競爭對手的新動向, 對藥物研究來說, 可能意味著發(fā)現(xiàn)一些小的人群細(xì)分與某些癌癥的高風(fēng)險關(guān)聯(lián)從而拯救生命。
“中”數(shù)據(jù)應(yīng)該被更加明確的定義, 而且也需要更多的最佳實踐。 不幸的是, 經(jīng)常有一些企業(yè)的CEO或者CIO會要求IT人員“采集所有的數(shù)據(jù), 全面分析數(shù)據(jù)”。 這樣的過程, 他們其實在制造真正的“大”數(shù)據(jù), 這種數(shù)據(jù)量常常是超過需要的。 這就產(chǎn)生了我一直在提的ROI的問題。 追求真正的“大”數(shù)據(jù)常常不能給你帶來任何優(yōu)勢。 經(jīng)驗豐富的“小”數(shù)據(jù)或者“中”數(shù)據(jù)的分析人員知道, 對于“大”數(shù)據(jù)的分析常常是沒有滿意結(jié)果的。 而相對投入的成本來說, 從ROI的角度是不值得的。
因此, 對于“大”數(shù)據(jù)分析而言, “中”數(shù)據(jù)才應(yīng)該是我們真正需要瞄準(zhǔn)的目標(biāo)。
原文鏈接:http://www.ctocio.com/hotnews/11715.html