大數(shù)據(jù)?別唬人了!真的需要盲目燒錢追求大數(shù)據(jù)嗎?
大數(shù)據(jù)可能是現(xiàn)在最炙手可熱的技術名詞了。熱就意味著有泡沫,有值得反思的地方。Quartz的Christopher Mims 5月6日發(fā)表了一篇文章,名為“大多數(shù)數(shù)據(jù)都不大,假裝大數(shù)據(jù)其實是瞎浪費錢”,有理有據(jù),推薦一讀。以下為譯文:
如果你現(xiàn)在還沒有加入大數(shù)據(jù)的陣營, 那你想辦法弄到一些。畢竟, 競爭需要大數(shù)據(jù)。如果你的數(shù)據(jù)量很小, 你將被競爭對手徹底打敗。
作為顧問和 IT公司向企業(yè)推銷的另一個大項目,在大數(shù)據(jù)背后的猜想還存在很多問題。幸運的是,誠實的大數(shù)據(jù)實踐者(又稱數(shù)據(jù)科學家)從不放下懷疑態(tài)度, 并提出了一系列對大數(shù)據(jù)大肆宣傳感到厭倦的理由。如下:
理由一,即使像Facebook和Yahoo!這樣的互聯(lián)網巨頭也并非總是處理大數(shù)據(jù),Google風格工具的應用是不合適的。
Facebook和雅虎運行其巨型集群機(功能強大的服務器集合)來處理數(shù)據(jù)。必須要進行集群處理是大數(shù)據(jù)的標志之一。畢竟,在家用PC就能處理的數(shù)據(jù)不能稱為大數(shù)據(jù)。將業(yè)務拆分為小業(yè)務,使用一系列的計算機來處理每個小業(yè)務的必要性,是類似Google計算世界上每一個網頁排名的大數(shù)據(jù)問題典型特點。
現(xiàn)在看來,對于Facabook和Yahoo!來說,每個業(yè)務都是用同樣規(guī)模的集群機是不必要的。比如Facebook的情況,工程師提交給集群機的大多數(shù)任務都是 MB到GB的范圍,完全可以在一臺計算機甚至筆記本電腦上完成。
Yahoo!也存在類似的情況, Yahoo!集群機所處理的數(shù)據(jù)中位數(shù)只有 12.5GB,通常臺式電腦不能處理這種任務,但一臺配置較好的服務器完全可以勝任。
以上觀點均提煉于Microsoft Research的一篇名為《 Nobody ever got fired for buying a cluster》的論文。論文中指出即使是在最渴求數(shù)據(jù)的公司,多數(shù)問題也不必集群處理。因為對于大量問題類型而言,集群是一個相對低效 甚至是完全不合適的解決方案。
理由二,大數(shù)據(jù)已經成為數(shù)據(jù)分析的代名詞,這種定義是混亂的,并會起到反作用。
數(shù)據(jù)分析最早可追溯到為皇家糧倉的所有糧食制表統(tǒng)計,但是現(xiàn)在你必須要在數(shù)據(jù)前加“大”字,必要的數(shù)據(jù)分析已經卷入了一場較大但是用處不大的流行風暴中。例如,一篇文章告誡讀者“ 3個步驟將大數(shù)據(jù)運用到你的小企業(yè)中”,其實小企業(yè)的數(shù)據(jù)量谷歌文檔就能處理,更不說用筆記本的EXCEL了。
這就是說,實際上大多數(shù)企業(yè)處理的數(shù)據(jù)都是被Open Knowledge Foundation的Rufus Pollock所說的小數(shù)據(jù)。這很重要,這是一場“革命”, Pollock稱。但它與大數(shù)據(jù)關系不大。
理由三,超大化你的數(shù)據(jù)規(guī)模正在變成一件得不償失的事情。
數(shù)據(jù)越多就越好嗎?不盡然。如果你正在尋找相關方程式——x,y的關系,如何能給我提供有效信息?實際上數(shù)據(jù)越多,隨之而來的麻煩也越大。
能從大數(shù)據(jù)中提取的信息會隨著數(shù)據(jù)規(guī)模的增加而減少,Michael Wu(社交媒體分析公司Lithium的首席數(shù)據(jù)分析學家) 寫道。這意味著越過了某一點后,繼續(xù)增加數(shù)據(jù)所產生的邊際數(shù)據(jù)回報率減少到如此地步,收集更多數(shù)據(jù)僅僅是浪費時間。
原因之一:數(shù)據(jù)越“大”,尋找相關性時錯誤信息會更多。正如數(shù)據(jù)分析家Vincent Granville在《 The curse of big data》(《大數(shù)據(jù)的詛咒》)中寫道的:即使只包括1000個條目的數(shù)據(jù)集,也很容易會陷入處理幾百萬個相關分析的處境。”這意味著,“所有這些相關分析,有些可能會高度符合,但這僅僅是一種偶然:如果你使用這種相關分析作為預測模型,結果將會錯誤”。
這個錯誤經常在大數(shù)據(jù)的原始應用領域之一遺傳學中突然出現(xiàn)。對基因組序列有興趣的科學家苦心找尋其相關性而進行的無休止的研究,最終卻得出了各種毫無益處的結果。
理由四,在某些情況下,大數(shù)據(jù)會令你茅塞頓開,但也可能會令你陷入困惑。
公司一旦開始使用大數(shù)據(jù),就深陷于一系列艱澀學科的研究中——統(tǒng)計,數(shù)據(jù)質量,和其他構成“數(shù)據(jù)科學”的一切。就像那些每天都需要發(fā)表出版物的科學,經常會被忽視或是被修正,或是從未被證實,這之中的陷阱實在太多了。
數(shù)據(jù)收集方式的偏見,上下文的缺乏,數(shù)據(jù)聚集的缺口,數(shù)據(jù)的人工處理模式和整體認知偏差都會導致即使最好的研究人員也可能發(fā)現(xiàn)錯誤的相關模型, 麻省理工學院媒體實驗室客座教授Kate Crawford說:“我們可能會陷入某種算法幻覺中”。換句話說,即使你有大數(shù)據(jù),也并非IT部門的任何人都能處理的,他可能需要有博士學位或等量經驗。當處理完成后,他們的答案可能是你并不需要“大數(shù)據(jù)”。
那么哪個更好——大數(shù)據(jù)或小數(shù)據(jù)?
你的業(yè)務需要數(shù)據(jù)嗎?當然需要。但是只有 尖頭發(fā)呆伯特的老板才會像趕時髦一樣購買具有所謂重要性的數(shù)據(jù)規(guī)模。在科學領域同樣存在著企業(yè)使用數(shù)據(jù)制定決策時固有的問題——數(shù)據(jù)質量,總體目標以及上下文和直覺的重要性。記?。篏regor Mendel僅利用一本筆記本的數(shù)據(jù)就發(fā)現(xiàn)了遺傳的秘密。重要是數(shù)據(jù)的質量,而不是數(shù)據(jù)的規(guī)模。