大數(shù)據(jù)熱中的冷思考
時下,大數(shù)據(jù)熱持續(xù)升溫,大數(shù)據(jù)一詞已成為各種公開場合中最為炙手可熱的關鍵詞。大數(shù)據(jù)熱已成為一股洶涌澎湃的潮流,于是乎,各種大數(shù)據(jù)概念滿天飛,人人都在談論大數(shù)據(jù),仿佛你的發(fā)言中沒有提到大數(shù)據(jù),你的成果中沒有應用到大數(shù)據(jù),那你就徹底OUT了。
歷史反復告訴我們:當一件事情持續(xù)過熱,承受了名過其實的追捧,就必然會產(chǎn)生泡沫。是泡沫就會有破裂的一天,事實必然會隨著泡沫的破裂而恢復到本來面目。總的來說,近年來涌現(xiàn)的一些新的大數(shù)據(jù)技術的確促進了數(shù)據(jù)處理能力的大幅提高,但也應該注意的是,伴生著大數(shù)據(jù)的發(fā)展也產(chǎn)生了一些不良現(xiàn)象,比如:炒作概念,無中生有;似懂非懂,濫用數(shù)據(jù);盲目跟風,浪費資源等。這些不良現(xiàn)象應引起我們足夠的重視。
現(xiàn)象本質大數(shù)據(jù)概念的提出是在2008年,數(shù)據(jù)科學家維克托·邁爾-舍恩伯格及肯尼斯·庫克耶在《大數(shù)據(jù)時代》一書中提出:大數(shù)據(jù)不用隨機分析法(抽樣調查)這樣的捷徑,而使用所有數(shù)據(jù)進行分析處理。2012年,IBM商業(yè)價值研究院與牛津著名的賽德商學院聯(lián)合發(fā)布了一份題為《分析:大數(shù)據(jù)在現(xiàn)實世界中的應用》的報告,報告中用四個V來確定大數(shù)據(jù),即:數(shù)量(volume)、多樣性(variety)、速度(velocity)和精確性(veracity)。
從專業(yè)的角度看,大數(shù)據(jù)這個概念是一個很不科學嚴謹?shù)母拍?,具有很大的模糊性,但正因如此,給外界留下了很大的想象空間。隨著互聯(lián)網(wǎng)技術的高速發(fā)展,數(shù)據(jù)的形態(tài)越來越復雜,對數(shù)據(jù)的使用要求更是五花八門。在不同的場景下,大數(shù)據(jù)這個詞匯似乎成了一個筐,什么都可以往里裝。這一概念不但看起來“高大上”,而且科技感十足,想象空間足夠大,因此備受推崇。政府部門出于拉動GDP等因素考慮,覺得大的項目往往更容易得到重視和青睞,因此力推大數(shù)據(jù)。與此同時,一些商業(yè)組織出于商業(yè)利益考慮,也樂于炒作大數(shù)據(jù)概念。比如在資本市場上,有哪只股票要是成為大數(shù)據(jù)概念股,市值很容易就會大幅提升;哪家創(chuàng)業(yè)公司如果跟大數(shù)據(jù)貼上邊,就會受到風投公司的追捧。而上下游產(chǎn)業(yè)的IT公司更是樂見大數(shù)據(jù)熱現(xiàn)象持續(xù)蔓延,因為大數(shù)據(jù)往往意味著大投資、大生意、大客戶,相關軟件和硬件的銷量自然急劇增加,毫不費力賺得盆滿缽滿。于是,一場以大數(shù)據(jù)為名的運動在全社會轟轟烈烈地開展起來。
對企業(yè)的危害大數(shù)據(jù)是一柄雙刃劍,用得好會給企業(yè)創(chuàng)造價值,用不好不但會成為企業(yè)的負擔,反而還可能會成為誤導。具體說來,濫用大數(shù)據(jù)的危害性有以下幾點。
1、導致錯誤的評價有這樣一個笑話,某大學年度調查統(tǒng)計顯示,本校計算機系的女同學中,50%都嫁給了該校的男性老師。該消息一經(jīng)公布,立即引起校內外的巨大反響,人們對師生戀、校園戀議論紛紛,很多人說是某校的炒作。經(jīng)幾次調查核實,該消息確實是真實有效的。原來該大學計算機系只有兩名女生,其中一名女生和計算機系老師相戀結婚,由此得來的50%是真實數(shù)據(jù)。
這個笑話不但反映了使用片面的數(shù)據(jù)造成的危害,而且揭露出一部分人過于迷信數(shù)據(jù)的心理。數(shù)據(jù)雖然是客觀和科學的,但怎么使用和看待數(shù)據(jù)卻是人的問題。如果有些別有用心的人利用大眾對于大數(shù)據(jù)盲目迷信的心理來誤導大家,那么這種披著權威外衣的欺騙甚至要比不用大數(shù)據(jù)更能導致嚴重后果。
2、導致錯誤的決策數(shù)據(jù)的***商業(yè)價值在于預測,現(xiàn)在的企業(yè)越來越傾向于使用大數(shù)據(jù)得出的結論作為未來的決策依據(jù)。盡管如此,仍有不少數(shù)據(jù)分析專家認為,當企業(yè)開始搞大數(shù)據(jù)的時候,他們就走上了一條不歸路,數(shù)據(jù)越大,其中枝節(jié)越多,錯誤也就越多。數(shù)據(jù)科學家Vincent Granville在《大數(shù)據(jù)的詛咒》里寫道:“這并不難解釋。例如即使數(shù)據(jù)集之中只包括1000個因子,那這些因子之間的相關關系數(shù)量就高達***別。這也就意味著一些因子之間的關系可能完全是隨機的,以此來建預測模型,你會輸?shù)煤軕K。”
3、投資與收益嚴重倒掛大數(shù)據(jù)既然“大”字當頭,自然投資成本不會小。在硬件層面上,要投入比以往系統(tǒng)多得多的主機、存儲、網(wǎng)絡設備以及相關配件,由于設備數(shù)量的增加還會造成大量的用電負荷以及占用大量機房場地空間,對布線、空調等相關配套的需求也急劇增加;在軟件層面上,雖然操作系統(tǒng)和數(shù)據(jù)庫等底層可以找到越來越多的開源軟件可替代,但那些針對數(shù)據(jù)挖掘和數(shù)據(jù)分析以及分布式存儲的軟件是永遠也不可能免費的,而且普遍價格高昂;在維護成本方面,由于大量使用開源軟件,大數(shù)據(jù)所帶來的大集群以及低穩(wěn)定性需要付出更多的人力成本。
可見,大數(shù)據(jù)必然是大手筆的投入,然而這種大投入能不能帶來大產(chǎn)出就是另一回事了。對于分析系統(tǒng)而言,其分析的結果能否抵得上投資收益是一件不太確定的事,并且有效數(shù)據(jù)的產(chǎn)生可能需要一個長期的過程。對大數(shù)據(jù)的挖掘有點像在一座據(jù)說藏有黃金的礦山中挖掘,但要挖多深、挖多久才能有結果,其實并不確定。
4、加重核心系統(tǒng)的負擔最重要和最有價值的數(shù)據(jù)必然是從核心系統(tǒng)產(chǎn)生出來的,大數(shù)據(jù)分析的過程就是一個先大量占有、再慢慢分析的過程,在這個過程中,必然不能缺少核心數(shù)據(jù)的參與。這意味著核心系統(tǒng)需要開放更多的接口,犧牲一定的性能來配合分析。不僅如此,在爭搶系統(tǒng)資源方面,大數(shù)據(jù)系統(tǒng)當然比資源池內的其他系統(tǒng)更有“威力”。即使是主機環(huán)境互相隔離開,但只要是在一個機房內,存儲、網(wǎng)絡帶寬、機架空間、用電負荷等資源也會被迅速增長的大數(shù)據(jù)系統(tǒng)搶得一干二凈。長此以往,核心系統(tǒng)的業(yè)務資源必然緊張,系統(tǒng)運行風險也隨之上升。
建言獻策大數(shù)據(jù)是信息化系統(tǒng)發(fā)展到一定階段以后的必然產(chǎn)物,更大更全面的數(shù)據(jù)處理能力必將成為企業(yè)未來重要的生產(chǎn)力來源。然而,對于大數(shù)據(jù),我們不能只抱著一片癡心,還要像認識硬幣的正反兩面一樣,對大數(shù)據(jù)的負面問題有所防范。
首先,不迷信不盲從大數(shù)據(jù)。大數(shù)據(jù)不是***的,更不是***的,數(shù)據(jù)僅僅是一種參考資料,如何看待和使用數(shù)據(jù)還要靠人。因此要用審慎的心態(tài)看待數(shù)據(jù),避免因使用片面的數(shù)據(jù)而產(chǎn)生決策偏差,甚至是步入陷阱。如果我們不能合理使用大數(shù)據(jù),那么大數(shù)據(jù)就真的成了“大忽悠”。
其次,要根據(jù)企業(yè)實際選擇合適的大數(shù)據(jù)方案。在大數(shù)據(jù)系統(tǒng)立項和建設之初,就要充分考慮投入和產(chǎn)出的比率,對于產(chǎn)出價值不大的系統(tǒng)應采取審慎的態(tài)度建設,并且嚴格控制規(guī)模,避免“大而全”的建設思路。只有在建設前期就嚴格把關,才能防止大數(shù)據(jù)成為“大負擔”。
***,做好數(shù)據(jù)信息安全防范。在使用大數(shù)據(jù)的同時,也一定要做好數(shù)據(jù)信息可能泄露的安全防范。數(shù)據(jù)如果沉淀下去一直不用當然不會創(chuàng)造價值,但如果不注意數(shù)據(jù)信息的安全防范就可能造成信息泄露、篡改、盜用、刪除等嚴重后果。極端情況下,甚至會給企業(yè)造成致命的打擊。因此一定要限定數(shù)據(jù)使用的范圍、流程,避免大數(shù)據(jù)演變成為“大災難”。