制約大數(shù)據(jù)發(fā)展的核心因素是什么?
本文嘗試從大數(shù)據(jù)產(chǎn)業(yè)鏈的各環(huán)節(jié)入手,談?wù)劗?dāng)前制約其發(fā)展主要因素。
眾所周知,大數(shù)據(jù)按照處理流程可以分為三步:
- 大數(shù)據(jù)采集和清洗
- 大數(shù)據(jù)存儲(chǔ)和分析
- 大數(shù)據(jù)展現(xiàn)和應(yīng)用
從以上這三個(gè)方面,我想談?wù)勚萍s大數(shù)據(jù)發(fā)展的幾個(gè)核心問(wèn)題。
一、大數(shù)據(jù)采集和清洗
1.1、數(shù)據(jù)法規(guī):用戶隱私如何保護(hù)、商業(yè)規(guī)則如何制定、法律規(guī)范如何制定等等一系列法律法規(guī)都大大滯后于大數(shù)據(jù)科學(xué)的發(fā)展速度。由于技術(shù)EXE所限,紙上談兵TXT成為常態(tài)。當(dāng)前數(shù)據(jù)法律法規(guī)未明,采集方式八仙過(guò)海,預(yù)計(jì)未來(lái)很多大數(shù)據(jù)業(yè)務(wù)都將會(huì)繼續(xù)游走在灰色地帶,只有當(dāng)商業(yè)運(yùn)作初具規(guī)模并開始對(duì)消費(fèi)者和企業(yè)產(chǎn)生影響之后,相關(guān)的法律法規(guī)才會(huì)被迫加速制定出來(lái)。(法律大數(shù)據(jù)研究與應(yīng)用)
1.2、數(shù)據(jù)質(zhì)量:由于大數(shù)據(jù)產(chǎn)業(yè)剛剛起步不久,目前在具體的某一領(lǐng)域或行業(yè)內(nèi),尚未有成型的數(shù)據(jù)采集、加工、分析和應(yīng)用鏈條,大量數(shù)據(jù)源未被激活,包括政府在內(nèi)的很多權(quán)威數(shù)據(jù)機(jī)構(gòu),普遍存在數(shù)據(jù)缺失、噪音多各方面的問(wèn)題。舉個(gè)栗子,如果一個(gè)電商網(wǎng)站銷售額的20%是與推薦系統(tǒng)相關(guān)的時(shí)候(亞馬遜是35%Was Amazon’s recommendation engine crucial to the company’s success?),投入和產(chǎn)出是不成比例的,這也是很多小微企業(yè)難以為繼的原因,技術(shù)上每1%的進(jìn)步都需要100%的汗水和努力,1%的誤差都會(huì)極大地影響企業(yè)的市場(chǎng)份額。
1.3、數(shù)據(jù)人才:去年我參加了「2016年中國(guó)大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)」,當(dāng)時(shí)清華大學(xué)的一名教授預(yù)言:
未來(lái) 3 年,中國(guó)需要 大約 180萬(wàn)大數(shù)據(jù)人才,但目前只有約 30萬(wàn)人。
作為國(guó)內(nèi)TOP2的知名學(xué)府Tsinghua當(dāng)然不會(huì)落后,2014年就開始了動(dòng)作( 清華大學(xué)培養(yǎng)跨學(xué)科交叉融合數(shù)據(jù)科學(xué)研究生),雖有些跟風(fēng)的嫌疑,但至少是順應(yīng)發(fā)展。由于數(shù)據(jù)人才稀缺,大多數(shù)數(shù)據(jù)企業(yè)沒(méi)有數(shù)據(jù)價(jià)值外化、將數(shù)據(jù)變現(xiàn)的有效路徑,只能躺在金礦上睡覺(jué)。而在實(shí)際項(xiàng)目實(shí)施過(guò)程中,數(shù)據(jù)專家們不得不花費(fèi)大量時(shí)間在數(shù)據(jù)清洗上,對(duì)原本就稀缺的數(shù)據(jù)人才其實(shí)是一種資源浪費(fèi)。另一方面,數(shù)據(jù)專家們不但需要解讀大數(shù)據(jù),同時(shí)還需深諳某行業(yè)發(fā)展各個(gè)要素之間的關(guān)聯(lián),甚至包括策劃、管理、執(zhí)行等許多具體要素,這里就不贅述了。
圖 1.1 清華大學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)研究中心)
二、大數(shù)據(jù)存儲(chǔ)和分析
2.1、數(shù)據(jù)隱私:理論上,用戶和企業(yè)的原始數(shù)據(jù)沉淀在數(shù)據(jù)平臺(tái)上(如BAT),數(shù)據(jù)平臺(tái)在未獲授權(quán)的情況下不能提供給第三方,但實(shí)際情況是用戶對(duì)原始數(shù)據(jù)的占有獲取權(quán)及公開權(quán)基本取決于用戶與平臺(tái)達(dá)成的協(xié)議「用戶須知」,加上互聯(lián)網(wǎng)本身的開放性和某些企業(yè)故意作惡,用戶基本無(wú)法捍衛(wèi)自己的數(shù)據(jù)財(cái)產(chǎn)所有權(quán)。
2.2、數(shù)據(jù)安全:棱鏡計(jì)劃(PRISM)曝光,我們知道美國(guó)政府已可以從電郵、短信、視頻、照片、存儲(chǔ)數(shù)據(jù)、甚至語(yǔ)音聊天等全方位對(duì)人進(jìn)行監(jiān)控,大數(shù)據(jù)挖掘讓互聯(lián)網(wǎng)世界已無(wú)死角可言。這同時(shí)證明黑客攻擊方的能力和范圍已無(wú)限升級(jí)。中國(guó)最頂尖白帽團(tuán)隊(duì)Keen的創(chuàng)始人王琦說(shuō):
大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是錢。
數(shù)據(jù)黑客可以從互聯(lián)網(wǎng)中盜取各種數(shù)據(jù),互聯(lián)網(wǎng)地下社工庫(kù)(互聯(lián)網(wǎng)社工庫(kù)的傳說(shuō),這個(gè)是真的存在嗎?)就是最好的證明。
三、大數(shù)據(jù)展現(xiàn)和應(yīng)用
3.1、數(shù)據(jù)展現(xiàn):眾所周知,數(shù)據(jù)的價(jià)值無(wú)法估量,但只有在被展現(xiàn)時(shí)才能發(fā)揮出來(lái)。高維數(shù)據(jù)可視化目前仍是一個(gè)棘手的問(wèn)題,比如如何判斷當(dāng)前降維算法是否是合適?如何選擇合適的數(shù)據(jù)展現(xiàn)方法?仍然拿推薦系統(tǒng)來(lái)舉栗子,推薦的準(zhǔn)確率、覆蓋率、多樣性、驚喜度等應(yīng)該如何取舍才能提高用戶滿意度?這些都需要數(shù)據(jù)分析師對(duì)業(yè)務(wù)和技術(shù)都有相當(dāng)程度的了解,因?yàn)閿?shù)據(jù)科學(xué)本身是一個(gè)交叉學(xué)科,涉及統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、商業(yè)領(lǐng)域經(jīng)驗(yàn)等多種知識(shí)。
3.2、數(shù)據(jù)產(chǎn)業(yè)鏈:如果沒(méi)有對(duì)某個(gè)行業(yè)整體產(chǎn)業(yè)鏈的宏觀把握,單個(gè)企業(yè)僅僅基于自己掌握的獨(dú)立數(shù)據(jù),就無(wú)法建立產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)數(shù)據(jù)之間的關(guān)系,也就無(wú)法對(duì)業(yè)務(wù)發(fā)展和應(yīng)用做出精準(zhǔn)的判斷(通俗說(shuō)就是難以將數(shù)據(jù)變現(xiàn))。數(shù)據(jù)分析師如何將大數(shù)據(jù)層面上的關(guān)聯(lián)具象到行業(yè)實(shí)踐中?如何如何制定可執(zhí)行方案應(yīng)用數(shù)據(jù)挖掘的結(jié)論?當(dāng)前的現(xiàn)時(shí)情況需要處于大數(shù)據(jù)生態(tài)圈中的企業(yè)需要進(jìn)行合作,方能實(shí)現(xiàn)共贏。
(圖 3.1 大數(shù)據(jù)產(chǎn)業(yè)圖譜)
3.3、數(shù)據(jù)獨(dú)占性:合則兩利,斗則俱傷。正因如此,國(guó)家為了促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展以及小微企業(yè)創(chuàng)業(yè),提出建立數(shù)據(jù)交易所的概念。然而另一方面,除了少數(shù)大企業(yè)如BAT自成體系外,這些需要共享信息的小微企業(yè)之間往往存在競(jìng)爭(zhēng)關(guān)系,數(shù)據(jù)作為一種排他性的資源,越是稀缺的數(shù)據(jù)才越具有價(jià)值。所以共享數(shù)據(jù)時(shí)需要權(quán)衡利弊,這也在一定程度上限制了大數(shù)據(jù)企業(yè)的合作。
四、總結(jié)
大數(shù)據(jù)不是萬(wàn)能的,但沒(méi)有數(shù)據(jù)是萬(wàn)萬(wàn)不能的。
當(dāng)前大多數(shù)企業(yè)的信息化程度不高,管理層尚未形成相應(yīng)的數(shù)據(jù)思維。換言之,大數(shù)據(jù)產(chǎn)業(yè)還有很長(zhǎng)的路要走,在摸著石頭過(guò)河的時(shí)候,探索出獨(dú)特的數(shù)據(jù)之道也許更為重要。
PS.其他技術(shù)層面問(wèn)題,如大數(shù)據(jù)相關(guān)的軟硬件成熟度、成本,大數(shù)據(jù)應(yīng)用的普及率、計(jì)算實(shí)時(shí)性等,鄙人以為在不遠(yuǎn)的將會(huì)都會(huì)一一攻克,至少目前不會(huì)成為制約大數(shù)據(jù)發(fā)展核心的問(wèn)題,所以在這里就不作討論了,其他有時(shí)間再補(bǔ)充。