偌大的數(shù)據(jù)都在哪里?——大數(shù)據(jù)創(chuàng)業(yè)者的尋寶圖
大數(shù)據(jù)蕩漾了無(wú)數(shù)創(chuàng)業(yè)者和技術(shù)男的春心。而它作為一個(gè)典型的2B市場(chǎng),創(chuàng)業(yè)者們面對(duì)的是什么樣的B呢?哪些行業(yè)會(huì)擁有大數(shù)據(jù)呢?大數(shù)據(jù)通常分為四類:科研數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù),企業(yè)數(shù)據(jù),和感知數(shù)據(jù)。
科研數(shù)據(jù)屬于大數(shù)據(jù)時(shí)代前很久就存在的史前生物,可能來(lái)自生物工程、天文望遠(yuǎn)鏡或粒子對(duì)撞機(jī),不一而足。這些數(shù)據(jù)存在于封閉系統(tǒng)中,玩家都是傳統(tǒng)上做高性能計(jì)算(HPC)的企業(yè),這里不再展開。值得一提的是,常常聽到這些企業(yè)憤憤不平地說很多大數(shù)據(jù)技術(shù)是他們發(fā)明的,大數(shù)據(jù)只是某些人創(chuàng)造和炒作的新概念。公允地講,很多大數(shù)據(jù)技術(shù)脫胎于HPC不假。只是這些老兄也未必純潔。早在大數(shù)據(jù)作為一個(gè)新概念出現(xiàn)之前,他們就開始炒一個(gè)概念,Data Intensive Scalable Computing (DISC)。DISC挾數(shù)據(jù)庫(kù)老法師JimGray(彼時(shí)Jim公在微軟研究院做天文數(shù)據(jù)處理的研究)第四范式(The Fourth Paradigm)之名,居高臨下卻未能君臨天下。有很多原因,如DISC沒有Big Data響亮,Jim公離奇海上失蹤,等等。但在下認(rèn)為最主要的原因還是格局小了,只盯著高富帥的科研數(shù)據(jù),而忽略了大眾市場(chǎng)。
互聯(lián)網(wǎng)大數(shù)據(jù)是目前這個(gè)時(shí)代的主流,尤其社交媒體被認(rèn)為是大數(shù)據(jù)的爆發(fā)點(diǎn)。幾乎所有的大數(shù)據(jù)技術(shù)都起源于互聯(lián)網(wǎng)企業(yè)。所有這些企業(yè)當(dāng)中,做搜索的最大,不說谷歌,百度也達(dá)到了千PB的規(guī)模。Facebook、Yahoo等都在數(shù)百PB,Amazon、阿里應(yīng)該也同在此列?;ヂ?lián)網(wǎng)數(shù)據(jù)增長(zhǎng)的驅(qū)動(dòng)力一是梅特卡夫定律(互聯(lián)網(wǎng)企業(yè)的價(jià)值與用戶數(shù)的平方成正比),二是扎克伯格反復(fù)引用的信息分享理論:一個(gè)人分享的信息每一到兩年翻番。
大型互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)生態(tài)系統(tǒng)也比較獨(dú)特,一方面不同程度上參與開源,一方面維護(hù)自給自足的生態(tài)系統(tǒng),甚至連硬件都越來(lái)越依靠自己了:從谷歌開始,后有Facebook的Open Compute Project,國(guó)內(nèi)有TAB主導(dǎo)的天蝎計(jì)劃。大型互聯(lián)網(wǎng)公司不只是自身產(chǎn)生大體量數(shù)據(jù),它還有平臺(tái)級(jí)的帶動(dòng)作用,如Facebook之于Zynga。阿里牽頭做數(shù)據(jù)交換平臺(tái)也是件好事。
對(duì)于中型互聯(lián)網(wǎng)公司來(lái)說,基本上也能夠維持大數(shù)據(jù)技術(shù)團(tuán)隊(duì),只不過與大型互聯(lián)網(wǎng)公司的核心開發(fā)能力和社區(qū)貢獻(xiàn)能力相比,他們更多部重兵在外圍開發(fā)、優(yōu)化和運(yùn)維。當(dāng)然,他們多少會(huì)有一些絕招,比如豆瓣的推薦,暴風(fēng)的Hadoop管理。
三線互聯(lián)網(wǎng)公司有數(shù)據(jù)但沒有大數(shù)據(jù)能力,這催生了一些大數(shù)據(jù)技術(shù)和服務(wù)的機(jī)會(huì),如百分點(diǎn)為電商網(wǎng)站做個(gè)性化推薦和營(yíng)銷分析,各類廣告聯(lián)盟、移動(dòng)應(yīng)用服務(wù)平臺(tái)為網(wǎng)站和移動(dòng)應(yīng)用提供統(tǒng)計(jì)分析、營(yíng)銷服務(wù)等。
進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代后,移動(dòng)平臺(tái)的感知功能和LBS的普及,使得互聯(lián)網(wǎng)數(shù)據(jù)與感知數(shù)據(jù)產(chǎn)生了重疊。同樣,企業(yè)數(shù)據(jù)和感知數(shù)據(jù)本質(zhì)上也并不是所謂MECE(不重復(fù)、不遺漏)的劃分,如企業(yè)會(huì)部署物聯(lián)網(wǎng)收集感知數(shù)據(jù)。之所以把它們分為兩類,是傳統(tǒng)上認(rèn)為企業(yè)數(shù)據(jù)是人產(chǎn)生的,感知數(shù)據(jù)是物、傳感器、標(biāo)識(shí)等機(jī)器產(chǎn)生的。感知數(shù)據(jù)的體量要大得多,Teradata預(yù)測(cè)感知數(shù)據(jù)的總量在2015年超過社交媒體,并達(dá)到后者的10-20倍。重慶平安城市項(xiàng)目在薄王出事前規(guī)劃了50萬(wàn)攝像頭,數(shù)據(jù)存儲(chǔ)需求要達(dá)到百PB級(jí)別,不亞于世界級(jí)的互聯(lián)網(wǎng)公司。相比而言,企業(yè)的數(shù)據(jù)比起十年前并沒有數(shù)量級(jí)的提升,只不過在傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上加入了非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容。
把企業(yè)數(shù)據(jù)和感知數(shù)據(jù)放在一起講是因?yàn)樗鼈兌忌婕皞鹘y(tǒng)產(chǎn)業(yè),從經(jīng)濟(jì)總量上要比互聯(lián)網(wǎng)產(chǎn)業(yè)大很多,而且傳統(tǒng)產(chǎn)業(yè)自身的大數(shù)據(jù)能力有限,所以這是大數(shù)據(jù)技術(shù)和服務(wù)企業(yè)的主要目標(biāo)市場(chǎng)。但目前骨感的現(xiàn)實(shí)是就單個(gè)企業(yè)而言,具有大數(shù)據(jù)需求的并不多見。比如說麥肯錫的報(bào)告中把制造業(yè)列為大數(shù)據(jù)存量最多的行業(yè),但很少聽到制造企業(yè)上馬大數(shù)據(jù)項(xiàng)目。即使有,如Zara,只是在市場(chǎng)營(yíng)銷上加入了互聯(lián)網(wǎng)的招數(shù),來(lái)自終端的需求獲得這塊有點(diǎn)意思,供應(yīng)鏈和生產(chǎn)這塊相比大數(shù)據(jù)之前沒有太多新意。通過數(shù)據(jù)采集和分析來(lái)提升制造業(yè)的效率,會(huì)是個(gè)很大的市場(chǎng),這是工業(yè)物聯(lián)網(wǎng),但未必是大數(shù)據(jù)。
從行業(yè)上講,擁有大數(shù)據(jù)的主要在公共管理和服務(wù)、電信、金融、醫(yī)療和零售等方面。但啃這些客戶都不是易事:
(1) 公共管理和服務(wù)領(lǐng)域最高可以達(dá)到百PB級(jí),但金主是政府,能讓他們看得上眼的沒幾家,而且BOT不好玩。
(2) 電信和金融可以達(dá)到數(shù)十PB級(jí),但客大欺店,而且自身IT能力較強(qiáng)。
(3) 醫(yī)療的瓶頸在跨醫(yī)院的數(shù)據(jù)整合,這塊目前開來(lái)只能地方牽頭做,但地方的事兒有很多裙帶關(guān)系出沒。
(4) 零售業(yè)內(nèi)有大數(shù)據(jù)的一定是連鎖,多數(shù)成本壓力大,議價(jià)能力強(qiáng),賺他們的錢不容易。
從賺錢機(jī)會(huì)上來(lái)看,大數(shù)據(jù)還沒到“滿地是沙子、滿地是金子”的時(shí)候。對(duì)于大數(shù)據(jù)技術(shù)和服務(wù)公司而言,三線互聯(lián)網(wǎng)公司是現(xiàn)成的機(jī)會(huì)。而最大的蛋糕——企業(yè)數(shù)據(jù)和感知數(shù)據(jù),目前只是聞到香味而已。好在競(jìng)爭(zhēng)還不激烈,海外的高富帥(IBM、EMC、Microsoft等)太高太貴,平民產(chǎn)品(Cloudera的CDH、Hortonworks的HDP和Intel的IDH Hadoop發(fā)行版)還在學(xué)習(xí)市場(chǎng),國(guó)內(nèi)的互聯(lián)網(wǎng)大佬們似乎還未覬覦這塊蛋糕(阿里是最有可能先跨界伸手的),華為還戴著《基本法》的鐐銬徘徊在信息服務(wù)業(yè)的門口,三大電信有企圖但技術(shù)還不成熟。國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)將再次扮演黃埔軍校,培養(yǎng)前仆后繼的大數(shù)據(jù)創(chuàng)業(yè)者。
最后補(bǔ)充一句,即使大數(shù)據(jù)還沒到大規(guī)模爆發(fā)的春天,大數(shù)據(jù)早期接納者(early adopters)的啟動(dòng)還是會(huì)催生咨詢服務(wù)的市場(chǎng)。
面臨大體量數(shù)據(jù),在思維和行動(dòng)上要做什么樣的準(zhǔn)備?——業(yè)務(wù)決策者應(yīng)有的大數(shù)據(jù)觀
每每開會(huì)談大數(shù)據(jù),似乎不是Hadoop就是NoSQL數(shù)據(jù)庫(kù)。究其原因,主要可能還是與會(huì)人員來(lái)自互聯(lián)網(wǎng)企業(yè)和技術(shù)第一線。其實(shí),大數(shù)據(jù)是一種思維,一種戰(zhàn)略,而它應(yīng)該是面對(duì)用戶、面向業(yè)務(wù)和應(yīng)用的。業(yè)務(wù)決策者和企業(yè)IT技術(shù)人員很明顯在各種大數(shù)據(jù)峰會(huì)上缺位了。好在,前面所說的兩本書,就是為他們準(zhǔn)備的。
大數(shù)據(jù)時(shí)代,需要新的世界觀。大數(shù)據(jù)開啟了一個(gè)新的世界,我們對(duì)這個(gè)世界的認(rèn)知必須主動(dòng)求變。
舊的認(rèn)識(shí)是“數(shù)據(jù)是稀缺資源”,這種認(rèn)識(shí)直接導(dǎo)致“數(shù)據(jù)小農(nóng)”心態(tài)。大數(shù)據(jù)開始于數(shù)據(jù)測(cè)量,而數(shù)據(jù)小農(nóng)揀著測(cè)、挑著存、采著樣來(lái)處理,總是幻想能夠從最少的數(shù)據(jù)壓榨出最多的信息。
而新的認(rèn)識(shí)是,要參與大數(shù)據(jù)的游戲并且致勝,必須產(chǎn)生大數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,擁有大數(shù)據(jù)是一種幸福和特權(quán)。舍恩伯格在《大數(shù)據(jù)時(shí)代》里指出三大思維變革之首就是要數(shù)據(jù)全集,不要樣本子集(其它兩大變革以后會(huì)說到)。這個(gè)思維的基礎(chǔ)是有全集數(shù)據(jù)。因此,每一個(gè)個(gè)體、企業(yè)和政府需要自覺、客觀、全面地去測(cè)量世界,并且把數(shù)據(jù)存下來(lái)。把數(shù)據(jù)采集和保存成為一種信仰,成為一種責(zé)任。
決策者需要具備的大數(shù)據(jù)觀很簡(jiǎn)單:數(shù)據(jù)不是累贅,要投資數(shù)據(jù)采集的基礎(chǔ)設(shè)施,采完用完不要急著扔掉,把它存下來(lái),數(shù)據(jù)里有很多價(jià)值(在以后講Value時(shí)會(huì)詳述),數(shù)據(jù)的存儲(chǔ)和搬運(yùn)會(huì)越來(lái)越便宜,IT部門可以從成本中心變成利潤(rùn)中心。
揀著測(cè)、挑著存、采著樣處理,問題在于自我選擇機(jī)制導(dǎo)致的低數(shù)據(jù)質(zhì)量。有個(gè)老外寫了本書叫《Raw data is an oxymoron》,直譯是“原始數(shù)據(jù)的說法是一種矛盾修辭法”。因?yàn)閿?shù)據(jù)不是自然資源,它不是“原始”的,它是帶著文化背景和主觀傾向的人去產(chǎn)生和解釋的,帶入了自我選擇機(jī)制,從前數(shù)字時(shí)代到數(shù)字時(shí)代,無(wú)一例外。所以,必須盡量地減少主觀性。第一,盡量由“機(jī)器”來(lái)決定采什么、哪里采。拿在程序里加日志為例,可以通過源代碼分析工具來(lái)自動(dòng)插入日志的寫入點(diǎn)。第二,如果是答案產(chǎn)生的過程本身帶有主觀性(如民意調(diào)查),那數(shù)據(jù)采集可能需要設(shè)計(jì)成多變量(如通過問很多問題)來(lái)約束主觀誤差。第三,盡量把數(shù)據(jù)采集和存儲(chǔ)納入基礎(chǔ)框架,而不是來(lái)一個(gè)業(yè)務(wù)做一種采集/存儲(chǔ)方案。
采樣處理還有個(gè)問題,基于隨機(jī)采樣的方法可以使數(shù)據(jù)反映常態(tài)現(xiàn)象(個(gè)位數(shù)百分點(diǎn)的誤差),但容易遺漏個(gè)案的異常。由于現(xiàn)在經(jīng)濟(jì)中的“黑天鵝現(xiàn)象”往往是個(gè)案異常,采樣方法可能攤上大事。
子沛在《大數(shù)據(jù)》里講到政府采集數(shù)據(jù)時(shí)的減負(fù)原則很重要。一旦數(shù)據(jù)采集是種負(fù)擔(dān),它的完整性和真實(shí)性都會(huì)產(chǎn)生瑕疵。純軟件的數(shù)據(jù)采集還好,如果需要人力物力,決策者要適當(dāng)引入激勵(lì)機(jī)制。
當(dāng)然,在采集到大數(shù)據(jù)以后,決策者需要做的事就更多了,涉及人、文化、組織和流程等諸方面。因?yàn)榻裉炀椭v大體量,這些以后再表。如果看官著急,不妨把出自Teradata的《駕馭大數(shù)據(jù)》找來(lái)看看。
舍恩伯格在他的另一本書《刪除》中表達(dá)了數(shù)字化時(shí)代要學(xué)會(huì)遺忘(digital forgetting)的觀點(diǎn),講述了數(shù)據(jù)太多的煩惱和風(fēng)險(xiǎn)。這與全集思維并不矛盾。大數(shù)據(jù)的低信息密度和高冗余度不排除采取刪除(如去冗余)的手段,在很多場(chǎng)合下還需要匿名化(anonymization)、混淆(obfuscation)和過濾(filtering),但實(shí)施這些手段的前提是保留數(shù)據(jù)全集的完整性和分析價(jià)值。
大數(shù)據(jù)大體量,對(duì)于業(yè)界巨擘、創(chuàng)業(yè)者和業(yè)務(wù)決策者,不同的人有不同的理解,今天暫且侃到這兒。下一篇聊大數(shù)據(jù)的多樣性和混雜性(Variety)。
預(yù)告一下未來(lái)系列內(nèi)容:
(1) 多樣性和混雜性(Variety)
(2) 快速化(Velocity)
(3) 真實(shí)性(Veracity)
(4) 大價(jià)值(Value)
(5) 相關(guān)性和因果性
(6) 數(shù)據(jù)權(quán)利
(7) 數(shù)據(jù)分析
(8) 企業(yè)IT人員的簡(jiǎn)易手冊(cè)
(9) …