漫談大數(shù)據(jù)之前序
前言
本文共分為上下兩篇。從大數(shù)據(jù)的定義、發(fā)展歷程、大數(shù)據(jù)VS小數(shù)據(jù)、大數(shù)據(jù)通用技術(shù),以及安全行業(yè)大數(shù)據(jù)的角度,漫談大數(shù)據(jù)相關(guān)概念及其在應(yīng)用實(shí)踐中的一些思考,同時(shí)分享大數(shù)據(jù)在流量分析和日志的簡單實(shí)踐,期望能給讀者帶來對大數(shù)據(jù)一個更好的認(rèn)知和應(yīng)用。
此篇為前序,我們將集中為大家解釋大數(shù)據(jù)的定義、發(fā)展歷程。
BIG DATA
何謂大數(shù)據(jù)
顧名思義,大數(shù)據(jù)就是很大的數(shù)據(jù)唄!以前叫數(shù)據(jù)處理,現(xiàn)在叫大數(shù)據(jù)處理,貌似現(xiàn)在不加個大字,都不好意思和別人說,加上大字,搞成大數(shù)據(jù),瞬間高大上了。以前還有說法是海量數(shù)據(jù),想想,海量比大應(yīng)該更加形象生動。記得當(dāng)年筆者博士論文題目就是海量數(shù)據(jù)…挖掘。大數(shù)據(jù)這個概念目前這么耳熟能詳,也就是這幾年的事情。那 “大數(shù)據(jù)”究竟是個神馬?咱們先看幾個大數(shù)據(jù)的定義。
維基百科中將大數(shù)據(jù)定義為:“Big data is a term for data sets that are so large or complex that traditional data processing applications are inadequate.”,即:所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
IDC將大數(shù)據(jù)定義為:為更經(jīng)濟(jì)地從高頻率的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。
國際權(quán)威咨詢機(jī)構(gòu)Gartner說:“大數(shù)據(jù),就是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)”。
信息專家涂子沛在著作《大數(shù)據(jù)》中認(rèn)為:“大數(shù)據(jù)”之“大”,并不僅僅指“容量大”,更大的意義在于通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價(jià)值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。
麥肯錫全球研究所說:“大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征”。
從這幾個定義上來看,我們至少可以看出,從“數(shù)據(jù)”或者“海量數(shù)據(jù)”到“大數(shù)據(jù)”,不僅僅是修飾上的變化,也絕不僅僅是大部分人以為的海量數(shù)據(jù)和大數(shù)據(jù)是等同概念;不僅僅是數(shù)量上的差別,不是數(shù)據(jù)量多、大就是大數(shù)據(jù)了。那是什么呢?這里個人以偏概全總結(jié)幾點(diǎn):
(1)大數(shù)據(jù)的“大”是指用目前主流的軟件工具無法處理或者無法快速處理的大,需要采用大數(shù)據(jù)的技術(shù)對數(shù)據(jù)進(jìn)行處理;
(2)大數(shù)據(jù)是為了處理海量數(shù)據(jù)而催生的一種新的架構(gòu)、新的技術(shù),它存在的主要目的是快速、高頻的處理海量異構(gòu)的數(shù)據(jù);
(3)大數(shù)據(jù)之“大”的基本屬性是“量大”,但是更內(nèi)涵的屬性是“價(jià)值大”。大數(shù)據(jù)技術(shù)的核心價(jià)值是通過采用大數(shù)據(jù)技術(shù)對海量數(shù)據(jù)的存儲檢索,查詢分析,數(shù)據(jù)挖掘等,產(chǎn)生數(shù)據(jù)簡單統(tǒng)計(jì)分析所無法帶來的新的價(jià)值,新的發(fā)現(xiàn)。
個人認(rèn)為,這三點(diǎn)是根據(jù)定義總結(jié)出來的大數(shù)據(jù)核心思想,三個定義和內(nèi)容并非并列重復(fù)的,它們是一個層級推進(jìn)的關(guān)系。而這三點(diǎn)中,最能體現(xiàn)大數(shù)據(jù)核心的是第三點(diǎn),采用大數(shù)據(jù)技術(shù)挖掘分析新知識、創(chuàng)造新價(jià)值。
當(dāng)然,前些年聽到的學(xué)術(shù)報(bào)告中,80%以上的Slide里面會有一頁是所謂的5V,即大數(shù)據(jù)的五個主要特征: Volume、Velocity、Variety、Value、Veracity。這其實(shí)和上面提到的三點(diǎn)是一脈相承的,至于5V或者更多V的具體內(nèi)容就不多贅述,讀者自行Baidu即可知悉。
區(qū)別于傳統(tǒng)意義上的數(shù)據(jù)處理方式(數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、OLAP等),在“大數(shù)據(jù)時(shí)代”,數(shù)據(jù)已經(jīng)不僅僅是需要分析處理的內(nèi)容,更重要的是人們需要借助專用的思想和手段從大量看似雜亂、繁復(fù)的數(shù)據(jù)中,收集、整理和分析數(shù)據(jù)足跡,以支撐社會生活的預(yù)測、規(guī)劃和商業(yè)領(lǐng)域的決策支持等。所以,各大互聯(lián)網(wǎng)公司越來越看重?cái)?shù)據(jù)的價(jià)值,各大創(chuàng)業(yè)公司采用大數(shù)據(jù)分析的技術(shù)進(jìn)行輔助決策,而大數(shù)據(jù)技術(shù)也成為了老生常談的一個話題,成為很多公司的噱頭和提升格調(diào)的一種姿態(tài)。
大數(shù)據(jù)真的是噱頭么?發(fā)展歷程梳理
大數(shù)據(jù)真的是噱頭么?上節(jié)“何謂大數(shù)據(jù)”中提到大數(shù)據(jù)技術(shù)是很多公司的噱頭(特別是創(chuàng)業(yè)公司),是提升格調(diào)做為“風(fēng)口上那頭飛豬”[i]的必殺神技,那么大數(shù)據(jù)真的僅僅只是一個噱頭?這個問題可以負(fù)責(zé)任的告訴你,非也非也。
咱們先看看數(shù)據(jù)大爆炸吧。
根據(jù)國際數(shù)據(jù)公司IDC 的監(jiān)測統(tǒng)計(jì),即使在遭遇金融危機(jī)的2009年,全球信息量也比2008年增長了62%,達(dá)到80萬PB,到2011年全球數(shù)據(jù)總量已經(jīng)達(dá)到1.8ZB(1ZB等于1萬億GB),并且以每兩年翻一番的速度飛速增長。預(yù)計(jì)到2020 年全球數(shù)據(jù)量總量將達(dá)到40ZB,10年間增長20倍以上,到2020年,地球上人均數(shù)據(jù)預(yù)計(jì)將達(dá)5247GB。在數(shù)據(jù)規(guī)模急劇增長的同時(shí),數(shù)據(jù)類型也越來越復(fù)雜,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等多種類型。其中,采用傳統(tǒng)數(shù)據(jù)處理手段難以處理的非結(jié)構(gòu)化數(shù)據(jù)已接近數(shù)據(jù)總量的75%。
再看看大數(shù)據(jù)的發(fā)展歷程(筆者認(rèn)為的主要時(shí)間節(jié)點(diǎn)):
Google在2003年到2004年公布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文,號稱三駕馬車。這也成為后來大數(shù)據(jù)云計(jì)算發(fā)展的重要基石。
2005年Hadoop項(xiàng)目誕生。Hadoop其最初只是雅虎公司用來解決網(wǎng)頁搜索問題的一個項(xiàng)目,后來因其技術(shù)的高效性,被Apache Software Foundation公司引入并成為開源應(yīng)用。Hadoop本身不是一個產(chǎn)品,而是由多個軟件產(chǎn)品組成的一個生態(tài)系統(tǒng),這些軟件產(chǎn)品共同實(shí)現(xiàn)全面功能和靈活的大數(shù)據(jù)分析。從技術(shù)上看,Hadoop由兩項(xiàng)關(guān)鍵服務(wù)構(gòu)成:采用Hadoop分布式文件系統(tǒng)(HDFS)的可靠數(shù)據(jù)存儲服務(wù),以及利用一種叫做MapReduce技術(shù)的高性能并行數(shù)據(jù)處理服務(wù)。這兩項(xiàng)服務(wù)的共同目標(biāo)是,提供一個使對結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實(shí)的基礎(chǔ)。
2011年5月,全球知名咨詢公司麥肯錫全球研究所發(fā)布了一份報(bào)告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》,大數(shù)據(jù)開始備受關(guān)注,這也是專業(yè)機(jī)構(gòu)第一次全方面的介紹和展望大數(shù)據(jù)。
2012年,維克托·舍恩伯格《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》宣傳推廣,大數(shù)據(jù)概念開始風(fēng)靡全球。
2012年3月,奧巴馬宣布美國政府五大部門投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計(jì)劃(Big Data Research and Development Initiative)”,欲大力推動大數(shù)據(jù)相關(guān)的收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國的科研、教育與國家安全能力。
2012年4月,美國軟件公司Splunk于19日在納斯達(dá)克成功上市,成為第一家上市的大數(shù)據(jù)處理公司。
2012年7月,聯(lián)合國在紐約發(fā)布了一份關(guān)于大數(shù)據(jù)政務(wù)的白皮書,總結(jié)了各國政府如何利用大數(shù)據(jù)更好地服務(wù)和保護(hù)人民。
2013年5月,麥肯錫全球研究所發(fā)布了一份名為《顛覆性技術(shù):技術(shù)改進(jìn)生活、商業(yè)和全球經(jīng)濟(jì)》的研究報(bào)告,報(bào)告確認(rèn)了未來12種新興技術(shù),而大數(shù)據(jù)是這些新興技術(shù)的基石。
2013 年,我國多位院士聯(lián)合上書國務(wù)院,建議設(shè)立國家專項(xiàng)開展大數(shù)據(jù)技術(shù)研究,將大數(shù)據(jù)上升為國家戰(zhàn)略。
2015年8月,國務(wù)院發(fā)表《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,正式將大數(shù)據(jù)提升為國家戰(zhàn)略,旨在全面推進(jìn)我國大數(shù)據(jù)的發(fā)展和應(yīng)用,加快建設(shè)數(shù)據(jù)強(qiáng)國。
后續(xù)大家基本都知道了。
最后,我們再看看大數(shù)據(jù)相關(guān)發(fā)展應(yīng)用情況。
在大數(shù)據(jù)領(lǐng)域,目前已實(shí)用化的國際知名項(xiàng)目包括:
(1)Google 知識圖譜和深度學(xué)習(xí)、自動駕駛技術(shù)、Google 眼鏡。
(2)Facebook 開放社交圖譜數(shù)據(jù)。
(3)NSA 棱鏡計(jì)劃。
(4)IBM Watson。
(5)LinkedIn、Amazon、Netflix 推薦系統(tǒng)等。
國內(nèi)的主要互聯(lián)網(wǎng)公司,已將大數(shù)據(jù)技術(shù)應(yīng)用到各自的業(yè)務(wù)中,用大數(shù)據(jù)技術(shù)發(fā)揮了重要的作用,取得了巨大的經(jīng)濟(jì)和社會效益。此外,在能源、醫(yī)療、交通等不同的行業(yè)領(lǐng)域,都用大數(shù)據(jù)產(chǎn)生了不可替代的作用。
在大數(shù)據(jù)技術(shù)人才培養(yǎng)方面,幾十所高校申報(bào)了大數(shù)據(jù)專業(yè),設(shè)置了大數(shù)據(jù)技術(shù)的相關(guān)碩士學(xué)位和課程,多學(xué)科交叉培養(yǎng)大數(shù)據(jù)技術(shù)人才。此外,大數(shù)據(jù)相關(guān)的十幾家大數(shù)據(jù)領(lǐng)域國家工程實(shí)驗(yàn)室揭牌,各類大數(shù)據(jù)研究院也如雨后春筍般相繼成立??吹竭@里,你還覺得大數(shù)據(jù)技術(shù)真的僅僅是個噱頭么?可以說,的確是海量數(shù)據(jù)處理的必殺神技!
題外話
非噱頭,但是必然存在泡沫,包括被燒熱的互聯(lián)網(wǎng),被風(fēng)吹起來的飛豬。筆者認(rèn)為,其實(shí)少量的泡沫是必要而且具有推動作用的。任何一種神技或者新興概念如果沒有泡沫,默默無聞的發(fā)展,最后也將是默默無聞的死去。具有影響力的概念被炒作,會在一段時(shí)間內(nèi)形成強(qiáng)大的原動力,使各行各業(yè)的人們?yōu)橹冻龌蛘婊蚣?、或?qū)嵒蛱摰呐Γ瑢⒂辛Φ耐苿舆@項(xiàng)技術(shù)的發(fā)展進(jìn)程。當(dāng)然,物極必反,泡沫太大,光會吹噓,卻沒有腳踏實(shí)地,那也最終形成不了生產(chǎn)力。畢竟,飛得太高的豬如果摔下來,也是會死的。
[1] “飛豬理論”又稱“風(fēng)口論”,是指小米創(chuàng)始人雷軍說過的一句話:創(chuàng)業(yè),就是要做一頭站在風(fēng)口上的豬,風(fēng)口站對了,豬也可以飛起來。這句話旋即成為創(chuàng)投圈流行語,也是“互聯(lián)網(wǎng)思維”的最重要注腳之一,各行各業(yè)尤其是傳統(tǒng)產(chǎn)業(yè)積極尋找風(fēng)口,大家都希望成為下一個“飛豬”。
【本文為51CTO專欄作者“中國保密協(xié)會科學(xué)技術(shù)分會”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】