大數(shù)據(jù):人類能源開拓歷史在IT領(lǐng)域的一種再現(xiàn)與映射
如果用非IT類媒體的報(bào)道次數(shù)或關(guān)注度,來去衡量一個(gè)IT詞匯的熱度,我相信“大數(shù)據(jù)”絕對(duì)可以算得上是當(dāng)前最熱的IT詞匯,云計(jì)算肯定不是它的對(duì)手。
大數(shù)據(jù)之所以這么火熱,是因?yàn)樗c普通大眾的生活之間,相較其他IT術(shù)語似乎有著更為重大,或者說更具傳奇色彩更為深厚的關(guān)系。從定向營銷,到助力美國總統(tǒng)大選,大數(shù)據(jù)迅速披上了神奇的外衣。而也正是因?yàn)樗鼘?duì)于人類生活的這種顯性的影響力,讓它成為了每個(gè)生活于信息世界中的人,或多或少都要關(guān)注的方向。
僅以企業(yè)與客戶者之間的關(guān)系而言,企業(yè)主希望借助大數(shù)據(jù)來分析客戶行為規(guī)律、興趣愛好、找到目標(biāo)的客戶,向潛在的客戶推送他們可能想要的信息,但另一方面消費(fèi)者也會(huì)因?yàn)橐恍┎豢孔V的信息推送,來揣測相關(guān)企業(yè)的大數(shù)據(jù)的水平。除此之外,通過大數(shù)據(jù)來改變自身運(yùn)營效率的企業(yè)案例,似乎也正在飛速增加著……因此,從哪個(gè)方面看,大數(shù)據(jù)也越來越有成為公從談資的資本。然而,大數(shù)據(jù)到底是什么,可能這些參與其中的人又會(huì)給出不同的說法,有技術(shù)層面上的解讀,有理念層面上的解讀,有從使用效果上的事后總結(jié)……但實(shí)話實(shí)說,與其他IT術(shù)語相比,大數(shù)據(jù)在解釋上更具多樣性與不確定性色彩。
大數(shù)據(jù)是噱頭嗎?
今天我們來談“大數(shù)據(jù)到底是什么”,并不想從技術(shù)或理念上深究,而希望能一種淺顯的描述,來***限度的達(dá)成一種對(duì)大數(shù)據(jù)的共識(shí)。其實(shí),大數(shù)據(jù)這一概念最早成型于IDC與EMC合作的調(diào)研報(bào)告中,可是那個(gè)調(diào)研報(bào)告的側(cè)重點(diǎn)還在于對(duì)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等大趨勢下的數(shù)據(jù)積累、保存與管理的警示,隨后不同的廠商在這一基礎(chǔ)上不斷擴(kuò)展、豐富并最終延伸出一個(gè)業(yè)界公認(rèn)的4V屬性理論(體量Volume、種類Variety、速度Velocity、價(jià)值Value,IBM的4V理念將***一個(gè)V定義為真實(shí)Veracity),從而形成了一個(gè)閉合的大數(shù)據(jù)體系,從縱向上又總結(jié)出從硬件基礎(chǔ)設(shè)施到數(shù)據(jù)管理,再到數(shù)據(jù)分析,***是數(shù)據(jù)呈現(xiàn)等4層架構(gòu)。歸根結(jié)底,大家***的共識(shí)都認(rèn)為大數(shù)據(jù)最終要用服務(wù)于社會(huì)的,這是它的***用途,之前所說的積累、保存、管理、分析都是為這一目的服務(wù)的。
這么說來,對(duì)大數(shù)據(jù)的認(rèn)識(shí)似乎又統(tǒng)一了,但也因此也使很多人對(duì)大數(shù)據(jù)概念嗤之以鼻。如果僅就大數(shù)據(jù)最終要體現(xiàn)出應(yīng)用的價(jià)值為社會(huì)服務(wù)的話,與以前的數(shù)據(jù)挖掘、商業(yè)智能理念又有怎樣的區(qū)別呢?大數(shù)據(jù)中的體量,可能在很多場合也并不能體現(xiàn)出來,可能就是幾TB的數(shù)據(jù)也能把人搞得焦頭爛額,無非就是數(shù)據(jù)類型擴(kuò)展而已。所以,說“大數(shù)據(jù)只是一個(gè)噱頭”并無道理。
但是,當(dāng)前的一些大數(shù)據(jù)的應(yīng)用案例,也的確與以往的數(shù)據(jù)倉庫應(yīng)用不同,這其中可能有非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)的原因,但也有一新的理念、處理模型與手段的變化。至于哪些新東西是因大數(shù)據(jù)引發(fā)的,我們?cè)诖艘矝]必要去糾纏,只需要解答一個(gè)核心的問題即可:數(shù)據(jù)到底是什么?#p#
數(shù)據(jù)能源?
如果說很多人追捧大數(shù)據(jù)的神奇在于,它可以將原本不起眼的歷史數(shù)據(jù)化腐朽為神奇,那么我們是不是可以將大數(shù)據(jù)比作一種通過加工而來的一種能源?如果可以,我們放眼地球上的能源,就會(huì)發(fā)現(xiàn)其與大數(shù)據(jù)有著太多相似之處。
地球上的能源有很多種,但是它們之所以是能源的前提在于人類對(duì)它們的認(rèn)知。在遠(yuǎn)古時(shí)期,人類因雷電引火,發(fā)現(xiàn)了火和木材這兩種能源,前者可用來取暖、驅(qū)獸、加工食品,后者可用來生火。在此之后,隨著人類文明的進(jìn)步,科技的發(fā)達(dá),逐漸發(fā)現(xiàn)了越來越多的能源,比如煤、天然氣、石油、太陽能等等,但是在人類還不能認(rèn)知它們時(shí),它們就不存在了嗎?顯然不是,在沒有人類的時(shí)候,它們就已經(jīng)在地球上靜靜的等候了成萬上億年,只是人類掌握了相應(yīng)的科技與工具之后,它們才得以登堂入室。
數(shù)據(jù)也是一樣,如果數(shù)據(jù)有著一個(gè)生成/采集——應(yīng)用/加工——保存/管理——分析/挖掘——再保存或刪除這樣的一個(gè)周期的話,那么在其生成的那一刻起,它就存在著應(yīng)有的價(jià)值,只是在于你是否有能力去發(fā)現(xiàn)它們。這需要新的理念、知識(shí)、技術(shù)與相應(yīng)的工具。原始人即使知道地下幾十公里有石油,他們也無法開采,所謂的數(shù)據(jù)分析,道理也是一樣的。
從人類發(fā)展的歷史來看,不斷發(fā)現(xiàn)新的能源,是一種公理似的注定。當(dāng)我們掌握了越來越先進(jìn)的理念基礎(chǔ),并依此開發(fā)出越來越先進(jìn)的工具,出現(xiàn)新的驚喜可以說理所當(dāng)然。就像剛發(fā)明汽車時(shí),誰也不會(huì)想到電、水會(huì)成為汽車可行的能源。從這個(gè)角度講,當(dāng)前的大數(shù)據(jù)所帶來的種種神奇,只是人類在數(shù)據(jù)收集、管理、分析等領(lǐng)域的一次進(jìn)步而已,它有出現(xiàn)的必然,而非人類的一種“頓悟”。
我們?cè)賮砜纯吹厍蚰茉吹?V屬性:
1、Volume——儲(chǔ)量:現(xiàn)在已經(jīng)探明的,或新探明的煤、天然氣、石油、風(fēng)、太陽能等能源的儲(chǔ)量是相當(dāng)驚人的,但遍布于多種地形、地貌中,就看人類有沒有本事都能獲取到了。
2、Variety——類別:隨著人類技術(shù)水平的進(jìn)步,所獲得的能源種類也就越來越多,并且越來越多以前認(rèn)為不行的資源,后來也慢慢成為了能源,放射性元素就是典型的例子,而若技術(shù)成熟,海水將成為人類用之不竭的新能源。曾經(jīng)有一篇科幻論文說得好“也許未來只需要一把泥土,就能把火箭送上月球”。另一方面,不同能源所需要的開采技術(shù)與工具也各不相同,這就好比結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的處理手段的差別。因此,人類面對(duì)的能源類別越來越多,它也需要人類具備越來越多種類的能源開采能力。
3、Velocity——開采/轉(zhuǎn)換效率:很難想像一口一天只產(chǎn)一加侖的油井有什么價(jià)值,如果一個(gè)太陽能的光電轉(zhuǎn)換效率不到1%,還有使用它的必要嗎?因此,人類在能源上的開采/轉(zhuǎn)換的效率將決定這種能源的可利用性,就如果做數(shù)據(jù)分析,今天的銷售數(shù)據(jù)分析,一個(gè)月后才能出來,那不分析也罷了。
4、Value——價(jià)值:能源的價(jià)值取決于它所能提供的能量與貢獻(xiàn),誰都知道95號(hào)汽油比92號(hào)汽油好,但也更貴;煤很便宜,但能提供的能量也相對(duì)較低;電能,在目前仍要通過其他能源轉(zhuǎn)換得來,這都是價(jià)值之所在。它決定于自身的屬性,與相應(yīng)的數(shù)據(jù)挖掘與提煉的能力,前者相當(dāng)于汽油與煤的不同,后者相當(dāng)于煉油廠在95與92號(hào)之間的提煉工藝不同。它們都最終決定了數(shù)據(jù)的價(jià)值——并且像某些大數(shù)據(jù)宣傳中所鼓吹的那樣,好像任何數(shù)據(jù)用大數(shù)據(jù)分析后,就能黃土變黃金一樣,這是不可能的,除非你自己對(duì)某類數(shù)據(jù)的認(rèn)知就有偏差(原本就是土,和原本就是金子,有著本質(zhì)不同)
IBM所提倡的Veracity,我認(rèn)為可以理解為能源的提煉水平,就算是95號(hào)汽油,中國產(chǎn)的能和歐美產(chǎn)的相提并論嗎?這就是所謂的真95與假95號(hào)的區(qū)別。另一個(gè)典型的例子就是濃縮鈾,豐度為3%的鈾235的低濃縮鈾可用于核發(fā)電,而豐度高于90%的鈾235則可以用來制造核武器,兩者的價(jià)值肯定不一樣?所以,這種提煉質(zhì)量與能力上的區(qū)別也最終會(huì)體現(xiàn)在能源的價(jià)值上。因此,IBM強(qiáng)調(diào)數(shù)據(jù)分析的準(zhǔn)確與真實(shí),可以與能源提煉過程中的純度相對(duì)應(yīng),體現(xiàn)了對(duì)數(shù)據(jù)分析的一種質(zhì)的要求。
圖注:IBM把大數(shù)據(jù)第4個(gè)V定義為Veracity。
說完理念的對(duì)比,再看縱向技術(shù)架構(gòu)上的相似之處,大家可以想想大數(shù)據(jù)中所談到的數(shù)據(jù)采集、匯總、保存、管理、分析、呈現(xiàn)是不是與能源的勘探、開采、匯聚、保管、提煉、使用有著一一對(duì)應(yīng)的關(guān)系呢?
特別需要指出的是,現(xiàn)在物聯(lián)網(wǎng)的一大分支——工業(yè)互聯(lián)網(wǎng)越來越熱,而大數(shù)據(jù)就是其***的重要支撐(前不久通用電氣還專門為此投資了Pivotal),其理念在于將各種傳感器、致動(dòng)器也納入整體的信息采集體系,借助工業(yè)設(shè)備管控平臺(tái),分析出存在于工業(yè)設(shè)備內(nèi)有價(jià)值的信息,以便于管理、精度調(diào)校以及健康預(yù)警。想想看,這是不是像地質(zhì)勘探中,將不同炸點(diǎn)的傳感信息匯總起來,再通過震蕩波分析軟件,來呈現(xiàn)出地下的礦產(chǎn)分布與結(jié)構(gòu)視圖?#p#
大數(shù)據(jù)到底是什么?
話說至此,我們應(yīng)該可以總結(jié)一下了——在某種角度上講,大數(shù)據(jù)其實(shí)就是人類能源開拓歷史在IT領(lǐng)域的一種再現(xiàn)與映射。
無論從理念還是實(shí)現(xiàn)手法上,大數(shù)據(jù)的種種說辭,都可以在人類悠久的能源勘探、開采、利用的經(jīng)驗(yàn)中到對(duì)應(yīng)的關(guān)系,因此,從根本上講它并不新鮮。
但關(guān)鍵就在于,在IT領(lǐng)域,對(duì)于“數(shù)據(jù)能源”的認(rèn)知水平,遠(yuǎn)不如人類對(duì)其他類別能源的認(rèn)知,所以當(dāng)我們有一天終于完善了相關(guān)理念基礎(chǔ),開發(fā)出相應(yīng)的工具,看到了數(shù)據(jù)內(nèi)部的能源之后,可能就一種當(dāng)初發(fā)現(xiàn)石油一樣的沖動(dòng),進(jìn)而將其夸大、神話。但是,仔細(xì)想想,對(duì)于已經(jīng)經(jīng)歷過太多這類驚喜的人類來說(火、電、煤、油、氣、核能、太陽能,哪個(gè)不給我們一個(gè)驚喜?),應(yīng)該不必如此大驚小怪。
我認(rèn)為,在數(shù)據(jù)利用的愿景方面,大數(shù)據(jù)與原來的數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、商業(yè)智能等概念是同出一轍、一脈相承的。大數(shù)據(jù)其實(shí)是對(duì)人類在數(shù)據(jù)利用方面進(jìn)入的一個(gè)新階段,它代表了一種理念(數(shù)據(jù)能源)、一種思路(從數(shù)據(jù)收集到數(shù)據(jù)分析再到數(shù)據(jù)呈現(xiàn)的整體構(gòu)想)和一種新工具(將結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)、語義與機(jī)器化數(shù)據(jù)匯聚、統(tǒng)一處理、分析與呈現(xiàn)的工具)的集合。它賦予了人類對(duì)數(shù)據(jù)認(rèn)知的新能力,也進(jìn)一步打開了人類的數(shù)據(jù)利用方面的想像空間。就這一點(diǎn)來說,全盤否定大數(shù)據(jù),一概以噱頭蔽之,也是不可取的。
總之,我們必須明白大數(shù)據(jù)并非是從天上掉下來的,是人類IT水平發(fā)展到一定階段的必然結(jié)果,就像PC、智能手機(jī)等出現(xiàn)一樣,是很多相關(guān)技術(shù)互動(dòng)過程中自然而然的產(chǎn)物。我們要從一個(gè)整體去看它,不能一上來只看到某些誘人的東西,而將這些原本很平實(shí)的信息變成了一種“傳說”。顯然,大數(shù)據(jù)現(xiàn)在有這種傾向,它似乎無所不能,無所不包。就像我們上文所說的那樣,如果數(shù)據(jù)本身的價(jià)值就在泥土一級(jí)的,也就不用指望它能提煉出黃金,大數(shù)據(jù)分做的只是將原本就存在的各種等級(jí)的“數(shù)據(jù)能源”真實(shí)的呈現(xiàn)出來而已。在可預(yù)計(jì)的未來,它將成為一種常態(tài),一種基本的能力,就像現(xiàn)在的汽油一樣,每輛車不用因?yàn)闊投鴷?huì)自豪,會(huì)成為傳奇。
所以,我認(rèn)為當(dāng)前的大數(shù)據(jù)熱潮應(yīng)該有針對(duì)性的降降溫,讓其回歸本色,還原其實(shí)質(zhì),并將精力放在一個(gè)能源開采者所應(yīng)投放的地方——數(shù)據(jù)采集的渠道是不是不夠廣?數(shù)據(jù)匯聚的能力是不是不夠強(qiáng)?數(shù)據(jù)管理是不是太過復(fù)雜?數(shù)據(jù)處理能力是不是太弱?數(shù)據(jù)分析太是不是不智能?數(shù)據(jù)的呈現(xiàn)是不是易用性與友好度不同?——其實(shí)當(dāng)一件事,到***大家都要做的時(shí)候,當(dāng)一種能力,大家都要具備的時(shí)候,它也就不是神話與傳奇了,大數(shù)據(jù)即是如此。