大數(shù)據(jù)是“啤酒+尿布”?解讀“大”的三維特征
“大數(shù)據(jù)”這一概念最初起源于美國。這里的“大”通常用來描述數(shù)據(jù)的三維特征:***維指信息的數(shù)據(jù)體量日益龐大;第二維指信息的種類繁多;第三維指數(shù)據(jù)變?yōu)榭捎眯畔ⅲ⑶铱梢苑治鏊俣仍絹碓娇臁?/p>
早在1969年,全球零售巨頭沃爾瑪便利用計算機對消費者的購物行為進行數(shù)據(jù)分析,結(jié)果發(fā)現(xiàn)男性顧客在購買嬰兒尿布時,常常會順便“搭配”幾瓶啤酒來犒勞自己,于是推出了將啤酒與尿布捆綁銷售的促銷手段。如今,這一“啤酒+尿布”的數(shù)據(jù)分析成果,已成為科學(xué)家通俗解釋“大數(shù)據(jù)”技術(shù)的經(jīng)典案例。
“‘大數(shù)據(jù)’具有多種多樣的定義方式,這一概念最初起源于美國,是由思科、威睿、甲骨文、IBM等公司倡議發(fā)展起來的。這里的‘大’通常用來描述數(shù)據(jù)的三維特征:***維指信息的數(shù)據(jù)體量日益龐大,如今已從TB級升到EB級,又將躍升到zettabytes級;第二維是指信息的種類繁多;第三維是指數(shù)據(jù)變?yōu)榭捎眯畔?,并且可以分析的速度越來越快?rdquo;在接受本報記者采訪時,美國加利福尼亞大學(xué)里弗賽德分校計算和通信專家楊鳴博士強調(diào),“最近媒體常常議論的大數(shù)據(jù),其實專指大數(shù)據(jù)的第四維特性,即數(shù)據(jù)的使用價值,主要體現(xiàn)在數(shù)據(jù)的智能分析上。”
楊鳴說,智能分析是一種對未來智慧的投資,分析的最終目標是做出更明智的決定。有些人誤以為大數(shù)據(jù)只是數(shù)據(jù)技術(shù)處理的升級,即如何存儲和備份擁有的數(shù)據(jù),但大數(shù)據(jù)的真正意義在于用新的方式對數(shù)據(jù)進行分析,并作出合理解釋。
大數(shù)據(jù)所涉及的信息與人密切相關(guān)。與人有關(guān)的信息占世界上所有數(shù)據(jù)的90%,主要包括電子郵件、視頻文件、社交網(wǎng)絡(luò)、博客內(nèi)容、呼叫中心的對話等等,它正以驚人的速度增長,年復(fù)合增長率高達62%。大數(shù)據(jù)的應(yīng)用,將有助于決策人靈活應(yīng)對現(xiàn)實世界中“數(shù)據(jù)海嘯”引起的機遇和挑戰(zhàn)。
“人類信息”將引起信息技術(shù)(IT)的再次進化。多年來,科技界一直在改變信息技術(shù)(IT)中技術(shù),也就是“T”的含量。例如,引進大型計算機、客戶端服務(wù)器、網(wǎng)絡(luò)供應(yīng)(IP)、云計算等技術(shù)。大數(shù)據(jù)技術(shù)***次使信息,也就是“I”在IT中發(fā)生了變化,從傳統(tǒng)的信息(Information)之“I”向著智能(Intelligence)之“I”發(fā)展。
對人類信息進行“技術(shù)理解”,需要從根本上采取新方法和新技術(shù),以便為人類無時無刻不在增加的信息提供洞察力、想法和直覺。未來的信息計算將以大數(shù)據(jù)模式,引起人類社會信息交互方式的根本性轉(zhuǎn)變,以智能分析為前提的信息應(yīng)用將會以更大規(guī)模解讀人類,挖掘人類信息的價值。
當(dāng)通過信息搜尋來揭露犯罪時,破案人員可以從犯罪嫌疑人的電子郵件中尋找證據(jù);當(dāng)試圖理解客戶群時,營銷人員可以搜尋和分析客戶公開的所有信息,既可以是研究者自己數(shù)據(jù)庫所掌握的,也可以是被調(diào)查者公開在微博或博客上的信息。這一圖景使我們看到,在當(dāng)今信息爆炸的社會中,信息流動和分析正變得越來越復(fù)雜。
美國白宮科技政策辦公室在去年3月29日發(fā)布了《大數(shù)據(jù)研究和發(fā)展計劃》,同時組建“大數(shù)據(jù)高級指導(dǎo)小組”,顯示美國已把應(yīng)對大數(shù)據(jù)技術(shù)革命帶來的機遇和挑戰(zhàn)提高到國家戰(zhàn)略層面。
去年8月,對1105家美國企業(yè)和集團進行的調(diào)查顯示,63%的受訪者認為只有實施和使用大數(shù)據(jù)技術(shù)才能完成各自機構(gòu)的使命,49%的受訪者表示將增加他們的大數(shù)據(jù)預(yù)算,46%的受訪者計劃至少保持他們現(xiàn)有的大數(shù)據(jù)預(yù)算水平。
楊鳴對本報記者表示,對于像中國這樣的發(fā)展中國家來說,在高科技領(lǐng)域追趕國際先進水平應(yīng)該還是比較容易的,應(yīng)當(dāng)在大數(shù)據(jù)研究上加大力度。主要包括兩個方面,一是在作為大數(shù)據(jù)技術(shù)基礎(chǔ)的云計算方面,要著力應(yīng)用開發(fā);二是在數(shù)據(jù)處理方面,不僅要重視結(jié)構(gòu)性數(shù)據(jù)(即已經(jīng)數(shù)字化了的信息),而且要重視在電子郵件、博客等非數(shù)字化的人文數(shù)據(jù)分析。