大數(shù)據(jù)與小應(yīng)用--不可逆轉(zhuǎn)的新浪潮
筆者微信上關(guān)注的一個共用帳號“油價早知道”推送了這樣一條信息:“油價早知道友情提示:根據(jù)油價輿情跟蹤分析,6月22日凌晨油價或上調(diào)(概率超過70%),上調(diào)幅度約在100元/噸。”第二天,油價早知道繼續(xù)提示油價上調(diào)消息,并且給出上調(diào)幅度0.1元/升,6月21日,油價早知道發(fā)布的消息就已經(jīng)是發(fā)改委發(fā)布的油價提升通知。
油價早知道又一次提前三天預(yù)報了油價調(diào)整的信息,從上線以來,他們的預(yù)測準(zhǔn)確率已經(jīng)超過95%!這是一個典型的大數(shù)據(jù)應(yīng)用的例子,這也是筆者看到的,在中國落地比較好的一個大數(shù)據(jù)應(yīng)用的例子。
關(guān)于大數(shù)據(jù),從去年開始,在全世界范圍內(nèi)與云計算、物聯(lián)網(wǎng)、3D打印等一起,已經(jīng)成為炙手可熱的話題。但到底什么是大數(shù)據(jù)?大數(shù)據(jù)究竟有些什么特性?我們應(yīng)該怎樣應(yīng)用大數(shù)據(jù)?它將給我們的生活帶來什么樣的變化?這些問題的探討一直在進(jìn)行,很多企業(yè)都在思考,如何在企業(yè)的IT建設(shè)中應(yīng)用大數(shù)據(jù),實現(xiàn)企業(yè)運營的創(chuàng)新。
大數(shù)據(jù)(big data),百度上的定義是:指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
IBM對于大數(shù)據(jù)特性的4V描述目前普遍為業(yè)界所接受:(1)Volume,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;(2)Variety,數(shù)據(jù)類型繁多。不止包括傳統(tǒng)的格式化數(shù)據(jù),還包括來自互聯(lián)網(wǎng)的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。(3)Value,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。(4)Velocity,處理速度快。1秒定律。***這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
如果單純按這四個特征去理解大數(shù)據(jù),也許會把大數(shù)據(jù)理解成為全量數(shù)據(jù)或者叫做全息數(shù)據(jù)。而這樣的數(shù)據(jù)應(yīng)用,似乎只有在超大型或者大型項目里才能建設(shè)起來,而這些與傳統(tǒng)的數(shù)據(jù)倉庫又有什么差別?
最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學(xué)家之一舍恩伯格給出的三條大數(shù)據(jù)特征或許能夠讓我們更好地理解大數(shù)據(jù)。舍恩伯格的大數(shù)據(jù)特征可以用三個詞語來描述:更多、更亂、相關(guān)性。
在這里的更多,是針對研究對象本身,要考慮與對象相關(guān)的更多維度的信息,而不是傳統(tǒng)的企業(yè)內(nèi)部信息,例如運營商在研究客戶離網(wǎng)率預(yù)測的時候,不僅僅只研究客戶的計費數(shù)據(jù),也可以將客戶的位置信息,甚至是在SNS網(wǎng)上的言論信息等增加進(jìn)來。所以,大數(shù)據(jù)不一定能做到全量(而誰能夠定義到底全量是什么呢?)而只是逐漸增加的“更多”。
更亂,是采集的數(shù)據(jù)噪音更多,甚至在研究某一問題時會對預(yù)測結(jié)果擾動較大的數(shù)據(jù)維度。這就需要運用互聯(lián)網(wǎng)的“試錯”思維,不斷研究可能的在采集和數(shù)據(jù)處理過程中形成的噪音,反復(fù)實踐,在大數(shù)據(jù)中淘出來最有用的“小數(shù)據(jù)”。上文提到的油價早知道應(yīng)用中,開發(fā)者體會之一就是在對于SNS的文本信息的上下文處理的不斷算法調(diào)整,剔出的噪音包括其它主題對于油價的干擾等,使得小數(shù)據(jù)集合更加精準(zhǔn)。例如,某個相關(guān)大V在討論出租車價格問題時說到,如果出租車價格上漲,那么油價也一定是上漲了。人腦對于這樣的語言能夠很快判斷出來,主題是在講出租車價格問題,而機(jī)器就很難明白這一點。如果從這樣的句子中得到油價上漲的信息,則對于整個油價判斷就是一個干擾。
相關(guān)性,是找到數(shù)據(jù)之間的相關(guān)性,對研究對象的發(fā)展進(jìn)行更好的預(yù)測。Google的工程師能夠比美國官方衛(wèi)生部門更早地預(yù)測流行性感冒的例子就是一個很好的說明。Google的數(shù)據(jù)工程師不是病理專家,他們不可能知道流行性感冒的原因是什么,但是他們能夠通過與流行性感冒相關(guān)的一些信息表現(xiàn),預(yù)測到流行性感冒的即將到來。
從上述三個特征及舉例來看,大數(shù)據(jù)應(yīng)用,不只是國家戰(zhàn)略,企業(yè)戰(zhàn)略這樣的大應(yīng)用,它恰恰可以通過無數(shù)的與我們生活息息相關(guān)的“小應(yīng)用”來不斷推動發(fā)展,從高高的神壇中走下來,走入真正的市場應(yīng)用。
但是,在大數(shù)據(jù)逐漸走入我們的日常生活的時候,我們也應(yīng)該清醒地認(rèn)識到,任何一門技術(shù)的發(fā)展,都是一個規(guī)范(制度)、技術(shù)、應(yīng)用不斷互相配合共同發(fā)展的過程。最近沸沸揚揚的“棱鏡門”事件,就讓民眾對于大數(shù)據(jù)有了一個冷靜的認(rèn)識。6月17日,筆者在微博上寫下了這樣的一句話:“斯諾登事件終于將"數(shù)據(jù)權(quán)"提到公眾視野,誰希望生活在1984里老大哥的統(tǒng)治下呢?有人想成為老大哥,但民眾已不是上個世紀(jì)。大數(shù)據(jù)的***個坎或者***個發(fā)展斷點逐漸顯現(xiàn)。”
因此,盡快實現(xiàn)“規(guī)范(制度)、技術(shù)、應(yīng)用”的匹配也應(yīng)該是每一個從業(yè)者的責(zé)任。操縱著大數(shù)據(jù)技術(shù)的廠家可以更多地參與到基礎(chǔ)規(guī)范研究中,應(yīng)用探索者可以在不斷深化應(yīng)用的過程中積累經(jīng)驗,參與到基礎(chǔ)理論的建設(shè)中。而擔(dān)負(fù)著國家信息方向的相關(guān)部門更應(yīng)該高度重視大數(shù)據(jù)規(guī)范(制度)的建設(shè),畢竟,這不是哪一個行業(yè)或者企業(yè)能夠單獨完成的。
大數(shù)據(jù)的小應(yīng)用,正在湍流不息地涌入到我們的生活當(dāng)中,油價早知道就是一個很好的例子,有了這樣的探索,相信與我們生活息息相關(guān)的健康早知道、旅游早知道、交通早知道、股票早知道…也不遠(yuǎn)了。