從理論到實踐,基于Java的開源大數(shù)據(jù)工具
你也許會問,什么是大數(shù)據(jù)呢?最重要的是為什么它在每一個商業(yè)領域都是***的趨勢??這是一個炒作還是會繼續(xù)發(fā)展??
事實上,“大數(shù)據(jù)”是一個相當簡單的術語,簡單的說就是一個非常大的數(shù)據(jù)。有多大?答案是你無法想象。
這數(shù)據(jù)真的有如此大的規(guī)模嗎?的確如此,因為這個數(shù)據(jù)無處不在。例如:用于收集天氣信息的RFID傳感器收集的天氣信息,GPRS手機包,社交媒體網(wǎng)站的帖子,照片和視頻,在線購買交易記錄等等。大數(shù)據(jù)是一個巨大的數(shù)據(jù)可能包含我們感興趣的每一個來源信息。
不過大數(shù)據(jù)不僅僅是簡單的大小,相反大數(shù)據(jù)的主要特點是大量化(Volume), 多樣化(Variety),快速化(Velocity),價值化(Value)。簡稱大數(shù)據(jù)的四V。讓我們簡要地研究其中的每一個代表什么:
大量化(Volume):企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長。例如,IDC最近的報告預測稱,到2020年,全球數(shù)據(jù)量將擴大50倍。目前,大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標,單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。簡而言之,存儲1PB數(shù)據(jù)將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。
多樣化(Variety):一個普遍觀點認為,人們使用互聯(lián)網(wǎng)搜索是形成數(shù)據(jù)多樣性的主要原因,這一看法部分正確。然而,數(shù)據(jù)多樣性的增加主要是由于新型多結構數(shù)據(jù),以及包括網(wǎng)絡日志、社交媒體、互聯(lián)網(wǎng)搜索、手機通話記錄及傳感器網(wǎng)絡等數(shù)據(jù)類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數(shù)據(jù)的多樣性。
快速化(Velocity):高速描述的是數(shù)據(jù)被創(chuàng)建和移動的速度。在高速網(wǎng)絡時代,通過基于實現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務器,創(chuàng)建實時數(shù)據(jù)流已成為流行趨勢。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù),還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據(jù)IMS Research關于數(shù)據(jù)創(chuàng)建速度的調(diào)查,據(jù)預測,到2020年全球?qū)碛?20億部互聯(lián)網(wǎng)連接設備。
價值化(Value):大量的不相關信息,浪里淘沙卻又彌足珍貴。對未來趨勢與模式的可預測分析,深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)。
然而現(xiàn)有的商業(yè)智能和數(shù)據(jù)倉庫解決方案還不能完全支持4 V,大數(shù)據(jù)解決方案正在發(fā)展來應對這些挑戰(zhàn)。