大數(shù)據(jù)分析是什么、它是如何工作的
什么是大數(shù)據(jù)分析?
大數(shù)據(jù)分析描述了在大量原始數(shù)據(jù)中發(fā)現(xiàn)趨勢、模式和相關(guān)性的過程,以幫助做出基于數(shù)據(jù)的決策。這些過程使用熟悉的統(tǒng)計分析技術(shù),并在更新的工具的幫助下將它們應(yīng)用于更廣泛的數(shù)據(jù)集。自 2000 年代初以來,大數(shù)據(jù)一直是一個流行詞,當(dāng)時軟件和硬件功能使組織能夠處理大量非結(jié)構(gòu)化數(shù)據(jù)。隨著數(shù)據(jù)的爆炸式增長,Hadoop、Spark 和 NoSQL 數(shù)據(jù)庫等早期創(chuàng)新項目被創(chuàng)建用于存儲和處理大數(shù)據(jù)。隨著數(shù)據(jù)工程師尋找方法來集成由傳感器、網(wǎng)絡(luò)、交易、智能設(shè)備、Web 使用等創(chuàng)建的大量復(fù)雜信息,該領(lǐng)域不斷發(fā)展。
大數(shù)據(jù)分析的工作原理
1. 收集數(shù)據(jù)
每個組織的數(shù)據(jù)收集看起來都不同。借助當(dāng)今的技術(shù),組織可以從各種來源收集結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),從云存儲到移動應(yīng)用程序,再到物聯(lián)網(wǎng)傳感器等。一些數(shù)據(jù)將存儲在數(shù)據(jù)倉庫中,商業(yè)智能工具和解決方案可以輕松訪問它。對于倉庫來說過于多樣化或復(fù)雜的原始或非結(jié)構(gòu)化數(shù)據(jù)可能會被分配元數(shù)據(jù)并存儲在數(shù)據(jù)湖中。
2. 過程數(shù)據(jù)
收集和存儲數(shù)據(jù)后,必須對其進(jìn)行適當(dāng)?shù)慕M織,以獲得有關(guān)分析查詢的準(zhǔn)確結(jié)果,尤其是當(dāng)數(shù)據(jù)很大且非結(jié)構(gòu)化時??捎脭?shù)據(jù)呈指數(shù)級增長,這使得數(shù)據(jù)處理成為組織面臨的挑戰(zhàn)。一種處理選項是批處理,它隨時間推移查看大型數(shù)據(jù)塊。當(dāng)收集和分析數(shù)據(jù)之間的周轉(zhuǎn)時間較長時,批處理非常有用。流處理一次查看小批量數(shù)據(jù),縮短了收集和分析之間的延遲時間,從而更快地做出決策。流處理更復(fù)雜,通常更昂貴。
3. 清理數(shù)據(jù)
無論數(shù)據(jù)大小,都需要進(jìn)行清理,以提高數(shù)據(jù)質(zhì)量并獲得更強(qiáng)的結(jié)果;所有數(shù)據(jù)的格式必須正確,任何重復(fù)或不相關(guān)的數(shù)據(jù)都必須被消除或考慮在內(nèi)。臟數(shù)據(jù)可能會模糊和誤導(dǎo),從而產(chǎn)生有缺陷的見解。
4. 分析數(shù)據(jù)
讓大數(shù)據(jù)進(jìn)入可用狀態(tài)需要時間。一旦準(zhǔn)備就緒,高級分析流程就可以將大數(shù)據(jù)轉(zhuǎn)化為大洞察。其中一些大數(shù)據(jù)分析方法包括:
- 數(shù)據(jù)挖掘?qū)Υ笮蛿?shù)據(jù)集進(jìn)行排序,通過識別異常和創(chuàng)建數(shù)據(jù)集群來識別模式和關(guān)系。
- 預(yù)測分析使用組織的歷史數(shù)據(jù)對未來進(jìn)行預(yù)測,識別即將到來的風(fēng)險和機(jī)遇。
- 深度學(xué)習(xí)通過使用人工智能和機(jī)器學(xué)習(xí)來模仿人類的學(xué)習(xí)模式,對算法進(jìn)行分層,并在最復(fù)雜和最抽象的數(shù)據(jù)中查找模式。