增強型分析、數(shù)據(jù)虛擬化……2021年值得關注的大數(shù)據(jù)趨勢
本文轉(zhuǎn)載自公眾號“讀芯術”(ID:AI_Discovery)。
大數(shù)據(jù)技術的發(fā)展速度之快讓人難以想象。有研究發(fā)現(xiàn),世界上的字節(jié)數(shù)是可觀測宇宙中恒星數(shù)的40多倍。每天數(shù)十億人產(chǎn)生的數(shù)據(jù)量之大簡直令人難以想象,對大數(shù)據(jù)全球市場規(guī)模的預測毫無疑問證明了這一點。
問題不在于你是否會在日常工作中使用大數(shù)據(jù),而在于你何時開始使用它。大數(shù)據(jù)就在這里,而且在可預見的未來里,大數(shù)據(jù)都將一直存在。過去十年里,數(shù)據(jù)量增長迅速。隨著越來越多的公司使用大量數(shù)據(jù)運營且迅速開發(fā)物聯(lián)網(wǎng)技術,數(shù)據(jù)量只會持續(xù)增長。
在調(diào)查市場需求并密切關注市場動向后,本文準備了一份大數(shù)據(jù)趨勢的簡要概述,如果你對大數(shù)據(jù)感興趣,那么千萬不要錯過。
1. 增強型分析
增強型分析借助人工智能、機器學習工具和框架來擴展商業(yè)智能工具。
這是從傳統(tǒng)商業(yè)智能中產(chǎn)生的。在傳統(tǒng)商業(yè)智能中,IT部門推動工具的創(chuàng)建和使用。自助式商業(yè)智能為業(yè)務用戶(在某些情況下也為終端用戶)提供基于視覺的分析。增強型分析是自助式商業(yè)智能進化的下一步,它將機器學習和人工智能元素集成到公司的數(shù)據(jù)準備、分析和商業(yè)智能流程中,以提高數(shù)據(jù)管理性能。
增強型分析可以減少關于數(shù)據(jù)準備及清理的時間。數(shù)據(jù)科學家日常生活中大部分時間都是在幾乎沒有監(jiān)督的情況下為商務人士創(chuàng)造(對市場的)洞察力。
2. 連續(xù)智能
持續(xù)智能是將實時分析集成到當前業(yè)務運營中的過程。Gartner稱,到2022年,超過一半的新的主要業(yè)務系統(tǒng)將基于實時分析做出業(yè)務決策。通過將實時分析集成到業(yè)務運營中,并處理當前和歷史數(shù)據(jù),持續(xù)智能有助于在新數(shù)據(jù)到來時增強人類決策能力。
許多組織仍然只依賴歷史和過時數(shù)據(jù)。這樣的組織在快速變化的環(huán)境中可能會落后。因此,組織應該不斷地、迅速地更新數(shù)據(jù)。這些數(shù)據(jù)將提高問題識別、解決以及重要決策的速度。
3. 數(shù)據(jù)運營
數(shù)據(jù)運營在方向上類似于DevOps實踐,但它針對不同的進程。
與DevOps不同,它通過跨組織的協(xié)作實踐來實現(xiàn)數(shù)據(jù)集成和數(shù)據(jù)質(zhì)量。數(shù)據(jù)運營的重點在于減少端到端數(shù)據(jù)周期,開始于數(shù)據(jù)攝取、準備和分析,結(jié)束于創(chuàng)建圖表、報告和見解。
數(shù)據(jù)運營能為不太熟悉數(shù)據(jù)流的員工處理數(shù)據(jù)處理區(qū)域。這樣人們就可以更多地關注領域的專業(yè)知識,而不是數(shù)據(jù)如何在組織中運行。
隨著云解決方案在市場上的強勢出現(xiàn),新的趨勢和實踐正逐漸顯現(xiàn),并相互交叉。數(shù)據(jù)運營實踐旨在簡化和加速數(shù)據(jù)流,這就是為什么數(shù)據(jù)運營工具箱包含所謂的“無服務器”實踐。這些實踐能讓組織通過在基于云的基礎設施中管理數(shù)據(jù)管道,以此減少硬件數(shù)量,輕松快速地擴展并加速數(shù)據(jù)流更改。
實現(xiàn)數(shù)據(jù)的集成、可靠性和交付需要大量的工作和技能。數(shù)據(jù)工程師、數(shù)據(jù)科學家和DevOps工程師需要花時間來實現(xiàn)所有的數(shù)據(jù)運營實踐。在市場上不斷出現(xiàn)的新產(chǎn)品能夠利用你的數(shù)據(jù)落實這些實踐。
這些產(chǎn)品提供了各種可插拔和可擴展的數(shù)據(jù)運營實踐,能夠基于你的數(shù)據(jù)來進行復雜的數(shù)據(jù)流的開發(fā),同時還為數(shù)據(jù)科學部門提供API。
4. 內(nèi)存計算
內(nèi)存計算是另一種加速分析的方法。
除了實時數(shù)據(jù)處理之外,它還解決了緩慢的數(shù)據(jù)訪問(磁盤)的問題,并將所有進程流完全建立在RAM中存儲的數(shù)據(jù)之上。這使得數(shù)據(jù)的處理和查詢速度比任何其他解決方案快100多倍,這有助于企業(yè)立即做出決策并采取行動。
5. 邊緣計算
邊緣計算是一種分布式計算框架,可將計算帶到需要的數(shù)據(jù)源附近。
隨著傳輸?shù)皆品治鼋鉀Q方案的數(shù)據(jù)量不斷增加,原始數(shù)據(jù)的延遲和可伸縮性以及處理速度等問題也隨之出現(xiàn)。邊緣計算方法能減少數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)處理層之間的延遲,并通過將數(shù)據(jù)處理管道的部分移近原點(傳感器、物聯(lián)網(wǎng)設備)來減少對云層的壓力。
Gartner估計,到2025年75%的數(shù)據(jù)將在傳統(tǒng)數(shù)據(jù)中心或云之外進行處理。
6. 數(shù)據(jù)治理
數(shù)據(jù)治理是一個實踐和過程的集合,可以確保組織內(nèi)部信息得到有效使用
安全數(shù)據(jù)泄露和通用數(shù)據(jù)保護條例的引入迫使公司更加關注數(shù)據(jù)。像首席數(shù)據(jù)官(CDO)和首席保護官(CPO)這樣的新角色已經(jīng)開始出現(xiàn),他們負責根據(jù)法規(guī)和安全策略管理數(shù)據(jù)。數(shù)據(jù)治理不僅涉及安全和法規(guī),還涉及企業(yè)使用的數(shù)據(jù)的可用性,有效性和完整性。
數(shù)據(jù)量的快速增長以及法規(guī)和合規(guī)要求的不斷提高是全球數(shù)據(jù)治理市場大幅增長的幕后原因。
7. 數(shù)據(jù)虛擬化
數(shù)據(jù)虛擬化集成了跨系統(tǒng)的所有企業(yè)數(shù)據(jù),其管理統(tǒng)一的數(shù)據(jù)來集中保證安全與治理,并將其實時交付給商業(yè)用戶。
當使用不同來源的數(shù)據(jù)時,比如數(shù)據(jù)倉庫、云存儲或安全SQL數(shù)據(jù)庫,就需要組合或分析這些不同來源的數(shù)據(jù),以便基于分析提供見解或商業(yè)決策。這與主要從其他來源復制數(shù)據(jù)的ETL方法不同,數(shù)據(jù)虛擬化直接處理數(shù)據(jù)源并對其進行分析,而不需要在數(shù)據(jù)倉庫中復制數(shù)據(jù)源。這節(jié)省了數(shù)據(jù)處理的存儲空間和時間。
8. Hadoop > Spark
市場需求總是在不斷變化的,工具也是如此。在現(xiàn)代數(shù)據(jù)處理中,越來越多的工程趨勢受到大數(shù)據(jù)基礎設施的影響。值得注意的軟件趨勢之一是遷移到云。數(shù)據(jù)處理正從本地或數(shù)據(jù)中心轉(zhuǎn)移到使用AWS服務進行數(shù)據(jù)提取、分析和存儲的云提供商。
并不是所有的工具都能跟上轉(zhuǎn)變的步伐。例如,大多數(shù)Hadoop提供商仍然只支持數(shù)據(jù)中心基礎設施,而像Spark這樣的框架在數(shù)據(jù)中心和云環(huán)境中都能適應。Spark不斷地發(fā)展和進步,以跟上市場的需求,為企業(yè)提供了更多的混合云端和多云端設置的選擇。
根據(jù)市場預測,大數(shù)據(jù)將持續(xù)增長。根據(jù)多項研究和預測,2025年大數(shù)據(jù)全球市場規(guī)模將達到驚人的2500億美元。
前幾年的一些趨勢,例如增強型分析,內(nèi)存計算,數(shù)據(jù)虛擬化和大數(shù)據(jù)處理框架,仍然具有現(xiàn)實意義,并將對商業(yè)產(chǎn)生重大影響。例如,內(nèi)存計算的速度是其他任何解決方案的100多倍,這有助于企業(yè)立即做出決策,采取行動。至于數(shù)據(jù)虛擬化——其能節(jié)省數(shù)據(jù)處理存儲空間和時間——到2022年,近三分之二的公司都會采用這種方法。
新趨勢也在涌現(xiàn)。諸如持續(xù)智能,邊緣計算和數(shù)據(jù)運營之類的功能強大的工具可以幫助改善業(yè)務并更快地完成任務。例如,持續(xù)智能同時考慮了歷史數(shù)據(jù)和實時數(shù)據(jù),這極大地影響了組織的決策方式以及決策的效率和速度。
到2022年,超過50%的新主要商業(yè)系統(tǒng)將基于實時分析環(huán)境來做商業(yè)決策。邊緣計算等方法允許在傳統(tǒng)數(shù)據(jù)中心或云之外處理數(shù)據(jù)。據(jù)估計,到2025年75%的企業(yè)生成數(shù)據(jù)將在邊緣進行處理。
數(shù)據(jù)運營工具包中的無服務器實踐早已減少了企業(yè)的硬件數(shù)量,并讓其方便快捷地進行擴展。近50%的公司已經(jīng)或計劃在不久的將來使用無服務器架構(gòu)。
總之,企業(yè)保持專注是至關重要的,它們需要通過采用新穎的解決方案繼續(xù)進行數(shù)字轉(zhuǎn)型,并繼續(xù)改進處理數(shù)據(jù)的方式,以免落后。