如何跨歷史數(shù)據(jù)和實時數(shù)據(jù)進行實時分析?
當下的數(shù)據(jù)分析需求給現(xiàn)有的數(shù)據(jù)基礎(chǔ)設(shè)施帶來了前所未有的壓力??绮僮骱痛鎯?shù)據(jù)執(zhí)行實時分析通常是成功的關(guān)鍵,但這些操作實現(xiàn)起來卻充滿挑戰(zhàn)。
比如一家航空公司,它希望收集和分析來自其噴氣發(fā)動機的連續(xù)數(shù)據(jù)流,以實現(xiàn)可預(yù)測的維護以及迅速發(fā)現(xiàn)解決方案。每個引擎都有數(shù)百個傳感器,監(jiān)測溫度、速度和振動等條件,并不斷將這些信息發(fā)送到物聯(lián)網(wǎng)(IoT)平臺。物聯(lián)網(wǎng)平臺對數(shù)據(jù)進行收集、處理和分析后,將數(shù)據(jù)存儲在數(shù)據(jù)湖中(也稱為運營數(shù)據(jù)存儲),只有最新的數(shù)據(jù)保存在運營數(shù)據(jù)庫中。
現(xiàn)在,當實時數(shù)據(jù)中的異常讀數(shù)觸發(fā)特定引擎的警報時,航空公司需要跨實時操作數(shù)據(jù)和該引擎存儲的歷史數(shù)據(jù)進行實時分析。然而,航空公司可能會發(fā)現(xiàn),利用其現(xiàn)有的基礎(chǔ)設(shè)施實現(xiàn)實時分析幾乎是不可能的。
如今,開發(fā)大數(shù)據(jù)計劃的公司通常使用Hadoop將其運營數(shù)據(jù)的副本存儲在數(shù)據(jù)湖中,數(shù)據(jù)科學(xué)家可以在其中訪問數(shù)據(jù)進行各種分析。當需要跨傳入的操作數(shù)據(jù)以及存儲在數(shù)據(jù)湖中的數(shù)據(jù)子集運行實時分析時,傳統(tǒng)的基礎(chǔ)設(shè)施將成為絆腳石。在訪問存儲在數(shù)據(jù)湖中的數(shù)據(jù)時可能存在延遲,跨組合數(shù)據(jù)湖和操作數(shù)據(jù)運行聯(lián)合查詢也會遇到挑戰(zhàn)。
內(nèi)存計算解決方案通過提供實時性能、大規(guī)??缮炜s性和與流行數(shù)據(jù)平臺的內(nèi)置集成,解決了跨數(shù)據(jù)湖和操作數(shù)據(jù)的實時分析的挑戰(zhàn)。這些功能支持混合事務(wù)/分析處理(HTAP),能夠跨數(shù)據(jù)湖和操作數(shù)據(jù)集運行實時聯(lián)合查詢。
內(nèi)存計算平臺功能
內(nèi)存計算平臺支持對操作數(shù)據(jù)的攝取、處理和分析,并支持以下部分或全部的實時性能和pb級可伸縮性:
內(nèi)存中的數(shù)據(jù)網(wǎng)格和內(nèi)存中的數(shù)據(jù)庫。內(nèi)存中的數(shù)據(jù)網(wǎng)格和數(shù)據(jù)庫共享服務(wù)器集群的可用內(nèi)存和計算,允許在內(nèi)存中處理數(shù)據(jù),并消除從磁盤檢索數(shù)據(jù)的延遲。此外,內(nèi)存中的數(shù)據(jù)網(wǎng)格部署在現(xiàn)有數(shù)據(jù)庫之上,并保持底層數(shù)據(jù)庫的同步,而內(nèi)存中的數(shù)據(jù)庫則在內(nèi)存中維護完整的數(shù)據(jù)集,定期將數(shù)據(jù)寫入磁盤,僅用于備份和恢復(fù)。內(nèi)存中的數(shù)據(jù)網(wǎng)格和數(shù)據(jù)庫可以部署在場所、公共云或私有云或混合環(huán)境中。
流媒體數(shù)據(jù)處理。內(nèi)存中的計算平臺可以收集、處理和分析來自Apache Kafka等流行流媒體平臺的具有實時性能的大容量數(shù)據(jù)流。
機器學(xué)習(xí)和深度學(xué)習(xí)。內(nèi)存計算平臺允許使用操作數(shù)據(jù)對機器學(xué)習(xí)模型進行實時訓(xùn)練。將本機計算平臺與深度學(xué)習(xí)平臺(如TensorFlow)集成在內(nèi)存中,可以極大地降低傳輸數(shù)據(jù)的成本和復(fù)雜性。
聯(lián)合查詢。一些內(nèi)存中的計算平臺利用內(nèi)置集成的流數(shù)據(jù)平臺,包括Apache Kafka和Apache Spark,來支持跨數(shù)據(jù)湖和操作數(shù)據(jù)集的聯(lián)合查詢。Apache Kafka用于構(gòu)建實時數(shù)據(jù)管道和流媒體應(yīng)用程序,為實時處理傳入數(shù)據(jù)提供數(shù)據(jù)。Apache Spark是一個統(tǒng)一的分析引擎,可以執(zhí)行大規(guī)模數(shù)據(jù)處理,包括基于跨hadoop數(shù)據(jù)湖和操作數(shù)據(jù)庫的數(shù)據(jù)運行聯(lián)合查詢。
混合事務(wù)/分析處理(HTAP)或混合操作/分析處理(HOAP)。HTAP、HOAP能夠使公司維護單個數(shù)據(jù)集,在該數(shù)據(jù)集上可以同時執(zhí)行事務(wù)和分析處理,從而消除了將數(shù)據(jù)從專用事務(wù)數(shù)據(jù)庫移動到獨立的專用分析數(shù)據(jù)庫所需的昂貴成本和復(fù)雜過程。
從Apache Kafka到Apache Spark再到實時洞察
與Kafka、Spark和Hadoop集成的內(nèi)存計算平臺能夠使公司跨實時操作數(shù)據(jù)和特定引擎的歷史數(shù)據(jù)運行實時分析。Apache Kafka將實時流數(shù)據(jù)提供給內(nèi)存中的計算平臺。內(nèi)存中的計算平臺在內(nèi)存中維護操作數(shù)據(jù),并跨這些數(shù)據(jù)集運行實時查詢。Spark從數(shù)據(jù)湖檢索歷史數(shù)據(jù),從內(nèi)存計算平臺檢索熱操作數(shù)據(jù),運行查詢并提供更深入的見解。通過這種架構(gòu),企業(yè)可以立即了解異常讀數(shù)的原因。
現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施能夠預(yù)測維護,并且能迅速處理問題,這將提高客戶滿意度、提高資產(chǎn)利用率和更高的ROI。而且,使用內(nèi)存計算平臺對運營數(shù)據(jù)和數(shù)據(jù)湖數(shù)據(jù)子集進行實時分析,可以使實時物聯(lián)網(wǎng)服務(wù)成為現(xiàn)實。