大數(shù)據(jù)的未來何去何從?
其實,“大數(shù)據(jù)”概念第一次被提出,可以追溯到1998年,一家美國高性能計算公司的科學家,在一次國際會議報告中,用“Big Data”(大數(shù)據(jù))來描述數(shù)據(jù)量增長帶來的挑戰(zhàn)。

到了2013年,開始有越來越多的企業(yè)看到大數(shù)據(jù)的價值,發(fā)現(xiàn)大數(shù)據(jù)能夠為企業(yè)業(yè)務(wù)賦能,通過對海量數(shù)據(jù)量的有效存儲、管理和分析,可以獲得更實時的市場洞察力。并且,人們還發(fā)現(xiàn),大數(shù)據(jù)不是一個單一的技術(shù),而是一系列數(shù)據(jù)管理技術(shù)的集合體,它對整個社會及人類帶來的影響,將有別于以往任何技術(shù)變革。
那么,十幾年時間過去了,今天的大數(shù)據(jù)發(fā)展到何種狀態(tài)?我們需要做些什么,才能讓大數(shù)據(jù)應用變得更加成熟?
從各種應用分析和調(diào)查來看,雖然企業(yè)的數(shù)據(jù)量呈爆發(fā)趨勢增長,也更重視信息的來源和使用價值,但在實際的商業(yè)價值推動上,并沒有帶來顯著成果。雖然大數(shù)據(jù)概念炒得很火熱,但應用上仍停留在如何將正確的信息在正確的時間發(fā)送給正確的人。
數(shù)據(jù)倉庫vs數(shù)據(jù)湖vs數(shù)據(jù)管理架構(gòu)
為了收集、獲取海量數(shù)據(jù),各種數(shù)據(jù)存儲和管理系統(tǒng)如雨后春筍般誕生,包括數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)管理架構(gòu)等,開始加快走向企業(yè)應用場景中。
只是,當企業(yè)的解決方案以及平臺架構(gòu)開始增多,業(yè)務(wù)的復雜性也隨之增加,企業(yè)需要一個標準的數(shù)據(jù)管理架構(gòu),去整合所有的數(shù)據(jù)以及多樣的應用工具,包括能實現(xiàn)跨環(huán)境以及混合應用的管理。以往集中式架構(gòu),已經(jīng)不能滿足企業(yè)的業(yè)務(wù)需求了。或者說,企業(yè)需要更強大的數(shù)據(jù)分析能力,能對不同的數(shù)據(jù)源進行訪問。這也是以Data Fabric為核心的數(shù)據(jù)管理架構(gòu),變得越來越流行的最根本原因。
理論上講,企業(yè)需要一個核心數(shù)據(jù)庫,能確保所有的數(shù)據(jù)都是最新、易管理,并且是干凈數(shù)據(jù);但之前的數(shù)據(jù)架構(gòu)模式不可能實現(xiàn),而Data Fabric則能幫助企業(yè)實現(xiàn)不同數(shù)據(jù)的管理,并且能把各種數(shù)據(jù)之間的關(guān)系關(guān)聯(lián)起來,而不是將所有的數(shù)據(jù)傾倒在一個數(shù)據(jù)湖中。
所以,在數(shù)據(jù)的整個治理過程中,所有相關(guān)的應用都很重要。比如:我們可以通過數(shù)據(jù)倉庫實現(xiàn)高性能、可重復的分析;而數(shù)據(jù)湖可以存儲用于開發(fā)和測試的數(shù)據(jù);Data Mesh 這種基于領(lǐng)域驅(qū)動和自服務(wù)的數(shù)據(jù)架構(gòu)設(shè)計模式,可以用來管理分布式數(shù)據(jù),因為該服務(wù)本身借鑒了微服務(wù)和 Service Mesh 分布式架構(gòu)思想。提到Data Mesh,有人可能要問Data Mesh和Data Fabric是什么關(guān)系?其實,Data Mesh和Data Fabric在概念上都差不多,都是一種新型的數(shù)據(jù)管理架構(gòu),都致力于讓數(shù)據(jù)互聯(lián)互通。
一站式大數(shù)據(jù)平臺構(gòu)建
當企業(yè)業(yè)務(wù)上升到一定量,構(gòu)建大數(shù)據(jù)平臺成為必須品。問題是,大數(shù)據(jù)平臺如何構(gòu)建?不同企業(yè)有不同選擇!
有專家建議,最好采用兩種策略構(gòu)建企業(yè)大數(shù)據(jù)平臺,即一個用于生產(chǎn),另一個用于分析。但筆者認為,基于一個標準的數(shù)據(jù)架構(gòu)構(gòu)建大數(shù)據(jù)平臺,更有利于數(shù)據(jù)管理。如果每個業(yè)務(wù)部門都建自己的平臺,需要支持多個數(shù)據(jù)庫,還得需要一個ETL平臺完成數(shù)據(jù)之間的轉(zhuǎn)換。這時,數(shù)據(jù)的真實性、實時性都會出現(xiàn)挑戰(zhàn)。構(gòu)建大數(shù)據(jù)平臺,最終的目標是為了整合數(shù)據(jù),讓所有的數(shù)據(jù)實現(xiàn)可視化管理,并且無論數(shù)據(jù)在企業(yè)內(nèi)部還是云端,都能實現(xiàn)統(tǒng)一管理。多一個數(shù)據(jù)平臺,就意味著企業(yè)在進行數(shù)據(jù)整合時,會增加額外的成本,并且容易出現(xiàn)數(shù)據(jù)安全隱患。
當然,構(gòu)建一個能覆蓋所有環(huán)境的大數(shù)據(jù)平臺,也不是一件容易的事。大多數(shù)時候,一個供應商的解決方案也沒那么全面,比如:有的提供了查詢功能,但治理方面差了一些;有的雖然解決了大數(shù)據(jù)的規(guī)?;幚?,但后期的數(shù)據(jù)遷移成為一大挑戰(zhàn)。所以,企業(yè)擁有多個企業(yè)提供的數(shù)據(jù)管理解決方案,可能是一種常態(tài)。
如果企業(yè)選型選對,基于標準的數(shù)據(jù)架構(gòu)來打造打造大數(shù)據(jù)平臺,那意味企業(yè)擁有了先天的一站式大數(shù)據(jù)平臺管理能力,后期可以通過各種工具和手段進行數(shù)據(jù)的標準化管理。
比如:基于Data Fabric,企業(yè)從設(shè)計之初開始,就擁有了一個可靈活擴展、多次復用和持續(xù)優(yōu)化的數(shù)據(jù)管道,技術(shù)開發(fā)人員可以根據(jù)服務(wù)和語義,支持復雜環(huán)境部署,通過資源的靈活調(diào)度,交付各種應用。