數(shù)據(jù)管理的未來發(fā)展趨勢(shì)
當(dāng)前,數(shù)據(jù)驅(qū)動(dòng)型業(yè)務(wù)戰(zhàn)略與信息產(chǎn)品的潛力比以往任何時(shí)候都要大。對(duì)于多數(shù)企業(yè)機(jī)構(gòu)而言,數(shù)據(jù)分析與管理已成為它們業(yè)務(wù)戰(zhàn)略的重要驅(qū)動(dòng)力。數(shù)據(jù)分析與管理的負(fù)責(zé)人正在通過挖掘數(shù)據(jù)價(jià)值來驅(qū)動(dòng)數(shù)字化轉(zhuǎn)型、創(chuàng)造盈利機(jī)會(huì)、改善客戶體驗(yàn)和重塑行業(yè)格局。
隨著云、本地、邊緣間的界限逐漸消失,數(shù)據(jù)管理的未來可以用四個(gè)關(guān)鍵詞來描述。
四大關(guān)鍵字
- 首先是分布式(Distributed),未來的數(shù)據(jù)管理將是分布式的,因?yàn)閿?shù)據(jù)管理須隨數(shù)據(jù)所在的位置而進(jìn)行。
- 其次是無服務(wù)器(Serverless),此概念較特殊、并不是指未來的數(shù)據(jù)管理不再需要服務(wù)器,而是指未來將沒有一個(gè)明確的集中式服務(wù)器。
- 再者是協(xié)調(diào)(Orchestrated),今天的數(shù)據(jù)會(huì)產(chǎn)生在不同的地方和設(shè)備上,所以須把它們協(xié)調(diào)管理。
- 元數(shù)據(jù)(Metadata),無論數(shù)據(jù)分散在何處,元數(shù)據(jù)均能把它們協(xié)調(diào)在一起,因此元數(shù)據(jù)是未來數(shù)據(jù)管理中非常重要的一個(gè)元素。
三大維度
總體而言,數(shù)據(jù)管理的未來發(fā)展趨勢(shì)可從三個(gè)維度來看——架構(gòu)的改變、技術(shù)的轉(zhuǎn)變以及組織的衍化。
1架構(gòu)的改變(Architecture Shifts)
Gartner于2018年針對(duì)數(shù)據(jù)和分析的采用趨勢(shì)進(jìn)行了一項(xiàng)調(diào)查(多選題)。結(jié)果顯示企業(yè)機(jī)構(gòu)目前使用最普遍的信息基礎(chǔ)架構(gòu)技術(shù)為“基于云平臺(tái)的數(shù)據(jù)存儲(chǔ)”(63%)。
一些傳統(tǒng)技術(shù),例如數(shù)據(jù)倉庫(Data Warehouse)和數(shù)據(jù)庫管理系統(tǒng)(DBMS)仍然占著相當(dāng)大的比重。這些傳統(tǒng)技術(shù)在未來并不會(huì)消失。
舉例而言,“數(shù)據(jù)倉庫”是一個(gè)非常廣泛的案例,未來數(shù)據(jù)的研究和分析都將需要用到該技術(shù)——主要配合在特定案例和場(chǎng)合中使用。
此外,未來還將有諸如“數(shù)據(jù)目錄”(Data Catalogs)這樣的技術(shù)被廣泛使用。
“數(shù)據(jù)目錄”是元數(shù)據(jù)的重要基礎(chǔ),以往“數(shù)據(jù)目錄”主要用于幫助企業(yè)機(jī)構(gòu)了解數(shù)據(jù)的定義和來源,但現(xiàn)在的趨勢(shì)是“數(shù)據(jù)目錄”可以幫助企業(yè)機(jī)構(gòu)了解數(shù)據(jù)的特性、使用者以及使用場(chǎng)景。
因此,在數(shù)據(jù)管理的未來趨勢(shì)中,“數(shù)據(jù)目錄”將具有舉足輕重的地位。
此外,數(shù)據(jù)湖(Date Lake)已從此前放置在內(nèi)部數(shù)據(jù)中心中轉(zhuǎn)變?yōu)槟壳翱煞旁谠贫松?,這是一個(gè)非常大的變化,未來諸如此類比較高端的技術(shù)均可以移至云平臺(tái)之上。
1)重“關(guān)聯(lián)”、輕“采集”
從上述調(diào)查背景可以看出,未來的數(shù)據(jù)管理和集成將會(huì)變得更加“關(guān)聯(lián)”(Connect),更少“采集”(Collect)。
當(dāng)前,在數(shù)據(jù)管理上,企業(yè)機(jī)構(gòu)通常重“采集”、輕“關(guān)聯(lián)”,此情形在中國(guó)尤為嚴(yán)重——即企業(yè)機(jī)構(gòu)在采集和存儲(chǔ)數(shù)據(jù)后,并不能立即挖掘其中的價(jià)值,失去其時(shí)效性。
原因在于,從數(shù)據(jù)被“采集”到應(yīng)用其價(jià)值,這中間有相當(dāng)長(zhǎng)的流程(如上左圖所示),包括描述、整理、集成、分享、治理和實(shí)施。這一長(zhǎng)串流程對(duì)企業(yè)機(jī)構(gòu)內(nèi)部IT技術(shù)具有相當(dāng)大的考驗(yàn)。
隨著機(jī)器學(xué)習(xí)技術(shù)的引入和元數(shù)據(jù)的應(yīng)用,目前數(shù)據(jù)管理和集成已開始呈現(xiàn)出一種新趨勢(shì),即更加注重?cái)?shù)據(jù)的“關(guān)聯(lián)”(如上右圖所示),也就是指無論數(shù)據(jù)是在本地、云端、某個(gè)設(shè)備感應(yīng)器上或任何地方,我們都可以在數(shù)據(jù)保留在原地的情況下,將它們關(guān)聯(lián)起來,而無須采集到特定地方。
在未來增強(qiáng)式的數(shù)據(jù)管理的環(huán)境中,自動(dòng)發(fā)掘數(shù)據(jù)、透過機(jī)器自動(dòng)意識(shí)識(shí)別數(shù)據(jù)中的價(jià)值、認(rèn)定有價(jià)值的數(shù)據(jù)、分析數(shù)據(jù)、自動(dòng)采用適合數(shù)據(jù)的安全措施、分享數(shù)據(jù)、優(yōu)化數(shù)據(jù),最終實(shí)現(xiàn)在最短時(shí)間內(nèi)將精準(zhǔn)的數(shù)據(jù)發(fā)送給對(duì)的人,對(duì)于企業(yè)機(jī)構(gòu)至關(guān)重要。
2)“移動(dòng)性數(shù)據(jù)”成為主要案例
數(shù)據(jù)管理與集成方面的另一個(gè)趨勢(shì)是“移動(dòng)性數(shù)據(jù)”(Data in Motion)。
以往,諸如交易產(chǎn)生后,企業(yè)機(jī)構(gòu)便把數(shù)據(jù)存儲(chǔ)進(jìn)數(shù)據(jù)庫或數(shù)據(jù)中心內(nèi),后續(xù)任務(wù)即制作報(bào)表等工作,這類的數(shù)據(jù)被稱為“靜態(tài)型”。
“移動(dòng)性數(shù)據(jù)”指的是在交易過程中,企業(yè)機(jī)構(gòu)就可以看到實(shí)時(shí)的數(shù)據(jù)處理——無論數(shù)據(jù)處在邊緣設(shè)備還是在數(shù)據(jù)中心內(nèi)。數(shù)據(jù)始終是數(shù)據(jù)商用平臺(tái)的核心所在。
3)集中式、分布式、隨機(jī)式數(shù)據(jù)治理并存
與數(shù)據(jù)管理(Data Management)不同,數(shù)據(jù)治理(Data Governance)注重?cái)?shù)據(jù)的使用者、使用方式、使用權(quán)限的合規(guī)性制定。
未來的“數(shù)據(jù)治理”將會(huì)非常動(dòng)態(tài)——可以是集中式、分布式,亦可是隨機(jī)式。“隨機(jī)式”是指企業(yè)機(jī)構(gòu)可以通過機(jī)器學(xué)習(xí)來增強(qiáng)數(shù)據(jù)內(nèi)容以及評(píng)估用例。
舉例而言,某件物品在被海關(guān)征收關(guān)稅時(shí),海關(guān)可能不知如何“治理”它。但“機(jī)器學(xué)習(xí)”引擎可以自動(dòng)分辨該物品的屬性,進(jìn)而據(jù)此自動(dòng)幫助海關(guān)生成此件物品應(yīng)該遵循的“治理”規(guī)則。
4)元數(shù)據(jù)是未來數(shù)據(jù)管理的關(guān)鍵
企業(yè)機(jī)構(gòu)的數(shù)據(jù)來源不僅多種多樣(包括ERP、CRM、SCM和HCM),且用途極為廣泛(可用于外部供應(yīng)商、客戶與合作伙伴,呈現(xiàn)方式包括圖表、報(bào)表和指示板)。
將這些來源與用途連接起來——即連通無服務(wù)器進(jìn)程(Serverless Processes)和物理合并(Physical Consolidation)的關(guān)鍵橋梁就是元數(shù)據(jù)。
2技術(shù)的轉(zhuǎn)變(Technology Changes)
Gartner預(yù)計(jì),在2021年之前,能夠采用數(shù)據(jù)中心、數(shù)據(jù)湖或者數(shù)據(jù)倉庫這種統(tǒng)一戰(zhàn)略的企業(yè)機(jī)構(gòu),將比競(jìng)爭(zhēng)對(duì)手多出30%的使用案例。
此外,在2023年之前,75%的數(shù)據(jù)庫將遷移至云平臺(tái)上,此舉意味著減少數(shù)據(jù)庫管理系統(tǒng)供應(yīng)商的規(guī)模并且增加數(shù)據(jù)治理和集成的復(fù)雜性。
1)人工智能讓數(shù)據(jù)管理軟件的運(yùn)行更加流暢
現(xiàn)在,人工智能可以幫助企業(yè)機(jī)構(gòu)增強(qiáng)數(shù)據(jù)管理。事實(shí)上,數(shù)據(jù)管理技術(shù)的未來就是人工智能和機(jī)器學(xué)習(xí)的應(yīng)用。
具體而言,有以下四方面:
一是數(shù)據(jù)質(zhì)量(Data Quality)。目前市場(chǎng)上有很多供應(yīng)商都是在用機(jī)器學(xué)習(xí)的方式幫助企業(yè)機(jī)構(gòu)擴(kuò)展和增強(qiáng)數(shù)據(jù)的分析、清理、連接、識(shí)別、語義協(xié)調(diào)和重組。企業(yè)機(jī)構(gòu)在不同數(shù)據(jù)源中管理主數(shù)據(jù)質(zhì)量以往需要人為操作、費(fèi)時(shí)費(fèi)力,而機(jī)器學(xué)習(xí)可以使這一整串流程變得完全自動(dòng)化,且準(zhǔn)確率明顯提高。
第二是主數(shù)據(jù)管理(Master Data Management)。機(jī)器學(xué)習(xí)可以幫助企業(yè)機(jī)構(gòu)配置和優(yōu)化主數(shù)據(jù),尤其在記錄匹配和算法融合方面,機(jī)器學(xué)習(xí)可以讓企業(yè)機(jī)構(gòu)對(duì)主數(shù)據(jù)的管理更加便利。
第三是數(shù)據(jù)集成(Data Integration)。人工智能可以通過升級(jí)多個(gè)相同模式并根據(jù)語義分析,向企業(yè)機(jī)構(gòu)告知數(shù)據(jù)源的相關(guān)性,推薦企業(yè)機(jī)構(gòu)將相同的數(shù)據(jù)源進(jìn)行連接,最終使得數(shù)據(jù)集成的流程更加簡(jiǎn)化。
第四是數(shù)據(jù)庫管理系統(tǒng)(DataBase Management System)。人工智能技術(shù)的引入將使數(shù)據(jù)庫從存儲(chǔ)、索引、分區(qū)到調(diào)整、優(yōu)化、修補(bǔ)——這一系列繁瑣的人工流程變得更加自動(dòng)化。
2)動(dòng)態(tài)元數(shù)據(jù)創(chuàng)造“自我驅(qū)動(dòng)型”數(shù)據(jù)管理
機(jī)器學(xué)習(xí)和人工智能是一個(gè)后端底層技術(shù),諸如性能分析等更多數(shù)據(jù)管理工作的完成還需動(dòng)態(tài)元數(shù)據(jù)的支持。元數(shù)據(jù)專門用于描述數(shù)據(jù)的特質(zhì),幫助企業(yè)機(jī)構(gòu)將不同的數(shù)據(jù)進(jìn)行關(guān)聯(lián)并做推薦。
以數(shù)據(jù)分析為例,企業(yè)機(jī)構(gòu)在定義數(shù)據(jù)的相關(guān)性時(shí),動(dòng)態(tài)元數(shù)據(jù)就會(huì)起到中間凝合力的作用。
3)開源軟件收益與風(fēng)險(xiǎn)的平衡
提及開源,一般想到的是總擁有成本(TCO)很低、企業(yè)機(jī)構(gòu)的回本速度很快。
雖然企業(yè)機(jī)構(gòu)有時(shí)無法通過開源軟件(OSS)得到所需支持,但目前市場(chǎng)上已有很多商業(yè)軟件包可給予幫助。
- 其次,若企業(yè)機(jī)構(gòu)需要研發(fā)創(chuàng)新并保持靈活性,那么開源軟件應(yīng)是首要選擇。
- 再者,據(jù)Gartner調(diào)查,全球90%的企業(yè)機(jī)構(gòu)已把開源軟件用在任務(wù)關(guān)鍵型的IT流程中。
- 企業(yè)機(jī)構(gòu)應(yīng)把服務(wù)水平協(xié)議與商業(yè)供應(yīng)商的平衡性放入自身的數(shù)據(jù)管理策略考量中。
3組織的衍化(Organization Evolves)
Gartner預(yù)測(cè),到2022年之前,使用動(dòng)態(tài)元數(shù)據(jù)去連接、優(yōu)化、自動(dòng)化數(shù)據(jù)集成流程的企業(yè)機(jī)構(gòu)將減少30%的數(shù)據(jù)交付的時(shí)間。
此外,到2023年之前,在數(shù)據(jù)管理中使用人工智能技術(shù)能夠幫助企業(yè)機(jī)構(gòu)進(jìn)行更多的自動(dòng)化工作,因此這些企業(yè)機(jī)構(gòu)對(duì)于IT人員需求將減少20%。
1)自動(dòng)化數(shù)據(jù)與分析工作即將來臨
Gartner就數(shù)據(jù)分析工作的自動(dòng)化優(yōu)先級(jí)進(jìn)行過一項(xiàng)調(diào)研。調(diào)研結(jié)果顯示,數(shù)據(jù)集成因?yàn)槠渥钯M(fèi)時(shí)間也最易出錯(cuò)。
此外,機(jī)器學(xué)習(xí)相關(guān)技術(shù)的研發(fā)需要進(jìn)行大量前期的數(shù)據(jù)準(zhǔn)備(Data Preparation)。Gartner預(yù)計(jì)數(shù)據(jù)科學(xué)家大約需要花費(fèi)70%到80%的時(shí)間進(jìn)行數(shù)據(jù)準(zhǔn)備。
因此,若數(shù)據(jù)準(zhǔn)備無法進(jìn)行自動(dòng)化,那么項(xiàng)目交付的時(shí)間就會(huì)極其漫長(zhǎng)。
2)人機(jī)聯(lián)盟:少花錢、多做事
未來,數(shù)據(jù)集成工作需要人與機(jī)器共同完成。數(shù)據(jù)存在不同的端口且數(shù)量龐大,因此單獨(dú)的人力難以進(jìn)行處理、需有工具進(jìn)行支持。未來,這種工具將引入人工智能與機(jī)器學(xué)習(xí)技術(shù),讓人力做不到或短期內(nèi)無法實(shí)現(xiàn)的工作變成現(xiàn)實(shí)。
與此同時(shí),此前從事這類工作的IT工程師將可騰出時(shí)間去做更多、更重要的事情。
3)元數(shù)據(jù)與數(shù)據(jù)管理架構(gòu)緊密貼合
元數(shù)據(jù)的管理平臺(tái)上有很多引擎,有些可以根據(jù)數(shù)據(jù)目錄,即目前所存儲(chǔ)的數(shù)據(jù)信息,自動(dòng)地發(fā)現(xiàn)企業(yè)機(jī)構(gòu)目前架構(gòu)中有哪些數(shù)據(jù)源還未掌控,然后進(jìn)行處理。
元數(shù)據(jù)有兩種維度——度量(Metrics)與語義(Meaning)。
以往,企業(yè)機(jī)構(gòu)做得更多的是語義,但在未來元數(shù)據(jù)的管理上,兩者具有同等重要性,甚至“度量”的地位更高,因?yàn)樗梢愿鶕?jù)此前類似數(shù)據(jù)的集成方式自動(dòng)進(jìn)行數(shù)據(jù)挖掘和規(guī)劃。
4)數(shù)據(jù)管理新角色不斷涌現(xiàn)
Gartner針對(duì)“企業(yè)機(jī)構(gòu)目前及2020前的數(shù)據(jù)管理職位”進(jìn)行過調(diào)研,結(jié)果如上圖所示。其中,需重點(diǎn)強(qiáng)調(diào)的是數(shù)據(jù)管家(Data Steward)。“數(shù)據(jù)管家”在未來的數(shù)據(jù)管理工作中占有極其重要的地位。
當(dāng)前,企業(yè)機(jī)構(gòu)已經(jīng)意識(shí)到自己的數(shù)據(jù)源變得更多、數(shù)據(jù)使用案例變得更為復(fù)雜,在此情況下,它們需要新的崗位去應(yīng)對(duì)挑戰(zhàn)。
但需強(qiáng)調(diào)的是,每個(gè)企業(yè)機(jī)構(gòu)都有自己不同的戰(zhàn)略,它們需要根據(jù)預(yù)測(cè)的業(yè)務(wù)結(jié)果來應(yīng)用不同的技能、設(shè)置不同的數(shù)據(jù)管理崗位。