淺談數(shù)據(jù)治理中的智能數(shù)據(jù)目錄
在數(shù)字化轉(zhuǎn)型的戰(zhàn)略實(shí)施中,很多企業(yè)都在搭建自己的業(yè)務(wù)、數(shù)據(jù)及人工智能的中臺(tái)。在同這些企業(yè)合作和交流中,越來(lái)越體會(huì)到數(shù)據(jù)目錄是中臺(tái)建設(shè)的核心和基礎(chǔ)。為了更好地提供數(shù)據(jù)服務(wù),發(fā)揮數(shù)據(jù)價(jià)值,用戶需要先理解數(shù)據(jù)和信任數(shù)據(jù)。 企業(yè)擁有什么樣的數(shù)據(jù),這些數(shù)據(jù)在哪里,這些數(shù)據(jù)之間的關(guān)系及沿襲,數(shù)據(jù)是好是壞,這些都是數(shù)據(jù)目錄需要回答的問(wèn)題。
企業(yè)的數(shù)據(jù)環(huán)境具有復(fù)雜和多樣性,數(shù)據(jù)分散在成百上千的本地和云端系統(tǒng)之中,其中包括傳統(tǒng)的事務(wù)性數(shù)據(jù)庫(kù)、大數(shù)據(jù)平臺(tái)或者數(shù)據(jù)湖、基于云的市場(chǎng)營(yíng)銷等系統(tǒng),還有不斷涌現(xiàn)的新數(shù)據(jù)源和應(yīng)用。人工智能和機(jī)器學(xué)習(xí)可使數(shù)據(jù)目錄 “智能化”,使其具備自動(dòng)發(fā)現(xiàn),自動(dòng)數(shù)據(jù)分類,自動(dòng)分析和關(guān)聯(lián)的能力,不斷滿足企業(yè)數(shù)據(jù)管理在處理規(guī)模、效率、創(chuàng)新和洞察力等方面的需求。
IBM很早就認(rèn)識(shí)到將機(jī)器學(xué)習(xí)應(yīng)用到數(shù)據(jù)管理的重要性,在IBM的Cloud Pak for Data中,機(jī)器學(xué)習(xí)無(wú)處不在,遍布數(shù)據(jù)集成、自動(dòng)化數(shù)據(jù)管理、多云數(shù)據(jù)整合、數(shù)據(jù)準(zhǔn)備、建議和數(shù)據(jù)洞察,其中Watson Knowledge Catalog致力于改進(jìn)企業(yè)中數(shù)據(jù)管理者和數(shù)據(jù)使用者之間的數(shù)據(jù)流的通信、集成和自動(dòng)化,被評(píng)為機(jī)器學(xué)習(xí)數(shù)據(jù)目錄領(lǐng)導(dǎo)者。
1. 自動(dòng)數(shù)據(jù)發(fā)現(xiàn),快速構(gòu)建數(shù)據(jù)目錄
應(yīng)對(duì)企業(yè)復(fù)雜和多樣的數(shù)據(jù)環(huán)境,智能的數(shù)據(jù)目錄可以自動(dòng)快速地發(fā)現(xiàn)數(shù)據(jù)并進(jìn)行識(shí)別,包括數(shù)據(jù)的輪廓,數(shù)據(jù)的業(yè)務(wù)含義,數(shù)據(jù)的分類,數(shù)據(jù)的質(zhì)量,數(shù)據(jù)集之間的關(guān)系,是否有隱私或者敏感的數(shù)據(jù),能快速地創(chuàng)建數(shù)據(jù)目錄,高效地提供數(shù)據(jù)準(zhǔn)備。
2. 關(guān)聯(lián)數(shù)據(jù)資產(chǎn),完整知識(shí)圖譜
企業(yè)的各種信息,不是孤立的個(gè)體,之間存在各種的關(guān)系,例如業(yè)務(wù)分類同業(yè)務(wù)術(shù)語(yǔ),業(yè)務(wù)術(shù)語(yǔ)同技術(shù)資產(chǎn),業(yè)務(wù)規(guī)則同技術(shù)規(guī)則及數(shù)據(jù)資產(chǎn),數(shù)據(jù)分類同數(shù)據(jù)資產(chǎn),數(shù)據(jù)資產(chǎn)同數(shù)據(jù)管家等的關(guān)系。對(duì)于需要理解數(shù)據(jù)的用戶,希望從任一個(gè)關(guān)注點(diǎn)出發(fā),獲取到與其相關(guān)的業(yè)務(wù)上、技術(shù)上、管理上等維度的關(guān)聯(lián)的資產(chǎn)信息。
智能的數(shù)據(jù)目錄,先將企業(yè)中存在于系統(tǒng)、流程和集體知識(shí)中的各類信息集合在一起,分析并關(guān)聯(lián),將企業(yè)的各類數(shù)據(jù)資產(chǎn)以關(guān)系圖的形式展開,對(duì)于每個(gè)用戶,可以從中截取自己關(guān)注的片段,并可以隨信息的拓展而繼續(xù)探索和發(fā)現(xiàn)新的知識(shí),從而更好地理解數(shù)據(jù),豐富自己的數(shù)據(jù)知識(shí)體系。
3. 自動(dòng)數(shù)據(jù)校驗(yàn),提升數(shù)據(jù)質(zhì)量
在理解數(shù)據(jù)后,若要使用數(shù)據(jù),需要進(jìn)一步信任數(shù)據(jù)。數(shù)據(jù)質(zhì)量是數(shù)據(jù)信任的基石,需提供細(xì)粒度的量化的數(shù)據(jù)質(zhì)量監(jiān)管和變化追蹤,除了內(nèi)置多種數(shù)據(jù)質(zhì)量維度,自動(dòng)進(jìn)行數(shù)據(jù)質(zhì)量打分外,還需要提供根據(jù)數(shù)據(jù)分類、業(yè)務(wù)特征、重要性等特定屬性自動(dòng)進(jìn)行相關(guān)的數(shù)據(jù)規(guī)則校驗(yàn),而不需要考慮數(shù)據(jù)的來(lái)源,大大提高數(shù)據(jù)管理的效率和范圍。
4. 自動(dòng)分析數(shù)據(jù)沿襲
用戶需要對(duì)其數(shù)據(jù)細(xì)致了解,才能對(duì)數(shù)據(jù)更加自信和篤定,才能支撐分析和數(shù)據(jù)科學(xué)。
智能的數(shù)據(jù)目錄能支撐從大量數(shù)據(jù)源中提取粗粒度—系統(tǒng)和系統(tǒng)之間的,數(shù)據(jù)集和和數(shù)據(jù)集合之間沿襲;同時(shí)支持細(xì)粒度—表和表之間,字段和字段之間的沿襲關(guān)系。
5. 智能搜索
無(wú)論是業(yè)務(wù)用戶或者技術(shù)用戶,無(wú)論數(shù)據(jù)處于企業(yè)什么位置,或者搜索時(shí)候輸入模糊或者近似的信息,用戶都能搜索到相應(yīng)的結(jié)果,及大量相關(guān)聯(lián)的信息。這些搜索結(jié)果會(huì)按照信息相關(guān)性從高到底給出。用戶還可以在圖形化的搜索對(duì)象上進(jìn)行深入的展開和探查。對(duì)于搜索到的數(shù)據(jù)資產(chǎn),用戶可以預(yù)覽數(shù)據(jù),了解數(shù)據(jù)輪廓,進(jìn)行數(shù)據(jù)可視化查看,為后續(xù)的數(shù)據(jù)分析和建模準(zhǔn)備數(shù)據(jù)。
智能的數(shù)據(jù)目錄,幫助用戶揭示復(fù)雜的數(shù)據(jù)關(guān)系,高效創(chuàng)建可信賴的分析基礎(chǔ)平臺(tái),從數(shù)據(jù)采集、數(shù)據(jù)治理到數(shù)據(jù)自助服務(wù),提供端到端的一站式平臺(tái)服務(wù)。
詳情請(qǐng)?jiān)L問(wèn)IBM官網(wǎng)頁(yè)面了解更多內(nèi)容:https://www.ibm.com/cloud/watson-knowledge-catalog
了解更多IBM相關(guān):http://cloud.51cto.com/act/ibm2021q3/cloud#p3
任何問(wèn)題請(qǐng)撥打免費(fèi)咨詢熱線:4006690260 (工作日9:00-17:00)