從概念到管理,一文讀懂元數(shù)據(jù)
如今,各行各業(yè)正在被“瘋狂”的大數(shù)據(jù)所包圍,企業(yè)需收集,歸檔,研究的數(shù)據(jù)量也日益增長。面對浩如煙海的數(shù)據(jù),企業(yè)管理者應以什么為抓手來管理數(shù)據(jù),充分挖掘數(shù)據(jù)的價值呢?答案就是“元數(shù)據(jù)”。
Gartner 曾在研究報告里指出,“元數(shù)據(jù)管理將是未來企業(yè)信息化的核心基礎設施”,尤其在大數(shù)據(jù)環(huán)境中,如果企業(yè)不通過元數(shù)據(jù)管理把多種復雜的信息管理起來,很難做到信息的有效利用。
“那么,究竟何為元數(shù)據(jù),何為元數(shù)據(jù)管理?本文將為大家梳理元數(shù)據(jù)的概念,幫助企業(yè)理解元數(shù)據(jù)管理的作用。”
一、什么是元數(shù)據(jù)?
元數(shù)據(jù)被定義為:對數(shù)據(jù)及信息資源的描述性信息。簡單來說就是“關于數(shù)據(jù)的數(shù)據(jù)”。
比如:在上網(wǎng)選購衣服時,網(wǎng)店上展示的一件件衣服就是數(shù)據(jù)。而其中,衣服的品牌、款式、尺寸、顏色、面料材質(zhì)、適用年齡等就是元數(shù)據(jù),這些元數(shù)據(jù)詳細描述了這件衣服的具體信息,為你的購物選擇提供參考。
在生活中,元數(shù)據(jù)的應用場景非常多,甚至可以說,從我們呱呱落地開始認識這個世界的時候,我們就與元數(shù)據(jù)密不可分,比如圖書館的藏書信息卡、個人的信息登記等都屬于元數(shù)據(jù)的應用。
二、元數(shù)據(jù)有什么特點?
- 元數(shù)據(jù)是關于數(shù)據(jù)的結(jié)構(gòu)化的數(shù)據(jù)。
- 元數(shù)據(jù)是與對象相關的數(shù)據(jù),此數(shù)據(jù)使其潛在的用戶不必先具備對這些對象的存在和特征的完整認識。
- 元數(shù)據(jù)是對信息包裹 (information package) 的編碼的描述。
- 元數(shù)據(jù)包含用于描述信息對象的內(nèi)容和位置的數(shù)據(jù)元素集,促進了網(wǎng)絡環(huán)境中信息對象的發(fā)現(xiàn)和檢索。
- 元數(shù)據(jù)不一定是數(shù)字形式。
- 元數(shù)據(jù)不僅對信息對象進行描述,還能夠描述資源的使用環(huán)境、管理、加工、保存和使用等方面的情況。
- 元數(shù)據(jù)可來自不同的資源。
- 在信息對象或系統(tǒng)的生命周期中自然增加元數(shù)據(jù)。
- 元數(shù)據(jù)常規(guī)定義中的“數(shù)據(jù)”,是表示事務性質(zhì)的符號,是進行各種統(tǒng)計、計算、科學研究、技術(shù)設計所依據(jù)的數(shù)值,或是說數(shù)字化、公式化、代碼化、圖表化的信息。
三、元數(shù)據(jù)的作用
01、元數(shù)據(jù)是進行數(shù)據(jù)集成所必須的
我們知道,數(shù)據(jù)倉庫***的特點就是它的集成性。這一特點不僅體現(xiàn)在它所包含的數(shù)據(jù)上,還體現(xiàn)在實施數(shù)據(jù)倉庫項目的過程當中:
一方面,從各個數(shù)據(jù)源中抽取的數(shù)據(jù)要按照一定的模式存入數(shù)據(jù)倉庫,這些數(shù)據(jù)源與數(shù)據(jù)倉庫中數(shù)據(jù)的對應關系及轉(zhuǎn)換規(guī)則都要存儲在元數(shù)據(jù)知識庫里。而另一方面,在數(shù)據(jù)倉庫項目實施過程中,直接建立數(shù)據(jù)倉庫往往費時、費力。
因此在實踐當中,人們可能會按照統(tǒng)一的數(shù)據(jù)模型,首先建設數(shù)據(jù)集市,然后在各個數(shù)據(jù)集市的基礎上再建設數(shù)據(jù)倉庫。不過,當數(shù)據(jù)集市數(shù)量增多時很容易形成“蜘蛛網(wǎng)”現(xiàn)象,而元數(shù)據(jù)管理是解決“蜘蛛網(wǎng)”的關鍵。
02、元數(shù)據(jù)可以幫助用戶理解數(shù)據(jù)倉庫的數(shù)據(jù)
系統(tǒng)用戶不可能像數(shù)據(jù)倉庫系統(tǒng)管理員或開發(fā)人員那樣熟悉數(shù)據(jù)庫技術(shù),因此迫切需要有一個“翻譯”,能夠使他們清晰地理解數(shù)據(jù)倉庫中數(shù)據(jù)的含意。
元數(shù)據(jù)可以實現(xiàn)業(yè)務模型與數(shù)據(jù)模型之間的映射,因而可以把數(shù)據(jù)以用戶需要的方式“翻譯”出來,從而幫助最終用戶理解和使用數(shù)據(jù)。
03、元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關鍵
企業(yè)數(shù)據(jù)集成完成之后,在使用的過程中,用戶常常會對數(shù)據(jù)產(chǎn)生懷疑。這是由于底層的數(shù)據(jù)對于用戶來說是不“透明”的,使用者很自然地對結(jié)果產(chǎn)生懷疑。
借助元數(shù)據(jù)管理系統(tǒng),最終的使用者對各個數(shù)據(jù)的來龍去脈以及數(shù)據(jù)抽取和轉(zhuǎn)換的規(guī)則都會很方便地得到,這樣他們自然會對數(shù)據(jù)具有信心;當然也可便捷地發(fā)現(xiàn)數(shù)據(jù)所存在的質(zhì)量問題。
04、元數(shù)據(jù)可以支持需求變化
隨著信息技術(shù)的發(fā)展和企業(yè)職能的變化,企業(yè)的需求也在不斷地改變。傳統(tǒng)的信息系統(tǒng)往往是通過文檔來適應需求變化,但是僅僅依靠文檔遠遠不夠。
元數(shù)據(jù)獨立于平臺,可以把整個業(yè)務的工作流、數(shù)據(jù)流和信息流有效地管理起來,使得系統(tǒng)不依賴特定的開發(fā)人員,從而提高系統(tǒng)的可擴展性。
四、元數(shù)據(jù)管理功能
元數(shù)據(jù)管理為大數(shù)據(jù)平臺繪制數(shù)據(jù)地圖、統(tǒng)一數(shù)據(jù)口徑、標明數(shù)據(jù)方位、分析數(shù)據(jù)關系、管理模型變更及精確到字段級別的影響分析,打通上下游數(shù)據(jù)繼承關系斷層,為數(shù)據(jù)質(zhì)量維護和業(yè)務邏輯可視化打下堅實基礎。
在這里我們主要對元數(shù)據(jù)管理中數(shù)據(jù)地圖、血緣分析、影響分析功能進行深入了解。
01、數(shù)據(jù)地圖
數(shù)據(jù)地圖以拓撲圖的形式對企業(yè)運營過程中的技術(shù)元數(shù)據(jù)與業(yè)務元數(shù)據(jù)進行分層次的圖形化展現(xiàn),并通過不同層次的圖形展現(xiàn)粒度控制,滿足開發(fā)、運維或者業(yè)務上不同應用場景的圖形查詢和輔助分析需要。
02、血緣分析
血緣分析(也稱血統(tǒng)分析)是指從某一實體出發(fā),往回追溯其處理過程,直到目標分析對象,按照轉(zhuǎn)化關系逐層擴展。
血緣分析直觀的展示目標對象的產(chǎn)生過程,包括從哪些表轉(zhuǎn)換而來,經(jīng)歷了哪些轉(zhuǎn)換,從而幫助業(yè)務人員了解它在此過程中被賦予的含義,以及會受到的影響。
03、影響分析
影響分析描述了信息之間依賴性的細節(jié),分析一個數(shù)據(jù)源發(fā)生變化時帶來的影響。
影響分析反映了當前對象在企業(yè)系統(tǒng)各平臺中,參與了哪些元數(shù)據(jù)的形成。用戶可以借助影響分析觀察該對象的影響能力,即對于當前元數(shù)據(jù)修改,會對哪些后代元數(shù)據(jù)造成影響。
五、結(jié)束語
大數(shù)據(jù)時代下,無法挖掘的數(shù)據(jù)將沒有任何價值,換句話說,如果沒有管理好元數(shù)據(jù),收集和存儲的數(shù)據(jù)都會失去意義,也就沒有業(yè)務價值。
因此,企業(yè)信息化管理者只有重新拾起元數(shù)據(jù),以元數(shù)據(jù)為抓手進行數(shù)據(jù)治理,逐步梳理企業(yè)數(shù)據(jù)、關系,加強管控,才能更好地管理企業(yè)數(shù)據(jù)資產(chǎn)。