七個流行的開源數(shù)據(jù)治理工具
數(shù)字化時代,數(shù)據(jù)是已經(jīng)成為最寶貴的資產(chǎn)之一。數(shù)據(jù)支撐著我們的政府、企業(yè)以及各類組織的所有流程,并為決策以及智能化服務提供支撐。大數(shù)據(jù)有大用途,但是也可能隱藏著巨大的風險,特別是如果我們對數(shù)據(jù)的情況不是很了解的時候,我們便不能夠掌握到底存儲了什么信息以及如何使用它,在一堆數(shù)據(jù)中是否存在垃圾數(shù)據(jù)或者可能被遺忘的高質(zhì)量數(shù)據(jù),甚至是否存在數(shù)據(jù)安全問題。
因此,我們需要有效地治理數(shù)據(jù)。
什么是數(shù)據(jù)治理?
數(shù)據(jù)治理是一種管理框架,通過定義和實施組織范圍內(nèi)的數(shù)據(jù)管理政策、標準和流程,確保數(shù)據(jù)的準確性、一致性、安全性和合規(guī)性。它涉及數(shù)據(jù)的創(chuàng)建、存儲、使用和銷毀的整個生命周期,旨在最大化數(shù)據(jù)的價值,降低數(shù)據(jù)風險,并支持業(yè)務決策和運營的有效性。
數(shù)據(jù)治理相關的概念
在介紹數(shù)據(jù)治理平臺之前,我們對一些數(shù)據(jù)治理相關的概念有所了解。
數(shù)據(jù)治理相關的概念名詞涵蓋了多個領域,從數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量到數(shù)據(jù)隱私和安全等。以下是一些常見的概念名詞:
- 數(shù)據(jù)湖 (Data Lake):一種存儲海量原始數(shù)據(jù)的系統(tǒng)或存儲庫,數(shù)據(jù)通常以原生格式存儲,供以后進行分析。數(shù)據(jù)湖支持結(jié)構化、半結(jié)構化和非結(jié)構化數(shù)據(jù)的存儲和處理。
- 數(shù)據(jù)倉庫 (Data Warehouse):用于整合來自多個來源的數(shù)據(jù),通常經(jīng)過清洗和轉(zhuǎn)化,存儲在一個中心位置,支持企業(yè)的分析和報告需求。數(shù)據(jù)倉庫更注重結(jié)構化數(shù)據(jù)的長期存儲和優(yōu)化查詢性能。
- 數(shù)據(jù)發(fā)現(xiàn) (Data Discovery):數(shù)據(jù)發(fā)現(xiàn)是識別、瀏覽和分析數(shù)據(jù)的過程,通常涉及從不同來源收集數(shù)據(jù)并將其組織和展示給用戶,使其能夠發(fā)現(xiàn)有用的模式、趨勢或見解。數(shù)據(jù)發(fā)現(xiàn)工具通常具備強大的可視化功能,以幫助用戶更直觀地理解數(shù)據(jù)。
- 元數(shù)據(jù)管理 (Metadata Management):管理描述數(shù)據(jù)的數(shù)據(jù),即元數(shù)據(jù),包括數(shù)據(jù)的來源、使用方式、格式等信息。
- 數(shù)據(jù)目錄 (Data Catalog):數(shù)據(jù)目錄是一個集中的存儲庫,用于組織和管理數(shù)據(jù)資產(chǎn)的元數(shù)據(jù)。它提供了數(shù)據(jù)資產(chǎn)的描述性信息,使用戶能夠輕松查找和理解他們需要的數(shù)據(jù)。數(shù)據(jù)目錄通常包括數(shù)據(jù)的來源、位置、格式、使用說明、數(shù)據(jù)質(zhì)量信息等,并支持數(shù)據(jù)的分類、標記和搜索功能。數(shù)據(jù)目錄的目的是提高數(shù)據(jù)可發(fā)現(xiàn)性和可用性,幫助組織更高效地管理和利用數(shù)據(jù)資源。
- 數(shù)據(jù)質(zhì)量 (Data Quality):確保數(shù)據(jù)準確性、一致性、完整性和及時性的過程。
- 數(shù)據(jù)血緣 (Data Lineage):描述數(shù)據(jù)在其生命周期中從源頭到最終目的地的流動和變更的跟蹤。數(shù)據(jù)血緣圖幫助理解數(shù)據(jù)的來源、傳遞路徑、變換過程,以及這些過程中的責任歸屬。
- 數(shù)據(jù)清洗 (Data Cleansing or Data Cleaning):識別并修復或刪除數(shù)據(jù)集中的錯誤、重復、不完整或不一致數(shù)據(jù)的過程。數(shù)據(jù)清洗是確保數(shù)據(jù)質(zhì)量的關鍵步驟。
- 數(shù)據(jù)治理框架 (Data Governance Framework):數(shù)據(jù)治理框架是用于定義和實施數(shù)據(jù)治理的結(jié)構性模型,通常包括政策、流程、角色和職責、技術工具等,以確保組織內(nèi)的數(shù)據(jù)管理實踐一致、可控和有效。
- 數(shù)據(jù)治理策略 (Data Governance Strategy):數(shù)據(jù)治理策略是組織為實現(xiàn)其數(shù)據(jù)治理目標而制定的總體計劃,包含具體的目標、方法和實施步驟。
- 數(shù)據(jù)安全分類 (Data Security Classification):根據(jù)數(shù)據(jù)的敏感度和價值,將數(shù)據(jù)劃分為不同的安全級別,以確定適當?shù)谋Wo措施。例如,數(shù)據(jù)可以分為公開、內(nèi)部使用、保密和高度機密等類別。
- 數(shù)據(jù)訪問管理 (Data Access Management):管理誰可以訪問哪些數(shù)據(jù)以及他們可以對數(shù)據(jù)執(zhí)行的操作。數(shù)據(jù)訪問管理通過權限控制和角色管理,確保數(shù)據(jù)的安全和合規(guī)。
- 數(shù)據(jù)治理工具集 (Data Governance Toolkit):包括一組用于支持數(shù)據(jù)治理活動的工具和技術,例如元數(shù)據(jù)管理工具、數(shù)據(jù)質(zhì)量管理工具、數(shù)據(jù)血緣工具、數(shù)據(jù)目錄工具等。
- 數(shù)據(jù)隱私影響評估 (Data Privacy Impact Assessment, DPIA):在處理個人數(shù)據(jù)之前進行的一種評估,目的是識別和減輕數(shù)據(jù)處理活動對數(shù)據(jù)隱私的潛在風險。DPIA通常在合規(guī)要求下進行,特別是涉及GDPR等法規(guī)。
- 數(shù)據(jù)主權管理 (Data Sovereignty Management):管理與數(shù)據(jù)主權相關的法規(guī)和政策,確保數(shù)據(jù)處理和存儲符合所在國家或地區(qū)的法律要求。
- 主數(shù)據(jù)管理 (Master Data Management, MDM):集中管理核心業(yè)務實體(如客戶、產(chǎn)品、供應商等)的主數(shù)據(jù),確保數(shù)據(jù)一致性和準確性。
- 數(shù)據(jù)架構 (Data Architecture):數(shù)據(jù)在組織中結(jié)構化和組織方式的設計與實施。
- 數(shù)據(jù)生命周期管理 (Data Lifecycle Management, DLM):管理數(shù)據(jù)從創(chuàng)建、存儲、使用、到銷毀的整個生命周期的流程和策略。
- 數(shù)據(jù)隱私 (Data Privacy):保護個人數(shù)據(jù)不被未經(jīng)授權的訪問和處理的實踐與法律要求。
- 數(shù)據(jù)安全 (Data Security):保護數(shù)據(jù)免受未經(jīng)授權的訪問、泄露、修改或銷毀的措施和技術。
- 數(shù)據(jù)主權 (Data Sovereignty):數(shù)據(jù)受其所在國家或地區(qū)的法律和政策的約束。
- 數(shù)據(jù)治理委員會 (Data Governance Committee):負責監(jiān)督和指導組織內(nèi)數(shù)據(jù)治理工作的跨職能團隊。
- 數(shù)據(jù)治理政策 (Data Governance Policy):為組織內(nèi)數(shù)據(jù)治理提供指導方針和框架的正式文檔。
- 數(shù)據(jù)分類 (Data Classification):根據(jù)數(shù)據(jù)的敏感性、重要性等因素對數(shù)據(jù)進行分類,以便制定適當?shù)墓芾砗捅Wo措施。
- 數(shù)據(jù)所有權 (Data Ownership):明確哪些部門或個人對特定數(shù)據(jù)資產(chǎn)負責。
- 數(shù)據(jù)標準 (Data Standards):確保數(shù)據(jù)一致性和互操作性的規(guī)則和指南。
- 數(shù)據(jù)治理工具 (Data Governance Tools):支持數(shù)據(jù)治理實施和管理的軟件工具和平臺,如Informatica、Collibra等。
數(shù)據(jù)治理的組成有哪些?
從系統(tǒng)的角度看,數(shù)據(jù)治理有10個重要組成,用于滿足組織在每個知識領域的數(shù)據(jù)管理需求。
(1) 人
數(shù)據(jù)治理專業(yè)人員、數(shù)據(jù)管理員和其他關鍵業(yè)務和IT人員是數(shù)據(jù)治理計劃的骨干。他們建立和開發(fā)工作流程,以確保滿足企業(yè)數(shù)據(jù)治理要求。
(2) 數(shù)據(jù)戰(zhàn)略
數(shù)據(jù)治理團隊在組織的企業(yè)數(shù)據(jù)戰(zhàn)略的開發(fā)和實施路線圖中起著至關重要的作用。數(shù)據(jù)戰(zhàn)略是一個執(zhí)行文檔,它提供了企業(yè)對數(shù)據(jù)的高層次需求,并確保這些需求得到滿足。建立企業(yè)數(shù)據(jù)戰(zhàn)略是組織數(shù)據(jù)管理之旅的重要一步。
(3) 數(shù)據(jù)流程
數(shù)據(jù)治理計劃需要建立數(shù)據(jù)管理的關鍵數(shù)據(jù)流程。這些包括數(shù)據(jù)問題跟蹤或解決、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)共享、數(shù)據(jù)沿襲跟蹤、影響分析、數(shù)據(jù)質(zhì)量測試等。
(4) 數(shù)據(jù)政策
數(shù)據(jù)策略是一個或多個聲明的高級集合,這些聲明陳述了對數(shù)據(jù)的期望和預期結(jié)果,這些數(shù)據(jù)會影響和指導企業(yè)級別的數(shù)據(jù)習慣。數(shù)據(jù)治理計劃為數(shù)據(jù)管理建立數(shù)據(jù)治理策略。政策包括出站數(shù)據(jù)共享、遵守法規(guī)等。
(5) 標準和規(guī)則
數(shù)據(jù)標準提供了一個框架和方法,以確保遵守數(shù)據(jù)策略。數(shù)據(jù)規(guī)則指導或約束行為,以確保遵守數(shù)據(jù)標準,從而提供數(shù)據(jù)策略的合規(guī)性。
(6) 數(shù)據(jù)安全
數(shù)據(jù)安全涉及保護數(shù)字數(shù)據(jù)(如數(shù)據(jù)庫中的數(shù)據(jù))免受授權和未授權用戶的破壞性力量和不必要的操作。這些不受歡迎的用戶活動指的是間諜活動、網(wǎng)絡攻擊或數(shù)據(jù)泄露。
(7) 溝通
數(shù)據(jù)治理溝通包括與需要了解數(shù)據(jù)治理團隊活動的協(xié)會受眾進行的所有書面、口頭和電子交互。溝通計劃包括所有溝通的目的、目標和工具,從一開始就應該是治理計劃的一部分。該計劃確定了如何向各利益攸關方和組織的其他人員介紹治理和管理方面的挑戰(zhàn)和成功經(jīng)驗。溝通計劃突出正確的業(yè)務案例并展示其結(jié)果。
(8) 社會化
數(shù)據(jù)治理的社會化是任何治理計劃中的重要活動。數(shù)據(jù)治理社會化計劃是一個幫助將數(shù)據(jù)治理活動集成到組織的策略、內(nèi)部文化、層次結(jié)構和流程中的計劃。該計劃是該組織所獨有的,因為它是根據(jù)其組織文化和行為標準量身定制的。
(9) 業(yè)務指標和KPI指標
建立業(yè)務指標和關鍵性能指標(KPI)來監(jiān)控和衡量數(shù)據(jù)治理計劃的總體業(yè)務影響,這對于計劃的成功至關重要。指標和KPI必須是可測量的,可以隨時間跟蹤,并且每年都以相同的方式進行測量。
(10) 技術支撐
執(zhí)行數(shù)據(jù)治理計劃需要各種技術支撐,包括框架、工具等,用于使流程自動化。
數(shù)據(jù)治理的關鍵要素
從關鍵技術功能的角度看,數(shù)據(jù)治理的關鍵要素包括:
- 數(shù)據(jù)目錄:集中存儲組織內(nèi)的元數(shù)據(jù),幫助用戶快速發(fā)現(xiàn)和理解所需數(shù)據(jù),提升數(shù)據(jù)管理效率,減少冗余,確保適當?shù)脑L問控制。
- 數(shù)據(jù)質(zhì)量:確保數(shù)據(jù)準確性、完整性和新鮮度,支持可靠的數(shù)據(jù)驅(qū)動決策,是數(shù)據(jù)治理的核心要素。
- 數(shù)據(jù)分類:根據(jù)數(shù)據(jù)的敏感性和價值進行分類,便于應用合適的安全措施,降低風險,確保數(shù)據(jù)質(zhì)量和保護。
- 數(shù)據(jù)安全:通過訪問控制保護敏感數(shù)據(jù),防止未經(jīng)授權的訪問,確保數(shù)據(jù)安全和法規(guī)遵從,增強客戶信任。
- 審計數(shù)據(jù)權利和訪問:通過有效的數(shù)據(jù)訪問審計,識別并防范未授權訪問,減少數(shù)據(jù)濫用風險,確保合規(guī)性。
- 數(shù)據(jù)血緣:追蹤數(shù)據(jù)的來源和流動,確保數(shù)據(jù)質(zhì)量,支持合規(guī)性和可信度,減少審計和調(diào)試工作量。
- 數(shù)據(jù)發(fā)現(xiàn):幫助團隊快速定位和利用數(shù)據(jù)資產(chǎn),促進協(xié)作和創(chuàng)新,避免數(shù)據(jù)重復,提升數(shù)據(jù)利用效率。
- 數(shù)據(jù)共享和協(xié)作:安全地在內(nèi)部和外部團隊之間交換數(shù)據(jù),控制敏感信息的使用,支持數(shù)據(jù)驅(qū)動的創(chuàng)新和合規(guī)性。
開源數(shù)據(jù)治理工具
在開源領域有哪些比較出名的數(shù)據(jù)治理工具呢?
1.OpenMetadata
https://github.com/open-metadata/OpenMetadata
開發(fā)語言:TypeScript、Java、Python
OpenMetadata是一個統(tǒng)一的元數(shù)據(jù)平臺,用于數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)可觀察和數(shù)據(jù)治理,由中央元數(shù)據(jù)存儲庫、深入的列級沿襲和無縫的團隊協(xié)作提供支持。OpenMetadata基于開放元數(shù)據(jù)標準和API,支持連接到各種數(shù)據(jù)服務的連接器,支持端到端元數(shù)據(jù)管理,讓您可以自由釋放數(shù)據(jù)資產(chǎn)的價值。
OpenMetadata主要由四個組件組成:
- 元數(shù)據(jù)模式:基于公共抽象和類型的元數(shù)據(jù)的核心定義和詞匯表。還支持自定義擴展和屬性,以適應不同的用例和域。
- 元數(shù)據(jù)存儲區(qū):用于存儲和管理元數(shù)據(jù)圖的中央存儲庫,它以統(tǒng)一的方式連接數(shù)據(jù)資產(chǎn)、用戶和工具生成的元數(shù)據(jù)。
- 元數(shù)據(jù)API:用于生成和使用元數(shù)據(jù)的接口,構建在元數(shù)據(jù)模式之上。它們支持用戶界面和工具、系統(tǒng)和服務與元數(shù)據(jù)存儲的無縫集成。
- 攝取框架:這是一個可插入的框架,用于將元數(shù)據(jù)從各種源和工具攝取到元數(shù)據(jù)存儲。它支持大約75個連接器,用于數(shù)據(jù)倉庫、數(shù)據(jù)庫、儀表板服務、消息傳遞服務、管道服務等。
總體架構如下圖所示:
OpenMetadata的主要特點包括:
- 數(shù)據(jù)發(fā)現(xiàn):使用各種策略(如關鍵字搜索、數(shù)據(jù)關聯(lián)和高級查詢)在單個位置查找和探索所有數(shù)據(jù)資產(chǎn)。您可以跨表、主題、儀表板、管道和服務進行搜索。
- 數(shù)據(jù)協(xié)作:與其他用戶和團隊就數(shù)據(jù)資產(chǎn)進行溝通、匡威和協(xié)作。您可以獲取事件通知、發(fā)送警報、添加通知、創(chuàng)建任務以及使用會話線程。
- 數(shù)據(jù)質(zhì)量和分析器:測量和監(jiān)控質(zhì)量,無需代碼,以建立對數(shù)據(jù)的信任。您可以定義和運行數(shù)據(jù)質(zhì)量測試,將它們分組到測試套件中,并在交互式儀表板中查看結(jié)果。借助強大的協(xié)作,讓數(shù)據(jù)質(zhì)量成為您組織的共同責任。
- 數(shù)據(jù)治理:在整個組織中實施數(shù)據(jù)策略和標準。您可以定義數(shù)據(jù)域和數(shù)據(jù)產(chǎn)品,分配所有者和利益相關者,并使用標記和術語對數(shù)據(jù)資產(chǎn)進行分類。使用強大的自動化功能對數(shù)據(jù)進行自動分類。
- 數(shù)據(jù)洞察和KPI:使用報告和平臺分析來了解組織的數(shù)據(jù)運行情況。Data Insights提供了所有關鍵指標的單一窗格視圖,以最佳地反映數(shù)據(jù)的狀態(tài)。定義關鍵性能指標(KPI)并在OpenMetadata中設定目標,以實現(xiàn)更好的文檔、所有權和分層??梢葬槍σ谥付ㄓ媱澲薪邮盏腒PI設置警報。
- 數(shù)據(jù)血緣跟蹤:端到端跟蹤和可視化數(shù)據(jù)資產(chǎn)的來源和轉(zhuǎn)換。您可以使用無代碼編輯器手動查看列級沿襲、過濾查詢和編輯沿襲。
- 數(shù)據(jù)文檔:使用富文本、圖像和鏈接記錄數(shù)據(jù)資產(chǎn)和元數(shù)據(jù)實體。您還可以添加注釋和批注,并生成數(shù)據(jù)字典和數(shù)據(jù)目錄。
- 數(shù)據(jù)可觀察性:監(jiān)控數(shù)據(jù)資產(chǎn)和管道的運行狀況和性能。您可以查看數(shù)據(jù)新鮮度、數(shù)據(jù)量、數(shù)據(jù)質(zhì)量和數(shù)據(jù)延遲等指標。您還可以為任何異常或故障設置警報和通知。
- 數(shù)據(jù)安全:使用各種身份驗證和授權機制保護數(shù)據(jù)和元數(shù)據(jù)。您可以與不同的身份提供者集成以實現(xiàn)單點登錄,并定義訪問控制的角色和策略。Webhooks:使用Webhooks與外部應用程序和服務集成。您可以注冊URL以接收元數(shù)據(jù)事件通知,并與Slack、Microsoft Teams和Google Chat集成。
- 連接器:使用連接器從各種源和工具獲取元數(shù)據(jù)。OpenMetadata支持大約75個以上的連接器,用于數(shù)據(jù)倉庫、數(shù)據(jù)庫、儀表板服務、消息服務、管道服務等。
2.Apache Atlas
https://github.com/apache/atlas
開發(fā)語言:Java、javaScript
Apache Atlas是一個數(shù)據(jù)治理開源框架,用于支持數(shù)據(jù)管理團隊能夠在整個組織中協(xié)作管理大數(shù)據(jù)資產(chǎn)和元數(shù)據(jù)。它為復雜的企業(yè)數(shù)據(jù),提供了可擴展的數(shù)據(jù)模型和高度集成的管理解決方案。
他的優(yōu)點包括:
- 高度可擴展、可定制的數(shù)據(jù)治理解決方案:團隊可以使用API請求、發(fā)布-訂閱模型和基于Kafka的消息傳遞輕松地與現(xiàn)有數(shù)據(jù)源集成。
- 提供了靈活的自定義數(shù)據(jù)模型:在數(shù)據(jù)分類、元數(shù)據(jù)屬性、數(shù)據(jù)沿襲跟蹤等方面具有巨大的靈活性。
- 易于與數(shù)據(jù)資產(chǎn)交互:可以使用標準的SQL語法存儲和重用命令,并利用直觀的原生UI,具有跨實體類型、分類、元數(shù)據(jù)或自由文本的復雜搜索功能。
當然缺點也有一些,例如:
- Apache Atlas需要比較專業(yè)的知識。
- Apache Atlas是一個開源數(shù)據(jù)治理框架,而不是一個現(xiàn)成的解決方案。
3.Amundsen
https://github.com/amundsen-io/amundsen
開發(fā)語言:Python、TypeScript
Amundsen是Lyft開發(fā)的數(shù)據(jù)發(fā)現(xiàn)和元數(shù)據(jù)引擎,它通過索引數(shù)據(jù)資源(表、儀表板、流等)來提高數(shù)據(jù)分析師,數(shù)據(jù)科學家和數(shù)據(jù)工程師在與數(shù)據(jù)打交道時的生產(chǎn)力。它還可以基于使用模式(例如,高度查詢的表比較少查詢的表更早出現(xiàn))來驅(qū)動頁面排名風格的搜索。有點類似谷歌搜索。
4.Datahub
https://github.com/datahub-project/datahub/
開發(fā)語言:Java、Python、TypeScript
DataHub是一個開源元數(shù)據(jù)管理平臺,它最初由LinkedIn構建,以滿足其現(xiàn)代數(shù)據(jù)堆棧不斷變化的元數(shù)據(jù)需求。
DataHub支持第三代數(shù)據(jù)目錄、數(shù)據(jù)發(fā)現(xiàn)、協(xié)作、治理和為現(xiàn)代數(shù)據(jù)棧構建的端到端可觀察性。DataHub采用模型優(yōu)先的理念,專注于提升不同工具系統(tǒng)之間的互操作性。
下圖是DataHub的架構:
DataHub的主要亮點有:
- 模式優(yōu)先的元數(shù)據(jù)建模方法:DataHub的元數(shù)據(jù)模型使用序列化不可知語言進行描述。支持REST和GraphQL API。此外,DataHub支持 AVRO-based API ,通過Kafka來傳達元數(shù)據(jù)更改并訂閱它們。我們的路線圖包括一個里程碑,即將支持無代碼元數(shù)據(jù)模型編輯,這將允許更易于使用,同時保留類型化API的所有優(yōu)點。在元數(shù)據(jù)建模中閱讀元數(shù)據(jù)建模。
- 基于流的實時元數(shù)據(jù)管理:DataHub的元數(shù)據(jù)基礎設施是面向流的,它允許在幾秒鐘內(nèi)在平臺內(nèi)傳達和反映元數(shù)據(jù)的變化。還可以訂閱DataHub元數(shù)據(jù)中發(fā)生的變更,使用戶能夠構建實時元數(shù)據(jù)驅(qū)動的系統(tǒng)。例如,可以構建一個訪問控制系統(tǒng),該系統(tǒng)可以觀察歷史數(shù)據(jù)集,添加一個包含PII的新模式字段,并鎖定該數(shù)據(jù)集以進行訪問控制審查。
- 聯(lián)邦元數(shù)據(jù)服務:DataHub附帶了一個元數(shù)據(jù)服務(gms)作為開源存儲庫的一部分。然而,它還支持聯(lián)合元數(shù)據(jù)服務,這些服務可以由不同的團隊擁有和運營。聯(lián)邦服務使用Kafka與中央搜索索引和圖進行通信,以支持全局搜索和數(shù)據(jù)發(fā)現(xiàn),同時仍然支持元數(shù)據(jù)的解耦所有權。這種架構非常適合正在實施數(shù)據(jù)網(wǎng)格的公司。
5.Magda
https://github.com/magda-io/magda
開發(fā)語言:Java、TypeScript
Magda是一個面向大型組織的開源聯(lián)合數(shù)據(jù)目錄平臺。其目標是通過提供一個用于記錄、跟蹤、增強和利用從CSV文件到大型數(shù)據(jù)庫的資產(chǎn)的單一平臺。
因此,對于那些需要處理大量較小的數(shù)據(jù)集的團隊來說,這是一個特別合適的產(chǎn)品。
Magda的優(yōu)點包括:
- 容易啟動和運行是Magda的一個優(yōu)勢。它提供了一鍵部署到云、本地基礎設施或使用Kubernetes和Helm的本地機器。
- Magda搜索功能也特別強大,能夠根據(jù)同義詞、用戶行為、地理空間數(shù)據(jù)和數(shù)據(jù)質(zhì)量反饋數(shù)據(jù)資產(chǎn)信息。
- Madga的另一個優(yōu)勢是連接數(shù)據(jù)源相對容易。我們可以使用CSV文件、庫存工具、RDBMS、現(xiàn)有的元數(shù)據(jù)API和RESTful API添加一系列數(shù)據(jù)集。
Magda的缺點有:
- Magda缺乏一些高級的可視化功能。
- 雖然提供了基于角色的訪問控制,但它在創(chuàng)建更細粒度的訪問策略方面效果較差。
- Magda的目標通常是讓用戶能夠輕松處理各種數(shù)據(jù)源,但處理非結(jié)構化或快速變化的數(shù)據(jù)可能會帶來更多困難。
技術架構:
在技術架構方面,Magda是基于微服務體系構建的,這些微服務作為Docker容器分發(fā)。這樣做是為了提供簡單的可擴展性。Magda可以通過使用任何技術作為Docker鏡像來添加定制服務,并通過穩(wěn)定的HTTP API將它們與系統(tǒng)的其余部分集成。使用Helm和Kubernetes進行編排意味著定制的Magda實例的配置可以以純文本形式存儲和跟蹤,并且可以快速輕松地復制具有相同配置的實例。架構圖如下:
6.Egeria
https://github.com/odpi/egeria
開發(fā)語言:Java
Egeria是一個以企業(yè)為中心的工具,專注于跨組織的元數(shù)據(jù)管理。
因此,它對于需要高度自動化的集成解決方案的團隊來說可能是一個很好的選擇,例如跨平臺元數(shù)據(jù)交換。
優(yōu)點:
- Egeria的核心是使團隊能夠使用專業(yè)服務器自動化元數(shù)據(jù)捕獲,搜索和管理,該服務器在不同的連接平臺上同步信息。
- 它還提供了極高級別的連接和集成,包括API、元數(shù)據(jù)存儲庫、JDBC、文件連接器、加密存儲等。目標是使內(nèi)部使用不同平臺的團隊能夠無縫地共享信息。
缺點:
- Egeria的用戶界面功能相對有限。只提供一個通用的管理GUI,包括一個可搜索的目錄,這有一點局限。如果我們想創(chuàng)建更高級的或特定場景的UI,我們需要自己開發(fā)這些UI。
7.TrueDat
https://github.com/Bluetab
TrueDat是一個非常成熟的開源數(shù)據(jù)治理工具,可以幫助客戶成為數(shù)據(jù)驅(qū)動型的公司。TrueDat是由BlueTab(現(xiàn)在是IBM的一家公司)在了解了市場作為數(shù)據(jù)解決方案提供商的需求并找到了數(shù)據(jù)治理領域的空白之后創(chuàng)建的。
其優(yōu)點包括:
- TrueDat為配置數(shù)據(jù)目錄和EDM提供了一個相對現(xiàn)代化、精簡的界面,特別是與本綜述中的其他一些平臺相比。例如,我們可以使用實體模板來快速管理屬性、元數(shù)據(jù)、權限和策略。
- 還有用于自動發(fā)現(xiàn)和編目連接的數(shù)據(jù)源,降低使用門檻,使其成為業(yè)務用戶更可行的選擇。我們甚至可以使用自己的LLM在企業(yè)環(huán)境中生成元數(shù)據(jù)。
除此之外,TrueDat在報告方面特別強大。它具有與Metadata的原生集成,為用戶提供了極大的靈活性,可以圍繞其數(shù)據(jù)質(zhì)量和使用情況提取和可視化見解。
但是TrueDat也有許多缺點,例如:
盡管是一個開源項目,但TrueDat明顯缺乏開源配套信息。特別是文檔有點少,而且也沒有生產(chǎn)部署相關的信息。
總結(jié)下面用一張矩陣表總結(jié)了這幾個開源數(shù)據(jù)治理工具的主要功能。矩陣用Yes和No表示是否有提供相關功能,但是,實際上這些工具在這些功能的實現(xiàn)程度并不一樣。
產(chǎn)品 | 數(shù)據(jù)血緣 | 業(yè)務術語表 | 標簽/分類 | 標簽/分類傳播 | 基于角色的訪問控制(RBAC) | 基于屬性的訪問控制(ABAC) | 數(shù)據(jù)共享 |
Amundsen | Yes | No | Yes | Yes | No | No | No |
DataHub | Yes | Yes | Yes | Yes^ | Yes^ | No | No |
Atlas | Yes | Yes | Yes | Yes | Yes | No | No |
Magda | No | No | Yes | Yes | Yes | Yes | Yes |
OpenMetadata | Yes | No | Yes | No | Yes^ | No | No |
TrueDat | Yes | Yes | Yes | Yes | Yes | No | Yes |
Egeria | Yes | Yes | Yes | Yes | Yes | No | Yes |