自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

六個2023年熱門開源數(shù)據(jù)質(zhì)量管理工具

開源 大數(shù)據(jù)
目前,開源社區(qū)出現(xiàn)了許多數(shù)據(jù)質(zhì)量工具,可選擇的項目越來越多,下面是2023年比較熱門的6個開源數(shù)據(jù)質(zhì)量管理工具。

城市管理、智慧社區(qū)、工業(yè)智能化、智慧金融、智慧醫(yī)療等社會千行百業(yè)的數(shù)字化和智能化發(fā)展,離不開以大數(shù)據(jù)和AI為基礎(chǔ)的技術(shù)體系。我們的社會(或者我們關(guān)注的領(lǐng)域)每天都在產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)有的是生產(chǎn)數(shù)據(jù),有的是行為數(shù)據(jù),如何利用好這些數(shù)據(jù),讓數(shù)據(jù)產(chǎn)生價值就需要對數(shù)據(jù)的產(chǎn)生、收集、管理、應(yīng)用等方面進行數(shù)據(jù)治理。數(shù)據(jù)質(zhì)量是大數(shù)據(jù)領(lǐng)域的一個重要特征,低質(zhì)量的數(shù)據(jù)不僅浪費資源,更影響數(shù)據(jù)計算結(jié)果,數(shù)據(jù)質(zhì)量的高低對大數(shù)據(jù)應(yīng)用價值有著很大影響。因此,數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)治理的一個重要模塊。

數(shù)據(jù)質(zhì)量管理旨在評估和改善數(shù)據(jù)質(zhì)量,提供了識別、測量、監(jiān)控和提高數(shù)據(jù)資產(chǎn)整體質(zhì)量的功能。然而,大數(shù)據(jù)平臺建設(shè)初期,數(shù)據(jù)質(zhì)量往往是一個容易被忽視的領(lǐng)域,隨著數(shù)據(jù)架構(gòu)的不斷成熟以及開源數(shù)據(jù)質(zhì)量工具的發(fā)展,數(shù)據(jù)質(zhì)量管理逐步得到重視和改善。

目前,開源社區(qū)出現(xiàn)了許多數(shù)據(jù)質(zhì)量工具,可選擇的項目越來越多,下面是2023年比較熱門的6個開源數(shù)據(jù)質(zhì)量管理工具。

1.Deequ

GITHUB:https://github.com/awslabs/deequ

隨著Spark的應(yīng)用越來越多,Deequ是一款非常適合用于Spark的質(zhì)量檢測工具,非常適合測試大批量數(shù)據(jù),Spark DataFrame的任何東西都可以使用Deequ進行測試。并將結(jié)果輸出到任何關(guān)系數(shù)據(jù)庫、CSV文件或者日志等。Spark的作業(yè)主要使用Scala或Python語言編寫,對于原生Scala,Deequ可以直接使用,但對于Python,就需要一個名為PyDeequ的包裝器。

pip install pydeequ

相關(guān)文檔可以參考:https://pydeequ.readthedocs.io/en/latest/README.html

2.dbt Core

GITHUB:https://github.com/dbt-labs/dbt-core

dbt是一個數(shù)據(jù)管道開發(fā)平臺,支持動態(tài)SQL、模板和建模等功能。dbt的一個重要特性是自動化測試,用戶可以使用dbt執(zhí)行全面數(shù)據(jù)測試、數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)驗證??梢栽跀?shù)據(jù)管道、數(shù)據(jù)源和目標數(shù)據(jù)之上使用dbt執(zhí)行的質(zhì)量檢測模型,例如:數(shù)據(jù)范式(3NF及以上)模型、維度模型和數(shù)據(jù)倉庫模型。

dbt除了提供數(shù)據(jù)測試和數(shù)據(jù)質(zhì)量功能,在應(yīng)用生態(tài)上,許多公司還為dbt擴展數(shù)據(jù)質(zhì)量功能。例如:Elementary,它能夠總結(jié)dbt中的所有內(nèi)容,提供數(shù)據(jù)質(zhì)量監(jiān)控指標、數(shù)據(jù)新鮮度、數(shù)據(jù)異常信息和異常數(shù)據(jù)分析的功能。 

3.MobyDQ

GITHUB:https://github.com/ubisoft

DEMO:https://ubisoft.github.io/mobydq/pages/demo/

MobyDQ是數(shù)據(jù)工程團隊的一個工具,可以自動對數(shù)據(jù)管道進行數(shù)據(jù)質(zhì)量檢查,捕獲數(shù)據(jù)質(zhì)量問題并在異常情況下觸發(fā)警報,無論他們使用的數(shù)據(jù)源是什么。

數(shù)據(jù)質(zhì)量檢測工具MobyDQ可以獨立運行于開發(fā)環(huán)境和測試環(huán)境。而在生產(chǎn)環(huán)境中,MobyDQ也支持使用Docker或Kubernetes容器運行。  MobyDQ的數(shù)據(jù)質(zhì)量框架主要側(cè)重四大質(zhì)量指標:完整性、新鮮度、響應(yīng)時間和有效性。MobyDQ支持豐富的數(shù)據(jù)源,例如:MySQL、PostgreSQL、Teradata、Hive、Snowflake和MariaDB等。 MobyDQ允許用戶使用其GraphQL API運行測試,支持將此API與Python 或 JavaScript之類的編程語言一起使用,另外,MobyDQ在結(jié)構(gòu)化數(shù)據(jù)測試方面,它還提供了基于Hive,PostgreSQL,MySQL等數(shù)據(jù)源的Demo。

4.Great Expectations

https://github.com/great-expectations/great_expectations

Great Expectations(GX)可以數(shù)據(jù)工程師進行質(zhì)量檢測、創(chuàng)建分析文檔來提高團隊成員對數(shù)據(jù)的理解。

Great Expectations(GX)是最受歡迎的數(shù)據(jù)質(zhì)量管理工具之一。創(chuàng)建Great Expectations的核心思想是:“instead of just testing code, and we should be testing data. After all, that’s where the complexity lives.”

意思是:“不僅僅是測試代碼,更應(yīng)該測試數(shù)據(jù)。畢竟,數(shù)據(jù)才是復(fù)雜性所在?!?/p>

GX期望通過連接到數(shù)據(jù)源運行事先定義好的集成模板來檢測數(shù)據(jù)。在官方指南中,可以找到更多關(guān)于GX與Databasericks、Flyte、Prefect和EMR等工具和平臺集成的信息。目前Great Expectation維護非常積極,并且已被Vimeo、Calm、ING、Glovo、Avito、DeliveryHero、Atlan和Heineken等公司使用。

        GX規(guī)范了“數(shù)據(jù)的預(yù)期狀態(tài)”。GX與數(shù)據(jù)源的集成意味著所有的數(shù)據(jù)質(zhì)量檢查都在適當?shù)奈恢猛瓿?,并且沒有數(shù)據(jù)被移出數(shù)據(jù)源。GX還可通過自動化數(shù)據(jù)質(zhì)量檢測、實時監(jiān)測結(jié)果記錄以及運行摘要來支持數(shù)據(jù)質(zhì)量管理。GX還可以直接與Airflow , Meltano等工具集成。支持將質(zhì)量檢測結(jié)果保存到各種數(shù)據(jù)庫或者文件系統(tǒng)中。

5.Soda Core

https://github.com/sodadata

Soda Core是一個Python開發(fā)的開源數(shù)據(jù)質(zhì)量工具,旨在確保數(shù)據(jù)平臺中的數(shù)據(jù)可靠性。它附帶了命令行工具。支持SodaCL(Soda Checks Language),SodaCL是一種兼容YAML,可靠的,用于特定領(lǐng)域的語言。Soda Core可以連接到數(shù)據(jù)源和工作流,確保數(shù)據(jù)不論在管道內(nèi)還是管道外都能夠被檢測。Soda Core支持廣泛的數(shù)據(jù)源、連接器和測試類型,它是目前開源項目中對數(shù)據(jù)連接器覆蓋最全面的數(shù)據(jù)質(zhì)量工具,如Dask、DuckDB、Dremio等。

Soda Core Python庫的主要目標之一是能夠?qū)\行檢查數(shù)據(jù)源來查找數(shù)據(jù)源中的數(shù)據(jù)質(zhì)量問題。Soda Core支持使用命令行執(zhí)行SodaCL檢查文件以完成預(yù)定義規(guī)則的掃描任務(wù),命令行任務(wù)的方式和使用Soda Core運行查詢來執(zhí)行質(zhì)量檢測一樣。

6.Cucumber

https://github.com/cucumber/

Cucumber框架其實并非一個真正意義上的數(shù)據(jù)質(zhì)量檢測工具。但它卻能夠與pytest-bdd測試庫集成,以支持基于行為驅(qū)動的開發(fā)和測試。

Cucumber的核心特性在于不需要考慮開發(fā)人員、數(shù)據(jù)工程師或安全工程師的需求,而是以最終用戶為中心編寫測試要求,因此在Cucumber中只需要使用簡單的英語說明填充預(yù)定義的測試模板,便可完成新的測試要求。

Cucumber的目標是讓你編寫任何人都能理解的測試要求,大大減輕工作難度??梢詫ucumber與任何編排和工作流引擎集成在一起,比如 Jenkins、 Airflow等等,實現(xiàn)測試用例的編寫和執(zhí)行。

以上六種比較熱門的開源數(shù)據(jù)質(zhì)量檢測工具,您可以將這些工具與現(xiàn)代數(shù)據(jù)管理系統(tǒng)一起使用,以測試和監(jiān)控數(shù)據(jù)質(zhì)量,并設(shè)置警報,實現(xiàn)數(shù)據(jù)質(zhì)量可視化和可分析,以便更深入地了解數(shù)據(jù)平臺的整體狀態(tài)。

責(zé)任編輯:趙寧寧 來源: andflow
相關(guān)推薦

2023-12-26 08:37:41

2012-12-06 11:31:40

虛擬化

2022-06-16 11:06:07

開源Grafanaon-call

2023-03-07 14:21:57

2021-08-23 11:35:00

工具yyds開源

2019-12-19 14:42:40

開源數(shù)據(jù)科學(xué)項目

2022-06-20 14:57:50

漏洞安全威脅

2023-10-22 11:47:37

大數(shù)據(jù)質(zhì)量管理

2025-02-28 10:20:17

2023-11-20 22:40:30

2022-12-19 14:38:59

2019-12-17 17:54:16

程序員軟件編程語言

2020-02-26 11:50:19

RSAC2020安全工具網(wǎng)絡(luò)安全

2019-10-12 14:47:58

Excel大數(shù)據(jù)數(shù)據(jù)庫

2014-09-10 09:20:01

2024-11-14 12:00:00

Python開源大數(shù)據(jù)

2023-10-30 14:49:43

2015-03-31 09:49:56

Docker開發(fā)工具開發(fā)工具分類

2023-03-05 16:57:04

2023-03-29 15:26:45

點贊
收藏

51CTO技術(shù)棧公眾號