自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

15個(gè)熱門開源免費(fèi)的數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)質(zhì)量管理工具

開發(fā) 開發(fā)工具
ERD Online 是全球第一個(gè)開源、免費(fèi)在線數(shù)據(jù)建模、元數(shù)據(jù)AI平臺(tái)。集成ChatGPT,提供簡單易用的元數(shù)據(jù)設(shè)計(jì)、關(guān)系圖設(shè)計(jì)、SQL審批查詢等功能,輔以版本、導(dǎo)入、導(dǎo)出、數(shù)據(jù)源、SQL解析、審計(jì)、團(tuán)隊(duì)協(xié)作等功能,方便我們快速、安全的管理數(shù)據(jù)庫中的元數(shù)據(jù)。

數(shù)據(jù),已成為互聯(lián)網(wǎng)企業(yè)非常依賴的新型重要資產(chǎn)?!坝脭?shù)據(jù)說話”也越來越成為一種共識(shí),然而并非任何數(shù)據(jù)都可以用來說話。

智能數(shù)據(jù)挖掘與處理技術(shù)智能數(shù)據(jù)挖掘與處理技術(shù)

在數(shù)字化時(shí)代,海量數(shù)據(jù)成為了各行各業(yè)的寶貴資產(chǎn)。然而,僅僅擁有大量數(shù)據(jù)并不足以帶來商業(yè)價(jià)值,關(guān)鍵在于如何從這些數(shù)據(jù)中提取有用的信息和洞察。數(shù)據(jù)挖掘和數(shù)據(jù)分析成為了實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵工具,可以幫助企業(yè)發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的價(jià)值,做出更明智的決策。

我們身處信息爆炸的時(shí)代,我們每個(gè)人每天都要和無數(shù)的數(shù)據(jù)打交道,對(duì)從事大數(shù)據(jù)行業(yè)的人來說更是如此。在大數(shù)據(jù)行業(yè)有三個(gè)熱門的技術(shù)詞匯:數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)質(zhì)量。

大數(shù)據(jù)分析師技能圖譜大數(shù)據(jù)分析師技能圖譜

隨著組織不斷發(fā)展壯大,組織內(nèi)部數(shù)據(jù)量劇增,數(shù)據(jù)系統(tǒng)存在大量無效冗余舊數(shù)據(jù),錯(cuò)誤數(shù)據(jù),殘缺數(shù)據(jù)的情況,影響后續(xù)數(shù)據(jù)處理分析,使管理層決策失誤。問題數(shù)據(jù)頻繁出現(xiàn)的背后,是組織數(shù)據(jù)質(zhì)量管理不善導(dǎo)致的。

數(shù)據(jù)質(zhì)量是數(shù)據(jù)的生命線,沒有高質(zhì)量的數(shù)據(jù),一切數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)應(yīng)用基于錯(cuò)誤數(shù)據(jù),數(shù)據(jù)價(jià)值會(huì)大打折扣,甚至出現(xiàn)完全錯(cuò)誤的結(jié)論,浪費(fèi)組織大量時(shí)間和精力,得不償失。

這個(gè)時(shí)候肯定會(huì)有不少的粉絲會(huì)咨詢,數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)質(zhì)檢三者之間有啥區(qū)別呢?

簡而言之:數(shù)據(jù)分析一般是具有明確的分析目標(biāo)的,而數(shù)據(jù)挖掘則是要從海量的數(shù)據(jù)中尋找潛在的規(guī)律從而獲取價(jià)值。

  • 數(shù)據(jù)分析旨在從海量業(yè)務(wù)數(shù)據(jù)中獲得有用信息,以便更好地為決策服務(wù)。

數(shù)據(jù)分析的完整流程圖數(shù)據(jù)分析的完整流程圖

  • 數(shù)據(jù)挖掘,顧名思義,就像從沙子中挖掘黃金。

數(shù)據(jù)挖掘全過程數(shù)據(jù)挖掘全過程

  • 數(shù)據(jù)質(zhì)量含義還是比較好理解的。簡單一點(diǎn)來說,就是對(duì)數(shù)據(jù)進(jìn)行的質(zhì)量檢測(cè)。這個(gè)就不過多解釋。

數(shù)據(jù)質(zhì)量問題數(shù)據(jù)質(zhì)量問題

他們主要區(qū)別體現(xiàn)在以下幾個(gè)方面:

  • 數(shù)據(jù)分析的重點(diǎn)在于觀察數(shù)據(jù),而數(shù)據(jù)挖掘的重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的有價(jià)值的規(guī)律。
  • 數(shù)據(jù)分析主要依賴人工的技術(shù)操作活動(dòng),而數(shù)據(jù)挖掘主要是依托于計(jì)算機(jī)科學(xué)從龐大的數(shù)據(jù)集中提取有價(jià)值的信息。
  • 通過數(shù)據(jù)分析得到的信息需要人工進(jìn)一步提取價(jià)值,而通過數(shù)據(jù)挖掘得到的規(guī)律結(jié)論可以直接應(yīng)用于業(yè)務(wù)進(jìn)行預(yù)測(cè)。
  • 數(shù)據(jù)分析不能直接建立數(shù)學(xué)模型,需要人工建模,而數(shù)據(jù)挖掘可以自動(dòng)完成。傳統(tǒng)的控制論建模本質(zhì)就是描述輸入變量與輸出變量之間的函數(shù)關(guān)系。數(shù)據(jù)挖掘可以利用機(jī)器學(xué)習(xí)技術(shù)自動(dòng)建立輸入與輸出的函數(shù)關(guān)系,根據(jù)數(shù)據(jù)中的規(guī)律給出輸入?yún)?shù),得出輸出量。

借此機(jī)會(huì),今天小編給大家15個(gè)熱門開源免費(fèi)的數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)質(zhì)量管理工具,值得學(xué)習(xí)收藏,讓正在從事大數(shù)據(jù)小伙們有頭緒和對(duì)數(shù)據(jù)挖掘、數(shù)據(jù)分析思路,希望對(duì)更多粉絲們有所幫助。同時(shí)祝福大家一切順利,心想事成,永遠(yuǎn)開心快樂,身體健康,愿你的生活更加充實(shí),愿你的未來更加輝煌。接下來小編給大家介紹一些開源免費(fèi)的數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)質(zhì)量管理工具,喜歡的小伙們記得點(diǎn)個(gè)贊和收藏。

全文大綱

  1. SZT-bigdata - 深圳地鐵大數(shù)據(jù)客流分析系統(tǒng)
  2. dbt-core - 是一個(gè)數(shù)據(jù)管道開發(fā)平臺(tái),支持動(dòng)態(tài)SQL、模板和建模等功能。
  3. erd-online - 是全球第一個(gè)開源、免費(fèi)在線數(shù)據(jù)建模、元數(shù)據(jù)AI平臺(tái)。
  4. LarkMidTable - 是一站式開源的數(shù)據(jù)中臺(tái),實(shí)現(xiàn)元數(shù)據(jù)管理,數(shù)據(jù)倉庫開發(fā),數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)的可視化,實(shí)現(xiàn)高效賦能數(shù)據(jù)前臺(tái)并提供數(shù)據(jù)服務(wù)的產(chǎn)品。
  5. datacap - 是用于數(shù)據(jù)轉(zhuǎn)換、集成和可視化的集成軟件。支持多種數(shù)據(jù)源、文件類型、大數(shù)據(jù)相關(guān)數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫等。
  6. Qualitis - 是一個(gè)支持多種異構(gòu)數(shù)據(jù)源的質(zhì)量校驗(yàn)、通知、管理服務(wù)的數(shù)據(jù)質(zhì)量管理平臺(tái)
  7. deequ - 是一款非常適合用于Spark的質(zhì)量檢測(cè)工具
  8. datax-cloud - 是為數(shù)字化建設(shè)而生的企業(yè)級(jí)一站式數(shù)據(jù)治理平臺(tái)。
  9. piflow - 混合型科學(xué)大數(shù)據(jù)流水線系統(tǒng)。
  10. great_expectations - 是最受歡迎的數(shù)據(jù)質(zhì)量管理工具之一。
  11. TipDM - 建模平臺(tái)提供數(shù)據(jù)豐富的數(shù)據(jù)預(yù)處理、 數(shù)據(jù)分析與數(shù)據(jù)挖掘組件,是開源的數(shù)據(jù)挖掘工具。
  12. Deta_Unicorn_ETL - 數(shù)據(jù)可視化, 數(shù)據(jù)挖掘, 數(shù)據(jù)處理 ETL分析系統(tǒng)
  13. soda-core - 是一個(gè)Python開發(fā)的開源數(shù)據(jù)質(zhì)量工具
  14. bboss-elastic-tran - 由 bboss 開源的數(shù)據(jù)采集&流批一體化工具
  15. mobydq - 是數(shù)據(jù)工程團(tuán)隊(duì)的一個(gè)工具,可以自動(dòng)對(duì)數(shù)據(jù)管道進(jìn)行數(shù)據(jù)質(zhì)量檢查,捕獲數(shù)據(jù)質(zhì)量問題并在異常情況下觸發(fā)警報(bào)

SZT-bigdata - 深圳地鐵大數(shù)據(jù)客流分析系統(tǒng)

Github:https://github.com/geekyouth/SZT-bigdata

介紹

  • 該項(xiàng)目主要分析深圳通刷卡數(shù)據(jù),通過大數(shù)據(jù)技術(shù)角度來研究深圳地鐵客運(yùn)能力,探索深圳地鐵優(yōu)化服務(wù)的方向;
  • 強(qiáng)調(diào)學(xué)以致用,本項(xiàng)目的原則是盡可能使用較多的常用技術(shù)框架,加深對(duì)各技術(shù)棧的理解和運(yùn)用,在使用過程中體驗(yàn)各框架的差異和優(yōu)劣,為以后的項(xiàng)目開發(fā)技術(shù)選型做基礎(chǔ);
  • 解決同一個(gè)問題,可能有多種技術(shù)實(shí)現(xiàn),實(shí)際的企業(yè)開發(fā)應(yīng)當(dāng)遵守最佳實(shí)踐原則;
  • 學(xué)習(xí)過程優(yōu)先選擇較新的軟件版本,因?yàn)樾掳娌瓤右欢ū壤习娓?,坑踩的多了,技能也就提高了,遇到新問題可以見招拆招、對(duì)癥下藥;

dbt-core - 是一個(gè)數(shù)據(jù)管道開發(fā)平臺(tái),支持動(dòng)態(tài)SQL、模板和建模等功能。

Github:https://github.com/dbt-labs/dbt-core

dbt 官網(wǎng)dbt 官網(wǎng)

介紹

dbt?是一個(gè)SQL優(yōu)先的轉(zhuǎn)換工作流,使團(tuán)隊(duì)能夠按照模塊化、可移植性、CI/CD和文檔等軟件工程最佳實(shí)踐快速協(xié)作地部署分析代碼?,F(xiàn)在,數(shù)據(jù)團(tuán)隊(duì)中的任何人都可以安全地為生產(chǎn)級(jí)數(shù)據(jù)管道做出貢獻(xiàn)。

dbt是一個(gè)數(shù)據(jù)管道開發(fā)平臺(tái),支持動(dòng)態(tài)SQL、模板和建模等功能。dbt的一個(gè)重要特性是自動(dòng)化測(cè)試,用戶可以使用dbt執(zhí)行全面數(shù)據(jù)測(cè)試、數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)驗(yàn)證??梢栽跀?shù)據(jù)管道、數(shù)據(jù)源和目標(biāo)數(shù)據(jù)之上使用dbt執(zhí)行的質(zhì)量檢測(cè)模型,例如:數(shù)據(jù)范式(3NF及以上)模型、維度模型和數(shù)據(jù)倉庫模型。

dbt除了提供數(shù)據(jù)測(cè)試和數(shù)據(jù)質(zhì)量功能,在應(yīng)用生態(tài)上,許多公司還為dbt擴(kuò)展數(shù)據(jù)質(zhì)量功能。例如:Elementary,它能夠總結(jié)dbt中的所有內(nèi)容,提供數(shù)據(jù)質(zhì)量監(jiān)控指標(biāo)、數(shù)據(jù)新鮮度、數(shù)據(jù)異常信息和異常數(shù)據(jù)分析的功能。

系統(tǒng)截圖

erd-online - 是全球第一個(gè)開源、免費(fèi)在線數(shù)據(jù)建模、元數(shù)據(jù)AI平臺(tái)。

Gitee:https://gitee.com/MARTIN-88/erd-online

介紹

ERD Online 是全球第一個(gè)開源、免費(fèi)在線數(shù)據(jù)建模、元數(shù)據(jù)AI平臺(tái)。集成ChatGPT,提供簡單易用的元數(shù)據(jù)設(shè)計(jì)、關(guān)系圖設(shè)計(jì)、SQL審批查詢等功能,輔以版本、導(dǎo)入、導(dǎo)出、數(shù)據(jù)源、SQL解析、審計(jì)、團(tuán)隊(duì)協(xié)作等功能,方便我們快速、安全的管理數(shù)據(jù)庫中的元數(shù)據(jù)。

特性

  •  開箱即用:將注意力集中在數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)上
  •  團(tuán)隊(duì)協(xié)作:三級(jí)權(quán)限(擁有者、管理員、普通角色)管理,元素級(jí)權(quán)限控制
  •  元數(shù)據(jù)設(shè)計(jì):快速復(fù)制已有表結(jié)構(gòu)、JSON 生成表,表默認(rèn)字段、默認(rèn)大小寫等控制
  •  元數(shù)據(jù)管理:在線管理表結(jié)構(gòu),支持正向向數(shù)據(jù)庫執(zhí)行
  •  元數(shù)據(jù)解析:將已有的數(shù)據(jù)庫結(jié)構(gòu)解析到軟件中管理
  •  多數(shù)源支持:支持多種數(shù)據(jù)庫連接在線管理(Mysql、Oracle、DB2、SqlServer、PostGreSql),各數(shù)據(jù)源之間元數(shù)據(jù)結(jié)構(gòu)同步
  •  版本管理:每個(gè)需求與變動(dòng),都可以生成版本;每個(gè)版本之間可以比對(duì)差異
  •  可將所有表結(jié)構(gòu),自動(dòng)生成 word、html、md 文檔,便于線下流動(dòng)
  •  在線SQL:在線SQL查詢、SQL執(zhí)行計(jì)劃,歷史查詢留痕
  •  永不丟失:元數(shù)據(jù)歷史操作版本留痕(最近9次),可以恢復(fù)到任意歷史版本
  •  數(shù)據(jù)字典:全局?jǐn)?shù)據(jù)字典設(shè)計(jì),控制元數(shù)據(jù)設(shè)計(jì)規(guī)范

發(fā)展里程碑

產(chǎn)品圖鑒

系統(tǒng)截圖

LarkMidTable - 是一站式開源的數(shù)據(jù)中臺(tái),實(shí)現(xiàn)元數(shù)據(jù)管理,數(shù)據(jù)倉庫開發(fā),數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)的可視化,實(shí)現(xiàn)高效賦能數(shù)據(jù)前臺(tái)并提供數(shù)據(jù)服務(wù)的產(chǎn)品。

Gitee:https://gitee.com/LarkMidTable/LarkMidTable

介紹

LarkMidTable 中文名稱 云雀,云代表大數(shù)據(jù),雀代表平凡和自由。

LarkMidTable 是一站式開源的數(shù)據(jù)中臺(tái),實(shí)現(xiàn)中臺(tái)的基礎(chǔ)建設(shè),數(shù)據(jù)治理,數(shù)據(jù)開發(fā),監(jiān)控告警,數(shù)據(jù)服務(wù),數(shù)據(jù)的可視化,實(shí)現(xiàn)高效賦能數(shù)據(jù)前臺(tái)并提供數(shù)據(jù)服務(wù)的產(chǎn)品。

產(chǎn)品架構(gòu)圖產(chǎn)品架構(gòu)圖


系統(tǒng)截圖

datacap - 是用于數(shù)據(jù)轉(zhuǎn)換、集成和可視化的集成軟件。支持多種數(shù)據(jù)源、文件類型、大數(shù)據(jù)相關(guān)數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫等。

Github:https://github.com/devlive-community/datacap

介紹

DataCap 是用于數(shù)據(jù)轉(zhuǎn)換、集成和可視化的集成軟件。

支持多種數(shù)據(jù)源、文件類型、大數(shù)據(jù)相關(guān)數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫等。

通過軟件可以實(shí)現(xiàn)多數(shù)據(jù)源的管理,對(duì)源下的數(shù)據(jù)進(jìn)行各種操作轉(zhuǎn)換、制作數(shù)據(jù)圖表、監(jiān)控?cái)?shù)據(jù)源和其他功能。

系統(tǒng)截圖

Qualitis - 是一個(gè)支持多種異構(gòu)數(shù)據(jù)源的質(zhì)量校驗(yàn)、通知、管理服務(wù)的數(shù)據(jù)質(zhì)量管理平臺(tái)

Gitee:https://gitee.com/WeBank/Qualitis

介紹

Qualitis是一個(gè)支持多種異構(gòu)數(shù)據(jù)源的質(zhì)量校驗(yàn)、通知、管理服務(wù)的數(shù)據(jù)質(zhì)量管理平臺(tái),用于解決業(yè)務(wù)系統(tǒng)運(yùn)行、數(shù)據(jù)中心建設(shè)及數(shù)據(jù)治理過程中的各種數(shù)據(jù)質(zhì)量問題。

Qualitis基于Spring Boot,依賴于Linkis進(jìn)行數(shù)據(jù)計(jì)算,提供數(shù)據(jù)質(zhì)量模型構(gòu)建,數(shù)據(jù)質(zhì)量模型執(zhí)行,數(shù)據(jù)質(zhì)量任務(wù)管理,異常數(shù)據(jù)發(fā)現(xiàn)保存以及數(shù)據(jù)質(zhì)量報(bào)表生成等功能。并提供了金融級(jí)數(shù)據(jù)質(zhì)量模型資源隔離,資源管控,權(quán)限隔離等企業(yè)特性,具備高并發(fā),高性能,高可用的大數(shù)據(jù)質(zhì)量管理能力。

核心特點(diǎn)

  • 數(shù)據(jù)質(zhì)量模型定義支持以下數(shù)據(jù)模型定義:1.單表校驗(yàn)數(shù)據(jù)模型。2.跨表校驗(yàn)數(shù)據(jù)模型。3.自定義校驗(yàn)數(shù)據(jù)模型。同時(shí),系統(tǒng)預(yù)置了多個(gè)數(shù)據(jù)質(zhì)量校驗(yàn)?zāi)0?,包括空值校?yàn),枚舉校驗(yàn)等常用校驗(yàn),并且支持自定義數(shù)據(jù)質(zhì)量模版。
  • 數(shù)據(jù)質(zhì)量模型調(diào)度支持?jǐn)?shù)據(jù)質(zhì)量模型調(diào)度。
  • 數(shù)據(jù)質(zhì)量報(bào)表支持生成數(shù)據(jù)質(zhì)量報(bào)表。
  • 日志管理 日志聚合管理,方便排查數(shù)據(jù)質(zhì)量任務(wù)
  • 異常數(shù)據(jù)管理 支持異常數(shù)據(jù)提取和存儲(chǔ),快速定位問題
  • 支持工作流 支持在工作流當(dāng)中進(jìn)行數(shù)據(jù)質(zhì)量校驗(yàn)工作流必裝DataSphereStudio.
  • 管理員控制臺(tái)提供管理員控制臺(tái)界面,支持人員管理,權(quán)限管理,權(quán)限管理,元數(shù)據(jù)管理等管理功能。

與類似系統(tǒng)對(duì)比

架構(gòu)圖

用例圖

系統(tǒng)截圖

deequ - 是一款非常適合用于Spark的質(zhì)量檢測(cè)工具

Github:https://github.com/awslabs/deequ

介紹

Deequ是一個(gè)建立在Apache Spark之上的庫,用于定義“數(shù)據(jù)單元測(cè)試”,測(cè)量大型數(shù)據(jù)集中的數(shù)據(jù)質(zhì)量。

隨著Spark的應(yīng)用越來越多,Deequ是一款非常適合用于Spark的質(zhì)量檢測(cè)工具,非常適合測(cè)試大批量數(shù)據(jù),Spark DataFrame的任何東西都可以使用Deequ進(jìn)行測(cè)試。并將結(jié)果輸出到任何關(guān)系數(shù)據(jù)庫、CSV文件或者日志等。Spark的作業(yè)主要使用Scala或Python語言編寫,對(duì)于原生Scala,Deequ可以直接使用,但對(duì)于Python,就需要一個(gè)名為PyDeequ的包裝器。

datax-cloud - 是為數(shù)字化建設(shè)而生的企業(yè)級(jí)一站式數(shù)據(jù)治理平臺(tái)。

Gitee:https://gitee.com/yuwei1203/datax-cloud

介紹

智數(shù)通提供了元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、主數(shù)據(jù)管理、數(shù)據(jù)集市管理、可視化圖表看板、流程管理等微服務(wù),是為數(shù)字化建設(shè)而生的企業(yè)級(jí)一站式數(shù)據(jù)治理平臺(tái)。

特性

  • 智數(shù)通服務(wù)理念:平臺(tái)化、資產(chǎn)化、服務(wù)化,及圍繞“平臺(tái)化”、“資產(chǎn)化”、“服務(wù)化”,聚焦數(shù)智場(chǎng)景,賦能行業(yè)生態(tài),讓數(shù)據(jù)產(chǎn)生價(jià)值。
  • 智數(shù)通應(yīng)用微服務(wù)云原生技術(shù),封裝了大量技術(shù)開發(fā)包、技術(shù)應(yīng)用組件、技術(shù)場(chǎng)景實(shí)現(xiàn)能力,提供了一個(gè)可支持企業(yè)各業(yè)務(wù)系統(tǒng)或產(chǎn)品快速開發(fā)實(shí)現(xiàn)的微服務(wù)應(yīng)用數(shù)字化融合平臺(tái),富含各類開箱即用的組件、微服務(wù)業(yè)務(wù)系統(tǒng),助力企業(yè)跨越Cloud與自身數(shù)字化的鴻溝,共享業(yè)務(wù)服務(wù)的組合重用,為企業(yè)服務(wù)化中臺(tái)整合、數(shù)字化轉(zhuǎn)型提供強(qiáng)力支撐,也為企業(yè)提供了最佳架構(gòu)實(shí)踐。智數(shù)通不僅提供了企業(yè)級(jí)應(yīng)用系統(tǒng)所包含的常用開箱即用的模塊,并支持靈活的可配置性和拓展性。智數(shù)通還是一套基于Spring Cloud的微服務(wù)應(yīng)用程序框架,可幫助公司更快,更高效地進(jìn)行微服務(wù)開發(fā)。
  • 智數(shù)通理念認(rèn)為,企業(yè)首先應(yīng)當(dāng)建立集中統(tǒng)一的數(shù)據(jù)中臺(tái),將全域的數(shù)據(jù)都同步到統(tǒng)一的數(shù)據(jù)中臺(tái),基于數(shù)中臺(tái)來進(jìn)行數(shù)據(jù)治理,事半功倍。數(shù)據(jù)存儲(chǔ)統(tǒng)一,可以在后續(xù)的數(shù)據(jù)治理和數(shù)據(jù)業(yè)務(wù)化的過程中實(shí)現(xiàn)數(shù)據(jù)不搬動(dòng),降低數(shù)據(jù)的處理成本;數(shù)據(jù)計(jì)算統(tǒng)一,可以實(shí)現(xiàn)基礎(chǔ)元數(shù)據(jù)的自動(dòng)維護(hù),為數(shù)據(jù)治理打下最堅(jiān)實(shí)的基礎(chǔ)。
  • 智數(shù)通提供了統(tǒng)一的元數(shù)據(jù)自動(dòng)采集和維護(hù)入口,在元數(shù)據(jù)模塊中為數(shù)據(jù)管理提供了準(zhǔn)確實(shí)時(shí)的基礎(chǔ)數(shù)據(jù),在此之上結(jié)合企業(yè)的現(xiàn)狀調(diào)研和咨詢,可以構(gòu)建企業(yè)級(jí)的數(shù)據(jù)資產(chǎn)類目體系和數(shù)據(jù)安全體系;同時(shí),通過數(shù)據(jù)質(zhì)量模塊,實(shí)現(xiàn)數(shù)據(jù)處理的質(zhì)量管控。然后通過數(shù)據(jù)API模塊,為上層豐富的數(shù)據(jù)應(yīng)用價(jià)值實(shí)現(xiàn)提供引擎能力。通過可視化模塊無需搭配任何開發(fā)工具,簡單拖拽和開發(fā),即可完成復(fù)雜的數(shù)據(jù)分析任務(wù)等等。
  • 從數(shù)據(jù)同步、到數(shù)據(jù)開發(fā)、到數(shù)據(jù)管理、到數(shù)據(jù)質(zhì)量控制、到數(shù)據(jù)應(yīng)用價(jià)值實(shí)現(xiàn),智數(shù)通在產(chǎn)品層面對(duì)于指引都能提供支撐,這是將多年大數(shù)據(jù)實(shí)踐經(jīng)驗(yàn)產(chǎn)品化的結(jié)果。智數(shù)通,就是為數(shù)據(jù)治理而生的企業(yè)級(jí)一站式數(shù)據(jù)中臺(tái),為數(shù)據(jù)市場(chǎng)搶占先機(jī)。

架構(gòu)圖

智數(shù)通采用 J2EE 技術(shù)體系,基于Spring Cloud微服務(wù)框架進(jìn)行封裝,平臺(tái)設(shè)計(jì)靈活可擴(kuò)展、可移植、可應(yīng)對(duì)高并發(fā)需求。同時(shí)兼顧本地化、私有云、公有云部署。

主要技術(shù)棧

后端技術(shù)棧

  • 開發(fā)框架:Spring Boot 2.3
  • 微服務(wù)框架:Spring Cloud Hoxton.SR9
  • 安全框架:Spring Security + Spring OAuth 2.0
  • 任務(wù)調(diào)度:Quartz
  • 持久層框架:MyBatis Plus
  • 數(shù)據(jù)庫連接池:Hikaricp
  • 服務(wù)注冊(cè)與發(fā)現(xiàn): Spring Cloud Config
  • 客戶端負(fù)載均衡:Ribbon
  • 熔斷組件:Hystrix
  • 網(wǎng)關(guān)組件:Spring Cloud Gateway
  • 消息隊(duì)列:Rabbitmq
  • 緩存:Redis
  • 日志管理:Logback
  • 運(yùn)行容器:Undertow
  • 工作流: Flowable 6.5.0

前端技術(shù)棧

  • JS框架:Vue、nodejs
  • CSS框架:sass
  • 組件庫:ElementUI
  • 打包構(gòu)建工具:Webpack

系統(tǒng)截圖

piflow - 混合型科學(xué)大數(shù)據(jù)流水線系統(tǒng)。

Gitee:https://gitee.com/opensci/piflow

介紹

混合型科學(xué)大數(shù)據(jù)流水線系統(tǒng),包含豐富的處理器組件,提供Shell、DSL、Web配置界面、任務(wù)調(diào)度、任務(wù)監(jiān)控等功能

特性

  • 簡單易用

可視化配置流水線

監(jiān)控流水線

查看流水線日志

檢查點(diǎn)功能

流水線調(diào)度

  • 擴(kuò)展性強(qiáng):
  • 支持自定義開發(fā)數(shù)據(jù)處理組件
  • 性能優(yōu)越:
  • 基于分布式計(jì)算引擎Spark開發(fā)
  • 功能強(qiáng)大:
  • 提供100+的數(shù)據(jù)處理組件
  • 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
  • 集成了微生物領(lǐng)域的相關(guān)算法

架構(gòu)圖

系統(tǒng)截圖

great_expectations - 是最受歡迎的數(shù)據(jù)質(zhì)量管理工具之一。

Github:https://github.com/great-expectations/great_expectations

介紹

Great Expectations(GX)可以數(shù)據(jù)工程師進(jìn)行質(zhì)量檢測(cè)、創(chuàng)建分析文檔來提高團(tuán)隊(duì)成員對(duì)數(shù)據(jù)的理解。

Great Expectations(GX)是最受歡迎的數(shù)據(jù)質(zhì)量管理工具之一。

GX期望通過連接到數(shù)據(jù)源運(yùn)行事先定義好的集成模板來檢測(cè)數(shù)據(jù)。在官方指南中,可以找到更多關(guān)于GX與Databasericks、Flyte、Prefect和EMR等工具和平臺(tái)集成的信息。目前Great Expectation維護(hù)非常積極,并且已被Vimeo、Calm、ING、Glovo、Avito、DeliveryHero、Atlan和Heineken等公司使用。

GX規(guī)范了“數(shù)據(jù)的預(yù)期狀態(tài)”。GX與數(shù)據(jù)源的集成意味著所有的數(shù)據(jù)質(zhì)量檢查都在適當(dāng)?shù)奈恢猛瓿?,并且沒有數(shù)據(jù)被移出數(shù)據(jù)源。GX還可通過自動(dòng)化數(shù)據(jù)質(zhì)量檢測(cè)、實(shí)時(shí)監(jiān)測(cè)結(jié)果記錄以及運(yùn)行摘要來支持?jǐn)?shù)據(jù)質(zhì)量管理。GX還可以直接與Airflow , Meltano等工具集成。支持將質(zhì)量檢測(cè)結(jié)果保存到各種數(shù)據(jù)庫或者文件系統(tǒng)中。

TipDM - 建模平臺(tái)提供數(shù)據(jù)豐富的數(shù)據(jù)預(yù)處理、 數(shù)據(jù)分析與數(shù)據(jù)挖掘組件,是開源的數(shù)據(jù)挖掘工具。

Gitee:https://gitee.com/guangzhou_TipDM_intelligence_devp/TipDM

介紹

TipDM建模平臺(tái),是由廣東泰迪智能科技股份有限公司研發(fā)并開源的數(shù)據(jù)挖掘工具,TipDM建模平臺(tái)提供數(shù)據(jù)豐富的數(shù)據(jù)預(yù)處理、 數(shù)據(jù)分析與數(shù)據(jù)挖掘組件,幫助廣大中小企業(yè)快速建立數(shù)據(jù)挖掘工程,提升數(shù)據(jù)處理的效能。同時(shí),我們也在積極 推動(dòng)大數(shù)據(jù)挖掘社區(qū)建設(shè),構(gòu)建校企對(duì)接橋梁,為企業(yè)精準(zhǔn)推送優(yōu)質(zhì)大數(shù)據(jù)挖掘人才;在產(chǎn)業(yè)需求的基礎(chǔ)上推動(dòng)高 校的人才培養(yǎng)工作。

特性

  • 基于Python,用于數(shù)據(jù)挖掘建模。
  • 使用直觀的拖放式圖形界面構(gòu)建數(shù)據(jù)挖掘工作流程,無需編程。
  • 支持多種數(shù)據(jù)源,包括CSV文件和關(guān)系型數(shù)據(jù)庫。
  • 支持挖掘流程每個(gè)節(jié)點(diǎn)的結(jié)果在線預(yù)覽。
  • 提供5大類共40種算法組件,包括數(shù)據(jù)預(yù)處理、分類、聚類等數(shù)據(jù)挖掘算法。
  • 支持新增/編輯算法組件,自定義程度高。
  • 提供眾多公開可用的數(shù)據(jù)挖掘示例工程,一鍵創(chuàng)建,快速運(yùn)行。
  • 提供完善的交流社區(qū),提供數(shù)據(jù)挖掘相關(guān)的學(xué)習(xí)資源(數(shù)據(jù)、代碼和模型等)。

系統(tǒng)截圖

Deta_Unicorn_ETL - 數(shù)據(jù)可視化, 數(shù)據(jù)挖掘, 數(shù)據(jù)處理 ETL分析系統(tǒng)

Github:https://github.com/yaoguangluo/ETL_Unicorn

介紹

德塔人工智能數(shù)據(jù)分析ETL可重用節(jié)點(diǎn)工作流處理軟件引擎系統(tǒng)。

這個(gè)工程用于節(jié)點(diǎn)數(shù)據(jù)工作流執(zhí)行。該軟件的亮點(diǎn)為:世界最輕的ETL批處理引擎(6KB)采用VPCS結(jié)構(gòu),啟動(dòng)快,效率高,操作簡單,結(jié)構(gòu)輕,網(wǎng)頁嵌入,執(zhí)行快,高并發(fā),二次開發(fā)簡易,自由修改源碼實(shí)現(xiàn)各種風(fēng)格。

系統(tǒng)截圖

soda-core - 是一個(gè)Python開發(fā)的開源數(shù)據(jù)質(zhì)量工具

Github:https://github.com/sodadata/soda-core

介紹

Soda Core是一個(gè)Python開發(fā)的開源數(shù)據(jù)質(zhì)量工具,旨在確保數(shù)據(jù)平臺(tái)中的數(shù)據(jù)可靠性。它附帶了命令行工具。支持SodaCL(Soda Checks Language),SodaCL是一種兼容YAML,可靠的,用于特定領(lǐng)域的語言。

Soda Core可以連接到數(shù)據(jù)源和工作流,確保數(shù)據(jù)不論在管道內(nèi)還是管道外都能夠被檢測(cè)。

Soda Core支持廣泛的數(shù)據(jù)源、連接器和測(cè)試類型,它是目前開源項(xiàng)目中對(duì)數(shù)據(jù)連接器覆蓋最全面的數(shù)據(jù)質(zhì)量工具,如Dask、DuckDB、Dremio等。

Soda Core是一個(gè)免費(fèi)的、開源的命令行工具和Python庫,使您能夠使用Soda Checks Language將用戶定義的輸入轉(zhuǎn)換為聚合的SQL查詢。

當(dāng)Soda Core在數(shù)據(jù)集上運(yùn)行掃描時(shí),它會(huì)執(zhí)行檢查以查找無效、丟失或意外的數(shù)據(jù)。當(dāng)您的蘇打水檢查失敗時(shí),它們會(huì)顯示您定義為質(zhì)量差的數(shù)據(jù)。

?與SodaCL語言兼容

?支持?jǐn)?shù)據(jù)管道和開發(fā)工作流內(nèi)外的數(shù)據(jù)質(zhì)量測(cè)試

?集成以允許在數(shù)據(jù)管道中進(jìn)行Soda掃描,或按基于時(shí)間的時(shí)間表進(jìn)行編程掃描

bboss-elastic-tran - 由 bboss 開源的數(shù)據(jù)采集&流批一體化工具

Gitee:https://gitee.com/bboss/bboss-elastic-tran

介紹

bboss-datatran由 bboss 開源的數(shù)據(jù)采集同步ETL工具,提供數(shù)據(jù)采集、數(shù)據(jù)清洗轉(zhuǎn)換處理和數(shù)據(jù)入庫以及數(shù)據(jù)指標(biāo)統(tǒng)計(jì)計(jì)算流批一體化處理功能。

bboss-datatran 數(shù)據(jù)同步作業(yè)直接采用java語言開發(fā),小巧而精致,同時(shí)又可以采用java提供的所有功能和現(xiàn)有組件框架,隨心所欲地處理和加工海量存量數(shù)據(jù)、實(shí)時(shí)增量數(shù)據(jù),實(shí)現(xiàn)流批一體數(shù)據(jù)處理功能;可以根據(jù)數(shù)據(jù)規(guī)模及同步性能要求,按需配置和調(diào)整數(shù)據(jù)采集同步作業(yè)所需內(nèi)存、工作線程、線程隊(duì)列大??;可以將作業(yè)獨(dú)立運(yùn)行,亦可以將作業(yè)嵌入基于java開發(fā)的各種應(yīng)用一起運(yùn)行;提供了作業(yè)任務(wù)控制API、作業(yè)監(jiān)控api,支持作業(yè)啟動(dòng)、暫停(pause)、繼續(xù)(resume)、停止控制機(jī)制,可輕松定制一款屬于自己的ETL管理工具。

工具可以靈活定制具備各種功能的數(shù)據(jù)采集統(tǒng)計(jì)作業(yè)

  • 只采集和處理數(shù)據(jù)作業(yè)
  • 采集和處理數(shù)據(jù)、指標(biāo)統(tǒng)計(jì)計(jì)算混合作業(yè)
  • 采集數(shù)據(jù)只做指標(biāo)統(tǒng)計(jì)計(jì)算作業(yè)

特點(diǎn)

  • 支持時(shí)間維度和非時(shí)間維度指標(biāo)計(jì)算
  • 時(shí)間維度指標(biāo)計(jì)算:支持指定統(tǒng)計(jì)時(shí)間窗口,單位到分鐘級(jí)別
  • 一個(gè)指標(biāo)支持多個(gè)維度和多個(gè)度量字段計(jì)算,多個(gè)維度字段值構(gòu)造成指標(biāo)的唯一指標(biāo)key,支持有限基數(shù)key和無限基數(shù)key指標(biāo)計(jì)算
  • 一個(gè)作業(yè)可以支持多種類型的指標(biāo),每種類型指標(biāo)支持多個(gè)指標(biāo)計(jì)算

mobydq - 是數(shù)據(jù)工程團(tuán)隊(duì)的一個(gè)工具,可以自動(dòng)對(duì)數(shù)據(jù)管道進(jìn)行數(shù)據(jù)質(zhì)量檢查,捕獲數(shù)據(jù)質(zhì)量問題并在異常情況下觸發(fā)警報(bào)

Github:https://github.com/ubisoft/mobydq

介紹

MobyDQ是數(shù)據(jù)工程團(tuán)隊(duì)的一個(gè)工具,可以自動(dòng)對(duì)數(shù)據(jù)管道進(jìn)行數(shù)據(jù)質(zhì)量檢查,捕獲數(shù)據(jù)質(zhì)量問題并在異常情況下觸發(fā)警報(bào),無論他們使用的數(shù)據(jù)源是什么。

數(shù)據(jù)質(zhì)量檢測(cè)工具M(jìn)obyDQ可以獨(dú)立運(yùn)行于開發(fā)環(huán)境和測(cè)試環(huán)境。而在生產(chǎn)環(huán)境中,MobyDQ也支持使用Docker或Kubernetes容器運(yùn)行。 MobyDQ的數(shù)據(jù)質(zhì)量框架主要側(cè)重四大質(zhì)量指標(biāo):完整性、新鮮度、響應(yīng)時(shí)間和有效性。MobyDQ支持豐富的數(shù)據(jù)源,例如:MySQL、PostgreSQL、Teradata、Hive、Snowflake和MariaDB等。 MobyDQ允許用戶使用其GraphQL API運(yùn)行測(cè)試,支持將此API與Python 或 JavaScript之類的編程語言一起使用,另外,MobyDQ在結(jié)構(gòu)化數(shù)據(jù)測(cè)試方面,它還提供了基于Hive,PostgreSQL,MySQL等數(shù)據(jù)源的Demo。

截圖


責(zé)任編輯:武曉燕 來源: 今日頭條
相關(guān)推薦

2023-10-29 16:44:39

數(shù)據(jù)質(zhì)量管理開源

2010-12-14 09:37:02

數(shù)據(jù)挖掘工具開源

2015-08-07 09:44:36

開源數(shù)據(jù)中心

2023-10-22 11:47:37

大數(shù)據(jù)質(zhì)量管理

2024-07-05 11:08:21

2023-11-20 22:40:30

2013-09-12 10:03:09

項(xiàng)目管理項(xiàng)目管理工具

2013-09-12 10:19:03

移動(dòng)項(xiàng)目管理

2011-11-10 09:53:52

項(xiàng)目管理

2012-04-20 09:35:53

大數(shù)據(jù)數(shù)據(jù)中心數(shù)據(jù)質(zhì)量管理

2023-10-30 14:49:43

2025-04-21 01:00:00

DbGate數(shù)據(jù)庫開源

2020-07-01 08:45:00

開源開發(fā)工具

2023-08-03 08:15:20

2023-02-06 16:50:46

數(shù)據(jù)治理工具

2011-06-14 14:27:02

Core DataCocoa TouchiOS

2018-06-05 12:06:20

Hadoop開源工具

2023-03-07 14:21:57

2020-07-22 16:27:11

開源工具數(shù)據(jù)挖掘數(shù)據(jù)

2012-12-06 11:31:40

虛擬化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)