自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

25個熱門新數(shù)據(jù)工具

新聞
當今快速發(fā)展的數(shù)據(jù)生態(tài)系統(tǒng)中有數(shù)十種新工具。 他們一起以令人興奮,高效且通常令人驚訝的方式重塑數(shù)據(jù)工作。 下十年的數(shù)據(jù)前景已經(jīng)播下,并且正在瘋狂增長。

 "等等,工具X和工具Y是否一起工作? 我認為他們具有競爭力。"

當今快速發(fā)展的數(shù)據(jù)生態(tài)系統(tǒng)中有數(shù)十種新工具。 他們一起以令人興奮,高效且通常令人驚訝的方式重塑數(shù)據(jù)工作。 下十年的數(shù)據(jù)前景已經(jīng)播下,并且正在瘋狂增長。

事實證明,培育一個新的生態(tài)系統(tǒng)很麻煩。

 

[[334823]]

混亂

混亂的一個癥狀是,即使其中的一些工具不具競爭力,它們中的許多工具也被認為具有競爭力。

虛假競爭的感覺不足為奇,因為:

  • 工具之間有很多重疊的功能。 部分原因是工具和產(chǎn)品需要"保留"基本功能-有時是在不是主要重點的領(lǐng)域;
  • 增長軌跡和類別邊界仍然不確定;
  • 甚至在給定的利基市場中,還沒有一種工具無處不在。
  • 鼓勵企業(yè)家在推介風投和銷售產(chǎn)品時都講"大故事"。

因此,混亂是自然的。

這也很糟糕。 這對試圖集中精力的工具制造者不利,對試圖評估市場的投資者不利,尤其對于試圖利用優(yōu)秀新工具選項來構(gòu)建生產(chǎn)性數(shù)據(jù)堆棧的數(shù)據(jù)科學家和工程師尤其不利。

清晰的時間

這篇博客文章是Sarah Catanzaro(Amplify Partners的合伙人),Abe Gong(Superduct / Great Expectations的聯(lián)合創(chuàng)始人)和我本人(Data Council&Data Community Fund的創(chuàng)始人)之間的合作,旨在消除混亂和糾結(jié)。 它源于創(chuàng)業(yè)社區(qū)中厭倦了"等待,您不是競爭對手?"之類的人之間的對話。

我們已經(jīng)遇到足夠多的問題來識別模式了。 我們已經(jīng)看到了它們對采用和協(xié)作造成的不幸影響。 現(xiàn)在該采取措施了。

您的工具不能做什么?

為了解決這個問題,我們聯(lián)系了數(shù)據(jù)生態(tài)系統(tǒng)中的數(shù)十位企業(yè)家和開源維護者,并提出了兩個問題:

1.您最擅長的工具是什么?

2.您的工具不能做什么?

我們的搜索范圍僅限于開源項目和B系列之前的公司。 回答簡短簡短,并進行了編輯以保持清晰。

下面列出了所有參與工具,并按其響應順序列出了這些工具。

生態(tài)系統(tǒng)的混亂不會在一夜之間消除,但我們希望這篇文章是一個好的開始。

工具與答案

  • Great Expectations/Superconductive:Great Expectations特別擅長測試數(shù)據(jù)系統(tǒng)并從這些測試創(chuàng)建文檔。 寄予厚望的同時也進行數(shù)據(jù)分析。 寄予厚望是高度可插入和可擴展的,并且是完全開源的。 它不是管道執(zhí)行框架或數(shù)據(jù)版本控制工具。
  • Databand:Databand是DataOps解決方案,其獨特的優(yōu)勢在于可以監(jiān)視生產(chǎn)管道并在工作流代碼,數(shù)據(jù)或系統(tǒng)級別檢測問題,并幫助工程師對問題進行根本原因分析。 數(shù)據(jù)帶不是管道編排,數(shù)據(jù)質(zhì)量測試或數(shù)據(jù)版本控制的解決方案。
  • Dolt / Liquidata:Dolt是具有Git版本控制的SQL數(shù)據(jù)庫。 您可以像在Git中一樣對SQL數(shù)據(jù)庫進行提交,比較,克隆,提取,分支和合并。 Dolt是用于共享數(shù)據(jù)的獨特好格式。 Dolt不是為特定的數(shù)據(jù)用例(例如功能存儲或數(shù)據(jù)轉(zhuǎn)換)設計的。 Dolt是可以在這些用例中應用的通用數(shù)據(jù)庫。
  • Bayes:Bayes是一種可視化的探索性數(shù)據(jù)分析工具。 它會指導您進行建議的可視化操作,并通過基于交互式敘事的報告實現(xiàn)輕松,可解釋的見解共享。 Bayes不是商業(yè)智能儀表板,也不是供程序員使用的基于代碼的筆記本。
  • Hex:Hex是一個計算筆記本平臺,擅長共享。 用戶可以連接到數(shù)據(jù),進行分析,然后輕松構(gòu)建組織中任何人都可以使用的完全交互式,精美的應用程序。 Hex不是ML工程平臺或圖表工具。
  • Sisu數(shù)據(jù):Sisu是一個主動分析平臺,非常適合快速探索復雜的企業(yè)數(shù)據(jù)并幫助分析師解釋關(guān)鍵業(yè)務指標為何在變化。 Sisu可以在幾秒鐘內(nèi)測試數(shù)億個假設,并引導用戶找到影響很大的變革驅(qū)動力。 Sisu既不是預測工具或模型構(gòu)建工具,也不是描述性儀表板。
  • Ascend:Ascend獨特地擅長以更少的代碼構(gòu)建,運行和優(yōu)化僅云數(shù)據(jù)管道。 Ascend將數(shù)據(jù)鏈接到生成它的代碼,從而通過自動維護,數(shù)據(jù)概要分析,沿襲跟蹤,成本優(yōu)化以及易于集成到數(shù)據(jù)庫,倉庫,筆記本和BI工具的方式來建立聲明性數(shù)據(jù)管道。 Ascend不是通用的Spark解決方案,而是位于最上面的數(shù)據(jù)工程平臺。
  • Dataform:數(shù)據(jù)形式獨特地擅長于幫助您管理數(shù)據(jù)倉庫中的數(shù)百個數(shù)據(jù)集。 Dataform幫助團隊將原始數(shù)據(jù)轉(zhuǎn)換為一組定義明確,經(jīng)過測試和記錄在案的數(shù)據(jù)集以進行分析。 數(shù)據(jù)格式不是提取工具。
  • DataKitchen:DataKitchen是一個DataOps處理工具,獨特地擅長將連續(xù)部署,可觀察性,測試和環(huán)境管理帶入復雜的數(shù)據(jù)科學和分析領(lǐng)域。 DataKitchen自動執(zhí)行分析創(chuàng)建/部署工作流,管道執(zhí)行,代碼/數(shù)據(jù)測試以及管道監(jiān)視/維護。 DataKitchen不是數(shù)據(jù)科學,ETL或?qū)S镁幣殴ぞ摺?/li>
  • Snorkel:Snorkel是用于以編程方式構(gòu)建訓練數(shù)據(jù)集的平臺。 在Snorkel中,用戶可以編寫標簽功能,而無需手工標記數(shù)據(jù),Snorkel使用理論上扎實的建模技術(shù)將其結(jié)合在一起。 呼吸管與無監(jiān)督學習無關(guān)。 它是一個在環(huán)人員平臺,致力于從根本上加速用戶如何將其領(lǐng)域知識注入ML模型。
  • Transform (stealth):Transform正在構(gòu)建度量標準存儲庫,以確保企業(yè)可以以標準化,格式合理且有組織的方式捕獲度量標準定義,以簡化分析并以信心和速度進行決策。 轉(zhuǎn)換不是數(shù)據(jù)流水線框架或商業(yè)智能工具。
  • Materialize:Materialize非常擅長在流數(shù)據(jù)之上執(zhí)行和維護PostgreSQL查詢(包括聯(lián)接),使這些查詢在高吞吐量下以毫秒級的延遲保持最新狀態(tài)。 Materialize不是時間序列數(shù)據(jù)庫或其他流式微服務平臺。
  • Data Hub/ LinkedIn:DataHub是一個由元數(shù)據(jù)提供支持的搜索和發(fā)現(xiàn)應用程序,旨在提高AI和數(shù)據(jù)科學的生產(chǎn)率。 它具有獨特的流優(yōu)先的分布式元數(shù)據(jù)體系結(jié)構(gòu),已使其在LinkedIn的人員和大數(shù)據(jù)規(guī)模上獲得成功。 它不是數(shù)據(jù)集成或處理工具,也不是用于運行數(shù)據(jù)質(zhì)量檢查的協(xié)調(diào)器。
  • Prefect:Prefect是一種工作流程編排工具,可讓您使用純Python API定義任務流,并使用現(xiàn)代的可擴展基礎(chǔ)結(jié)構(gòu)輕松部署它們。 Prefect為您提供了建立健壯管道所需的語義,例如重試,日志記錄,緩存,狀態(tài)轉(zhuǎn)換回調(diào),故障通知等,而又不會妨礙代碼。 Prefect不是非代碼工具或基礎(chǔ)結(jié)構(gòu)提供程序。
  • Mara / Project A:Mara擅長將SQL,Bash和Python腳本組合到管道中。 從命令行或通過Web UI運行管道。 本地執(zhí)行,沒有隊列,沒有工人,沒有魔術(shù)。 Mara不是計劃,數(shù)據(jù)移動或依賴關(guān)系檢測工具。
  • dbt / Fishtown Analytics:dbt擅長在數(shù)據(jù)倉庫中創(chuàng)建,維護和記錄基于SQL的業(yè)務邏輯DAG。 dbt不是通用的工作編排器。
  • Watchful:Watchful獨特地擅長于快速,大規(guī)模地創(chuàng)建高質(zhì)量,帶有概率標記的訓練數(shù)據(jù),而無需大批人工貼標簽。 通過Watchful,您可以通過反饋快速構(gòu)建,測試和原型化模型。 它不是托管標簽服務或分析工具。
  • Preset:Preset是Apache Superset的制造商基于SaaS的數(shù)據(jù)探索和可視化平臺。 預設與可視化和數(shù)據(jù)消耗有關(guān),它不是計算或編排平臺。
  • Kedro:Kedro展示了數(shù)據(jù)和ML管道的軟件工程優(yōu)秀實踐。 Kedro使用可重現(xiàn)的分析工作流程,I / O抽象和管道建模,實現(xiàn)了從實驗到生產(chǎn)的無縫過渡。 Kedro不是工作流程協(xié)調(diào)器或?qū)嶒灨櫩蚣堋?/li>
  • Toro數(shù)據(jù):Toro獨特地擅長于幫助團隊在其數(shù)據(jù)上部署監(jiān)視,建議監(jiān)視哪些內(nèi)容并使其易于執(zhí)行而無需編寫和部署代碼。 Toro不會清理或轉(zhuǎn)換數(shù)據(jù),也不會原生控制管道/工作流程。
  • Tecton:Tecton擅長策劃和提供功能。 Tecton不是數(shù)據(jù)處理引擎(例如Spark)或模型管理工具。 相反,它利用現(xiàn)有的數(shù)據(jù)處理引擎來處理原始批處理/流/實時數(shù)據(jù),將其轉(zhuǎn)換為功能,并部署這些功能以進行培訓和提供服務。
  • Dagster / Elementl:Dagster是一個數(shù)據(jù)協(xié)調(diào)器,擅長為本地開發(fā),測試,部署和操作構(gòu)建數(shù)據(jù)應用程序。 Dagster管道組件可以使用任何語言或框架進行創(chuàng)作,并通過通用的元數(shù)據(jù)和工具組合在一起以形成統(tǒng)一的數(shù)據(jù)應用程序。 Dagster不是處理引擎,也不是數(shù)據(jù)倉庫/對象存儲。
  • Select Star:Select Star是解決數(shù)據(jù)發(fā)現(xiàn)問題的數(shù)據(jù)目錄和管理工具。 它在幫助您理解數(shù)據(jù)方面具有獨特的優(yōu)勢,即您擁有的數(shù)據(jù),數(shù)據(jù)的存放位置,結(jié)構(gòu)和使用方式。 Select Star不提供SQL客戶端或ETL處理。
  • Monte Carlo (stealth):Monte Carlo是一個數(shù)據(jù)可靠性平臺,其中包括數(shù)據(jù)監(jiān)視,故障排除和事件管理。 蒙特卡洛不是測試框架,管道或版本控制工具。
  • Flyte / Lyft:Flyte獨特地擅長迭代開發(fā)可伸縮的,容器本機的和可重復的管道,這些管道連接不同的分布式系統(tǒng),同時使數(shù)據(jù)流處于中心位置。 Flyte不是機器學習平臺,但可以成為其中的核心組件。

開始對話

我們編制這份清單的愿望是雙重的。 一方面,我們想贊揚這些驚人的工具,創(chuàng)始人和OSS領(lǐng)導者,以推動我們的數(shù)據(jù)工具生態(tài)系統(tǒng)的發(fā)展。 另一方面,我們希望圍繞社區(qū)清楚地了解這些工具的故意局限性展開有益的對話。 沒有人能比所有人做得更好。 甚至是創(chuàng)新者!

我們希望本文能夠為我們現(xiàn)代的數(shù)據(jù)工具生態(tài)系統(tǒng)野生花園提供有益的啟示。 祝愿它在我們有意培育的過程中繼續(xù)蓬勃發(fā)展。

 

責任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2020-04-26 08:22:53

前端網(wǎng)站工具代碼

2018-08-27 09:00:00

網(wǎng)站缺陷跟蹤工具調(diào)試工具

2015-12-28 11:17:30

Java機器學習工具

2014-12-19 10:55:17

Linux性能監(jiān)控

2015-09-10 10:59:34

大數(shù)據(jù)趨勢

2023-10-29 16:44:39

數(shù)據(jù)質(zhì)量管理開源

2015-07-03 11:36:00

AngularJS 開發(fā)工具

2015-10-29 09:46:29

PHP開發(fā)工具

2023-12-26 08:37:41

2021-08-02 09:00:00

DevOps工具開發(fā)

2017-02-21 15:00:06

Android

2015-01-22 12:25:43

開源項目.NET開源

2021-12-13 16:16:42

Java開發(fā)工具

2023-05-29 14:07:00

WebHaikei應用程序

2023-09-08 10:21:46

TypeScript前端工具

2023-02-17 12:06:06

2019-05-15 10:42:26

超算芯片計算機

2015-04-15 09:28:45

JavaScript熱門工具

2023-12-06 12:51:00

容器編排工具

2018-07-18 06:54:15

數(shù)據(jù)存儲初創(chuàng)公司存儲
點贊
收藏

51CTO技術(shù)棧公眾號