自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

幫助你做高級數(shù)據(jù)分析的各類 ETL 工具比較

譯文
大數(shù)據(jù) 數(shù)據(jù)分析
如今對于數(shù)據(jù)的高級分析需要有一套最新的數(shù)據(jù)集成方法。如果需要整合來自數(shù)據(jù)庫、流媒體服務(wù)、文件以及其他來源的數(shù)據(jù),您可以通過本文的介紹,選擇出一個合適的工具平臺。

【51CTO.com快譯】數(shù)據(jù)提取、轉(zhuǎn)換與加載(ETL,Extract-Transform-Load)工具能夠使組織內(nèi)的不同數(shù)據(jù)更易于訪問、更有意義、也更能被其他數(shù)據(jù)系統(tǒng)所使用。通常情況下,面對由此產(chǎn)生的自寫代碼、自建系統(tǒng)的相關(guān)成本和復(fù)雜性時,企業(yè)會直接去選擇購置ETL工具。

[[230076]]

  • 第一種選擇:您可以根據(jù)自身的情況,選擇各種開源的ETL工具(請參考https://www.alooma.com/blog/open-source-etl-tools-comparison),來進行自行搭建。不過您往往會發(fā)現(xiàn)自己需要有更多的功能、靈活性與技術(shù)支持。
  • 第二種選擇:與現(xiàn)有供應(yīng)商合作,選擇一種能夠很好地處理當前數(shù)據(jù)源和數(shù)據(jù)流的解決方案。此處所說的現(xiàn)有供應(yīng)商,一般是一些大品牌的廠商。
  • 第三種選擇:最新的ETL平臺。這些通常是基于云端的解決方案,能夠為現(xiàn)有數(shù)據(jù)源到云端數(shù)據(jù)倉庫的各種數(shù)據(jù)提供端到端的ETL支持。它們也是針對日益增長的、基于網(wǎng)絡(luò)的大數(shù)據(jù)流量所構(gòu)建的。

本文將深入分析各種現(xiàn)有ETL工具的優(yōu)、缺點,并快速瀏覽各種最新的ETL平臺。

現(xiàn)有ETL工具概述

現(xiàn)有的ETL工具通常由業(yè)界知名公司(微軟,IBM等)所設(shè)計,因此其預(yù)裝的客戶群也比較龐大。

這些工具一般由一整套的工具所組成,并且能夠針對具體的問題被予以定制。由于許多公司將其數(shù)據(jù)存儲在傳統(tǒng)的單一數(shù)據(jù)庫和系統(tǒng)之中,因此這些工具的制造商能夠提供用相應(yīng)的數(shù)據(jù)遷移工具,并支持現(xiàn)有的批處理方法。

常見的ETL工具

下面雖不是一份完整的清單,但它涵蓋了主要的工具產(chǎn)品。

1.IBM InfoSphere Information Server

作為一款ETL工具,IBM InfoSphere Information Server是IBM Information Platforms Solutions套件和IBM InfoSphere的一部分。它使用圖形符號來構(gòu)建數(shù)據(jù)的整合方案,并具備各種版本(包括服務(wù)器版,企業(yè)版和MVS版)。

2.Informatica PowerCenter

Informatica PowerCenter是一款ETL產(chǎn)品套件的總稱,它包括PowerCenter客戶端工具、服務(wù)器和存儲數(shù)據(jù)庫。

該軟件將數(shù)據(jù)存儲在庫中,以便客戶端工具和服務(wù)器能夠訪問到。各種操作一般在服務(wù)器上被執(zhí)行,其服務(wù)器分別連接到源與目標系統(tǒng)上以獲取數(shù)據(jù),然后通過各種轉(zhuǎn)換,最終將數(shù)據(jù)加載到目標系統(tǒng)之中。

3.iWay軟件

Information Builders的iWay集成套件具有將應(yīng)用程序與數(shù)據(jù)相集成的功能??蛻艨梢允褂盟鼈儊砉芾斫Y(jié)構(gòu)化、與非結(jié)構(gòu)化的信息。該套件包括有iWay數(shù)據(jù)遷移器、iWay服務(wù)管理器和iWay通用適配器框架。

4.Microsoft SQL Server Integration Services

Microsoft SQL Server集成服務(wù)(SSIS)是一個高性能的數(shù)據(jù)集成方案平臺,它包含了用于數(shù)據(jù)倉庫的各種ETL包。

5.OpenText

OpenText集成中心是一個具有整合能力的平臺,各個企業(yè)能夠通過它來提取、增強、改造、整合數(shù)據(jù),并且可以將數(shù)據(jù)內(nèi)容從一個或多個存儲庫遷移到任何新的目標之上。

6.Oracle GoldenGate

Oracle GoldenGate是一款比較全面的軟件包,它能夠?qū)崿F(xiàn)在異構(gòu)的IT環(huán)境中進行實時的數(shù)據(jù)集成與復(fù)制。

7.Pervasive軟件

Pervasive的數(shù)據(jù)集成平臺是一款企業(yè)級的數(shù)據(jù)集成軟件方案,它能夠幫助公司在任何類型的數(shù)據(jù)源和應(yīng)用程序之間建立起連接。同時,它還能支持各種實時集成的場景。

8.Pitney Bowes軟件

Pitney Bowes能夠提供大量針對數(shù)據(jù)集成的工具和解決方案。其Sagent Data Flow是一款靈活的整合引擎,它能夠采集不同來源的數(shù)據(jù),并提供一套全面的數(shù)據(jù)轉(zhuǎn)換工具,以增強其核心的業(yè)務(wù)價值。

9.SAP Business Objects Data Services

以前被稱為Business Objects Data Integrator的SAP業(yè)務(wù)對象數(shù)據(jù)服務(wù)(BODS)是一款可被用于數(shù)據(jù)集成、質(zhì)量控制、分析和處理的ETL工具。它能夠幫助您將可信的數(shù)據(jù)整合并轉(zhuǎn)換到各個數(shù)據(jù)倉庫的系統(tǒng)之中, 以產(chǎn)生分析報告。

10.SAS Data Management

SAS數(shù)據(jù)管理建立在SAS平臺之上,它是SAS投向ETL市場的一個工具。該平臺由一個包含了(20多種)SAS工具和服務(wù)的大型套件所組成。

11.Sun Java Composite Application Platform Suite

Sun的ETL與數(shù)據(jù)集成工具是大型Java復(fù)合應(yīng)用程序平臺套件(CAPS)中的一部分。它是Oracle公司的一款標準化企業(yè)服務(wù)總體套件(Enterprise Service Bus software suite)。Java CAPS的組件能夠整合現(xiàn)有應(yīng)用程序,并能在面向服務(wù)的架構(gòu)環(huán)境中提供新的業(yè)務(wù)服務(wù)。

12.SYBASE

Sybase ETL包括Sybase ETL Development和Sybase ETL Server。

Sybase ETL Development是一款用于創(chuàng)建和設(shè)計數(shù)據(jù)轉(zhuǎn)換項目與作業(yè)的GUI工具。該工具提供了一個完整的模擬與調(diào)試環(huán)境,旨在加速ETL轉(zhuǎn)換流程的開發(fā)。Sybase ETL Development包含有一臺用于控制實際處理流程的ETL開發(fā)服務(wù)器,它能夠連接到各個數(shù)據(jù)庫,并執(zhí)行相關(guān)過程。

Sybase ETL Server是一種可擴展的分布式網(wǎng)格引擎,它使用轉(zhuǎn)換流(由Sybase ETL Development所設(shè)計)來連接到各個數(shù)據(jù)源,通過提取數(shù)據(jù),然后將數(shù)據(jù)加載到目標之上。

13.Syncsort

SyncSort的云解決方案能夠訪問并整合來自各種來源的數(shù)據(jù),從而于將數(shù)據(jù)遷移到各個云端的存儲數(shù)據(jù)庫之中。

現(xiàn)有ETL工具的局限性

現(xiàn)有工具最大的局限性在于:它們被設(shè)計為“批量進行工作”,即:采集數(shù)據(jù)、上傳數(shù)據(jù)、采集更多的數(shù)據(jù)、再上傳之。這種批量加載數(shù)據(jù)在某些情況下的確適用,但是在某些單獨的方法上會存在一些問題。

數(shù)據(jù)批處理與轉(zhuǎn)換工具很難實現(xiàn)跨平臺的數(shù)據(jù)源采集,特別是在涉及到變更數(shù)據(jù)捕獲(CDC,Change Data Capture)的情況時。當上傳批量數(shù)據(jù)出現(xiàn)問題時,您需要跟蹤問題、排除故障并盡快重新提交作業(yè)。而這種批量處理方式是非常致命的,因為如果在數(shù)據(jù)倉庫中存在著超過24小時的、被API調(diào)用與分配的數(shù)據(jù);或者需要同時備份傳入的數(shù)據(jù),那么這些CDC信息就可能因此而丟失或被覆蓋,從而造成巨大的問題。

而面對越來越多的數(shù)據(jù)流和其他類型的數(shù)據(jù)源時,尤其是在需要盡快提供最新數(shù)據(jù)的需求下,這些批處理的工具集就更加不適合了。

最新ETL工具的概述

最新的ETL工具套件是以實時流量數(shù)據(jù)處理和云計算為基礎(chǔ)所構(gòu)建的。它們與先進的云端數(shù)據(jù)倉庫有著很好的集成,并能夠支持持續(xù)增長的數(shù)據(jù)源和數(shù)據(jù)流。

如今的趨勢是:基于云的ETL服務(wù)。它們通常能夠提供對實時數(shù)據(jù)、智能模式檢測等方面的支持。

隨著對實時數(shù)據(jù)訪問需求的出現(xiàn),諸如Kafka之類的最新模型,都能夠?qū)崿F(xiàn)基于數(shù)據(jù)流的處理和分布式的消息隊列。以Alooma為代表的公司,通過新的技術(shù)提供了基于SaaS平臺和本地的解決方案。面對數(shù)據(jù)流,最新的ETL平臺能夠在完成加載的數(shù)據(jù)倉庫內(nèi)部,進行不同級別的轉(zhuǎn)換,并通過Python、Java等代碼以實現(xiàn)完全控制。

而對于數(shù)據(jù)的完整性,最新的ETL平臺通過強大的內(nèi)置安全網(wǎng)絡(luò),能夠?qū)崿F(xiàn)各種錯誤的處理和報告。

常見的最新ETL平臺和工具

下面列出了常見的最新ETL平臺和工具:

1.Alooma

Alooma是一個為云服務(wù)構(gòu)建的企業(yè)數(shù)據(jù)管道(data pipeline)平臺。Alooma能夠提供一種現(xiàn)代的、可擴展的、基于云端的ETL解決方案,它可以實時地將來自任何數(shù)據(jù)源的數(shù)據(jù)匯集到任何一個數(shù)據(jù)倉庫之中。

  • 錯誤處理:處理、監(jiān)控/報告、整流(restreaming)
  • 轉(zhuǎn)換:支持Python轉(zhuǎn)換的ETL

2.Confluent

Confluent是一個基于Apache Kafka的全面數(shù)據(jù)流平臺。它能夠在數(shù)據(jù)流中發(fā)布、訂閱、存儲并處理數(shù)據(jù)。Confluent提供了其平臺的開源版本。

  • 錯誤處理:僅監(jiān)控
  • 轉(zhuǎn)換:ETL,Kafka Streams API

3.Fivetran

Fivetran是一款SaaS類型的數(shù)據(jù)集成工具。它能夠從不同的云服務(wù)、數(shù)據(jù)庫和商業(yè)智能(BI)工具中提取數(shù)據(jù),并將其加載到數(shù)據(jù)倉庫之中。

  • 錯誤處理:僅監(jiān)控
  • 轉(zhuǎn)型:有限的ELT

4.FlyData

FlyData是一款SaaS類型的數(shù)據(jù)遷移工具。它可用于管理MySQL、PostgreSQL、MariaDB、Percona的數(shù)據(jù)加載過程,并以CSV/TSV/JSON的格式記錄到Amazon的Redshift數(shù)據(jù)倉庫之中。

  • 錯誤處理:緩沖式處理
  • 轉(zhuǎn)型:有限的ELT

5.Matillion

Matillion能夠提供云端數(shù)據(jù)的集成。它是一款專為Amazon Redshift、Google BigQuery和Snowflake構(gòu)建的ETL工具。

  • 錯誤處理:僅通過代碼支持,但并非內(nèi)置
  • 轉(zhuǎn)換:圖形化構(gòu)建的ETL

6.SnapLogic

SnapLogic提供了數(shù)據(jù)集成平臺即服務(wù)(data integration platform-as-a-service)的工具,可用于連接各種云端數(shù)據(jù)源、SaaS應(yīng)用和本地的商業(yè)軟件應(yīng)用。

  • 錯誤處理:支持,但并非內(nèi)置
  • 轉(zhuǎn)換:圖形化構(gòu)建的ETL

7.Stitch Data

Stitch是一款云端優(yōu)先(cloud-first)的、開發(fā)者專用工具,可用于快速地移動數(shù)據(jù)。

  • 錯誤處理:手動,記錄在拒絕表(rejection table)中
  • 轉(zhuǎn)型:有限的準ETL

8.StreamSets

StreamSets是原生云(cloud-native)的產(chǎn)品集合,可用于控制數(shù)據(jù)漂移,以及與數(shù)據(jù)、數(shù)據(jù)源、數(shù)據(jù)基礎(chǔ)架構(gòu)、數(shù)據(jù)處理有關(guān)的變化問題。

  • 錯誤處理:有錯誤記錄處理
  • 轉(zhuǎn)換:代碼類和GUI的ETL

9.Striim

Striim(發(fā)音為“stream”)是一個實時的流媒體分析和數(shù)據(jù)集成平臺。

  • 錯誤處理:僅監(jiān)控
  • 轉(zhuǎn)換:內(nèi)置和具有Java功能的ETL

原文標題:2018 ETL Tools Comparison ,作者:Garrett Alley

【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責任編輯:未麗燕 來源: 51CTO.com
相關(guān)推薦

2020-12-04 15:23:58

Python數(shù)據(jù)分析工具

2022-10-12 00:13:20

數(shù)據(jù)分析人工智能數(shù)據(jù)可視化

2024-01-02 17:11:09

數(shù)據(jù)分析運營

2024-01-02 10:10:23

數(shù)據(jù)分析大數(shù)據(jù)數(shù)據(jù)驅(qū)動

2020-07-04 11:05:35

DaskPython數(shù)據(jù)分析

2023-11-27 17:49:23

層次分析法算法

2023-08-29 08:11:01

AI工具游玩

2019-09-16 08:26:13

Kubernetes工具Katacoda

2019-07-16 08:58:38

LinuxDocker軟件

2023-11-29 13:50:00

數(shù)據(jù)分析師

2020-05-15 15:09:51

R語言數(shù)據(jù)分析

2019-04-12 09:00:00

ETL工具項目

2021-10-20 10:10:45

數(shù)據(jù)分析智慧城市大數(shù)據(jù)

2015-08-14 14:29:00

數(shù)據(jù)分析

2016-09-30 01:04:45

數(shù)據(jù)分析數(shù)據(jù)

2021-12-24 08:18:01

CIO數(shù)據(jù)分析

2024-04-28 11:39:17

紹csvkit數(shù)據(jù)分析

2022-10-10 11:32:01

數(shù)據(jù)分析技術(shù)

2023-12-29 10:04:47

數(shù)據(jù)分析

2019-09-26 12:44:32

美國國稅局敏捷數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號