值得考慮的七大優(yōu)秀ETL工具
譯文【51CTO.com快譯】如今,各個(gè)行業(yè)與組織能夠訪(fǎng)問(wèn)到的數(shù)據(jù)越來(lái)越龐大、且越來(lái)越復(fù)雜。不過(guò),我們需要對(duì)這些海量的信息進(jìn)行有效的處理和分析,進(jìn)而發(fā)掘出那些隱藏在“噪聲”中的數(shù)據(jù)洞見(jiàn)。目前,當(dāng)屬ETL(提取、轉(zhuǎn)換、加載,三個(gè)首字母縮寫(xiě))方法最為常見(jiàn)。它是指:我們需要先從諸如數(shù)據(jù)庫(kù)、文件、以及電子表格之類(lèi)的數(shù)據(jù)源中提取信息,然后對(duì)其進(jìn)行轉(zhuǎn)換,以符合數(shù)據(jù)倉(cāng)庫(kù)的標(biāo)準(zhǔn),最后將它們加載到集中式的數(shù)據(jù)倉(cāng)庫(kù)中。
作為數(shù)據(jù)倉(cāng)庫(kù)分析與轉(zhuǎn)化的重要組成部分,ETL往往需要依賴(lài)合適的工具來(lái)實(shí)現(xiàn)。目前市場(chǎng)上此類(lèi)工具可謂林林總總。本文將為您篩選出七大頂級(jí)、八大補(bǔ)充ETL軟件工具,在逐一介紹其特點(diǎn)和社區(qū)得分的基礎(chǔ)上,最后給出各種適用的場(chǎng)景。
1. Xplenty
作為基于云端的ETL和ELT(提取、加載、轉(zhuǎn)換)數(shù)據(jù)的集成平臺(tái),Xplenty可以輕松地組合多個(gè)數(shù)據(jù)源。該平臺(tái)提供了一個(gè)簡(jiǎn)單、直觀(guān)的可視化界面,可用于在大量數(shù)據(jù)源和目標(biāo)之間建立管道。
目前,Xplenty包裝了上百種流行的數(shù)據(jù)存儲(chǔ)和SaaS(軟件即服務(wù))應(yīng)用,其中包括:MongoDB、MySQL、PostgreSQL、Amazon Redshift、Google Cloud Platform、Facebook、Salesforce、Jira、Slack、以及QuickBooks等。
Xplenty的優(yōu)勢(shì)在于:可擴(kuò)展性、安全性和出色的客戶(hù)支持。例如,Xplenty具有一項(xiàng)稱(chēng)為“字段級(jí)加密(Field Level Encryption)”的新功能,可允許用戶(hù)使用自己的加密密鑰,對(duì)數(shù)據(jù)字段進(jìn)行加密或解密。同時(shí),Xplenty也能遵守HIPPA、GDPR和CCPA等法律法規(guī)。
目前,在G2網(wǎng)站(譯者注:知名的軟件與服務(wù)評(píng)價(jià)平臺(tái))上有93位評(píng)論者為Xplenty給出了4.4顆星(滿(mǎn)分為5顆星),并將其稱(chēng)為ETL工具領(lǐng)域的“領(lǐng)先者”之一。作為其中的一名評(píng)論者,Kerry D.聲稱(chēng):“該工具非常實(shí)用,它使得代碼的開(kāi)發(fā)與支持變得迅速且高效。”
2. Talend
Talend Data Integration是一個(gè)開(kāi)源的ETL數(shù)據(jù)集成解決方案。Talend平臺(tái)不但能夠與本地和云中的數(shù)據(jù)源相兼容,而且包括了數(shù)百個(gè)預(yù)構(gòu)建(pre-built)的集成。
雖然對(duì)于一般用戶(hù)而言,Talend的開(kāi)源版本足以夠用,但是較大型的企業(yè)用戶(hù)則會(huì)選用其付費(fèi)版本的數(shù)據(jù)管理平臺(tái)。畢竟,付費(fèi)版里包含了用于設(shè)計(jì)、生產(chǎn)力管理、監(jiān)空、以及數(shù)據(jù)治理的各種工具和功能。
Talend在G2上的平均得分為4.0顆星,并在Gartner的《數(shù)據(jù)集成工具魔力象限》報(bào)告中被評(píng)為“領(lǐng)先者”。作為其中的一名評(píng)論者,Jan L.認(rèn)為:Talend是一個(gè)強(qiáng)大的、具有清晰易用界面的通用數(shù)據(jù)集成工具。
3. Stitch
Stitch是一個(gè)開(kāi)源的ELT數(shù)據(jù)集成平臺(tái)。與Talend類(lèi)似,Stitch也提供了付費(fèi)的服務(wù)版本,應(yīng)用于更高級(jí)的用例、以及更多的數(shù)據(jù)源。有趣的是,Talend于2018年11月收購(gòu)了Stitch。
Stitch平臺(tái)通過(guò)提供自助式的ELT和自動(dòng)化的數(shù)據(jù)流水線(xiàn),來(lái)簡(jiǎn)化流程。鑒于Stitch的ELT工具不會(huì)自動(dòng)執(zhí)行任意轉(zhuǎn)換。因此,Stitch團(tuán)隊(duì)建議,轉(zhuǎn)換一旦被添加到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部,就應(yīng)在原始數(shù)據(jù)之上添加各種分層。
G2上的評(píng)論者為Stitch給出了諸如高性能之類(lèi)的正面評(píng)價(jià)。一位評(píng)論者稱(chēng)贊Stitch為“定價(jià)簡(jiǎn)單、提供內(nèi)部工作流、且開(kāi)源易用”。當(dāng)然,Stitch也存在著一些小的技術(shù)問(wèn)題,以及缺乏對(duì)小眾數(shù)據(jù)源的支持。
4. Informatica PowerCenter
Informatica PowerCenter是用于ETL任務(wù)的成熟、且功能豐富的企業(yè)級(jí)數(shù)據(jù)集成平臺(tái)。當(dāng)然,PowerCenter只是Informatica云數(shù)據(jù)管理工具套件中的一種。
作為企業(yè)級(jí)、且與數(shù)據(jù)庫(kù)類(lèi)型無(wú)關(guān)的解決方案,PowerCenter以其高性能、以及能與許多不同數(shù)據(jù)源(包括各種SQL和非SQL數(shù)據(jù)庫(kù))相兼容而著稱(chēng)。而Informatica PowerCenter的缺點(diǎn)在于:售價(jià)過(guò)高,且對(duì)于小型組織而言,可能由于較難學(xué)習(xí)與掌握,進(jìn)而帶來(lái)技術(shù)障礙。
盡管存在著上述缺點(diǎn),Informatica PowerCenter還是在G2上斬獲了4.3顆星,同時(shí)被譽(yù)為數(shù)據(jù)集成軟件領(lǐng)域的“領(lǐng)先者”。作為其中的一名評(píng)論者,Victor C.認(rèn)為PowerCenter是自己曾用過(guò)的、功能最強(qiáng)大的ETL工具。當(dāng)然,他也抱怨PowerCenter的速度過(guò)慢,且無(wú)法與Tableau和QlikView等可視化的工具進(jìn)行很好的集成。
5. Oracle Data Integrator
作為Oracle數(shù)據(jù)管理生態(tài)系統(tǒng)中的一部分,Oracle Data Integrator(ODI)是一個(gè)全面的數(shù)據(jù)集成解決方案。顯然,該平臺(tái)是Hyperion Financial Management和Oracle E-Business Suite(EBS)等其他Oracle產(chǎn)品用戶(hù)的合適選擇。ODI既具有本地版本,又提供了Oracle數(shù)據(jù)集成平臺(tái)云。
與其他工具不同的是,Oracle Data Integrator只支持ELT任務(wù),而不支持ETL。而用戶(hù)對(duì)此褒貶不一。同時(shí),由于大部分外圍功能都已經(jīng)包含在了其他Oracle軟件之中,因此ODI比其他各種工具更為簡(jiǎn)單。
目前,Oracle Data Integrator在G2上的平均得分為4.0。作為其中的一名評(píng)論者,Christopher T.認(rèn)為,雖然ODI是眾多選項(xiàng)中最強(qiáng)大的一款工具,但是需要經(jīng)過(guò)必要的培訓(xùn),方可上手。
6. Skyvia
Skyvia是一款可用于大數(shù)據(jù)集成、遷移和備份的云平臺(tái)。用戶(hù)可以用它來(lái)為包括Redshift、BigQuery和Azure在內(nèi)的數(shù)據(jù)倉(cāng)庫(kù),創(chuàng)建數(shù)據(jù)管道。Skyvia的最大亮點(diǎn)是:它通過(guò)提供無(wú)代碼式的數(shù)據(jù)集成向?qū)?,以方便新、老ETL用戶(hù)使用。
Skyvia在G2的用戶(hù)群中備受歡迎,其評(píng)分為4.8。作為其中的一名評(píng)論者,David K.認(rèn)為:即便知識(shí)有限,他們?nèi)匀豢梢允褂糜蒘kyvia提供的直觀(guān)且靈活的連接工具,在多渠道零售業(yè)務(wù)中同步庫(kù)存。
當(dāng)然,在使用Skyvia作為ETL工具之前,請(qǐng)事先注意如下三個(gè)方面:
- Skyvia主要專(zhuān)注于ETL的提取和加載階段,其轉(zhuǎn)換功能比較有限。
- 與其他ETL工具相比,Skyvia提供的集成和連接器數(shù)量較少。
- 有用戶(hù)抱怨在遇到技術(shù)問(wèn)題時(shí),其客戶(hù)支持在效率上存在問(wèn)題。
7. Fivetran
作為基于云端的ETL解決方案,F(xiàn)ivetran支持與Redshift、BigQuery、Azure和Snowflake等數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成。Fivetran的最大優(yōu)勢(shì)在于提供了豐富的數(shù)據(jù)源陣列,其中包括約90種SaaS源,以及添加用戶(hù)自定義集成的能力。
目前,F(xiàn)ivetran在G2上斬獲了4.2星。許多用戶(hù)對(duì)其簡(jiǎn)單性和易用性贊許有加。作為其中的一名評(píng)論者,Daniel H.認(rèn)為:Fivetran可以提供快速、可靠的文檔連接,并能夠直接連接到新的連接器上。
當(dāng)然,針對(duì)Fivetran從連接器的數(shù)量更改為基于消費(fèi)的嶄新定價(jià)模式,有用戶(hù)提出了異議。同時(shí),也有少數(shù)用戶(hù)在技術(shù)和客戶(hù)支持方面遇到過(guò)問(wèn)題。他們認(rèn)為:Fivetran是一個(gè)黑匣子,當(dāng)出現(xiàn)問(wèn)題時(shí),不但很難自行診斷,而且難以獲取熱線(xiàn)支持。
其他值得參考的8種ETL工具
8. Striim
Striim為大數(shù)據(jù)任務(wù)提供了一個(gè)實(shí)時(shí)的數(shù)據(jù)集成平臺(tái)。用戶(hù)能夠以約20多種不同的文件格式,集成各種數(shù)據(jù)源與目標(biāo),其中包括Oracle、SQL Server、MySQL、PostgreSQL、MongoDB和Hadoop。由于Striim符合GDPR和HIPAA等數(shù)據(jù)隱私法規(guī),因此用戶(hù)可以使用SQL或Java定義預(yù)加載式的轉(zhuǎn)換。
Striim平臺(tái)主要缺點(diǎn)是:它無(wú)法包含任何SaaS源或目標(biāo),也不允許用戶(hù)添加新的數(shù)據(jù)源。此外,Striim的用戶(hù)群并不大,目前G2上只有1條評(píng)論。
9. Matillion
作為一個(gè)云端的ETL平臺(tái),Matillion可以將數(shù)據(jù)與Redshift、Snowflake、BigQuery和Azure Synapse相集成。用戶(hù)可以通過(guò)界面上的簡(jiǎn)單點(diǎn)擊或在SQL中的定義,在Matillion中創(chuàng)建數(shù)據(jù)轉(zhuǎn)換。
與Striim類(lèi)似,與前面討論的其他工具相比,Matillion僅支持約40種SaaS數(shù)據(jù)源。雖然它在G2處獲得了4.2顆星,它的基于虛擬機(jī)的時(shí)間,而非實(shí)際工作量、或正在使用的計(jì)算資源的定價(jià)模式,讓部分評(píng)論者們表示不認(rèn)可。
10. Pentaho
由Hitachi Vantara提供的Pentaho(也稱(chēng)為Kettle)是一種可被用于數(shù)據(jù)集成和分析的開(kāi)源平臺(tái)。用戶(hù)既可以選擇Pentaho的免費(fèi)社區(qū)版本,又可以購(gòu)買(mǎi)其企業(yè)版的商用許可證。與Xplenty類(lèi)似,Pentaho具有易用的界面,即使是ETL的新手,也可以使用它來(lái)構(gòu)建穩(wěn)定的數(shù)據(jù)管道。當(dāng)然,Pentaho也存在著諸如:模板和技術(shù)有限等缺點(diǎn)。
目前,Pentaho在G2上的平均得分為4.3顆星。不過(guò),有用戶(hù)抱怨:由于在日志記錄中缺乏針對(duì)錯(cuò)誤的詳細(xì)注釋?zhuān)虼怂麄兒茈y識(shí)別錯(cuò)誤的真正原因。
11. AWS Glue
可用于大數(shù)據(jù)分析任務(wù)的AWS Glue,是由Amazon Web Services提供的完全托管式的ETL服務(wù)。作為一種端到端的ETL產(chǎn)品,AWS Glue不但減輕了ETL的工作負(fù)載,而且能夠與AWS生態(tài)系統(tǒng)中的其余部分,進(jìn)行良好的集成。
值得注意的是,AWS Glue是無(wú)服務(wù)器的。這意味著Amazon會(huì)自動(dòng)為用戶(hù)配置服務(wù)器,并在工作負(fù)載完成后將其關(guān)閉。AWS Glue通過(guò)提供作業(yè)調(diào)度、以及開(kāi)發(fā)者端點(diǎn)(developer endpoints)等功能,方便易用地測(cè)試各種AWS Glue腳本。
目前,AWS Glue不但在G2平臺(tái)上獲得了3.9顆星,而且在X2上被評(píng)為ETL工具領(lǐng)域的“領(lǐng)先者”(類(lèi)似Xplenty)。我們未將其列為前面7大頂級(jí)ETL工具的原因在于,它不如其他工具靈活,并且通常更適合那些已經(jīng)處于AWS生態(tài)系統(tǒng)內(nèi)的用戶(hù)。
12. Panoply
作為一個(gè)自動(dòng)化的自助式云端數(shù)據(jù)倉(cāng)庫(kù),Panoply旨在簡(jiǎn)化數(shù)據(jù)集成的過(guò)程。那些標(biāo)準(zhǔn)的ODBC/JDBC連接、Postgres連接、以及AWS Redshift連接的等數(shù)據(jù)連接器,都可以與Panoply兼容。此外,用戶(hù)也可以將Panoply與前面提到的Stitch和Fivetran等ETL工具相連接,以進(jìn)一步擴(kuò)展其數(shù)據(jù)集成的工作流。
在G2上,Panoply已獲得了4.4顆星。作為一名評(píng)論者,Stacie B認(rèn)為:Panoply的最大優(yōu)點(diǎn)是能夠輕松地從多個(gè)來(lái)源導(dǎo)入數(shù)據(jù),并能快速地設(shè)置程序,與實(shí)現(xiàn)數(shù)據(jù)的加載。
Panoply未被入選七大頂級(jí)ETL工具的理由在于:Panoply既是數(shù)據(jù)倉(cāng)庫(kù),又是ETL解決方案。因此,如果您已經(jīng)正在使用其他類(lèi)型的云端數(shù)據(jù)倉(cāng)庫(kù),并且不打算進(jìn)行更換的話(huà),則沒(méi)有必要選用Panoply。
13. Alooma
作為一種云端數(shù)據(jù)倉(cāng)庫(kù)的ETL數(shù)據(jù)遷移工具,Alooma的主要賣(mài)點(diǎn)在于,它自動(dòng)化了大部分?jǐn)?shù)據(jù)管道,以方便用戶(hù)去關(guān)注技術(shù)細(xì)節(jié),而非結(jié)果。
2019年2月,谷歌收購(gòu)了Alooma,并將其注冊(cè)僅限于Google Cloud Platform的用戶(hù)。這意味著任何使用其他數(shù)據(jù)倉(cāng)庫(kù)(如Redshift或Snowflake)的客戶(hù),都將無(wú)法使用該工具。
盡管如此,Alooma在G2上仍收獲了4.0顆星的好評(píng)。其中的一名評(píng)論者認(rèn)為:雖然Alooma通過(guò)其代碼引擎功能提供了各種靈活性,但是其某些關(guān)鍵性的工具棧服務(wù)尚未成熟。
14. Hevo Data
作為一個(gè)ETL數(shù)據(jù)集成平臺(tái),Hevo Data具有上百種預(yù)構(gòu)建的連接器,可用于連接諸如Redshift、BigQuery和Snowflake等各種數(shù)據(jù)庫(kù),云端存儲(chǔ)和SaaS源。用戶(hù)可以使用Python在Hevo Data中自定義預(yù)加載的轉(zhuǎn)換。
Hevo的最大局限性在于,它無(wú)法添加自己的數(shù)據(jù)源,以建立新的連接。此外,Hevo Data的用戶(hù)群較小,目前在G2上只有6條評(píng)論。
15. FlyData
作為一個(gè)實(shí)時(shí)數(shù)據(jù)復(fù)制平臺(tái),F(xiàn)lyData的最大優(yōu)勢(shì)在于:它僅與Amazon Redshift數(shù)據(jù)倉(cāng)庫(kù)相兼容。也就是說(shuō),如果您是Redshift的“骨灰級(jí)用戶(hù)”,那么可以直接使用這款為Redshift量身定制的工具。不過(guò),如果您正在使用其他的數(shù)據(jù)倉(cāng)庫(kù)方案,或者想要保持靈活性,并避免被供應(yīng)商鎖定的風(fēng)險(xiǎn),那么FlyData就不太適合了。此外,F(xiàn)lyData僅適用于諸如Amazon RDS、Amazon Aurora、MySQL、Percona、PostgreSQL和MariaDB等,少數(shù)數(shù)據(jù)源(其中并無(wú)SaaS平臺(tái))。
優(yōu)秀ETL工具的用例
由上可見(jiàn),沒(méi)有兩款ETL軟件工具是完全相同的,它們各有自己的優(yōu)、缺點(diǎn)。為了讓您能夠?yàn)樽约旱臉I(yè)務(wù)需求,找到最佳的ETL工具,下面我們來(lái)討論每種工具最適合的應(yīng)用場(chǎng)景。您可以據(jù)此進(jìn)行綜合評(píng)估與選用。
- Xplenty:適用于日常處理ETL和(或)ELT的任務(wù)需求,滿(mǎn)足非技術(shù)人員直觀(guān)的拖放界面,以及那些需要多種預(yù)構(gòu)建的集成、且重視數(shù)據(jù)安全性的項(xiàng)目。
- Talend:適用于偏好開(kāi)源解決方案的公司,以及需要多種預(yù)構(gòu)建集成的項(xiàng)目。
- Stitch:適用于那些偏好開(kāi)源的方案,簡(jiǎn)單的ELT流程,但不想進(jìn)行復(fù)雜轉(zhuǎn)換的用戶(hù)。
- Informatica PowerCenter:適用于具有大量預(yù)算,且對(duì)性能要求苛刻的大型企業(yè)。
- Oracle Data Integrator:適用于現(xiàn)有的Oracle客戶(hù),以及需要處理ELT任務(wù)的公司。
- Skyvia:適用于采用無(wú)代碼解決方案,且不需要執(zhí)行大量轉(zhuǎn)換的項(xiàng)目。
- Fivetran:適用于需要各種預(yù)構(gòu)建集成,以及通過(guò)多個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)滿(mǎn)足靈活性的用戶(hù)。
- Striim:適用于需要遵守GDPR或HIPAA,且不需添加新的數(shù)據(jù)源(尤其是SaaS)的項(xiàng)目。
- Matillion:適用于希望使用簡(jiǎn)單的點(diǎn)擊界面,以及有限數(shù)據(jù)源的公司。
- Pentaho:適用于采用了開(kāi)源ETL工具的項(xiàng)目。
- AWS Glue:適用于現(xiàn)有的AWS用戶(hù),以及需要完全托管式ETL方案的公司。
- Panoply:適用于需要結(jié)合使用ETL和數(shù)據(jù)倉(cāng)庫(kù)方案的項(xiàng)目。
- Alooma:適用于現(xiàn)有的Google Cloud Platform用戶(hù)。
- Hevo Data:適用于需要將Python添加到自己的數(shù)據(jù)轉(zhuǎn)換任務(wù)中,但不需要添加新的數(shù)據(jù)源的項(xiàng)目。
- FlyData:適用于只需要使用Redshift作為數(shù)據(jù)倉(cāng)庫(kù)的公司。
如您所見(jiàn),在為自己的團(tuán)隊(duì)確定最佳ETL軟件工具時(shí),您需要了解項(xiàng)目的特點(diǎn)和使用場(chǎng)景,通過(guò)試用與研究,方能發(fā)現(xiàn)最佳選擇。
原文標(biāo)題:Top 7 ETL Tools for 2021,作者: Abe Dearmer
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】