自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ETL和EAI之間的關(guān)系與區(qū)別

數(shù)據(jù)庫(kù)
本文主要從概念層面介紹了ETL和EAI,并講解了它們之間的聯(lián)系和區(qū)別。希望讀完本文后你能對(duì)ETL和EAI有個(gè)很好的了解。

一、什么是EAI?

企業(yè)的業(yè)務(wù)流程會(huì)同時(shí)涉及到多個(gè)應(yīng)用系統(tǒng),因此要求這些系統(tǒng)能夠協(xié)同,但接口、架構(gòu)的不統(tǒng)一往往使得這些本應(yīng)緊密集成的應(yīng)用系統(tǒng)成為了一個(gè)個(gè)“信息孤島”。于是,企業(yè)應(yīng)用集成(Enterprise Application Integration,EAI)技術(shù)應(yīng)運(yùn)而生,它可以通過(guò)中間件作為粘合劑來(lái)連接企業(yè)內(nèi)外各種業(yè)務(wù)相關(guān)的異構(gòu)系統(tǒng)、應(yīng)用以及數(shù)據(jù)源,從而滿足E-Commerce、ERP、CRM、SCM、OA、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等重要系統(tǒng)之間無(wú)縫共享和交換數(shù)據(jù)的需要。EAI 涉及技術(shù)廣泛,實(shí)施復(fù)雜。

基本特征

EAI 的核心是使用中間件連接企業(yè)應(yīng)用。有多種不同類型的中間件可以提供 EAI 的功能。在選擇 EAI 中間件時(shí)需注意以下的基本特征:

◆通過(guò)中間件將不同的應(yīng)用連接起來(lái),保證應(yīng)用的獨(dú)立性,在不需要修改應(yīng)用自身的業(yè)務(wù)邏輯的同時(shí),又解決了數(shù)據(jù)共享問(wèn)題。

◆對(duì)核心共享業(yè)務(wù)數(shù)據(jù)模型的處理與支持。

◆實(shí)現(xiàn)業(yè)務(wù)流程自動(dòng)化。確保各個(gè)部門在采用不同的系統(tǒng)的同時(shí)可以協(xié)同完成同一個(gè)工作。

◆支持應(yīng)用架構(gòu)的不斷變更??梢苑奖愕刂匦屡渲埔栽黾踊蛉コ到y(tǒng)而不會(huì)影響其它系統(tǒng)。

◆能夠提供實(shí)時(shí)接口和批處理接口,能夠提供同步和異步接口。

◆必須保證數(shù)據(jù)的安全,只有目的應(yīng)用可以讀取。

◆良好的性能和數(shù)據(jù)吞吐量,并且具有靈活的可擴(kuò)展性以適應(yīng)企業(yè)的發(fā)展。

◆必須具備恢復(fù)機(jī)制,當(dāng)數(shù)據(jù)傳輸過(guò)程中發(fā)生連接中斷等異常時(shí)可以確保數(shù)據(jù)的恢復(fù)。

◆對(duì)流程管理提供預(yù)定義的通用模型與行業(yè)模型。

◆既能夠提供實(shí)時(shí)接口和批處理接口,又能夠提供同步和異步接口。

◆能夠提供實(shí)時(shí)接口和批處理接口,能夠提供同步和異步接口。

五大層面

一個(gè)完整的 EAI 解決方案應(yīng)當(dāng)包含以下五個(gè)層面:

用戶交互:實(shí)現(xiàn)應(yīng)用用戶界面統(tǒng)一的接入與安全機(jī)制,利用門戶技術(shù)進(jìn)行構(gòu)建。

應(yīng)用連接:通過(guò) HUB 或總線架構(gòu),實(shí)現(xiàn)應(yīng)用與應(yīng)用之間的連接,完成相關(guān)的數(shù)據(jù)路由與數(shù)據(jù)格式轉(zhuǎn)換。

業(yè)務(wù)流程整合:實(shí)現(xiàn)業(yè)務(wù)流程管理,包括工作流管理和自動(dòng)化流程兩個(gè)方面。

構(gòu)建整合:這個(gè)層面包含兩個(gè)部分,一部分是構(gòu)建與現(xiàn)有應(yīng)用兼容的新應(yīng)用,另一部分是對(duì)現(xiàn)有資源進(jìn)行重用以適應(yīng)新環(huán)境的需要。

信息集成:實(shí)現(xiàn)數(shù)據(jù)集成,在異構(gòu)的數(shù)據(jù)源之間實(shí)現(xiàn)數(shù)據(jù)層的直接整合。

相關(guān)技術(shù)

EAI 解決方案通常涉及到 JCA、JMS、Web 服務(wù)以及 XML 等多種企業(yè)級(jí)技術(shù)。這些技術(shù)都已經(jīng)成為業(yè)界的標(biāo)準(zhǔn),從而可以***化地保護(hù)客戶投資。這些技術(shù)既可以被包含在相關(guān)產(chǎn)品中供用戶透明地使用,也可以由用戶自己在應(yīng)用程序中加以調(diào)用。此外,SOA(面向服務(wù)的架構(gòu))隨著各大廠商的追捧而變得炙手可熱。雖然 SOA 本身不是一個(gè)全新的概念, 但由于 Web 服務(wù)以及網(wǎng)格計(jì)算等技術(shù)的成熟,SOA 具備了更好的發(fā)展條件。對(duì)于 EAI 來(lái)說(shuō),基于 SOA 的企業(yè)應(yīng)用系統(tǒng)可以隨著企業(yè)業(yè)務(wù)的變化而逐漸變化,能夠?qū)崿F(xiàn)“柔性化”的軟件系統(tǒng),從而降低實(shí)施EAI 的成本和風(fēng)險(xiǎn),因此我們可以說(shuō) SOA 的興起給了 EAI 廠商一個(gè)新的機(jī)會(huì)。

#p#

二、什么是ETL?

ETL即數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過(guò)程。它是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要環(huán)節(jié)。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的且隨時(shí)間不斷變化的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中有可能存在著大量的噪聲數(shù)據(jù),引起的主要原因有:濫用縮寫詞、慣用語(yǔ)、數(shù)據(jù)輸入錯(cuò)誤、重復(fù)記錄、丟失值、拼寫變化等。即便是一個(gè)設(shè)計(jì)和規(guī)劃良好的數(shù)據(jù)庫(kù)系統(tǒng),如果其中存在著大量的噪聲數(shù)據(jù),那么這個(gè)系統(tǒng)也是沒(méi)有任何意義的,因?yàn)椤袄M(jìn),垃圾出”(garbage in, garbage out),系統(tǒng)根本就不可能為決策分析系統(tǒng)提供任何支持。為了清除噪聲數(shù)據(jù),必須在數(shù)據(jù)庫(kù)系統(tǒng)中進(jìn)行數(shù)據(jù)清洗。目前有不少數(shù)據(jù)清洗研究和ETL研究,但是如何在ETL過(guò)程中進(jìn)行有效的數(shù)據(jù)清洗并使這個(gè)過(guò)程可視化,此方面研究不多。

本文主要從兩個(gè)方面闡述ETL和數(shù)據(jù)清洗的實(shí)現(xiàn)過(guò)程:ETL的處理方式和數(shù)據(jù)清洗的實(shí)現(xiàn)方法。

1.ETL的處理方式

本文所采用的ETL方法是數(shù)據(jù)庫(kù)段區(qū)域中的ETL處理方式,它不使用外部引擎而是使用數(shù)據(jù)庫(kù)作為唯一的控制點(diǎn)。由于源系統(tǒng)SQLserver2000是關(guān)系數(shù)據(jù)庫(kù),它的段表也是典型的關(guān)系型表。成功地將外部未修改數(shù)據(jù)載入數(shù)據(jù)庫(kù)后,再在數(shù)據(jù)庫(kù)內(nèi)部進(jìn)行轉(zhuǎn)換。數(shù)據(jù)庫(kù)段區(qū)域中的ETL處理方式執(zhí)行的步驟是提取、裝載、轉(zhuǎn)換,即通常所說(shuō)的ELT。這種方式的優(yōu)點(diǎn)是為抽取出的數(shù)據(jù)首先提供一個(gè)緩沖以便于進(jìn)行復(fù)雜的轉(zhuǎn)換,減輕了ETL進(jìn)程的復(fù)雜度。

2.ETL過(guò)程中實(shí)現(xiàn)數(shù)據(jù)清洗的實(shí)現(xiàn)方法

首先,在理解源數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)表屬性一致化。為解決源數(shù)據(jù)的同義異名和同名異義的問(wèn)題,可通過(guò)元數(shù)據(jù)管理子系統(tǒng),在理解源數(shù)據(jù)的同時(shí),對(duì)不同表的屬性名根據(jù)其含義重新定義其在數(shù)據(jù)挖掘庫(kù)中的名字,并以轉(zhuǎn)換規(guī)則的形式存放在元數(shù)據(jù)庫(kù)中,在數(shù)據(jù)集成的時(shí)候,系統(tǒng)自動(dòng)根據(jù)這些轉(zhuǎn)換規(guī)則將源數(shù)據(jù)中的字段名轉(zhuǎn)換成新定義的字段名,從而實(shí)現(xiàn)數(shù)據(jù)挖掘庫(kù)中的同名同義。

其次,通過(guò)數(shù)據(jù)縮減,大幅度縮小數(shù)據(jù)量。由于源數(shù)據(jù)量很大,處理起來(lái)非常耗時(shí),所以可以優(yōu)先進(jìn)行數(shù)據(jù)縮減,以提高后續(xù)數(shù)據(jù)處理分析效率。

***,通過(guò)預(yù)先設(shè)定數(shù)據(jù)處理的可視化功能節(jié)點(diǎn),達(dá)到可視化的進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換的目的。針對(duì)縮減并集成后的數(shù)據(jù),通過(guò)組合預(yù)處理子系統(tǒng)提供各種數(shù)據(jù)處理功能節(jié)點(diǎn),能夠以可視化的方式快速有效完成數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換過(guò)程。

三、ETL與EAI 之間的關(guān)系

隨著這種集成的增多,企業(yè)信息系統(tǒng)之間需處理的數(shù)據(jù)量也將越來(lái)越大,數(shù)據(jù)的傳輸將變得越來(lái)越復(fù)雜。ETL越來(lái)越適合用于這種數(shù)據(jù)處理的工作,并逐漸挑戰(zhàn)傳統(tǒng) EAI(enterprise application integration)在系統(tǒng)集成中的地位了。

最初 ETL 的設(shè)計(jì)是為了方便建立數(shù)據(jù)市場(chǎng)和數(shù)據(jù)倉(cāng)庫(kù),并將它們升級(jí)為批處理方式。而下一代的 ETL 工具則在許多功能上做了擴(kuò)展,使其能夠適用于企業(yè)的應(yīng)用集成,并且其中的一些工具將能夠起到 EAI 某些工具的作用。

但是 ETL 還不能取代EAI,下一代ETL在應(yīng)用集成領(lǐng)域中還只是EAI的補(bǔ)充。但是隨著ETL技術(shù)的發(fā)展,企業(yè)在建立基于批處理數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)集成工具時(shí),將越來(lái)越關(guān)注對(duì)ETL的選擇,同時(shí)EAI和ETL之間的界限也將變得越來(lái)越模糊。

四、ETL與EAI 之間的區(qū)別

ETL 工具適合數(shù)據(jù)集成, EAI 工具則適用于流程操作。下一代 ETL 工具更加適用于解決兩個(gè)系統(tǒng)間數(shù)據(jù)的批量或者實(shí)時(shí)同步工作,特別是當(dāng)大量巨大的數(shù)據(jù)在兩個(gè)系統(tǒng)間提取、轉(zhuǎn)換和存儲(chǔ)時(shí), ETL 的優(yōu)勢(shì)更加明顯。 EAI 則適用于工作流和商業(yè)流程管理的需求,特別是擅長(zhǎng)處理大量小事務(wù)。

對(duì)于交互式流程,如果它沒(méi)有擴(kuò)展工作流的需求,沒(méi)有復(fù)雜數(shù)據(jù)的轉(zhuǎn)換的需求,或者需要批量實(shí)時(shí)數(shù)據(jù)的合并處理,則ETL工具將是比較好的選擇。

ETL工具比較適合于數(shù)據(jù)集成的工作,如應(yīng)用系統(tǒng)之間的數(shù)據(jù)同步和點(diǎn)對(duì)點(diǎn)的單步交互工作;需要實(shí)時(shí)數(shù)據(jù)處理的工作中包含了大量的數(shù)據(jù)處理、復(fù)雜的數(shù)據(jù)傳輸和數(shù)據(jù)運(yùn)算,它同樣適合采用 ETL 工具。上面這些工作,即便是有些具體的處理需要通過(guò) EAI 工具編程實(shí)現(xiàn),我們還是可以用 ETL中的工具來(lái)處理。因?yàn)?ETL工具主要是通過(guò)關(guān)系型數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)大量數(shù)據(jù)操作的,所以使用這類工具來(lái)傳輸大塊的數(shù)據(jù)將取得更好的效果。

EAI 工具無(wú)疑是最適合流程集成的工具,如果流程中包含了大量的傳輸,那么它就必然包含了對(duì)業(yè)務(wù)流程的管理和實(shí)時(shí)交互的流程。

【編輯推薦】

  1. 嵌入式數(shù)據(jù)庫(kù)的現(xiàn)狀和未來(lái)
  2. 走近數(shù)據(jù)庫(kù)前沿技術(shù)——集群
  3. 數(shù)據(jù)倉(cāng)庫(kù)及其體系結(jié)構(gòu)建設(shè)
  4. 數(shù)據(jù)倉(cāng)庫(kù)中事實(shí)表的水平分區(qū)
  5. SQL Server 2008新特性之?dāng)?shù)據(jù)倉(cāng)庫(kù)可擴(kuò)展性

                                                                                                                     【責(zé)任編輯:夏宗繁 TEL:(010)68476606】

責(zé)任編輯:楊鵬飛 來(lái)源: 網(wǎng)絡(luò)
相關(guān)推薦

2012-05-31 14:54:59

Hadoop大數(shù)據(jù)

2020-05-12 16:58:05

LinuxUnix技術(shù)

2016-08-03 15:10:03

2015-03-09 11:01:43

2021-07-13 19:33:41

大數(shù)據(jù)云計(jì)算

2025-04-08 08:05:00

PodKubernetes容器

2011-07-28 15:30:27

組策略注冊(cè)表

2025-01-02 12:59:55

Python面向?qū)ο缶幊?/a>type

2021-02-14 10:06:54

RPAAICIO

2020-06-09 07:00:00

RHELCentOSFedora

2013-08-06 14:26:11

App降價(jià)App營(yíng)收App下載量

2017-08-01 14:51:45

人工智能大數(shù)據(jù)深度學(xué)習(xí)

2018-08-14 05:05:25

2020-04-03 15:22:49

Hadoop數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)

2021-08-04 23:03:56

區(qū)塊鏈數(shù)字貨幣數(shù)據(jù)安全

2009-01-19 14:22:58

OLTP數(shù)據(jù)倉(cāng)庫(kù)區(qū)別

2010-08-16 10:25:23

DIVSPAN

2023-07-31 10:14:58

物聯(lián)網(wǎng)邊緣計(jì)算

2010-07-08 15:28:39

UML類圖依賴關(guān)系

2010-07-09 15:29:51

UML類關(guān)系
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)