自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="vcmoc"><fieldset id="vcmoc"></fieldset></meter>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

關(guān)于數(shù)據(jù)增量抽取模擬實(shí)現(xiàn)原理

作者：bq_wang 2009-01-16 14:22:27

數(shù)據(jù)庫(kù)

ETL是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)重要處理環(huán)節(jié)，Extract即是從業(yè)務(wù)數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),Transform即是根據(jù)業(yè)務(wù)邏輯規(guī)則對(duì)數(shù)據(jù)進(jìn)行加工的過(guò)程，Load即是把數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程。

通常為了盡可能的減少對(duì)業(yè)務(wù)系統(tǒng)的壓力和性能影響，或者因?yàn)榫W(wǎng)絡(luò)傳輸異構(gòu)數(shù)據(jù)庫(kù)等原因，一般都是根據(jù)特定的增量抽取原則，將數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫(kù)導(dǎo)出到flat文本文件或者XML文件中，也叫數(shù)據(jù)緩存區(qū)或者數(shù)據(jù)登臺(tái)區(qū)(這名字起得特別別扭)。本文討論的是從業(yè)務(wù)數(shù)據(jù)庫(kù)直接抽取到數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)是一種體系架構(gòu)，而不是一種純粹的技術(shù)。實(shí)際上，大多數(shù)數(shù)據(jù)庫(kù)都提供了類似的不同數(shù)據(jù)庫(kù)直接連接的接口，例如SQL Server的鏈接數(shù)據(jù)庫(kù)，Oracle的透明網(wǎng)關(guān)等等。

關(guān)于數(shù)據(jù)的增量抽取也是一個(gè)重要的討論話題，其原因主要是在超大數(shù)據(jù)量情況下任何關(guān)系數(shù)據(jù)庫(kù)都無(wú)法滿足數(shù)據(jù)處理的要求。在《數(shù)據(jù)倉(cāng)庫(kù)》(Inmon)一書中，主要描述了以下3種方法：

1.數(shù)據(jù)增量抽取，主要是基于時(shí)間戳的；

2.掃描增量文件，實(shí)際上就是關(guān)系數(shù)據(jù)庫(kù)的歸檔日志；

3.前后映像對(duì)比。

當(dāng)然每種方法都有其優(yōu)勢(shì)和劣勢(shì)，本文旨在討論基于時(shí)間戳的數(shù)據(jù)增量抽取的實(shí)現(xiàn)，無(wú)意探討和比較這三種方法的優(yōu)劣。

當(dāng)然在進(jìn)行基于時(shí)間戳的數(shù)據(jù)增量處理之前，首先要滿足以下假設(shè)：

1.假設(shè)在業(yè)務(wù)數(shù)據(jù)庫(kù)中存在著一個(gè)特定的時(shí)間屬性，作為增量抽取的唯一標(biāo)識(shí)；

2.假設(shè)在這個(gè)字段上存在著索引字段。這樣我們的數(shù)據(jù)增量抽取模擬腳本就不會(huì)遭遇到性能瓶頸。當(dāng)然我們還會(huì)通過(guò)將大事務(wù)盡可能變成小事務(wù)的原則進(jìn)行優(yōu)化；

3.假設(shè)業(yè)務(wù)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)能夠以某種方式直接連接；

4.抽取過(guò)程中，盡量避免數(shù)據(jù)轉(zhuǎn)換、清洗的動(dòng)作，以減少對(duì)業(yè)務(wù)數(shù)據(jù)庫(kù)的性能影響；

在滿足了以上條件之后，我們才能進(jìn)一步考慮數(shù)據(jù)增量抽取腳本的實(shí)現(xiàn)。

1.建立鏈接數(shù)據(jù)庫(kù)；

2.首先需要定義一張數(shù)據(jù)字典表，定義需要進(jìn)行處理的任務(wù)，其中主要包括業(yè)務(wù)數(shù)據(jù)庫(kù)和目標(biāo)數(shù)據(jù)庫(kù)的表名、字段列表、以及where條件等；

3.有了這張字典表就可以開始進(jìn)行工作了，為了方便表達(dá)，暫時(shí)處理成偽代碼形式，同時(shí)只以一個(gè)表的處理為例。

◆獲取數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)表目前的***時(shí)間(讀取字典表或者當(dāng)前表均可)

◆獲取業(yè)務(wù)數(shù)據(jù)庫(kù)業(yè)務(wù)表目前的***時(shí)間(需要到業(yè)務(wù)系統(tǒng)中去讀取)

◆如果業(yè)務(wù)數(shù)據(jù)庫(kù)業(yè)務(wù)表數(shù)據(jù)為空，退出執(zhí)行

◆如果數(shù)據(jù)倉(cāng)庫(kù)為空，業(yè)務(wù)數(shù)據(jù)庫(kù)不為空，則再次讀取業(yè)務(wù)數(shù)據(jù)庫(kù)最小時(shí)時(shí)間

◆如果均不為空，則設(shè)置開始抽取最小時(shí)間和***時(shí)間

◆***時(shí)間設(shè)置為整點(diǎn)

◆根據(jù)控制事務(wù)處理大小的粒度，進(jìn)行循環(huán)抽取

◆拼寫SQL語(yǔ)句，寫成類似以下的形式

INSERT INTO TargetTable (TargetFieldList) 
　　SELECT SourceFieldList FROM SourceTable 
　　WHERE WhereFieldName> BeginDate 
　　AND WhereFieldName< BeginDate+粒度

◆處理狀態(tài)寫入該字典表

4.有一點(diǎn)要主要的是，在SQL Server中有兩種使用鏈接數(shù)據(jù)庫(kù)的方法：

OPENQUERY ( linked_server , 'query' )

linked_server_name.catalog.schema.object_name的四部分名稱

這兩種方法各有利弊，第二種容易閱讀一些;***種方法據(jù)說(shuō)把語(yǔ)句提交到源數(shù)據(jù)庫(kù)執(zhí)行的，效率可能會(huì)高些(實(shí)際的資料并未找到)。

其次這兩種方法在使用起來(lái)語(yǔ)法有點(diǎn)差別，***種方法采用的是宿主數(shù)據(jù)庫(kù)的語(yǔ)法形式，第二種方法采用的是SQLServer本身的語(yǔ)法形式。因此在寫腳本的時(shí)候也會(huì)有所不同。主要差別是在字段列表和條件處，暫時(shí)采用***種方式。

【編輯推薦】

Oracle 11g R1中AWR基線增強(qiáng)
Oracle 11g R1中大小寫敏感的密碼
解析Oracle 11g閃回?cái)?shù)據(jù)歸檔新功能

責(zé)任編輯：楊鵬飛來(lái)源：百度blog

ETL Extract 數(shù)據(jù)增量抽取數(shù)據(jù)庫(kù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="0ffur"><p id="0ffur"></p></sub>