自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)倉庫中的數(shù)據(jù)清洗

大數(shù)據(jù) 數(shù)據(jù)倉庫
可以將數(shù)據(jù)倉庫的數(shù)據(jù)清洗比做政客們募集資金的過程。幾乎不存在任何一方獨(dú)立存在的可能性。數(shù)據(jù)清洗往往是數(shù)據(jù)倉庫項(xiàng)目中時(shí)間最密集的,最有爭議的進(jìn)程。

什么是數(shù)據(jù)清洗?

“數(shù)據(jù)清洗確保無法辨認(rèn)的數(shù)據(jù)不會(huì)進(jìn)入數(shù)據(jù)倉庫。無法辨認(rèn)的數(shù)據(jù)將影響到數(shù)據(jù)倉庫中通過聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘和關(guān)鍵績效指標(biāo)(KPI)所產(chǎn)生的報(bào)表。”

在哪里會(huì)用到數(shù)據(jù)清洗的一個(gè)簡單例子是,數(shù)據(jù)是如何儲(chǔ)存在不同的應(yīng)用系統(tǒng)中的。例如:2007年3月11號(hào)可以儲(chǔ)存為“03/11/07”或“11/03/07”及其他格式。一個(gè)數(shù)據(jù)倉庫項(xiàng)目將數(shù)據(jù)輸入數(shù)據(jù)倉庫之前需要將不同格式的日期轉(zhuǎn)變成一個(gè)統(tǒng)一的格式標(biāo)準(zhǔn)。

為什么要進(jìn)行提取,轉(zhuǎn)換和加載(ETL)?

提取、轉(zhuǎn)換和加載 (ETL) 指的是一種可以幫助確保數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前被清洗過(即符合標(biāo)準(zhǔn))的工具。供應(yīng)商提供的提取、轉(zhuǎn)換和加載 (ETL) 工具更加容易被用來管理持續(xù)進(jìn)行的數(shù)據(jù)清洗。供應(yīng)商提供的提取、轉(zhuǎn)換和加載 (ETL) 工具坐鎮(zhèn)在數(shù)據(jù)倉庫之前,監(jiān)測(cè)輸入的數(shù)據(jù)。如果它遇到了程序指定轉(zhuǎn)換的數(shù)據(jù),它就會(huì)在數(shù)據(jù)載入數(shù)據(jù)倉庫之前對(duì)其進(jìn)行轉(zhuǎn)換。

提取、轉(zhuǎn)換和加載 (ETL) 工具也可以用來從遠(yuǎn)程數(shù)據(jù)庫或者通過自動(dòng)設(shè)定的事件或通過人工干預(yù)提取數(shù)據(jù)。有替代工具可以替換ETL工具,這要取決于你項(xiàng)目的復(fù)雜性和預(yù)算。數(shù)據(jù)庫管理員們 (DBA) 可以編寫腳本來完成提取、轉(zhuǎn)換和加載 (ETL) 的功能,通常能滿足較小的項(xiàng)目需要。微軟的SQL服務(wù)器都有一個(gè)免費(fèi)的被稱為數(shù)據(jù)轉(zhuǎn)換服務(wù) (DTS) 的提取、轉(zhuǎn)換和加載 (ETL) 工具。數(shù)據(jù)轉(zhuǎn)換服務(wù) (DTS) 是一款不錯(cuò)的免費(fèi)工具,但它確實(shí)有其局限性,尤其是在數(shù)據(jù)清洗的持續(xù)管理上。

提取、轉(zhuǎn)換和加載 (ETL) 的供應(yīng)商有Informatica、IBM(Cognos)及Pentaho等。 在對(duì)所有產(chǎn)品進(jìn)行選擇時(shí),在接觸供應(yīng)商之前列出你認(rèn)為對(duì)一個(gè)提取、轉(zhuǎn)換和加載 (ETL) 供應(yīng)商的需求。從咨詢顧問那里獲得服務(wù)還是值得的,它能在產(chǎn)品的選擇上幫助你進(jìn)行需求分析。

數(shù)據(jù)清洗和提取、轉(zhuǎn)換和加載(ETL)對(duì)一個(gè)數(shù)據(jù)倉庫項(xiàng)目的成功有多重要?

在數(shù)據(jù)倉庫產(chǎn)生的結(jié)果符合利益相關(guān)者的期望值時(shí),提取、轉(zhuǎn)換和加載 (ETL) 通常被忽視和置于腦后的。結(jié)果是,提取、轉(zhuǎn)換和加載 (ETL) 冠以數(shù)據(jù)倉庫項(xiàng)目的“沉默的殺手”的稱號(hào)。大多數(shù)數(shù)據(jù)倉庫項(xiàng)目由于數(shù)據(jù)清洗方面的意外情況而體驗(yàn)到延遲和預(yù)算超支的情況。

如何規(guī)劃數(shù)據(jù)清洗?

及早開始對(duì)將要進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行籌劃是很重要的,這一籌劃可能會(huì)隨著項(xiàng)目的成熟發(fā)展而改變,但當(dāng)你需要獲得數(shù)據(jù)擁有者在沒有事先通知的情況下不會(huì)改動(dòng)數(shù)據(jù)的格式的承諾時(shí),這些文件的蹤跡就變得極為有價(jià)值。

創(chuàng)建一個(gè)需要提取、轉(zhuǎn)換和加載的數(shù)據(jù)列表。為極有可能需要轉(zhuǎn)換格式的數(shù)據(jù)設(shè)立一個(gè)獨(dú)立的列表。對(duì)是否需要購買提取、轉(zhuǎn)換和加載(ETL)工具做出決定,并留出一個(gè)全面的預(yù)算。從該領(lǐng)域的專家那里聽取建議并評(píng)估產(chǎn)品是否適用于你企業(yè)的整體技術(shù)層次。

原文鏈接:http://www.chinabi.net/CIO/dwh/201107/1942.html

【編輯推薦】

 

責(zé)任編輯:彭凡 來源: 新浪博客
相關(guān)推薦

2023-08-14 16:56:53

2022-06-24 09:38:43

數(shù)據(jù)庫大數(shù)據(jù)

2021-09-01 10:03:44

數(shù)據(jù)倉庫云數(shù)據(jù)倉庫數(shù)據(jù)庫

2023-10-08 16:26:23

數(shù)據(jù)倉庫

2016-08-15 12:57:01

數(shù)據(jù)倉庫索引架構(gòu)維度索引

2009-01-20 14:22:49

ODS數(shù)據(jù)倉庫教程

2022-08-01 11:30:27

數(shù)據(jù)建模

2017-06-27 10:08:29

數(shù)據(jù)倉庫模型

2024-09-05 16:08:52

2009-01-18 15:48:31

數(shù)據(jù)倉庫數(shù)據(jù)存儲(chǔ)OLTP

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2024-09-23 21:48:57

2022-07-28 13:47:30

云計(jì)算數(shù)據(jù)倉庫

2009-01-19 15:52:20

OracleOSFA數(shù)據(jù)倉庫

2024-10-22 09:30:00

飛輪數(shù)據(jù)算法應(yīng)用

2018-07-24 09:28:18

存儲(chǔ)數(shù)據(jù)倉庫

2022-11-29 17:16:57

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉庫分層

2024-09-23 19:41:17

數(shù)據(jù)技術(shù)數(shù)據(jù)中臺(tái)數(shù)據(jù)治理

2024-10-23 10:21:41

數(shù)據(jù)飛輪數(shù)據(jù)中臺(tái)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)