數(shù)據(jù)集成的挑戰(zhàn)
在單一層面來(lái)看,數(shù)據(jù)集成問(wèn)題在我們的現(xiàn)實(shí)場(chǎng)景中非常簡(jiǎn)單,即從多種源獲取數(shù)據(jù),清理和轉(zhuǎn)換數(shù)據(jù),然后將數(shù)據(jù)加載到適當(dāng)?shù)臄?shù)據(jù)存儲(chǔ)區(qū)中以用于分析和報(bào)告。遺憾的是,對(duì)于一個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)或商業(yè)智能項(xiàng)目,企業(yè)需要在其數(shù)據(jù)集成階段花費(fèi) 60~80 %的可用資源。為什么會(huì)如此艱難呢?
技術(shù)挑戰(zhàn)
技術(shù)挑戰(zhàn)首先來(lái)自于源系統(tǒng)。我們正在從收集交易(如客戶承諾獲取、購(gòu)買或以其他方式獲得東西)數(shù)據(jù)向收集預(yù)交易(如網(wǎng)頁(yè)點(diǎn)擊或通過(guò) RFID 標(biāo)記追蹤客戶意圖的機(jī)制)數(shù)據(jù)轉(zhuǎn)變。現(xiàn)在不僅可以通過(guò)傳統(tǒng)的源和格式(如數(shù)據(jù)庫(kù)和文本文件)獲取數(shù)據(jù),而且正日益可以以各種不同的格式(從專有文件到 Microsoft Office 文檔以及基于 XML 的文件)和基于 Internet 的源(如 Web 服務(wù)和 RSS 流)獲取數(shù)據(jù)。***針對(duì)性的挑戰(zhàn)是:
◆多種源與多種不同的格式。
◆結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
◆在不同時(shí)間從源系統(tǒng)獲得的數(shù)據(jù)信息。
◆龐大的數(shù)據(jù)量。
在理想情況下,即使您能夠設(shè)法以某種方式在一個(gè)位置獲得所需的所有數(shù)據(jù),也會(huì)面臨新的挑戰(zhàn),包括:
◆數(shù)據(jù)質(zhì)量。
◆不同數(shù)據(jù)格式的識(shí)別。
◆數(shù)據(jù)格式轉(zhuǎn)換(轉(zhuǎn)換為業(yè)務(wù)分析可用的格式)。
假設(shè)您能夠通過(guò)某種方式獲得所需的所有數(shù)據(jù),并且可以清理、轉(zhuǎn)換數(shù)據(jù)以及將數(shù)據(jù)映射成為一種有用的格式。即便如此,您仍然可以不使用傳統(tǒng)的數(shù)據(jù)移動(dòng)和集成方式。更確切的說(shuō),可以從一種固定的、長(zhǎng)期的、面向成批數(shù)據(jù)的方式向不固定的、短期的、基于需求的方式轉(zhuǎn)變。大多數(shù)組織在“停機(jī)時(shí)間”使用一種面向成批數(shù)據(jù)的處理方式,因?yàn)樵谶@段時(shí)間內(nèi)用戶不會(huì)在系統(tǒng)上發(fā)出大量請(qǐng)求。這種方式通常會(huì)在夜間、使用一個(gè)預(yù)先定義的處理時(shí)長(zhǎng)為 6~8 小時(shí)的批處理窗口來(lái)執(zhí)行,因?yàn)榇藭r(shí)辦公室里應(yīng)該沒(méi)有任何人。但隨著每種大小和類型的業(yè)務(wù)的日益全球化,實(shí)際的情況已并非如此?,F(xiàn)在從全世界的企業(yè)來(lái)看,它們只有很少(如果有)的停機(jī)時(shí)間,而且無(wú)論何時(shí)總是有人會(huì)呆在辦公室的某個(gè)地方。
結(jié)果您發(fā)現(xiàn):
◆盡快加載數(shù)據(jù)的壓力日益加大。
◆需要在同一時(shí)間加載多個(gè)目標(biāo)位置的數(shù)據(jù)。
◆目標(biāo)位置存在多樣性。
您不僅需要實(shí)現(xiàn)所有這些任務(wù),還需要盡可能快地實(shí)現(xiàn)它們。例如在線業(yè)務(wù)就是一種極端的情況,
***,當(dāng)你既需要針對(duì)應(yīng)用程序整合的實(shí)時(shí)事務(wù)處理技術(shù)、又需要針對(duì)海量數(shù)據(jù)的集成技術(shù)來(lái)解決企業(yè)業(yè)務(wù)問(wèn)題時(shí),如何將數(shù)據(jù)緊密集成到公司的整體集成架構(gòu)中,就變得更加重要。
組織挑戰(zhàn)
在大型組織中進(jìn)行數(shù)據(jù)集成存在兩大問(wèn)題,這就是“權(quán)力”挑戰(zhàn)和“舒適地帶”挑戰(zhàn)。
“權(quán)力”挑戰(zhàn)
數(shù)據(jù)就是力量,通常要使人們相信數(shù)據(jù)是一個(gè)公司的真正有價(jià)值的共有資產(chǎn)很困難。要使企業(yè)的數(shù)據(jù)集成獲得成功,那么多個(gè)數(shù)據(jù)源的全部所有者都必須了解項(xiàng)目的用途和動(dòng)向。有關(guān)各方缺乏合作是造成數(shù)據(jù)集成項(xiàng)目失敗的一個(gè)主要原因。行政部門的幫助、達(dá)成的共識(shí),以及強(qiáng)大的數(shù)據(jù)集成團(tuán)隊(duì)和多方相關(guān)人員是決定成功與否的少數(shù)關(guān)鍵因素,這些因素可以幫助解決問(wèn)題。
“舒適地帶”挑戰(zhàn)
在以多種方式分析孤立的需求時(shí),可以解決數(shù)據(jù)集成的挑戰(zhàn)。手動(dòng)編碼解決了約60%的數(shù)據(jù)集成問(wèn)題??捎糜诮鉀Q類似問(wèn)題的技術(shù)包括從復(fù)制、ETL、SQL 到企業(yè)應(yīng)用程序集成(EAI)。人們總是傾向于使用他們熟悉的技術(shù)。雖然這些技術(shù)的功能有些重復(fù),而且或許它們也能夠獨(dú)立完成任務(wù),但我們可以優(yōu)化這些技術(shù),使它們能夠解決各式各樣的問(wèn)題。當(dāng)嘗試解決企業(yè)數(shù)據(jù)集成的問(wèn)題時(shí),如果缺乏健全的體系結(jié)構(gòu)及適當(dāng)?shù)募夹g(shù)選擇,則可能導(dǎo)致失敗。
經(jīng)濟(jì)挑戰(zhàn)
本文前面概述的與組織和技術(shù)相關(guān)的問(wèn)題,共同導(dǎo)致了數(shù)據(jù)集成成為任何數(shù)據(jù)倉(cāng)庫(kù)/商業(yè)智能項(xiàng)目的最昂貴部分。導(dǎo)致數(shù)據(jù)集成成本增加的主要因素是:
◆以數(shù)據(jù)集成必需的格式來(lái)獲取數(shù)據(jù)的過(guò)程,最終變成了一個(gè)充滿組織權(quán)力游戲的緩慢而曲折的過(guò)程。
◆清理數(shù)據(jù)以及從多種源將數(shù)據(jù)映射為一種連貫的、有意義的格式極其困難。
◆標(biāo)準(zhǔn)的數(shù)據(jù)集成工具往往不能提供足夠的功能或可擴(kuò)展性來(lái)滿足項(xiàng)目的數(shù)據(jù)轉(zhuǎn)換要求。這可能會(huì)導(dǎo)致需要對(duì)為了完成任務(wù)而開發(fā)特殊ETL代碼所發(fā)生的咨詢費(fèi)用支付巨額金錢。
◆公司的不同部門都在關(guān)注數(shù)據(jù)孤島中的數(shù)據(jù)集成問(wèn)題。
當(dāng)需要集中解決這些問(wèn)題時(shí),這些數(shù)據(jù)集成方面的努力所引起的額外費(fèi)用將會(huì)納入全企業(yè)范圍的數(shù)據(jù)集成體系結(jié)構(gòu)。
隨著組織發(fā)展過(guò)程中對(duì)數(shù)據(jù)入庫(kù)和商業(yè)智能需求的增加,有缺陷的數(shù)據(jù)集成體系結(jié)構(gòu)將變得越來(lái)越難以維護(hù),總體擁有成本也會(huì)激增。
這種企業(yè)必須持續(xù)集成數(shù)據(jù)。但是,實(shí)際的批處理窗口操作時(shí)間和滯后時(shí)間總會(huì)超時(shí)數(shù)分鐘。許多這種情形下的決策過(guò)程是使用持續(xù)運(yùn)行的軟件自動(dòng)完成的。
面對(duì)不允許有任何停機(jī)時(shí)間的業(yè)務(wù)需求,可擴(kuò)展性和性能變得越來(lái)越重要。
如果沒(méi)有適當(dāng)?shù)募夹g(shù),那么在入庫(kù)和集成處理的每個(gè)步驟,系統(tǒng)幾乎都需要分段處理。由于在提取、轉(zhuǎn)換和加載(Extract, Transform and Load, ETL)的處理中需要合并不同的(特別是非標(biāo)準(zhǔn)的)數(shù)據(jù)源,而且需要執(zhí)行更復(fù)雜的操作(如數(shù)據(jù)挖掘和文本挖掘),這加大了對(duì)數(shù)據(jù)分段處理的需要。舉例來(lái)說(shuō),在圖 1 中,由于進(jìn)行分段處理,使“關(guān)閉循環(huán)”(即開始分析并處理新數(shù)據(jù))進(jìn)程所用時(shí)間也相應(yīng)增加。這些傳統(tǒng)的 ELT 體系結(jié)構(gòu)(與加載之前發(fā)生的增值 ETL 進(jìn)程相對(duì))為應(yīng)對(duì)新出現(xiàn)的業(yè)務(wù)需求,對(duì)系統(tǒng)能力施加嚴(yán)格的限制。
圖一
日益增加的全球性法規(guī)需求,要求公司保持清晰的審計(jì)線索。僅保持?jǐn)?shù)據(jù)可靠是不夠的,還需要數(shù)據(jù)能夠被跟蹤和驗(yàn)證。
【編輯推薦】