處理復(fù)雜的數(shù)據(jù)集成,你還在編寫腳本嗎?
數(shù)據(jù)并不單獨(dú)存在于一個(gè)數(shù)據(jù)庫、文件系統(tǒng)、數(shù)據(jù)湖或存儲庫中。在記錄系統(tǒng)中創(chuàng)建的數(shù)據(jù)必須滿足多種業(yè)務(wù)需求,與其他數(shù)據(jù)源相集成,然后才能在分析、面向客戶的應(yīng)用程序或內(nèi)部工作流中使用。例子包括:
- 來自電子商務(wù)應(yīng)用程序的數(shù)據(jù)與用戶分析、客戶關(guān)系管理 (CRM) 系統(tǒng)中的客戶數(shù)據(jù)或其他主數(shù)據(jù)源相集成,以建立客戶細(xì)分并定制營銷信息。
- 物聯(lián)網(wǎng) (IoT) 傳感器數(shù)據(jù)與運(yùn)營和財(cái)務(wù)數(shù)據(jù)存儲相關(guān)聯(lián),用于控制吞吐量和報(bào)告制造過程的質(zhì)量。
- 員工工作流應(yīng)用程序把跨多個(gè)軟件即服務(wù) (SaaS) 平臺和內(nèi)部數(shù)據(jù)源的數(shù)據(jù)和工具連接到一個(gè)易于使用的移動界面中。
許多企業(yè)還擁有數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和創(chuàng)新團(tuán)隊(duì),他們越來越需要整合內(nèi)部和外部數(shù)據(jù)源。開發(fā)預(yù)測模型的數(shù)據(jù)科學(xué)家通常會加載多個(gè)外部數(shù)據(jù)源,例如計(jì)量經(jīng)濟(jì)學(xué)、天氣、人口普查和其他公共數(shù)據(jù),然后將它們與內(nèi)部數(shù)據(jù)源混合。進(jìn)行人工智能試驗(yàn)的創(chuàng)新團(tuán)隊(duì)需要聚合大量且通常很復(fù)雜的數(shù)據(jù)源來訓(xùn)練和測試他們的算法。曾經(jīng)在電子表格中執(zhí)行分析的業(yè)務(wù)和數(shù)據(jù)分析師現(xiàn)在可能需要更復(fù)雜的工具來加載、加入和處理多個(gè)數(shù)據(jù)供給。
用編程和腳本處理數(shù)據(jù)集成
對于任何具有基本編程技能的人來說,將數(shù)據(jù)從源移動到目的地的最常見方法就是開發(fā)一個(gè)簡短的腳本。代碼從一個(gè)或多個(gè)源中提取數(shù)據(jù),執(zhí)行任何必要的數(shù)據(jù)驗(yàn)證和操作,并將其推送到一個(gè)或多個(gè)目標(biāo)。
開發(fā)人員可以使用多種方法對點(diǎn)對點(diǎn)的數(shù)據(jù)集成進(jìn)行編碼,例如:
- 將數(shù)據(jù)變化推送到其他數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)庫存儲過程
- 作為預(yù)定工作或服務(wù)來運(yùn)行的腳本
- 當(dāng)應(yīng)用程序的最終用戶更改數(shù)據(jù)時(shí)向服務(wù)發(fā)出警報(bào)的webhook
- 連接系統(tǒng)間數(shù)據(jù)的微服務(wù)
- 部署到無服務(wù)器架構(gòu)的小型數(shù)據(jù)處理代碼片段
這些編碼過程可以從多個(gè)源中提取數(shù)據(jù),在將數(shù)據(jù)傳送到目標(biāo)數(shù)據(jù)源之前加入、篩選、清理、驗(yàn)證和轉(zhuǎn)換數(shù)據(jù)。
編寫腳本可能是一種快速簡便的數(shù)據(jù)移動方法,但它并不算是專業(yè)級的數(shù)據(jù)處理方法。生產(chǎn)級數(shù)據(jù)處理腳本需要自動執(zhí)行處理和傳輸數(shù)據(jù)以及處理多個(gè)操作所需的步驟步驟。
例如,處理大量數(shù)據(jù)的集成應(yīng)該是多線程的,并且對有許多數(shù)據(jù)源的工作也需要可靠的數(shù)據(jù)驗(yàn)證和異常處理。如果需要有效的業(yè)務(wù)邏輯和數(shù)據(jù)轉(zhuǎn)換,開發(fā)人員應(yīng)該記錄這些步驟或采取其他措施來確保這些集成是可以被觀察到的。
支持這些操作需求的腳本編程并非易事。它要求開發(fā)人員預(yù)測數(shù)據(jù)集成可能出現(xiàn)的問題,并相應(yīng)地進(jìn)行編程。此外,在使用很多實(shí)驗(yàn)數(shù)據(jù)源時(shí),開發(fā)自定義腳本可能并不劃算。所以最后,數(shù)據(jù)集成腳本通常難以在多個(gè)開發(fā)人員之間進(jìn)行知識轉(zhuǎn)移和維護(hù)。
出于這些原因,許多有數(shù)據(jù)集成需求的企業(yè)通常會尋找編程和編寫數(shù)據(jù)流腳本之外的方法。
作者:Isaac Sacolick是StarCIO的總裁,也是亞馬遜暢銷書《推動數(shù)字化:通過技術(shù)實(shí)現(xiàn)業(yè)務(wù)轉(zhuǎn)型的領(lǐng)導(dǎo)者指南》的作者。Sacolick是公認(rèn)的頂級社交CIO和數(shù)字化轉(zhuǎn)型影響者。他在InfoWorld.com、CIO.com、他的博客Social、Agile和Transformation以及其他網(wǎng)站上發(fā)表了700多篇文章。
原文網(wǎng)址:https://www.infoworld.com/article/3621992/why-you-need-a-data-integration-platform.html