自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)映射優(yōu)秀實踐:類型、方法和工具的簡要指南

譯文 精選
大數(shù)據(jù) 數(shù)據(jù)分析
本文將分享關(guān)于數(shù)據(jù)遷移和數(shù)據(jù)集成方面的數(shù)據(jù)映射優(yōu)秀實踐,即數(shù)據(jù)映射的類型、方法和常用工具。

譯者 | 夏東威

審校 | 梁策 孫淑娟

在軟件應用程序之間映射數(shù)據(jù)是一個耗時的過程,這需要進行深入的準備,對數(shù)據(jù)源和目標有較好的理解,并要根據(jù)方法進行實際開發(fā)。

在任何應用程序集成、數(shù)據(jù)遷移以及一般的數(shù)據(jù)管理計劃中,數(shù)據(jù)映射都是最關(guān)鍵的步驟之一。甚至可以這么認為:集成項目的成功在很大程度上取決于源數(shù)據(jù)到目標數(shù)據(jù)的正確映射。

本文將探討有關(guān)數(shù)據(jù)映射的優(yōu)秀實踐,包括類型、常用方法以及一些有用的數(shù)據(jù)映射工具。

一、開門見山:數(shù)據(jù)映射意味著什么?

本質(zhì)上,數(shù)據(jù)映射是將數(shù)據(jù)字段從源系統(tǒng)(業(yè)務應用程序或數(shù)據(jù)庫)連接到目標系統(tǒng)的過程。

許多應用程序在前端共享相同的公共字段命名模式,但在后臺,這些相同的字段可以有完全不同的標簽。拿“顧客”字段舉例:在公司CRM系統(tǒng)的源代碼中,它可能仍然有“顧客”的標簽,但是你的ERP系統(tǒng)稱它為“客戶”,你的財務工具稱它為“顧客”,而你的組織用于客戶訊息的工具將完全映射它的“用戶”。這樣的標簽難題可能正是最常見的一種數(shù)據(jù)映射示例。

更為復雜的是,如果一個系統(tǒng)輸出的兩個字段的數(shù)據(jù)被期望作為另一個系統(tǒng)的一個字段的數(shù)據(jù)輸入(或相反),那么你該怎么辦呢?“名字/姓氏”字段經(jīng)常出現(xiàn)這種情況,比如電子商務系統(tǒng)中的某個客戶“Allan”“McGregor”需要在您的ERP中成為“Allan McGregor”?;蛘咄ㄟ^公司網(wǎng)站提交的潛在客戶電子郵件地址需要變成“名字:Steven”,以及客戶關(guān)系管理工具中的“姓氏:Davis”和“公司:Rangers”。所以現(xiàn)在討論不僅僅是映射相關(guān)的數(shù)據(jù)字段問題,還涉及數(shù)據(jù)轉(zhuǎn)換。

想象一下,業(yè)務應用程序模塊和流程(業(yè)務伙伴、領(lǐng)導人員、銷售訂單、付款單、發(fā)票、產(chǎn)品、客戶數(shù)據(jù)等)有幾十種,同時含有大量不同的數(shù)據(jù)字段,這些數(shù)據(jù)字段必須從一個系統(tǒng)無縫地流向下一個系統(tǒng)。那么,很容易理解為什么數(shù)據(jù)集成項目可能需要幾個月才能完成,而且還會出現(xiàn)成本失控的情況。

二、數(shù)據(jù)映射的類型有哪些?

尤其是在涉及復雜項目時,有兩種類型的數(shù)據(jù)映射需要考慮:

  • 邏輯數(shù)據(jù)映射是項目的一個更高層次的概念階段。
  • 物理數(shù)據(jù)映射是一個面向?qū)崿F(xiàn)的階段,而不是實際操作階段。

邏輯數(shù)據(jù)映射可以看作是數(shù)據(jù)建模的第一步。它可以是概念模型的一部分,在概念模型中,我們識別現(xiàn)實生活中的對象,并將其與組織相關(guān)的概念相匹配,例如,將產(chǎn)品信息、產(chǎn)品訂單歷史記錄和產(chǎn)品可用性分組為單個概念“產(chǎn)品”。

在更復雜的數(shù)據(jù)管理項目中,邏輯階段可以從概念模型中分離出來。在這種情況下,它將遵循后者的內(nèi)容,而我們的任務將是在組織內(nèi)定義邏輯實體,為每個實體分配屬性,并在這些實體之間建立關(guān)系,從而構(gòu)建代表其所有實體的整個業(yè)務的整體邏輯數(shù)據(jù)模型。

簡單起見,我們將一直使用一個非常基本的場景,在這個場景中,我們只需要在一個源系統(tǒng)和一個目標系統(tǒng)之間映射數(shù)據(jù)。下圖顯示了在這種場景下邏輯數(shù)據(jù)模型的一個非常簡化的版本。這一階段定義的規(guī)則更多是應用于邏輯概念而不是實際實現(xiàn),但它們可以作為更徹底的物理數(shù)據(jù)映射的基礎(chǔ)。

在邏輯數(shù)據(jù)模型架構(gòu)完成之后,我們可以從物理數(shù)據(jù)模型開始,它基于源系統(tǒng)和目標系統(tǒng)中數(shù)據(jù)對象的實際命名。尤其是在大型團隊中,這些信息應該盡可能具體和詳細,以避免不必要的錯誤和項目延遲。這就是我們以上的邏輯數(shù)據(jù)映射案例在進入下一階段時呈現(xiàn)的樣子:

關(guān)于這個話題,有幾個有趣的資源可以參考。我們可以推薦的一本書是《數(shù)據(jù)倉庫設(shè)計的數(shù)據(jù)映射》 (Data Mapping for Data Warehouse Design),盡管它不能1:1地轉(zhuǎn)換為業(yè)務應用程序之間的映射。通常,按這些階段實施數(shù)據(jù)映射項目應被視為數(shù)據(jù)映射優(yōu)秀實踐。這一過程規(guī)劃得越好,記錄得越完備,執(zhí)行起來就越容易、越迅速。

三、三種常見的數(shù)據(jù)映射方法

正如上文所示,數(shù)據(jù)映射多少需要一些技術(shù)理解,具體取決于數(shù)據(jù)映射方法。大體來說,有三種方法可供選擇:

  • 手動
  • 半自動化
  • 全自動

每種方法都有其優(yōu)缺點。

1.手動數(shù)據(jù)映射

手動數(shù)據(jù)映射本身就是一門學問。因為它不僅需要很好地理解轉(zhuǎn)換規(guī)則和編程語言,還需要足夠的人力和時間資源來創(chuàng)建地圖、記錄步驟,并隨著連接的軟件系統(tǒng)數(shù)量的增加而執(zhí)行后續(xù)的更新和更改。

優(yōu)點:通過這種方法,您可以百分之百地確定實施過程完全符合業(yè)務需求。此外,也不需要依賴任何第三方工具。

缺點:它非常耗時,代碼非常繁重,而且容易出錯。假如專門數(shù)據(jù)映射人員從團隊離職,那么他們的繼任者可能很難理解映射完成的過程。

2.半自動數(shù)據(jù)映射

有時也稱為模式映射,在這種方法中,您可以使用一個軟件工具,在無需開發(fā)人員參與的情況下,將類似的數(shù)據(jù)模式鏈接在一起。為此,該工具將比較源系統(tǒng)和目標系統(tǒng)的模式,并生成一個關(guān)系圖,隨后,開發(fā)者將審查這個關(guān)系圖,并做出必要修改。與手動數(shù)據(jù)映射方法類似,半自動映射工具可以用相關(guān)的編碼語言生成輸出代碼。

優(yōu)點:這種方法仍然為開發(fā)人員提供了很大的靈活性,但與手動數(shù)據(jù)映射方法相比,這種方法的耗時不見得少很多。

缺點:它同樣要求人員有相當高水平的編碼技能,同時手動和自動操作之間的切換仍然是資源密集型的。

3.全自動數(shù)據(jù)映射

全自動數(shù)據(jù)映射可能是最主流的方法,這意味著有一整套產(chǎn)品和工具可以促進數(shù)據(jù)集成的自動化低代碼/無代碼方法,從而實現(xiàn)數(shù)據(jù)映射。這類工具具有拖放或點擊選擇的圖形界面,這種圖形界面易于理解使用,不僅適用于經(jīng)驗豐富的程序員和IT架構(gòu)師,也適用于初級開發(fā)人員甚至業(yè)務線用戶,使數(shù)據(jù)映射過程對所有人都不再有門檻。一些現(xiàn)代工具甚至具有自然語言處理 (NLP) 功能,可以完全自動匹配數(shù)據(jù)字段。

優(yōu)點:全自動數(shù)據(jù)映射為開發(fā)人員節(jié)省了大量時間,且因為需要的高深技術(shù)知識較少,它可供范圍更廣的IT員工使用;全自動數(shù)據(jù)映射易于擴展,并為數(shù)據(jù)集成項目提供了許多有用的功能(安排日程、各種部署、預構(gòu)建模板等)。

缺點:它是一個組織將依賴的第三方工具,入門通常至少需要一定程度的培訓,且成本可能會迅速增加,具體取決于各個供應商的定價模式。

四、哪些工具用于數(shù)據(jù)映射?

這個問題的答案取決于所用的方法。

1.半自動方法

如果您決定采用半自動化或模式映射方法,以下是一些數(shù)據(jù)映射工具,在多個社區(qū)討論和研究論文中它們吸引了人們的眼球:

(1)Clio

這一原型研究工具由IBM的阿爾馬登研究中心開發(fā),它允許在關(guān)系模式和XML模式之間進行映射,并支持XQuery、XSLT 1.0、SQL和SQL/XML語言。

(2)MapForce2005

它是Altova的XML工具套件的一部分,與Clio一樣,MapForce2005是專門為模式映射和生成轉(zhuǎn)換查詢而設(shè)計的。

(3)Stylus Studio 6

它是Progress Software的XML開發(fā)環(huán)境,聚焦于XQuery/XSLT可視化和轉(zhuǎn)換。

(4)Oracle Warehouse Builder 10g Release 1

它是基于Oracle 10g數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)倉庫開發(fā)工具。ETL(提取、轉(zhuǎn)換、加載)過程是這個工具的其中一部分,有一個模式映射步驟。該工具代表了目前市場上許多可用的ETL解決方案。

2、全自動方法

這一類的數(shù)據(jù)映射工具從來都不是孤單一個。意思是說,數(shù)據(jù)映射只是在一個產(chǎn)品內(nèi)提供的一整套工具里的一種功能。理由是,如果您想自動化數(shù)據(jù)映射過程,為什么還要讓數(shù)據(jù)管理任務中的其他元素采用手動?

考慮到這一點,當你采用低代碼/無代碼的方法進行數(shù)據(jù)映射和數(shù)據(jù)管理時,在對任何工具評估之前,你應該問自己兩個問題,即:誰將是目標用戶?在數(shù)據(jù)交換自動化方面,未來計劃是什么?

這些問題的答案將在很大程度上影響你的搜索策略。您可以為您的業(yè)務線用戶或非?;镜淖詣踊瘓鼍斑x擇100%無代碼解決方案,比如Zapier。而對于復雜的自動化任務和你的IT團隊來說,可能你更偏好低代碼的iPaaS解決方案,它提供高水平的自動化,但也為靈活性和自由度留出了余地。

五、在數(shù)據(jù)映射工具中尋找什么

在結(jié)束討論之前,我們簡要介紹一下優(yōu)秀的數(shù)據(jù)映射工具應該具有的主要功能和特性:

  • 直觀的無代碼或低代碼映射界面,記?。哼@不是說誰優(yōu)于誰,而是取決于你的個性需求和目標用戶。
  • 支持各種結(jié)構(gòu)化數(shù)據(jù)格式(CSV、XML、JSON等),理想情況下,還應該支持非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)格式。
  • 驗證過程中能進行語法和錯誤檢查。
  • 支持條件映射(例如基于內(nèi)容的映射)和基于規(guī)則的映射。
  • 映射過程中支持內(nèi)置的數(shù)據(jù)轉(zhuǎn)換功能。
  • 用樣本數(shù)據(jù)運行測試和調(diào)試的能力。

六、結(jié)論

在軟件應用程序之間映射數(shù)據(jù)是一個耗時的過程,需要深入準備并制定周密策略、對源數(shù)據(jù)和目標數(shù)據(jù)有一定知識了解,以及根據(jù)自身的方法展開實際開發(fā)。必須要承認,即使使用所謂的“全自動”方法,數(shù)據(jù)映射也不是真正的“全自動”。例如,可能仍然需要開發(fā)人員驗證和更正映射結(jié)果。但是,這些工具仍然可以將人工參與降至最低,從而為其他關(guān)鍵型任務釋放寶貴資源。

原文鏈接:https://dzone.com/articles/data-mapping-best-practices-a-brief-guide-to-types

譯者介紹

夏東威,51CTO社區(qū)編輯,信息系統(tǒng)項目師,中國人民大學傳播學碩士。具有復合型知識結(jié)構(gòu),有20多年IT上市公司市場總監(jiān)、資深研究員、IT項目負責人經(jīng)驗。目前任職北京北信源軟件股份有限公司資深研究員,擔任《東威智庫》和《東哥安全觀》公眾號主編。

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2024-10-29 20:58:38

2023-06-08 16:47:09

軟件開發(fā)工具

2023-11-29 09:00:00

KubernetesDevOps

2021-11-01 05:54:01

數(shù)據(jù)庫安全信息安全網(wǎng)絡攻擊

2024-01-22 12:46:00

KubernetesAPI接口

2020-12-02 09:00:00

大數(shù)據(jù)互聯(lián)網(wǎng)工具

2022-05-27 05:42:34

容器云安全

2023-05-22 15:40:00

人工智能ChatGPT A

2023-09-03 22:26:41

DevOps代碼

2023-07-24 16:08:17

測試開發(fā)

2022-06-28 13:25:19

K8sPrometheusGrafana

2019-05-30 06:51:29

2023-06-04 17:17:46

2019-01-16 09:00:00

DevOps性能測試軟件

2021-01-20 10:53:41

云計算云存儲云遷移

2023-01-31 13:55:33

Java循環(huán)語句

2021-11-16 09:00:00

安全加密密鑰工具

2022-01-07 09:00:00

移動應用測試工具

2021-07-21 09:15:57

Python工具編程語言

2021-01-10 11:19:04

數(shù)據(jù)科學工具技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號