自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)遷移面臨諸多挑戰(zhàn)

云計算
在過去十年,我經(jīng)常需要面對無數(shù)次的數(shù)據(jù)改寫任務(wù),無論是從舊有的數(shù)據(jù)庫遷移到新的數(shù)據(jù)庫,還是利用新的程序工具發(fā)掘大量數(shù)據(jù)系列,又或者是其他的大量任務(wù),以某種形式得到數(shù)據(jù)并以新的方式轉(zhuǎn)存為數(shù)據(jù),這樣的事情每時每刻都會頻繁發(fā)生。對包括IT人在內(nèi)的大多數(shù)人,數(shù)據(jù)改寫和遷移都只是個虛幻的魔法。

 [[70687]]

 

導(dǎo)讀:數(shù)據(jù)改寫與數(shù)據(jù)遷移面臨重大挑戰(zhàn)--但也收獲巨大。

在過去十年,我經(jīng)常需要面對無數(shù)次的數(shù)據(jù)改寫任務(wù),無論是從舊有的數(shù)據(jù)庫遷移到新的數(shù)據(jù)庫,還是利用新的程序工具發(fā)掘大量數(shù)據(jù)系列,又或者是其他的大量任務(wù),以某種形式得到數(shù)據(jù)并以新的方式轉(zhuǎn)存為數(shù)據(jù),這樣的事情每時每刻都會頻繁發(fā)生。對包括IT人在內(nèi)的大多數(shù)人,數(shù)據(jù)改寫和遷移都只是個虛幻的魔法。

讓我們花幾分鐘的時間來解釋下整個過程是怎么運作的。大家可能會發(fā)現(xiàn),引用這些有助于向那些不太懂技術(shù)的人溝通講解比較微妙的后端技術(shù)流程。

一切先從Excel開始

我們選擇一個不太幸運的常見情形:可怕的Excel電子表格。一段時間以前,有一家很遙遠的公司,他們確定需要收集涉及到商業(yè)流程的數(shù)據(jù)--庫存、銷售、客戶等企業(yè)擁有的所有數(shù)據(jù)。由于缺乏合適的工具,有個人利用Excel電子表格完成了這項工作。隨著時間的流逝,數(shù)以千計的記錄大量積聚,Excel表格變得越來越?jīng)]有用處,最終該公司決定將所有數(shù)據(jù)轉(zhuǎn)到真正的數(shù)據(jù)庫中,他們聘請了咨詢團隊,定義了內(nèi)部資源,***派一個人接手了該任務(wù)。

首先要做的就是檢查數(shù)據(jù)本身的干凈度。在一個***的世界,電子表格有點類似于數(shù)據(jù)庫,每一列都有公共區(qū)塊--如名字、姓氏、街道、城市等等。然而,運作的方法并不總是這樣,布局有可能自上而下,信息包含在同一列下單獨的行中,如聯(lián)系列下有全稱、公司、地址、手機號碼等單獨的行。下一列則有可能是2012年***的訂單或銷售或其他數(shù)據(jù),這帶來了一個更具挑戰(zhàn)性的問題。

讓我們看看***種情況,這種最為簡單。數(shù)據(jù)相對清晰,結(jié)構(gòu)明顯,可以方便地外移到CSV上,通過自定義的解析器將其轉(zhuǎn)化為一個數(shù)據(jù)庫。好的CSV解析器可以將所有記錄拉到一個數(shù)組中,數(shù)組可以剝離不同的數(shù)據(jù)記錄,并嵌入到新的數(shù)據(jù)庫中。完成這些流程后,我們能檢查數(shù)據(jù),也能修改數(shù)據(jù),以更好地適應(yīng)新數(shù)據(jù)庫的格式。

舉例來說,我們可能會在一個電話號碼字段中運行正則表達式,將各種各樣的手機號碼格式轉(zhuǎn)換成一種標準格式,這需要折騰所有的特殊字符,重新設(shè)定結(jié)果串,然后才能將數(shù)據(jù)嵌入到新的數(shù)據(jù)庫。這種才做會將數(shù)字如(212)555-1212、212-555-1212、2125551212、212 555 1212、212.555.1212等轉(zhuǎn)換為類似(212)555-1212的標準格式,有助于可讀性和搜索。

我們可能用類似/[^0-9]+/的正則表達式卸除這些內(nèi)容,然后用如/([0-9]{3})([0-9]{3})([0-9]{4})/這樣的正則表達式再將它們重新組合,***匹配結(jié)果是212、555和1212。我們現(xiàn)在可以我們喜歡的任何格式來重新設(shè)定手機號碼,如果我們碰到一個數(shù)字,因為數(shù)位過多或過少而不能成為手機號碼數(shù)字時,我們也能擺脫困境。

形式自由一切都自由

當我們進入到更自由的表單字段后,情況變得更為不確定。確定地址特別麻煩,因為設(shè)定地址格式有各種各樣不同的方法。我們也需要面對大量的街道和城市名,需要確定我們是否正確地掌握了“Washington, DC” 、“Washington/DC” 、“Washington DC”,以及一些類似“Winston-Salem DC”、“King of Prussia, PA”、“Scranton, Penn” “N. Providence RI”、 “Houston, TX”和“O’Fallon, IL”等古怪的地名。

這些各種各樣的變化能讓解析器犯錯,因為我們不能消除某些特殊的字符。此外,我們不能指望一個城市的數(shù)據(jù)量能跟一個州,或州內(nèi)現(xiàn)存和擁有的縮寫的數(shù)據(jù)量相比。因此,我們需要構(gòu)造條件表達式,凝成一股勁來盡***努力確定實際的城市和州,甚至需要對美國的每一個城市和每一個州的數(shù)據(jù)庫進行核對。根據(jù)結(jié)果,我們?nèi)匀恍枰谠撚涗浬蠑[脫困境,如果沒法做出確定的決斷,至少提出一個需要手動檢查的問題的記錄。

我們現(xiàn)在才僅僅開始發(fā)現(xiàn)事情的表象,還有大量的工作,就是搞清楚每一個記錄中的城市、州、手機號碼等,根據(jù)內(nèi)容,我們需要沖洗并重復(fù)電子表格中的每一個其他字段。

這種混亂的直接結(jié)果是,不受約束的自由形式的數(shù)據(jù)項,無時無刻無論何地都困擾著每家公司,而且它不一定是Excel形式。數(shù)據(jù)項可以是Access,一個自主開發(fā)的數(shù)據(jù)庫,或者其他任何應(yīng)用程序。除非能檢查輸入的數(shù)據(jù)的有效性和格式,否則這些數(shù)據(jù)很可能只是一個爛攤子。當然,問題的關(guān)鍵是建立一個合適的數(shù)據(jù)庫前端來處理數(shù)據(jù)的輸入:我們可以清理修飾數(shù)據(jù)進入的方式,這樣能持續(xù)提高數(shù)據(jù)的準確性和可用性,這是擺在首位的使用數(shù)據(jù)庫的好處之一。

但是,我們不能忽視在后端處理這種類型的數(shù)據(jù)集所付出的努力,現(xiàn)在也已經(jīng)開發(fā)了各種工具來簡化流程,但他們并不能適用于所有情況。雖然他們可能對輸入數(shù)據(jù)的某部分起作用,不能起作用的部分可能導(dǎo)致使用那些工具更加困難重重。

這種性質(zhì)的工作十分乏味,尤其注重細節(jié),要求大量的手工數(shù)據(jù)檢驗、試運行、調(diào)試,同時需要在該項目上工作的部分的開發(fā)者具備前瞻性思維。當上面說到的所有東西都實現(xiàn)了,結(jié)果肯定是:我們的付出是值得的。

使用干凈的數(shù)據(jù),一切都變得很簡單,只要別低估清理數(shù)據(jù)的旅途中可能面臨的巨大挑戰(zhàn)就行。

責(zé)任編輯:王程程 來源: 中云網(wǎng)編譯
相關(guān)推薦

2021-12-06 10:41:14

女性職業(yè)發(fā)展調(diào)查

2020-12-25 10:01:15

物聯(lián)網(wǎng)智慧城市大數(shù)據(jù)

2021-02-03 17:29:19

人工智能AI

2020-02-11 10:24:40

云遷移云計算

2013-12-18 09:25:06

400G以太網(wǎng)400G

2015-10-29 09:44:28

數(shù)據(jù)中心綜合管理

2014-09-01 15:05:39

400G以太網(wǎng)光纖

2012-05-21 09:57:13

IPv6

2018-06-13 23:11:18

云遷移云計算數(shù)字化

2011-09-09 10:37:22

虛擬服務(wù)器虛擬化

2012-02-06 09:23:26

虛擬服務(wù)器服務(wù)器虛擬化

2020-05-08 11:00:22

物聯(lián)網(wǎng)網(wǎng)絡(luò)技術(shù)

2020-02-25 15:37:31

數(shù)據(jù)安全數(shù)據(jù)存儲

2018-09-20 10:10:34

2013-11-12 09:35:16

大數(shù)據(jù)

2013-03-05 09:47:11

2017-10-18 11:48:31

數(shù)據(jù)科學(xué)機器學(xué)習(xí)數(shù)據(jù)處理

2022-09-22 10:53:38

實時數(shù)據(jù)ML 模型

2021-02-04 12:06:54

數(shù)字貨幣人民幣大數(shù)據(jù)

2021-03-16 10:15:48

醫(yī)療領(lǐng)域數(shù)據(jù)協(xié)作數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號