如何不使用代碼就能清理和驗證地址數(shù)據(jù)?
譯文如今,數(shù)據(jù)已成為一家組織的最大資產(chǎn)之一。無論您想設計客戶旅程還是預測業(yè)務未來,數(shù)據(jù)都是有助于取得成功結果的主要工具。這就是為什么企業(yè)主致力于開發(fā)定制解決方案以保持數(shù)據(jù)清潔,尤其是客戶或聯(lián)系人數(shù)據(jù)庫。
但由于公司的多名員工處理、操作和使用聯(lián)系人數(shù)據(jù)集,很快會出現(xiàn)諸多不一致和不準確的地方。然后,需要公司的IT人員構建內部解決方案,神奇地消除數(shù)據(jù)庫中存在的所有錯誤。
從頭開始編寫每個解決方案
雖然可以編寫用于清理和規(guī)范數(shù)據(jù)集的代碼,但考慮到實施所需的資源量(時間、人員和資金),這絕對是一種低效的解決方案。算上年度維護和升級成本后,它比采用現(xiàn)有解決方案的成本高出兩三倍。
這讓我想起了一位程序員朋友最近告訴我的話:在每個開發(fā)人員一生中的某個時刻,他們意識到手工編寫每個解決方案多么低效。有時,改寫市面上現(xiàn)有的解決方案(開源庫或商業(yè)產(chǎn)品)比從頭開始編寫解決方案更有效。
我在該博文中解釋一些常見的術語和步驟,以清理和驗證客戶數(shù)據(jù)庫中的地址。這肯定會幫助您了解在選擇市面上現(xiàn)有的解決方案時要尋找什么。
涉及的常用術語
在我們詳細介紹該過程之前,先了解該領域使用的一些常用術語及其含義。
- 地址標準化
地址標準化(又叫地址規(guī)范)是根據(jù)權威標準(比如美國的USPS地址標準)更新地址的格式。
這個過程確保地址以可接受的格式存在——包括正確的拼寫、縮寫、地理編碼以及附以ZIP+4值。
- 地址驗證
地址驗證是針對權威數(shù)據(jù)庫(比如美國的USPS)運行標準化地址的過程,并確保這些地址是真實有效的——這意味著它們是國內可郵寄的有效地點。
兩者之間的區(qū)別
有時這兩個術語可以互換使用,但兩者之間存在差異。地址應先標準化,以遵循可接受的格式。一旦完成標準化,它們現(xiàn)在可以進行驗證,以核查這些地址是否真實有效。
標準化和驗證地址的過程
這個過程涉及以下步驟:
1. 分析地址
在針對地址數(shù)據(jù)庫執(zhí)行任何活動之前,評估當前狀態(tài)很重要。
這時候地址分析非常有用。它識別含有不完整或缺失地址信息的記錄,以及不遵循標準化模式的記錄。
地址分析突出顯示了數(shù)據(jù)集可能存在的清理和標準化機會。此外,該配置文件報告通常在流程結束時再次生成,以便比較初始報告和結束報告,以查看數(shù)據(jù)集是否仍存在錯誤。
2. 解析地址
USPS地址標準化始于將每個地址解析成子組件。這很重要,因為地址大多作為數(shù)據(jù)集中的單個字段來予以存儲。針對整個字段運行驗證檢查不如針對子部分運行檢查來得準確。因此,通常將單個地址解析成街道號碼、街道名稱、郵政編碼、城市、州和國家。
3. 地理編碼
在這個步驟中,為所有地址計算緯度和經(jīng)度地理編碼。除此之外,根據(jù)計算出的地理編碼,您還可以找出5位數(shù)的郵政編碼和4位數(shù)的送貨區(qū)域路線。
4. 重構地址
一旦所有這些信息被計算和標準化,現(xiàn)在不是以所需的格式重新格式化和重建地址的時候。這步完成后可以保存在數(shù)據(jù)庫中,或者如果需要,可以隨時隨地實時計算。
這種格式的一個例子是USPS地址標準,該標準要求送貨地址有三行——第一行含有收件人姓名,第二行含有街道地址,第三行含有城市、州和郵政編碼。
5. 驗證地址
當?shù)刂酚兴斜匾M件時,您現(xiàn)在可以對照任何權威數(shù)據(jù)庫驗證其有效性,以查明該地址是不是真實的、可郵寄的位置。
除了驗證外,這類數(shù)據(jù)庫還可以告訴地址類型——住宅或商業(yè),以及其他一些次要細節(jié)。
結論
現(xiàn)在你已有了清理和驗證地址數(shù)據(jù)的5步無代碼流程。從頭開始實施這樣的解決方案可能非常具有挑戰(zhàn)性,可能需要數(shù)年時間才能提高結果的準確性。
如今業(yè)界有許多地址驗證工具,包括一些經(jīng)過CASS認證的工具,這是USPS分配給提供準確地址標準化和驗證服務的軟件供應商的認證頭銜。
這類工具絕對可以提高您團隊的運營效率,并使他們能夠通過使用正確、準確的位置信息,為客戶設計卓越的體驗。
原文標題:??How to Clean and Verify Address Data 'Without Using Code'??,作者:Data Ladder