自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="thtwu"><cite id="thtwu"><rp id="thtwu"></rp></cite></meter>

<sub id="thtwu"></sub>

<style id="thtwu"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

計算機審計中電子數(shù)據(jù)清洗的主要步驟

作者：佚名 2013-03-27 11:09:26

大數(shù)據(jù)

在這里我們將介紹計算機審計中電子數(shù)據(jù)清洗的主要步驟，包括數(shù)據(jù)分析和定義清洗轉換規(guī)則。

（一）定義和確定錯誤的類型。

1.數(shù)據(jù)分析。數(shù)據(jù)分析是數(shù)據(jù)清洗的前提與基礎，通過詳盡的數(shù)據(jù)分析來檢測數(shù)據(jù)中的錯誤或不一致情況，除了手動檢查數(shù)據(jù)或者數(shù)據(jù)樣本之外，還可以使用分析程序來獲得關于數(shù)據(jù)屬性的元數(shù)據(jù)，從而發(fā)現(xiàn)數(shù)據(jù)集中存在的質量問題。

2.定義清洗轉換規(guī)則。根據(jù)上一步進行數(shù)據(jù)分析得到的結果來定義清洗轉換規(guī)則與工作流。根據(jù)數(shù)據(jù)源的個數(shù)，數(shù)據(jù)源中不一致數(shù)據(jù)和“臟數(shù)據(jù)”多少的程度，需要執(zhí)行大量的數(shù)據(jù)轉換和清洗步驟。要盡可能的為模式相關的數(shù)據(jù)清洗和轉換指定一種查詢和匹配語言，從而使轉換代碼的自動生成變成可能。

（二）搜尋并識別錯誤的實例。

1.自動檢測屬性錯誤。檢測數(shù)據(jù)集中的屬性錯誤，需要花費大量的人力、物力和時間，而且這個過程本身很容易出錯，所以需要利用高的方法自動檢測數(shù)據(jù)集中的屬性錯誤，方法主要有：基于統(tǒng)計的方法、聚類方法、關聯(lián)規(guī)則的方法。

2.檢測重復記錄的算法。消除重復記錄可以針對兩個數(shù)據(jù)集或者一個合并后的數(shù)據(jù)集，首先需要檢測出標識同一個現(xiàn)實實體的重復記錄，即匹配過程。檢測重復記錄的算法主要有：基本的字段匹配算法，遞歸的字段匹配算法，Smith—Waterman算法，Cosine相似度函數(shù)。

（三）糾正所發(fā)現(xiàn)的錯誤。在數(shù)據(jù)源上執(zhí)行預先定義好的并且已經(jīng)得到驗證的清洗轉換規(guī)則和工作流。當直接在源數(shù)據(jù)上進行清洗時，需要備份源數(shù)據(jù)，以防需要撤銷上一次或幾次的清洗操作。清洗時根據(jù)“臟數(shù)據(jù)”存在形式的不同，執(zhí)行一系列的轉換步驟來解決模式層和實例層的數(shù)據(jù)質量問題。為處理單數(shù)據(jù)源問題并且為其與其他數(shù)據(jù)源的合并做好準備，一般在各個數(shù)據(jù)源上應該分別進行幾種類型的轉換，主要包括：

1.從自由格式的屬性字段中抽取值（屬性分離）。自由格式的屬性一般包含著很多的信息，而這些信息有時候需要細化成多個屬性，從而進一步支持后面重復記錄的清洗。

2. 確認和改正。這一步驟處理輸入和拼寫錯誤，并盡可能地使其自動化?；谧值洳樵兊钠磳憴z查對于發(fā)現(xiàn)拼寫錯誤是很有用的。

3. 標準化。為了使記錄實例匹配和合并變得更方便，應該把屬性值轉換成一個一致和統(tǒng)一的格式。

（四）數(shù)據(jù)回流。當數(shù)據(jù)被清洗后，干凈的數(shù)據(jù)應該替換數(shù)據(jù)源中原來的“臟數(shù)據(jù)”。這樣可以提高原系統(tǒng)的數(shù)據(jù)質量，還可避免將來再次抽取數(shù)據(jù)后進行重復的清洗工作。

責任編輯：彭凡來源：中國蚌埠

數(shù)據(jù)清洗

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="2w9j4"></sub>