自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何使用機(jī)器學(xué)習(xí)自動(dòng)執(zhí)行數(shù)據(jù)清理

人工智能 機(jī)器學(xué)習(xí)
如果在數(shù)據(jù)清理過(guò)程中的某些階段采用機(jī)器學(xué)習(xí)技術(shù),不僅可以使工作流實(shí)現(xiàn)自動(dòng)化,而且可以有助于企業(yè)領(lǐng)導(dǎo)的決策,最終獲得更好的結(jié)果。

根據(jù)調(diào)研機(jī)構(gòu)Gartner公司日前發(fā)布的一份調(diào)查報(bào)告,由于數(shù)據(jù)質(zhì)量不良的問(wèn)題,40%的企業(yè)無(wú)法實(shí)現(xiàn)其業(yè)務(wù)目標(biāo)。許多數(shù)據(jù)科學(xué)家已經(jīng)意識(shí)到了利用高質(zhì)量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析的重要性,因此,他們將大約80%的時(shí)間用于數(shù)據(jù)清理和準(zhǔn)備。這意味著他們將更多的時(shí)間花在數(shù)據(jù)分析之前的過(guò)程上,而不是專注于提取有意義的見(jiàn)解。

盡管有必要在進(jìn)入數(shù)據(jù)分析過(guò)程之前獲得更好的數(shù)據(jù),但必須有一種更好的方法來(lái)解決數(shù)據(jù)集中存在的數(shù)據(jù)質(zhì)量問(wèn)題,而不是人工地糾正每個(gè)錯(cuò)誤。

[[386884]]

使用基于代碼的方法

像Python和R這樣的編程語(yǔ)言使編寫基本數(shù)據(jù)清理工作流變得更加容易,例如:

  • 刪除對(duì)分析過(guò)程無(wú)用的列。
  • 更改數(shù)據(jù)類型。
  • 突出顯示丟失的數(shù)據(jù)。
  • 從列值中刪除分隔線和空格。
  • 以數(shù)字方式排列數(shù)據(jù),而不是分類排列數(shù)據(jù),
  • 將字符串更改為日期時(shí)間格式等。

使用編程腳本清理數(shù)據(jù)非常有效,但是必須具備大量的編程專業(yè)知識(shí)。此外,編程腳本傾向于專門用于特定數(shù)據(jù)集及其列值。這意味著,當(dāng)數(shù)據(jù)值包含相似的基礎(chǔ)模式時(shí),編程函數(shù)可以更好地工作。否則,將最終將特定方案硬編程到代碼中,以達(dá)到數(shù)據(jù)清理的目的,而不是實(shí)現(xiàn)可滿足多種方案的更通用的方法。

機(jī)器學(xué)習(xí)及其在數(shù)據(jù)清理中的作用

要清理數(shù)據(jù),首先,必須能夠分析和識(shí)別不良數(shù)據(jù)。然后執(zhí)行糾正措施以獲取干凈且格式標(biāo)準(zhǔn)化的數(shù)據(jù)集。數(shù)據(jù)清理過(guò)程中有多個(gè)階段,采用機(jī)器學(xué)習(xí)和人工智能技術(shù)不僅可以使工作流實(shí)現(xiàn)自動(dòng)化,而且可以獲得更準(zhǔn)確的結(jié)果。

(1)分析數(shù)據(jù)并檢測(cè)錯(cuò)誤

機(jī)器學(xué)習(xí)在數(shù)據(jù)清理中起到重要作用的第一步是對(duì)數(shù)據(jù)進(jìn)行概要分析,并突出顯示異常值。生成直方圖并針對(duì)經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型運(yùn)行列值將突出顯示哪些值是異常值,并且與該列的其他值不匹配。可以在標(biāo)準(zhǔn)字典上訓(xùn)練模型,也可以提供專門用于數(shù)據(jù)的自定義數(shù)據(jù)集。

(2)對(duì)數(shù)據(jù)的清理和標(biāo)準(zhǔn)化提出智能化建議

除了檢測(cè)列值中的錯(cuò)誤之外,機(jī)器學(xué)習(xí)解決方案還可以提出明智的建議,并突出顯示解決數(shù)據(jù)質(zhì)量問(wèn)題的可能措施。這些建議基于同一數(shù)據(jù)集中遇到的數(shù)據(jù)的性質(zhì)。例如,如果兩個(gè)記錄的地址完全相同,但郵政編碼不同,則機(jī)器學(xué)習(xí)算法可以將其標(biāo)記為需要修復(fù)的可能錯(cuò)誤。這是通過(guò)在數(shù)據(jù)集上設(shè)置相關(guān)性約束來(lái)實(shí)現(xiàn)的,如果地址相同,則郵政編碼也必須相同。

(3)通過(guò)集群突出顯示可能的重復(fù)項(xiàng)

記錄重復(fù)數(shù)據(jù)刪除是數(shù)據(jù)清理工作流程中最重要的步驟之一。機(jī)器學(xué)習(xí)解決方案可以通過(guò)基于記錄的相似性對(duì)記錄進(jìn)行集群來(lái)幫助用戶執(zhí)行記錄鏈接。這是通過(guò)在非重復(fù)數(shù)據(jù)集上訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)實(shí)現(xiàn)的,該數(shù)據(jù)集包含匹配項(xiàng)和不匹配項(xiàng)的標(biāo)簽。一旦訓(xùn)練完成,機(jī)器學(xué)習(xí)模型便會(huì)智能地標(biāo)記新數(shù)據(jù)集并創(chuàng)建集群,以突出顯示可能引用同一實(shí)體的數(shù)據(jù)記錄。

(4)影響合并/清除決策以實(shí)現(xiàn)單一真相來(lái)源

在創(chuàng)建集群的過(guò)程中,機(jī)器學(xué)習(xí)算法對(duì)記錄屬于該集群的可能性進(jìn)行評(píng)分。這有助于數(shù)據(jù)科學(xué)家做出相應(yīng)的合并或清除數(shù)據(jù)記錄的決定。還可以調(diào)整機(jī)器學(xué)習(xí)算法中使用的變量,以在產(chǎn)生的假陽(yáng)性和陰性數(shù)量之間設(shè)置可接受的閾值。

基于機(jī)器學(xué)習(xí)的數(shù)據(jù)清理

上面的工作流程顯示了基于機(jī)器學(xué)習(xí)的數(shù)據(jù)清理軟件如何自動(dòng)執(zhí)行清理活動(dòng),而且還通過(guò)建議智能建議簡(jiǎn)化了決策過(guò)程。這種利用人工智能強(qiáng)大功能的高級(jí)流程對(duì)于數(shù)據(jù)科學(xué)家在數(shù)據(jù)清理和準(zhǔn)備方面節(jié)省大量的時(shí)間至關(guān)重要。

 

責(zé)任編輯:趙寧寧 來(lái)源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2020-08-26 13:53:50

機(jī)器學(xué)習(xí)數(shù)據(jù)管理開(kāi)源

2022-08-04 13:45:55

安全數(shù)據(jù)風(fēng)險(xiǎn)評(píng)估隱私

2021-11-14 15:13:18

存儲(chǔ)數(shù)據(jù)存儲(chǔ)技術(shù)

2019-09-30 10:12:21

機(jī)器學(xué)習(xí)數(shù)據(jù)映射

2021-03-08 21:52:44

Windows服務(wù)器程序

2024-04-02 10:11:28

數(shù)據(jù)中心服務(wù)器IT資產(chǎn)轉(zhuǎn)移

2023-08-15 16:20:42

Pandas數(shù)據(jù)分析

2022-11-02 14:45:24

Python數(shù)據(jù)分析工具

2019-08-16 09:20:39

數(shù)據(jù)清理數(shù)據(jù)集分析數(shù)據(jù)

2017-09-01 18:17:40

2023-02-03 11:40:49

機(jī)器學(xué)習(xí)分析情感

2017-07-07 14:41:13

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)JavaScript

2017-08-25 14:29:43

機(jī)器學(xué)習(xí)Java

2021-11-02 09:40:50

TensorFlow機(jī)器學(xué)習(xí)人工智能

2022-11-21 11:50:59

2016-08-12 14:37:52

Linux tmpRedhattmpwatch

2022-04-25 15:05:33

機(jī)器學(xué)習(xí)人工智能數(shù)據(jù)集

2017-09-04 11:06:40

2022-04-01 15:39:13

機(jī)器學(xué)習(xí)讓孩子們軟件交付

2019-10-23 08:00:00

Flask機(jī)器學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)