數(shù)據(jù)質(zhì)量的六個(gè)維度-以及如何處理它們
在堅(jiān)實(shí)的基礎(chǔ)上建立模型和分析
垃圾進(jìn)垃圾出。 誕生于計(jì)算機(jī)科學(xué)早期的熟悉的短語(yǔ)也是如此,它強(qiáng)調(diào)了驗(yàn)證輸入的重要性。
您可以擁有最巧妙,最優(yōu)雅,經(jīng)過(guò)充分測(cè)試的功能,模型或應(yīng)用程序-但是結(jié)果僅與輸入的結(jié)果一樣好。
每當(dāng)我們開(kāi)發(fā)代碼時(shí),我們都會(huì)提前對(duì)其將處理的數(shù)據(jù)的性質(zhì)進(jìn)行假設(shè)。 一個(gè)簡(jiǎn)單的算術(shù)函數(shù)可能期望單個(gè)浮點(diǎn)數(shù)。 小吃攤亭的需求預(yù)測(cè)模型可以以特定表格形式預(yù)期最近五年的銷(xiāo)售數(shù)字。 無(wú)人駕駛汽車(chē)控制器將從車(chē)輛周?chē)脑S多傳感器接收不同的數(shù)據(jù)流。
如果違反了這些假設(shè),那么可能會(huì)發(fā)生三件事之一。
- 該代碼對(duì)照預(yù)期檢查輸入并啟動(dòng)計(jì)劃B。這可能是為了警告用戶數(shù)據(jù)問(wèn)題并正常停止。
- 代碼遇到運(yùn)行時(shí)錯(cuò)誤,導(dǎo)致程序崩潰。
- 該代碼繼續(xù)進(jìn)行,忽略了錯(cuò)誤的輸入,并產(chǎn)生了可能合理的但不正確的輸出。
第一種情況為您提供降落傘,第二種情況為您帶來(lái)頭痛,第三種情況為您在融化的Cornetto水坑中提供多輛汽車(chē)堆積。
錯(cuò)誤的數(shù)據(jù)=>錯(cuò)誤的決定
隨著組織變得更加成熟的數(shù)據(jù),重要的業(yè)務(wù)決策越來(lái)越頻繁地依賴于數(shù)據(jù)分析和建模。 如果做出這些決定的數(shù)據(jù)不完整,那么基于該數(shù)據(jù)的推理將是有缺陷的,可能會(huì)帶來(lái)非常昂貴的后果。
這就是為什么了解數(shù)據(jù)質(zhì)量并了解正在使用的數(shù)據(jù)可能無(wú)法滿足您的需求如此重要的原因。
準(zhǔn)確性
曾經(jīng)創(chuàng)建的每條數(shù)據(jù),都起源于現(xiàn)實(shí)世界中的事件或度量。 這可能是溫度傳感器的輸出,金融交易的記錄或有人在網(wǎng)絡(luò)表單中鍵入其姓名。 準(zhǔn)確性描述了"數(shù)據(jù)正確描述所描述的"現(xiàn)實(shí)世界"對(duì)象的程度。"
為了實(shí)現(xiàn)這一點(diǎn),從真實(shí)世界到數(shù)據(jù)集的每個(gè)步驟都必須正確保留原始內(nèi)容的本質(zhì)。
在事件/對(duì)象的測(cè)量或記錄過(guò)程中,可能就在開(kāi)始時(shí)就可能發(fā)生錯(cuò)誤。 2020年5月,由于填寫(xiě)錯(cuò)誤的申請(qǐng)表時(shí)出錯(cuò),澳大利亞政府高估了COVID 19工資補(bǔ)貼計(jì)劃的支出承諾600億澳元(合390億美元)。 要求雇主說(shuō)明他們加入該計(jì)劃的雇員人數(shù)。 但是,在0.1%的情況下,他們提交了所需補(bǔ)貼的美元價(jià)值—正確金額的1,500倍。 這些錯(cuò)誤被遺漏了,它們的總價(jià)值流入了議會(huì)通過(guò)的法案中。 幾周后,政府宣布了自己的錯(cuò)誤,面紅了,但對(duì)于在沙發(fā)后方找到600億美元的想法,可能并不太不滿意。
在上面的示例中,僅列出前100名左右的索賠人可能會(huì)闡明該問(wèn)題。 您可能希望找到大型的快餐和零售品牌,連鎖酒店等,但是當(dāng)您遇到一家當(dāng)?shù)夭宛^或一家小型旅游公司,聲稱擁有數(shù)千名員工時(shí),您就會(huì)知道這是一個(gè)問(wèn)題。
這突出了基本分析和概要分析對(duì)理解數(shù)據(jù)集的重要性。 在進(jìn)行任何報(bào)告或建模之前,您需要仔細(xì)查看每個(gè)字段以查看其值是否有意義,并且不要感到奇怪。
精度與表親有密切關(guān)系:精度。 環(huán)法自行車(chē)賽的賽段時(shí)間以小時(shí)和秒為單位進(jìn)行記錄,但這在奧運(yùn)會(huì)的100m決賽中無(wú)效。 在數(shù)據(jù)類型轉(zhuǎn)換期間,或者由于用于進(jìn)行初始測(cè)量的儀器的靈敏度,精度可能會(huì)丟失,并且可能導(dǎo)致模型可用的方差較低。
完整性
數(shù)據(jù)完整性表示"數(shù)據(jù)集中所需數(shù)據(jù)的程度"。 任何數(shù)據(jù)集都可能有缺口和數(shù)據(jù)缺失,但是缺失的數(shù)據(jù)是否會(huì)影響您回答問(wèn)題的能力。 要了解的關(guān)鍵是是否引入了會(huì)影響您結(jié)果的偏見(jiàn)。
1936年,《文學(xué)文摘》(Literary Digest)進(jìn)行了一項(xiàng)民意調(diào)查,詢問(wèn)受訪者是否會(huì)投票支持共和黨人阿爾弗雷德·蘭登(Alfred Landon),還是現(xiàn)任民主黨人富蘭克林·羅斯福(Franklin D. Roosevelt)。 但是,郵件列表主要是從電話目錄中選擇的。 現(xiàn)在,在1936年,電話遠(yuǎn)非普及,被認(rèn)為是奢侈品。 因此,由于遺漏了那些無(wú)法負(fù)擔(dān)電話的人,郵寄名單最終偏向于中上層選民。 一旦做出回應(yīng),《文學(xué)文摘》就正確地預(yù)測(cè)出了滑坡。 然而,不幸的是,蘭登而不是羅斯福發(fā)生了滑坡,羅斯福最終在美國(guó)歷史上最單方面的選舉中贏得了48個(gè)州中的46個(gè)。 通過(guò)使用更完整的數(shù)據(jù)集(例如選舉名冊(cè)),或者至少通過(guò)理解和調(diào)整其缺失數(shù)據(jù)所造成的偏差,投票數(shù)字可能已經(jīng)接近目標(biāo)。
完整性問(wèn)題可能會(huì)在記錄級(jí)別發(fā)生,就像上面那樣,您會(huì)丟失全部行,但也可能會(huì)在列級(jí)別發(fā)生,即,字段在80%的時(shí)間內(nèi)可能為空白。 如果缺失值不是均勻分布的,這可能會(huì)跳出許多機(jī)器學(xué)習(xí)方法,并且可能再次引入偏差。 為了緩解此問(wèn)題,有兩種方法:
- 丟棄不完整的列
- 丟棄包含缺失數(shù)據(jù)的行
- 插補(bǔ)丟失的數(shù)據(jù)(也稱為空白)
Yoghita Kinha的精彩文章"如何處理數(shù)據(jù)集中的缺失值"中包含對(duì)上述方法的全面介紹。
盡管實(shí)際響應(yīng)率要低得多,但默認(rèn)值給人一個(gè)完整字段的錯(cuò)覺(jué),這是一個(gè)更加棘手和更隱蔽的完整性問(wèn)題。 當(dāng)我為零售時(shí)尚品牌建立客戶終身價(jià)值模型時(shí),這曾經(jīng)發(fā)生在我身上。 每個(gè)客戶檔案上都有一個(gè)"性別"標(biāo)志-M代表男性,F(xiàn)代表女性。 該字段在數(shù)據(jù)集中具有很高的完整性,但是當(dāng)一些基本分析顯示大約6個(gè)月前向女性客戶急劇轉(zhuǎn)變時(shí),人們就產(chǎn)生了懷疑。 事實(shí)證明,在最近重新設(shè)計(jì)的注冊(cè)表單中,性別字段已從沒(méi)有默認(rèn)值的必需下拉框更改為默認(rèn)="女性"的下拉列表。 這種微小的變化意味著忽略該字段的客戶現(xiàn)在被記錄為女性,而不是被發(fā)送回表格中填寫(xiě)。
一致性
如果在多個(gè)位置復(fù)制數(shù)據(jù),則所有實(shí)例之間的數(shù)據(jù)必須保持一致。 對(duì)于百貨商店,您可以通過(guò)會(huì)員計(jì)劃,郵件列表,在線帳戶支付系統(tǒng)和訂單履行系統(tǒng)來(lái)保存特定客戶的數(shù)據(jù)。 在混亂的系統(tǒng)中,可能會(huì)有拼寫(xiě)錯(cuò)誤的名稱,舊地址和沖突的狀態(tài)標(biāo)志。 這可能會(huì)導(dǎo)致僅從數(shù)據(jù)點(diǎn)的一個(gè)實(shí)例讀取數(shù)據(jù)的過(guò)程出現(xiàn)問(wèn)題,例如,如果某個(gè)客戶退訂了營(yíng)銷(xiāo)電子郵件,但是這并未反映該客戶的所有代表,他們可能會(huì)繼續(xù)接收通信, 他們感到非常沮喪。 不一致的聯(lián)系信息還可能導(dǎo)致在打電話或向深淵發(fā)送信件時(shí)浪費(fèi)金錢(qián)。
在上面的示例中,擁有一個(gè)高度集成的客戶數(shù)據(jù)平臺(tái)(例如Segment或Omneo)可以幫助匯總客戶的單個(gè)視圖,并確保解決一致性方面的問(wèn)題。
及時(shí)性
您的數(shù)據(jù)集是否足夠最新? 事件發(fā)生與它出現(xiàn)在您的數(shù)據(jù)之間有什么滯后。 很多數(shù)據(jù)分析和建模都將基于歷史快照,因此直到今天為止都不需要運(yùn)行它們。 但是,實(shí)時(shí)決策需要實(shí)時(shí)數(shù)據(jù)。 如果每天只能一次分批下載來(lái)自雷達(dá)系統(tǒng)的數(shù)據(jù),那么這對(duì)空中交通管制員不會(huì)有太大幫助。 如果某些商店由于連接問(wèn)題而推遲了周日的銷(xiāo)售數(shù)據(jù),那么您周一的管理會(huì)議數(shù)字將不正確。
您的數(shù)據(jù)集的及時(shí)性可能取決于導(dǎo)致其創(chuàng)建的數(shù)據(jù)集成管道。 這可以是實(shí)時(shí)的,可以在事件描述后立即提供數(shù)據(jù),也可以批量處理,這意味著數(shù)據(jù)將"凍結(jié)"直到下一次刷新。 對(duì)該管道的更改可能使您可以訪問(wèn)更多最新數(shù)據(jù),并對(duì)新事件做出更快的響應(yīng)。
獨(dú)特性
每個(gè)真實(shí)世界的對(duì)象或事件僅應(yīng)在特定的數(shù)據(jù)集中表示一次。 即 是否有John Doe和Johnny Doe的客戶記錄,盡管他們實(shí)際上是同一個(gè)人。
因此,任何涉及客戶的指標(biāo)(客戶數(shù)量,每位客戶的支出,購(gòu)買(mǎi)頻率)都將由于包含一個(gè)人的重復(fù)表示而被剔除。
發(fā)現(xiàn)此問(wèn)題意味著確定適當(dāng)?shù)闹麈I。 在John Doe和Johnny Doe的示例中,他們可以具有不同的名稱和客戶ID,但是可以匹配電子郵件地址,這有力地暗示了他們是同一個(gè)人。 這意味著在進(jìn)行任何分析或建模之前,需要進(jìn)行數(shù)據(jù)整理以合并這些客戶記錄的附加步驟。
有效期
數(shù)據(jù)集中的字段可能具有其必須滿足的條件才能被視為有效。 電子郵件地址必須帶有" @"符號(hào),電話號(hào)碼必須是數(shù)字序列,并且會(huì)員級(jí)別字段可能需要為" Gold"," Silver"或" Bronze"。
在許多情況下,使用正則表達(dá)式可以輕松實(shí)現(xiàn)有效性檢查。 有在線數(shù)據(jù)庫(kù),例如regexlib.com,其中包含數(shù)千種常見(jiàn)數(shù)據(jù)類型的正則表達(dá)式。 對(duì)于離散數(shù)據(jù)類型,例如上面的成員資格級(jí)別示例,簡(jiǎn)單的頻率統(tǒng)計(jì)信息可以告訴您是否存在有效性問(wèn)題。 如果除了" Gold"," Silver"或" Bronze"以外,還有大量其他值,則說(shuō)明出現(xiàn)了問(wèn)題。
一旦識(shí)別出無(wú)效數(shù)據(jù),它將有效地成為完整性問(wèn)題,可以使用前面介紹的方法來(lái)解決。
綜上所述
在任何數(shù)據(jù)科學(xué)項(xiàng)目的開(kāi)始階段,重要的是要清楚地了解您的數(shù)據(jù)及其從源到數(shù)據(jù)集的路徑。 盡管可能會(huì)急于實(shí)施您項(xiàng)目中更性感,更復(fù)雜的部分,但如果它建立在不穩(wěn)定的基礎(chǔ)上,那將是浪費(fèi)時(shí)間。 只有認(rèn)真地進(jìn)行提問(wèn),測(cè)試假設(shè),分析和理解數(shù)據(jù)的工作,您才能真正對(duì)分析的質(zhì)量充滿信心。