數(shù)據(jù)質(zhì)量成熟度模型:分析數(shù)據(jù)準(zhǔn)備的五個(gè)級(jí)別
生成可供分析的數(shù)據(jù)的一個(gè)關(guān)鍵要求是數(shù)據(jù)必須是“好”的。各組織對(duì)良好數(shù)據(jù)質(zhì)量的定義存在差異,這些定義符合其在分析和數(shù)據(jù)科學(xué)方面的成熟度。
由于兩個(gè)原因,成熟度模型類比似乎適合這里。首先,模型中的關(guān)卡是相互依存的,在掌握較低的關(guān)卡之前不可能達(dá)到更高的關(guān)卡。其次,向更高層次移動(dòng)不僅僅是工具或算法的問題,因?yàn)樗€需要不同的流程和組織思維。
第1級(jí):數(shù)據(jù)來源
了解數(shù)據(jù)來自哪里、如何收集、如何轉(zhuǎn)換、為什么以及由誰轉(zhuǎn)換,是任何可用數(shù)據(jù)集的最基本要求。例如,在臨床環(huán)境中——如果我們不知道哪個(gè)實(shí)驗(yàn)室進(jìn)行了測(cè)試,誰資助了這項(xiàng)研究,血壓是站立還是坐下,或者在我們得到試驗(yàn)結(jié)果之前是否將某些患者從試驗(yàn)結(jié)果中剔除——數(shù)據(jù)實(shí)際上是無用的。
擁有關(guān)于每個(gè)數(shù)據(jù)集的明確出處、沿襲、所有者和其他元數(shù)據(jù)——甚至在查看數(shù)據(jù)本身之前——是任何數(shù)據(jù)分析之前的基本要求。在醫(yī)療保健領(lǐng)域,披露利益沖突、資金來源、隱私和其他道德考慮也是關(guān)鍵。
俗話說——“如果你足夠折磨數(shù)據(jù),它會(huì)告訴你任何事情”。
第2級(jí):基本衛(wèi)生
在這個(gè)級(jí)別,團(tuán)隊(duì)關(guān)注的是基本數(shù)據(jù)元素的統(tǒng)一表示:
- 數(shù)字(格式為“3,500”或“3500”)
- 空值(將“null”、“N/A”、“na”、“?”、“-1”和“未指定”格式化為單個(gè)值)
- 標(biāo)準(zhǔn)單位和標(biāo)準(zhǔn)單位的轉(zhuǎn)換(格式為“30lbs”至“13.6”,單位為 kg)
- 地理空間點(diǎn)、圓、弧和多邊形
- 日期和時(shí)間、貨幣、姓名、地址、電子郵件、布爾值和其他常見類型
大多數(shù)這些價(jià)值觀都有國際標(biāo)準(zhǔn),盡管通常有不止一個(gè)“標(biāo)準(zhǔn)”在起作用。對(duì)于數(shù)據(jù)消費(fèi)者而言,正確的選擇始終是“工具本身可以理解的格式”——因此,如果該工具是 Tableau、R、pandas 或 Excel,答案可能會(huì)有所不同。
大多數(shù)提供數(shù)據(jù)質(zhì)量指標(biāo)、數(shù)據(jù)完整性或豐富性指標(biāo)、自動(dòng)數(shù)據(jù)規(guī)范化或主數(shù)據(jù)管理的工具都在這個(gè)級(jí)別上運(yùn)行。
第 3 級(jí):異常值、混亂和不太可能的組合
下一個(gè)級(jí)別超越單個(gè)數(shù)據(jù)元素,進(jìn)入描述性統(tǒng)計(jì)數(shù)據(jù)和可能的錯(cuò)誤。例如,一名患者服用 12,345 種不同類型的藥物很可能是數(shù)據(jù)輸入錯(cuò)誤,或者至少是在計(jì)算對(duì)異常值敏感的描述性統(tǒng)計(jì)數(shù)據(jù)(如均值和標(biāo)準(zhǔn)差)時(shí)應(yīng)排除的異常值。
有時(shí)問題不是個(gè)別異常值,而是一連串幾乎是例外的情況。例如,在一個(gè)網(wǎng)站每秒網(wǎng)絡(luò)流量的數(shù)據(jù)集中,10 分鐘內(nèi)從歷史標(biāo)準(zhǔn)增加 100 倍的可能性要大得多,這很可能是機(jī)器人的結(jié)果,而不是真實(shí)用戶活動(dòng)的結(jié)果。Flurries 經(jīng)常出現(xiàn)在時(shí)間序列數(shù)據(jù)中,必須根據(jù)具體情況決定保留或刪除。
領(lǐng)域?qū)<疫€應(yīng)該深入挖掘以發(fā)現(xiàn)由于不太可能的組合而導(dǎo)致的錯(cuò)誤。特別是在醫(yī)療保健領(lǐng)域,通??梢宰R(shí)別出臨床上不太可能的組合。例如,在一個(gè)案例中,一個(gè) 25 歲的女性體重 535 磅本身是合理的,但查看同一患者的其他測(cè)量和實(shí)驗(yàn)室結(jié)果,很明顯這是一個(gè)打字錯(cuò)誤53.5磅的女人。這種“臨床上不太可能的組合”通常是數(shù)據(jù)輸入錯(cuò)誤,應(yīng)該在下游數(shù)據(jù)分析之前消除。
第 3 級(jí)需要更深入的統(tǒng)計(jì)知識(shí)以及 DataOps 團(tuán)隊(duì)更深入的領(lǐng)域?qū)I(yè)知識(shí)。如示例所示,在此級(jí)別“固定”數(shù)據(jù)質(zhì)量不再能夠完全自動(dòng)化。
第 4 級(jí):覆蓋缺口
下一個(gè)層次超越了將數(shù)據(jù)集的質(zhì)量描述為一種通用度量——討論是否適合給定的分析項(xiàng)目。這尤其涉及識(shí)別所提供數(shù)據(jù)中的差距,并找到補(bǔ)充它們的方法。
例如,考慮一個(gè)跟蹤英國兒童疫苗接種率的項(xiàng)目。收集的數(shù)據(jù)可能存在空間覆蓋缺口(即沒有在威爾士收集數(shù)據(jù))、時(shí)間覆蓋缺口(有 15 年的數(shù)據(jù),由于當(dāng)年的預(yù)算限制,2010 年除外)或人口覆蓋缺口(即不在學(xué)校沒有被調(diào)查)。
這種差距的重要性在很大程度上取決于項(xiàng)目。例如,如果目標(biāo)是識(shí)別有風(fēng)險(xiǎn)的孩子,那么找到不在學(xué)校的孩子可能很關(guān)鍵;然而,如果目標(biāo)是比較男孩和女孩,這種差距可能不會(huì)破壞整個(gè)分析。做出正確的決定和更正需要您的分析團(tuán)隊(duì)和 DataOps 團(tuán)隊(duì)之間的協(xié)作。
第 5 級(jí):偏見
在更高的層次上,運(yùn)行完全集成的項(xiàng)目團(tuán)隊(duì),團(tuán)隊(duì)結(jié)合了數(shù)據(jù)科學(xué)、DataOps 和軟件工程師。人們每天都在同一個(gè)項(xiàng)目上工作,這樣可以發(fā)現(xiàn)和解決已經(jīng)“通過”所有先前級(jí)別的質(zhì)量門的數(shù)據(jù)中細(xì)微但關(guān)鍵的偏差。
這最常適用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘項(xiàng)目。例如,假設(shè)我們正在尋找一種算法,該算法可以根據(jù)患者的醫(yī)院臨床記錄自動(dòng)分配 ICD-10 診斷和程序代碼。為了訓(xùn)練它,我們只能從鎮(zhèn)上的兩家醫(yī)院之一獲得數(shù)據(jù)。兩家醫(yī)院都設(shè)有內(nèi)科病房,但其中一家專攻心臟病學(xué)和腫瘤學(xué)(并且處理了大多數(shù)病例),而另一家專攻免疫學(xué)、內(nèi)分泌學(xué)和老年醫(yī)學(xué)。
請(qǐng)注意,無論我們選擇哪家醫(yī)院——我們的訓(xùn)練數(shù)據(jù)中診斷和程序代碼的分布都將與我們將在“現(xiàn)實(shí)世界”中觀察到的情況有所偏差,這將扭曲機(jī)器學(xué)習(xí)算法,因?yàn)橄闰?yàn)分布訓(xùn)練數(shù)據(jù)中的數(shù)據(jù)將不同于在線觀察到的數(shù)據(jù)。
數(shù)據(jù)集的選擇也會(huì)導(dǎo)致其他不太明顯的偏差。每家醫(yī)院本質(zhì)上都會(huì)經(jīng)歷不同的年齡、性別和合并癥分布——因?yàn)樵卺t(yī)療保健領(lǐng)域,所有這些都是相關(guān)的。這意味著,由于這些關(guān)系和相關(guān)性,有監(jiān)督和無監(jiān)督學(xué)習(xí)算法都會(huì)以微妙但重要的方式出現(xiàn)偏差。
這在實(shí)踐中具有重要意義,因?yàn)槲覀冊(cè)絹碓揭蕾嚈C(jī)器來做出影響人們健康和福祉的日常決策。您對(duì)訓(xùn)練數(shù)據(jù)的選擇隱含地忽略了其中沒有代表的人,并且可能會(huì)根據(jù)他們過去的行為過度懲罰或獎(jiǎng)勵(lì)那些被代表的人。這基本上是一個(gè)數(shù)據(jù)質(zhì)量問題。
了解此類問題的存在并有效解決這些問題需要數(shù)據(jù)科學(xué)家和 DataOps 專家之間持續(xù)進(jìn)行深入合作,這是生成機(jī)器學(xué)習(xí)模型或預(yù)測(cè)分析的必要條件,這些模型或預(yù)測(cè)分析不受未公開偏見的影響并經(jīng)受住現(xiàn)實(shí)世界的考驗(yàn)采用。