模型數(shù)據(jù)出現(xiàn)偏差怎么辦?一文了解機(jī)器學(xué)習(xí)中的7種數(shù)據(jù)偏差類型
機(jī)器學(xué)習(xí)中的數(shù)據(jù)偏差是一種錯誤,其中數(shù)據(jù)集的某些元素的權(quán)重和/或表示程度高于其他元素。偏置數(shù)據(jù)集不能準(zhǔn)確表示模型的用例,從而導(dǎo)致結(jié)果偏斜、精度低和分析錯誤。
通常,機(jī)器學(xué)習(xí)項目的培訓(xùn)數(shù)據(jù)必須代表現(xiàn)實世界。這一點(diǎn)很重要,因為此數(shù)據(jù)是計算機(jī)學(xué)習(xí)完成工作的一種方法。數(shù)據(jù)偏差可能發(fā)生在一系列領(lǐng)域,從人類報告和選擇偏差到算法和解釋偏差。下圖是僅出現(xiàn)在數(shù)據(jù)收集和注釋階段的各種偏差的一個很好的示例。

解決機(jī)器學(xué)習(xí)項目中的數(shù)據(jù)偏差問題意味著首先要確定數(shù)據(jù)偏差的所在位置。只有在知道存在偏差的地方后,才能采取必要的步驟來糾正,無論是解決缺少數(shù)據(jù)的問題還是改進(jìn)注釋過程。有鑒于此,對數(shù)據(jù)的范圍、質(zhì)量和處理保持警惕,盡可能避免偏差,這一點(diǎn)非常重要。這不僅影響模型的準(zhǔn)確性,還可以影響道德、公平和包容問題。
本文列出了機(jī)器學(xué)習(xí)中最常見的七種數(shù)據(jù)偏差類型,可以幫助大家分析并了解偏差發(fā)生在哪里,以及我們可以對偏差做什么。
數(shù)據(jù)偏差的類型
這個列表雖然不是所有數(shù)據(jù)偏差類型都包括在內(nèi),但是常見的數(shù)據(jù)偏差示例,以及數(shù)據(jù)偏差發(fā)生的位置的示例已經(jīng)包含其中。
示例偏差:當(dāng)數(shù)據(jù)集不反映模型將運(yùn)行的環(huán)境的現(xiàn)實時,就會出現(xiàn)示例偏差。例如某些面部識別系統(tǒng)主要訓(xùn)練對象是白人男子,因此這些模式對婦女和不同族裔的人的準(zhǔn)確性要低得多。這種偏見的另一個名稱是選擇偏差。
排除偏差:排除偏差在數(shù)據(jù)預(yù)處理階段最常見。最常見的情況是刪除被認(rèn)為不重要的有價值的數(shù)據(jù)。此外,系統(tǒng)在排除某些信息時,也有可能會發(fā)生偏差。例如,假設(shè)我們有一個北京和深圳的客戶銷售數(shù)據(jù)集。98% 的客戶來自北京,因此我們選擇刪除位置數(shù)據(jù),認(rèn)為該位置數(shù)據(jù)無關(guān)緊要。但是,這就意味著我們的模型不會發(fā)現(xiàn)深圳客戶增加了兩倍的事情。
測量偏差:當(dāng)為訓(xùn)練收集的數(shù)據(jù)與現(xiàn)實世界中收集的數(shù)據(jù)不同時,或者當(dāng)測量錯誤導(dǎo)致數(shù)據(jù)失真時,將發(fā)生此類偏差。這種偏差的一個很好的例子出現(xiàn)在圖像識別數(shù)據(jù)集中,其中訓(xùn)練數(shù)據(jù)是用一種類型的攝像機(jī)采集的,而生產(chǎn)數(shù)據(jù)是用另一種攝像機(jī)采集的。在項目的數(shù)據(jù)標(biāo)記階段,由于注釋不一致,也可能出現(xiàn)測量偏差。
召回偏差:這也是一種測量偏差,在項目的數(shù)據(jù)標(biāo)記階段很常見。當(dāng)我們對相同類型的數(shù)據(jù)進(jìn)行不一致標(biāo)記時,就會出現(xiàn)召回偏差,導(dǎo)致精度降低。例如,假設(shè)我們的團(tuán)隊將手機(jī)圖像標(biāo)記為損壞、部分損壞或未損壞。如果有人將圖像標(biāo)為已損壞,但將類似的圖像標(biāo)為部分損壞,那么我們的數(shù)據(jù)就會不一致。
觀察者偏見:也稱為確認(rèn)偏差,觀察者偏差是指在數(shù)據(jù)中看到自己希望看到的結(jié)果。當(dāng)研究人員帶著對研究的主觀想法(無論是有意識的還是無意識的)進(jìn)入項目時,就可能發(fā)生這種情況。當(dāng)貼標(biāo)簽的人讓他們的主觀想法控制其標(biāo)簽的習(xí)慣,就會導(dǎo)致數(shù)據(jù)不準(zhǔn)確。
種族偏見:雖然不是傳統(tǒng)意義上的數(shù)據(jù)偏見,但由于它最近在人工智能技術(shù)中的流行,該偏差還是值得一提的。當(dāng)數(shù)據(jù)偏向于特定人口統(tǒng)計學(xué)時,就產(chǎn)生種族偏見。從面部識別和自動語音識別技術(shù)中看出,這種技術(shù)無法像白種人那樣準(zhǔn)確地識別其他有色人種。
關(guān)聯(lián)偏差:當(dāng)機(jī)器學(xué)習(xí)模型的數(shù)據(jù)強(qiáng)化和/或讓文化偏差成倍增加時,將發(fā)生這種偏差。你的數(shù)據(jù)集可能包含一組工作,其中所有男性都是醫(yī)生,所有女性都是護(hù)士。這并不意味著女人不能當(dāng)醫(yī)生,男人不能當(dāng)護(hù)士。然而,就機(jī)器學(xué)習(xí)模型而言,女醫(yī)生和男護(hù)士并不存在。關(guān)聯(lián)偏見最出名的是制造性別偏見,這一點(diǎn)在挖掘人工智能研究中可見一斑。
如何避免機(jī)器學(xué)習(xí)項目中的數(shù)據(jù)偏差?
在機(jī)器學(xué)習(xí)項目中防止數(shù)據(jù)偏差是一個持續(xù)的過程。盡管有時很難知道數(shù)據(jù)或模型何時存在偏差,但我們可以采取許多步驟來幫助防止偏差或及早發(fā)現(xiàn)偏差。下面的內(nèi)容就是機(jī)器學(xué)習(xí)項目出現(xiàn)數(shù)據(jù)偏差時的一些常規(guī)手段:
- 盡較大努力,提前研究我們的用戶。記得要注意我們的一般用例和潛在的異常值。
- 確保我們的數(shù)據(jù)科學(xué)家和數(shù)據(jù)標(biāo)簽團(tuán)隊多元化。
- 在可能的情況下,結(jié)合來自多個來源的輸入,以確保數(shù)據(jù)的多樣性。
- 為數(shù)據(jù)標(biāo)簽創(chuàng)建黃金標(biāo)準(zhǔn)。黃金標(biāo)準(zhǔn)是一組數(shù)據(jù),反映任務(wù)的理想標(biāo)記數(shù)據(jù),能讓我們能夠測量團(tuán)隊的注釋的準(zhǔn)確性。
- 為數(shù)據(jù)標(biāo)簽期望制定明確的準(zhǔn)則,以便所有的數(shù)據(jù)標(biāo)簽者都能對期望值保持一致。
- 對于數(shù)據(jù)準(zhǔn)確性可能容易出現(xiàn)偏差的所有項目,記得使用多通道注釋。這方面的示例包括情緒分析、內(nèi)容審核和意圖識別。
- 獲得具有領(lǐng)域?qū)I(yè)知識的人的幫助,檢查我們收集和/或注釋的數(shù)據(jù)。團(tuán)隊外部的人可能會更容易看到團(tuán)隊所忽視的偏差。
- 定期分析我們的數(shù)據(jù)。跟蹤錯誤和問題區(qū)域,以便快速響應(yīng)和解決錯誤和問題區(qū)域。在決定刪除或保留數(shù)據(jù)點(diǎn)之前,請仔細(xì)分析數(shù)據(jù)點(diǎn)。
- 將偏差測試作為開發(fā)周期的一部分。谷歌、IBM 和微軟都發(fā)布了工具和指南,用于幫助分析對多種不同數(shù)據(jù)類型的偏差。
總結(jié)
了解任何數(shù)據(jù)項目的機(jī)器學(xué)習(xí)中的潛在偏差是非常重要的。通過盡早建立正確的系統(tǒng)并控制數(shù)據(jù)收集、標(biāo)記和實現(xiàn),我們可以在問題出現(xiàn)之前或在它出現(xiàn)之時做出反應(yīng),從而減少我們的成本,提高模型的準(zhǔn)確率。