自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何處理生產(chǎn)環(huán)境中的數(shù)據(jù)和機(jī)器學(xué)習(xí)偏誤?

譯文
人工智能 機(jī)器學(xué)習(xí)
您是否需要確定自己的數(shù)據(jù)集存在性別或種族方面的偏誤?是否需要確保所使用的機(jī)器學(xué)習(xí)模型沒(méi)有偏誤,即使數(shù)據(jù)有偏誤?如果您對(duì)上述問(wèn)題的回答是肯定的,那么這篇文章就適合您閱讀。

譯者 | 布加迪

審校 | 重樓

您是否需要確定自己的數(shù)據(jù)集存在性別或種族方面的偏誤?是否需要確保使用的機(jī)器學(xué)習(xí)模型沒(méi)有,即使數(shù)據(jù)有偏誤?如果您對(duì)上述問(wèn)題的回答是肯定的,那么這篇文章就適合您閱讀

偏誤簡(jiǎn)介

偏誤是指有意識(shí)或無(wú)意識(shí)地傾向于某一特定群體,通常排斥其他人。對(duì)于屬于某些種族、民族、性別、能力和宗教群體的人來(lái)說(shuō),偏誤會(huì)導(dǎo)致歧視,并在機(jī)會(huì)和成功方面造成系統(tǒng)性障礙。在有偏誤的世界中生成的數(shù)據(jù)本身就是有偏誤的。創(chuàng)建和部署機(jī)器學(xué)習(xí)模型總是伴隨著顯著的偏風(fēng)險(xiǎn)。因此,機(jī)器學(xué)習(xí)解決方案環(huán)境應(yīng)該提供人類可用的解釋檢測(cè)和糾正偏。

問(wèn)責(zé)制和可訪問(wèn)性在處理偏誤方面至關(guān)重要。需要問(wèn)責(zé)制確保任何注意到偏誤的人都能采取行動(dòng)。生產(chǎn)環(huán)境機(jī)器學(xué)習(xí)系統(tǒng)的可訪問(wèn)性便于及時(shí)處理偏。審計(jì)日志可以部分解決問(wèn)責(zé)制。通過(guò)自動(dòng)化和易于使用的UI/UX降低機(jī)器學(xué)習(xí)的進(jìn)入門檻有助于提高可訪問(wèn)性。

本文解釋如何通過(guò)針對(duì)數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的系統(tǒng)來(lái)檢測(cè)和處理與數(shù)據(jù)相關(guān)的偏和與模型相關(guān)的偏按照定義,與數(shù)據(jù)相關(guān)偏誤數(shù)據(jù)集中已經(jīng)存在的偏誤。比如在客戶流失預(yù)測(cè)用例中,90%的數(shù)據(jù)集可能含白人客戶,導(dǎo)致數(shù)據(jù)集存在種族偏誤。按照定義,與模型相關(guān)的偏誤指模型內(nèi)生成的偏誤。在這種情況下,由于白人占人口的90%,旨在盡量減小誤差模型可以更好地預(yù)測(cè)白人的流失,從而導(dǎo)致模型出現(xiàn)種族偏誤。使用這種模型采取行動(dòng)防止客戶流失,會(huì)導(dǎo)致非白人群體得不到充足的服務(wù)。

數(shù)據(jù)偏誤的檢測(cè)

當(dāng)數(shù)據(jù)集的一些變量值比其他變量值更頻繁地出現(xiàn)時(shí),就會(huì)出現(xiàn)第一種也是最常見(jiàn)的數(shù)據(jù)相關(guān)偏誤(代表偏誤)。比如在臨床試驗(yàn)中,90%的參與者可能是男性。

通過(guò)重新采樣數(shù)據(jù)平等地代表不同的群體,可以部分地處理代表偏誤。然而,當(dāng)代表性不足的群體的信息和細(xì)節(jié)較少時(shí),機(jī)器學(xué)習(xí)模型對(duì)這個(gè)群體的學(xué)習(xí)可能會(huì)較少。

當(dāng)存在與目標(biāo)特征高度相關(guān)的變量時(shí),也會(huì)出現(xiàn)與數(shù)據(jù)相關(guān)的偏誤。為了根據(jù)某些敏感特征檢測(cè)偏誤,可以計(jì)算特征相關(guān)性即每列相對(duì)目標(biāo)特征的相關(guān)性。用戶可以忽略可能導(dǎo)致偏誤的高度相關(guān)的敏感特征,比如性別或年齡。請(qǐng)注意,線性相關(guān)測(cè)量可能不適用于同時(shí)含離散特征和連續(xù)特征(即非線性相關(guān)性)的數(shù)據(jù)集。使用歸一化互信息有助于解決這個(gè)問(wèn)題。

即使去除了敏感相關(guān)特征,也可能存在與那些敏感特征相關(guān)的其他特征。比如說(shuō),郵政編碼可能與種族高度相關(guān)。即使從模型構(gòu)建中去除種族,保留郵政編碼仍然可能導(dǎo)致有偏誤的模型。根據(jù)變量之間的相關(guān)性對(duì)變量進(jìn)行聚類或分組可能有助于檢測(cè)和去除這類相關(guān)特征。檢測(cè)復(fù)雜數(shù)據(jù)偏誤的另一種方法是為每個(gè)敏感特征創(chuàng)建機(jī)器學(xué)習(xí)模型。應(yīng)該忽略機(jī)器學(xué)習(xí)模型中對(duì)這些敏感特征的預(yù)測(cè)貢獻(xiàn)最大的特征。

機(jī)器學(xué)習(xí)模型偏誤的檢測(cè)

對(duì)于與模型相關(guān)的偏誤,要同時(shí)考慮機(jī)器學(xué)習(xí)模型的輸入和模型的輸出預(yù)測(cè)。當(dāng)數(shù)據(jù)集不平衡時(shí),敏感特征可能與目標(biāo)特征過(guò)于相關(guān)而導(dǎo)致偏誤。一些機(jī)器學(xué)習(xí)平臺(tái)在構(gòu)建模型時(shí)分配自動(dòng)類權(quán)重,以強(qiáng)調(diào)未充分代表的類。

機(jī)器學(xué)習(xí)模型解釋也有助于檢測(cè)和預(yù)防模型相關(guān)的偏誤。存在局部或全局特征的重要性,比如SHAPLIME,提供了關(guān)于每個(gè)特征的值如何影響模型結(jié)果的信息。比如說(shuō),如果年齡增加導(dǎo)致信用評(píng)分預(yù)測(cè)降低,那么模型具有與年齡相關(guān)的偏誤。然而,很難確定偏誤在模型中的確切位置。可以使用易于解釋的代理模型解釋,比如線性模型或決策樹(shù)。代理模型近似并解釋用于決策制定的底層機(jī)器學(xué)習(xí)模型。它們?cè)试S更細(xì)粒度地檢測(cè)偏誤。決策樹(shù)代理模型包含模型預(yù)測(cè)自動(dòng)生成的微段,每個(gè)類似一個(gè)規(guī)則(比如說(shuō),如果代理類型是老年人,性別是男性,那么客戶就會(huì)流失。

檢測(cè)到機(jī)器模型偏誤或任何其他問(wèn)題)后,行動(dòng)的容易程度和速度決定了解決集訓(xùn)的速度有多快。創(chuàng)建共享數(shù)據(jù)和模型解釋可以幫助用戶更快地采取行動(dòng)。

結(jié)語(yǔ)

你可以系統(tǒng)地檢測(cè)和預(yù)防數(shù)據(jù)和機(jī)器學(xué)習(xí)模型中的偏誤。比如通過(guò)雇用來(lái)自不同背景的用戶,并為他們提供人工智能,不僅有助于更好地檢測(cè)和預(yù)防偏誤還有助于糾正偏誤檢測(cè)系統(tǒng)或機(jī)器學(xué)習(xí)模型失敗或被人做手腳的情況。

原文標(biāo)題:How To Handle Data And Machine Learning Bias In Production,作者:Zehra Cataltepe

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2019-02-25 08:35:22

機(jī)器學(xué)習(xí)數(shù)據(jù)模型

2025-03-31 08:04:50

MySQLCPU內(nèi)存

2021-08-13 08:00:00

人工智能數(shù)據(jù)開(kāi)發(fā)

2017-03-20 09:25:10

機(jī)器學(xué)習(xí)采樣數(shù)據(jù)合成

2020-06-24 07:53:03

機(jī)器學(xué)習(xí)技術(shù)人工智能

2025-02-17 08:00:00

機(jī)器學(xué)習(xí)開(kāi)發(fā)Docker

2023-05-29 16:11:37

數(shù)據(jù)偏度數(shù)據(jù)集中

2018-11-21 12:27:21

JavaScript 貨幣值區(qū)域

2021-02-02 07:52:02

CSS短內(nèi)容長(zhǎng)內(nèi)容

2011-04-11 17:10:16

Oracle

2023-03-09 12:21:38

2021-01-26 13:40:44

mysql數(shù)據(jù)庫(kù)

2011-07-06 10:18:24

數(shù)據(jù)虛擬環(huán)境存儲(chǔ)管理

2024-03-26 09:40:53

Linux優(yōu)化

2019-08-08 08:00:00

深度學(xué)習(xí)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2018-01-08 09:09:46

機(jī)器學(xué)習(xí)模型NET

2021-08-18 08:20:14

SQL除數(shù)統(tǒng)計(jì)

2019-11-08 08:00:00

ASP .NETASP .NET Cocookie

2023-08-18 10:34:29

2013-06-04 09:16:29

Google存儲(chǔ)數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)