自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文讀懂機(jī)器學(xué)習(xí)中的模型偏差

人工智能 機(jī)器學(xué)習(xí)
在人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域,將預(yù)測(cè)模型參與決策過(guò)程的手段越來(lái)越常見(jiàn),但難點(diǎn)是決策者需要確保這些模型不會(huì)根據(jù)模型預(yù)測(cè)做出偏見(jiàn)或者不公平的決策(有意或無(wú)意的歧視)。

在人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域,將預(yù)測(cè)模型參與決策過(guò)程的手段越來(lái)越常見(jiàn),但難點(diǎn)是決策者需要確保這些模型不會(huì)根據(jù)模型預(yù)測(cè)做出偏見(jiàn)或者不公平的決策(有意或無(wú)意的歧視)。設(shè)想一下銀行業(yè)、保險(xiǎn)業(yè)和就業(yè)等行業(yè),在確定面試候選人、批準(zhǔn)貸款/信貸、額定保險(xiǎn)費(fèi)等環(huán)節(jié)中使用模型作為解決方案,如果最終決策出現(xiàn)偏差,對(duì)最終用戶造成的傷害有多大?因此,對(duì)于研究ML問(wèn)題的產(chǎn)品經(jīng)理、業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家來(lái)說(shuō),理解模型預(yù)測(cè)偏差的不同細(xì)微差至關(guān)重要。

什么是ML模型的公平和偏差

機(jī)器學(xué)習(xí)模型中的偏差是由缺乏足夠的特征和用于訓(xùn)練模型的相關(guān)數(shù)據(jù)集不全面引起的。鑒于用于訓(xùn)練模型的特征和相關(guān)數(shù)據(jù)是由人類設(shè)計(jì)和收集的,數(shù)據(jù)科學(xué)家和產(chǎn)品經(jīng)理的偏見(jiàn)可能會(huì)影響訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備。例如:在收集數(shù)據(jù)特征的過(guò)程中,遺漏掉一個(gè)或多個(gè)特征 ,或者用于訓(xùn)練的數(shù)據(jù)集的覆蓋范圍不夠。換句話說(shuō),模型可能無(wú)法正確捕獲數(shù)據(jù)集中存在的基本規(guī)則,由此產(chǎn)生的機(jī)器學(xué)習(xí)模型最終將出現(xiàn)偏差(高偏差)。

可以通過(guò)以下幾個(gè)方面進(jìn)一步理解機(jī)器學(xué)習(xí)模型偏差:

缺乏適當(dāng)?shù)墓δ芸赡軙?huì)產(chǎn)生偏差。這樣的模型是欠擬合的,即模型表現(xiàn)出高偏差和底方差?! ∪狈m當(dāng)?shù)臄?shù)據(jù)集:盡管功能是適當(dāng)?shù)模狈m當(dāng)?shù)臄?shù)據(jù)也會(huì)導(dǎo)致偏見(jiàn)。大量不同性質(zhì)的(覆蓋不同場(chǎng)景的)數(shù)據(jù)可以解決偏差問(wèn)題。然而,必須注意避免過(guò)度高方差,這可能會(huì)影響模型性能,因?yàn)槟P蜔o(wú)法推廣所有類型的數(shù)據(jù)集。

如果發(fā)現(xiàn)模型具有高偏差,則該模型將被稱為不公平,反之亦然。需注意的是,減少偏差的嘗試可能會(huì)導(dǎo)致具有高方差的高復(fù)雜度模型。下圖代表了模型在偏差和方差方面的復(fù)雜性。

注意:隨著偏差的減小,模型越來(lái)越復(fù)雜,可能會(huì)出現(xiàn)高方差?! ?/p>

\ 

如何測(cè)試ML模型的公平/偏差

想要測(cè)試ML模型是公平的還是存在偏見(jiàn)的,首先要了解模型的偏見(jiàn)程度。常見(jiàn)的方法是確定輸入值(與特征相關(guān))在模型預(yù)測(cè)/輸出上的相對(duì)重要性。確定輸入值的相對(duì)重要性將有助于使模型不過(guò)度依賴于討論部分的受保護(hù)屬性(年齡、性別、顏色、教育等)。其他技術(shù)包括審計(jì)數(shù)據(jù)分析、ML建模流水線等。

為了確定模型偏差和相關(guān)的公平性,可以使用以下框架:

Lime  FairML  SHAP  Google What-If  IBM Bias Assessment Toolkit

偏差的特征和屬性

以下是導(dǎo)致偏差的常見(jiàn)屬性和特征

種族  性別  顏色  宗教  國(guó)籍  婚姻狀況  性取向  教育背景  收入來(lái)源  年齡

考慮到上述特性相關(guān)的數(shù)據(jù)可能導(dǎo)致的偏差,我們希望采用適當(dāng)?shù)牟呗詠?lái)訓(xùn)練和測(cè)試模型和相關(guān)性能。

AI偏見(jiàn)在行業(yè)中的示例

銀行業(yè)務(wù):由于系統(tǒng)中引入的模型,其訓(xùn)練數(shù)據(jù)(如性別、教育、種族、地點(diǎn)等)存在偏見(jiàn),導(dǎo)致一個(gè)有效的貸款申請(qǐng)人貸款請(qǐng)求被拒?;蛘咭粋€(gè)申請(qǐng)人的貸款請(qǐng)求被批準(zhǔn),但其實(shí)他并不符合批準(zhǔn)標(biāo)準(zhǔn)。

保險(xiǎn):因?yàn)轭A(yù)測(cè)模型數(shù)據(jù)集涵蓋的特征不齊全,導(dǎo)致一個(gè)人被要求支付高額的保險(xiǎn)費(fèi)。

就業(yè):一個(gè)存在偏見(jiàn)的機(jī)器學(xué)習(xí)模型,根據(jù)候選人的種族、膚色等屬性錯(cuò)誤的篩選候選人的簡(jiǎn)歷,導(dǎo)致有資質(zhì)的候選人被篩選掉,致使公司錯(cuò)失聘用優(yōu)秀候選人的機(jī)會(huì)。

住房:在住房領(lǐng)域,可能會(huì)因?yàn)槲恢?、社區(qū)、地理等相關(guān)數(shù)據(jù),在引入過(guò)程中出現(xiàn)偏差,導(dǎo)致模型具有高偏見(jiàn),對(duì)房?jī)r(jià)做出了錯(cuò)誤的預(yù)測(cè),最后致使業(yè)主和客戶(買方)失去交易機(jī)會(huì)。

欺詐(刑事/恐怖分子):由于訓(xùn)練模型對(duì)種族、宗教、國(guó)籍等特征存在偏見(jiàn),將一個(gè)沒(méi)有犯過(guò)罪行的人歸類為潛在罪犯且進(jìn)行審問(wèn)。例如,在某些國(guó)家或地區(qū),某一宗教人士被懷疑成恐怖組織。目前,這變成了個(gè)人偏見(jiàn)的一部分,而這種偏見(jiàn)在模型中反應(yīng)了出來(lái)。

政府:假設(shè)政府給某一特定人群設(shè)定政策,機(jī)器學(xué)習(xí)負(fù)責(zé)對(duì)這些計(jì)劃中的收益人群進(jìn)行分類。模型偏見(jiàn)可能會(huì)導(dǎo)致本應(yīng)該享受相關(guān)政策的人群沒(méi)有享受到政策,而沒(méi)有資格享受相關(guān)政策的人卻成為政策受益人。

教育:假設(shè)一位學(xué)生的入學(xué)申請(qǐng)因?yàn)榛A(chǔ)的機(jī)器學(xué)習(xí)模型偏見(jiàn)被拒絕,而原因是因?yàn)槭褂媚P陀?xùn)練的數(shù)據(jù)集不全。

金融:在金融行業(yè)中,使用有偏差的數(shù)據(jù)建立的模型會(huì)導(dǎo)致誤批申請(qǐng)者的貸款請(qǐng)求,而違反《平等信貸機(jī)會(huì)法》。而且,誤批之后,用戶會(huì)對(duì)最終結(jié)果提出質(zhì)疑,要求公司對(duì)未批準(zhǔn)原因進(jìn)行解釋。

1974年,法律規(guī)定,禁止金融信用因?yàn)榉N族、膚色、宗教、性別等屬性歧視任何人和組織。在模型構(gòu)建的過(guò)程中,產(chǎn)品經(jīng)理(業(yè)務(wù)分析師)和數(shù)據(jù)科學(xué)家需要盡可能考慮所有可能情況,確保構(gòu)建模型(訓(xùn)練或測(cè)試)的數(shù)據(jù)的通用和準(zhǔn)確,無(wú)意中的一絲細(xì)節(jié)就可能導(dǎo)致偏見(jiàn)。

總結(jié)

通過(guò)閱讀本文,您了解了機(jī)器學(xué)習(xí)模型偏差、偏差相關(guān)的屬性和特征以及模型偏差在不同行業(yè)中的示例。導(dǎo)致偏差的原因可能是因?yàn)楫a(chǎn)品經(jīng)理或數(shù)據(jù)科學(xué)家在研究機(jī)器學(xué)習(xí)問(wèn)題時(shí),對(duì)數(shù)據(jù)特征、屬性以及用于模型訓(xùn)練的數(shù)據(jù)集概括不全面,導(dǎo)致機(jī)器學(xué)習(xí)模型無(wú)法捕獲重要特征并覆蓋所有類型的數(shù)據(jù)來(lái)訓(xùn)練模型。具有高偏見(jiàn)的機(jī)器學(xué)習(xí)模型可能導(dǎo)致利益相關(guān)者采取不公平/有偏見(jiàn)的決策,會(huì)嚴(yán)重影響整個(gè)交易過(guò)程甚至是最終客戶的利益。

責(zé)任編輯:龐桂玉 來(lái)源: CIO時(shí)代
相關(guān)推薦

2023-05-11 15:24:12

2017-10-24 11:19:16

深度學(xué)習(xí)機(jī)器學(xué)習(xí)數(shù)據(jù)

2020-11-08 13:33:05

機(jī)器學(xué)習(xí)數(shù)據(jù)中毒人工智能

2022-07-26 00:00:03

語(yǔ)言模型人工智能

2020-11-02 16:29:23

機(jī)器學(xué)習(xí)技術(shù)人工智能

2023-12-27 14:03:48

2025-04-07 08:40:00

開(kāi)源Llama 4大模型

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領(lǐng)云

2017-03-07 15:13:28

Scala偏函數(shù)函數(shù)

2022-04-20 11:10:17

bias推薦系統(tǒng)debias

2023-09-17 23:09:24

Transforme深度學(xué)習(xí)

2018-10-08 15:22:36

IO模型

2024-05-21 09:45:40

機(jī)器學(xué)習(xí)人工智能XAI

2024-05-16 11:34:55

2021-09-04 19:04:14

配置LogbackJava

2018-09-28 14:06:25

前端緩存后端

2025-04-03 10:56:47

2022-09-22 09:00:46

CSS單位

2022-11-06 21:14:02

數(shù)據(jù)驅(qū)動(dòng)架構(gòu)數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)