自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器學(xué)習(xí)公平性研究,走在正確的道路上嗎?

人工智能 機(jī)器學(xué)習(xí)
隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)的技術(shù)越來越多地被應(yīng)用在社會(huì)的各個(gè)領(lǐng)域,來幫助人們進(jìn)行決策,其潛在的影響力已經(jīng)變得越來越大,特別是在具有重要影響力的領(lǐng)域,例如刑事判決、福利評(píng)估、資源分配等。

機(jī)器學(xué)習(xí)公平性的研究真的走在正確的道路上嗎?

隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)的技術(shù)越來越多地被應(yīng)用在社會(huì)的各個(gè)領(lǐng)域,來幫助人們進(jìn)行決策,其潛在的影響力已經(jīng)變得越來越大,特別是在具有重要影響力的領(lǐng)域,例如刑事判決、福利評(píng)估、資源分配等。

[[314256]]

因此可以說,從社會(huì)影響層面來講,考慮一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)在做(有高影響力的)決策時(shí),是否會(huì)對弱勢群體造成更加不利的影響,至關(guān)重要。

那么如何評(píng)估一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)的公平性程度呢?目前普遍的方法就是,拿著待評(píng)估的系統(tǒng)在一些靜態(tài)(特別強(qiáng)調(diào))的數(shù)據(jù)集上跑,然后看誤差指標(biāo)。事實(shí)上,現(xiàn)在有許多測試機(jī)器學(xué)習(xí)公平性的工具包,例如AIF360、Fairlearn、Fairness-Indicators、Fairness-Comparison等。

雖然這些工具包在一些任務(wù)中能夠起到一定的指導(dǎo)作用,但缺點(diǎn)也很明顯:它們所針對的都是靜態(tài)的、沒有反饋、短期影響的場景。這一點(diǎn)從評(píng)估方法中能夠體現(xiàn)出來,因?yàn)閿?shù)據(jù)集是靜態(tài)的。

然而現(xiàn)實(shí)生活中大多數(shù)卻是動(dòng)態(tài)的、有反饋的場景,機(jī)器學(xué)習(xí)算法運(yùn)行的背景往往對算法的決策具有長期的關(guān)鍵性影響。

因此針對機(jī)器學(xué)習(xí)算法公平性的研究,從靜態(tài)公平到動(dòng)態(tài)公平,從單線公平到有反饋的公平,從短期公平到長期公平,是重要且必要的一步。

近日,來自谷歌的數(shù)位研究人員針對這一問題,在近期于西班牙舉辦的ACM FAT 2020會(huì)議(關(guān)于計(jì)算機(jī)技術(shù)公平性的國際會(huì)議)上發(fā)表了一篇論文,并基于這篇論文的研究開發(fā)了一組模擬組件ML-fairness-gym,可以輔助探索機(jī)器學(xué)習(xí)系統(tǒng)決策對社會(huì)潛在的動(dòng)態(tài)長期影響。

論文及代碼鏈接:https://github.com/google/ml-fairness-gym

一、從案例開始

先從一個(gè)案例——借貸問題——開始。

這個(gè)問題是機(jī)器學(xué)習(xí)公平性的經(jīng)典案例,是由加州大學(xué)伯克利分校的Lydia T. Liu等人在2018年發(fā)表的文章《Delayed Impact of Fair Machine Learning》提出的。 

他們將借貸過程進(jìn)行了高度的簡化和程式化,從而能夠讓我們聚焦于單個(gè)反饋回路以及其影響。 

在這個(gè)問題的程式化表示中,個(gè)體申請人償還貸款的概率是其信用評(píng)分的函數(shù)。

每個(gè)申請人都會(huì)隸屬一個(gè)組,每個(gè)組具有任意數(shù)量的組員。借貸銀行會(huì)對每個(gè)組組員的借貸和還款能力進(jìn)行觀察。

每個(gè)組一開始有不同的信用評(píng)分分布,銀行嘗試確定信用評(píng)分的閾值,閾值可以跨組應(yīng)用并對每個(gè)組進(jìn)行調(diào)整,從而讓銀行最好地達(dá)到目標(biāo)。

信用評(píng)分高于閾值的申請人可以獲得貸款,低于閾值的申請人則被拒絕貸款。當(dāng)模擬系統(tǒng)選擇一個(gè)申請人時(shí),他們是否償還貸款是根據(jù)他們所在組的償還概率隨機(jī)決定的。

在該案例中,當(dāng)前申請貸款的個(gè)人,可能會(huì)在未來申請更多的貸款,所以他們可以通過償還貸款來提高他們的信用評(píng)分以及其所在組的平均信用評(píng)分。同樣地,如果申請人沒有償還貸款,那么所在組的平均信用得分則會(huì)降低。

最有效的閾值設(shè)置取決于銀行的目標(biāo)。

如果一家銀行追求的是總利潤最大化,那么它可能會(huì)根據(jù)申請人是否會(huì)償還貸款的可能性進(jìn)行評(píng)估,來設(shè)置一個(gè)能夠最大化預(yù)期回報(bào)的閾值。

如果不考慮其他因素,銀行將試圖使其總利潤最大化。利潤取決于銀行從償還貸款中獲得的金額與銀行從違約貸款中損失的金額之比。在上圖中,這個(gè)損益比是1比-4。隨著損失相對于收益變得越大,銀行將更加保守地發(fā)放貸款,并提高貸款門檻。這里把超過這個(gè)閾值的部分稱為選擇率。

而有的銀行尋求的可能是能否對所有組做到公平。因此它們會(huì)嘗試設(shè)置一個(gè)能夠平衡總利潤最大化和機(jī)會(huì)均等的閾值,其中機(jī)會(huì)均等的目標(biāo)則是實(shí)現(xiàn)平等的 true positive rates(TPR,又稱作靈敏度和召回率,衡量的是償還過貸款的申請人將被給予貸款)。

在這一場景下,銀行應(yīng)用機(jī)器學(xué)習(xí)技術(shù),基于已經(jīng)發(fā)布的貸款和收入情況,來決定最有效的閾值。然而,由于這些技術(shù)往往關(guān)注的是短期目標(biāo),它們對于不同的組,可能會(huì)產(chǎn)生意料之外的和不公正的結(jié)果。

上面兩幅圖:改變兩組超過100個(gè)模擬步驟的信用評(píng)分分布。第 2 組最初的信用評(píng)分較低,因此屬于弱勢群體。下面兩幅圖:左圖為模擬過程中第一組和第二組的銀行現(xiàn)金,右圖為模擬過程中第一組和第二組的TPR。

二、靜態(tài)數(shù)據(jù)集分析的不足之處

在機(jī)器學(xué)習(xí)領(lǐng)域中,評(píng)估借貸等場景的影響的標(biāo)準(zhǔn)方法就是將一部分?jǐn)?shù)據(jù)作為“測試集”,并使用這個(gè)測試集來計(jì)算相關(guān)的性能指標(biāo)。然后,通過觀察這些性能指標(biāo)在顯著組之間的差異,來評(píng)估公平性。 然而我們很清楚,在有反饋的系統(tǒng)中使用這樣的測試集存在兩個(gè)主要的問題:

第一,如果測試集由現(xiàn)有系統(tǒng)生成,它們可能是不完整的或者會(huì)在其他系統(tǒng)中顯示出內(nèi)在的偏差。在借貸案例中,測試集就可能是不完整的,因?yàn)樗鼉H僅只涵蓋曾經(jīng)被發(fā)放過貸款的申請人是否償還貸款的信息。因此,數(shù)據(jù)集可能并沒有包括那些此前未被批準(zhǔn)貸款或者沒有被發(fā)放貸款的申請人。

第二,機(jī)器學(xué)習(xí)系統(tǒng)的輸出會(huì)對其未來的輸入產(chǎn)生影響。由機(jī)器學(xué)習(xí)系統(tǒng)決定的閾值用來決定是否發(fā)放貸款,申請人是否償還這個(gè)貸款會(huì)影響到它們未來的信用評(píng)分,之后也會(huì)反饋到機(jī)器學(xué)習(xí)系統(tǒng)中。 這些問題都突出了用靜態(tài)數(shù)據(jù)集來評(píng)估公平性的缺陷,并促使研究者需要在部署了算法的動(dòng)態(tài)系統(tǒng)中,分析算法的公平性。

三、可進(jìn)行長期分析的模擬工具:ML-fairness-gym

基于上述需求,谷歌研究者開發(fā)出了ML-fairness-gym 框架,可以幫助機(jī)器學(xué)習(xí)從業(yè)者將基于模擬的分析引入到其機(jī)器學(xué)習(xí)系統(tǒng)中。這個(gè)組件已在多個(gè)領(lǐng)域被證明,在分析那些難以進(jìn)行封閉形式分析的動(dòng)態(tài)系統(tǒng)上是有效的。

ML-fairness-gym 使用了 Open AI 的 Gym 框架來模擬序列決策。在該框架中,智能體以循環(huán)的方式與模擬環(huán)境交互。在每一步,智能體都選擇一個(gè)能夠隨后影響到環(huán)境狀態(tài)的動(dòng)作。然后,該環(huán)境會(huì)顯示出一個(gè)觀察結(jié)果,智能體用它來指導(dǎo)接下來的動(dòng)作。

在該框架中,環(huán)境對系統(tǒng)和問題的動(dòng)態(tài)性進(jìn)行建模,而觀察結(jié)果則作為數(shù)據(jù)輸入給智能體,而其中智能體可以視為機(jī)器學(xué)習(xí)系統(tǒng)。

在借貸案例中,銀行充當(dāng)?shù)慕巧侵悄荏w。它以從環(huán)境中進(jìn)行觀察,從而接收貸款申請人以及他們的信用評(píng)分和組成員的信息,并以接受貸款或拒絕貸款的二分決策來執(zhí)行動(dòng)作。然后,環(huán)境對申請人是否成功償還貸款進(jìn)行建模,并且據(jù)此來調(diào)整申請人的信用評(píng)分。ML-fairness-gym 可以通過模擬這些結(jié)果,從而來評(píng)估銀行政策對于所有申請人的公平性的長期影響。

四、公平性并不是靜態(tài)的:將分析擴(kuò)展到長期影響

由于Liu 等人對借貸問題提出的原始公式,僅僅考量了銀行政策的短期影響結(jié)果,包括短期利潤最大化策略(即最大化獎(jiǎng)勵(lì)智能體)和受機(jī)會(huì)均等(EO)約束的策略。而研究者使用 ML-fairness-gym ,則能通過模擬將分析擴(kuò)展到長期影響。

上圖:最大化獎(jiǎng)勵(lì)智能體和機(jī)會(huì)均等智能體的累計(jì)放貸額,按申請人所隸屬的組劃分,藍(lán)色代表第 1 組,綠色代表第2組。下圖:模擬過程中的組平均信用評(píng)分(由各組有條件的償還概率量化而得出)。機(jī)會(huì)均等智能體增加了第2組的貸款通過率,但是加大了第2 組與第1 組合的信用評(píng)分差距。

谷歌研究者基于對上述借貸問題的長期分析得到了兩個(gè)發(fā)現(xiàn):

第一,正如Liu等人所發(fā)現(xiàn)的,機(jī)會(huì)均等智能體(EO 智能體)有時(shí)會(huì)對弱勢群體(第2組,最初的信用評(píng)分更低)設(shè)置比最大化獎(jiǎng)勵(lì)智能體更低的閾值,從而會(huì)給他們發(fā)放超出原本應(yīng)該給他們發(fā)放的貸款。 這導(dǎo)致第2組的信用評(píng)分比第 1 組下降的更多,最終造成機(jī)會(huì)均等智能體模擬的兩組組之間的信用評(píng)分差距比最大化獎(jiǎng)勵(lì)智能體模擬的更大。

同時(shí),他們在分析中還發(fā)現(xiàn),雖然機(jī)會(huì)均等智能體讓第2 組的情況似乎變得更糟,但是從累計(jì)貸款圖來看,弱勢的第2 組從機(jī)會(huì)均等智能體那里獲得了明顯更多的貸款。

因此,如果福利指標(biāo)是收到的貸款總額,顯然機(jī)會(huì)均等智能體對弱勢群體(第 2組)會(huì)更有利; 然而如果福利指標(biāo)是信用評(píng)分,那么顯然機(jī)會(huì)均等智能體將會(huì)讓弱勢群體的信用變得越來越差。

第二,在模擬過程中,機(jī)會(huì)均等約束(在每一步都在每組間強(qiáng)制實(shí)施均等的 TPR)并不能使TRP在總體上均等。這個(gè)可能違反直覺的結(jié)果可以看作是辛普森悖論的案例之一。

辛普森悖論的案例之一。TP 為真陽性分類,F(xiàn)N 對應(yīng)假陰性分類,而TPR則是真陽性率。在第1、2年中,借貸者實(shí)施能夠在兩組間實(shí)現(xiàn)均等TPR的政策。但兩年的TPR總和并沒有實(shí)現(xiàn)均等TPR。

如上表所示,每兩年的均等TPR并不意味著TPR總體均等。這也顯示了當(dāng)潛在人群不斷演變時(shí),機(jī)會(huì)均等指標(biāo)解釋起來會(huì)很難,同時(shí)也表明非常有必要用更多詳細(xì)的分析來確保機(jī)器學(xué)習(xí)能產(chǎn)生預(yù)期的效果。

上述內(nèi)容,只討論了借貸問題,不過據(jù)谷歌研究人員表示,ML-fairness-gym 可以用來解決更廣泛的公平性問題。在論文中,作者還介紹了其他一些應(yīng)用場景,感興趣者可以去閱讀論文原文。

ML-fairness-gym 框架在模擬和探索未研究過“公平性”的問題上,也足夠靈活。在他們另外的一篇論文《Fair treatment allocations in social networks》(社交網(wǎng)絡(luò)中的公平待遇分配)中,作者還研究了社交網(wǎng)絡(luò)中精準(zhǔn)疾病控制問題的公平性問題。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

 

責(zé)任編輯:未麗燕 來源: 雷鋒網(wǎng)
相關(guān)推薦

2021-10-29 19:22:16

可觀察性IT基礎(chǔ)設(shè)施監(jiān)控

2012-02-06 09:16:14

Windows PhoWindows Pho

2019-02-27 17:40:45

安卓計(jì)算機(jī)學(xué)習(xí)

2024-01-29 15:44:20

人工智能GenAI

2019-03-10 16:25:54

人工智能坑洼車輛

2012-07-02 09:40:05

CRM云計(jì)算

2023-01-19 08:00:00

2024-02-07 08:00:00

算法推薦系統(tǒng)BPR

2014-03-07 10:14:00

編程語言F#年度編程

2022-09-29 08:00:00

人工智能運(yùn)輸公平性

2018-12-06 13:13:55

多云數(shù)據(jù)中心安全性

2014-03-06 15:06:28

2015-01-19 11:23:26

ABLOOMY

2023-05-09 12:33:26

2015-06-01 15:35:52

2019-07-08 17:30:47

智能

2022-08-19 09:53:20

人工智能大數(shù)據(jù)風(fēng)險(xiǎn)

2013-12-12 13:47:00

iOS 7應(yīng)用UI

2016-09-26 10:19:16

超融合Nutanix

2013-07-12 11:04:21

技術(shù)管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)