自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最優(yōu)運輸及其在公平性中的應用

譯文
人工智能
隨著人工智能的公平性成為各行業(yè)組織越來越關注的領域,數(shù)據(jù)科學家應該考慮優(yōu)化運輸?shù)膬r值。

?譯者 | 李睿

審校 | 孫淑娟

最佳運輸源于經(jīng)濟學,如今被開發(fā)為如何最佳分配資源的工具。最優(yōu)運輸理論的起源可以追溯到1781年,當時的法國科學家加斯帕德·蒙格研究了一種據(jù)稱“移動地球”的方法,并為拿破侖的軍隊建造防御工事??傮w而言,最優(yōu)運輸是一個問題,即如何將所有資源(例如鐵礦)從一組起點(礦場)移動到一組終點(鋼鐵廠),同時最小化資源必須移動的總距離。從數(shù)學上來說,研究人員希望找到一個函數(shù),該函數(shù)將每個起點映射到一個目的地,同時最小化起點與其對應目的地之間的總距離。盡管其描述無傷大雅,但這一問題的原始構(gòu)想(即蒙格構(gòu)想)的進展仍停滯了將近200年。

在上世紀40年代,蘇聯(lián)數(shù)學家Leonid Kantorovich將該問題的構(gòu)想調(diào)整為現(xiàn)代版本,即現(xiàn)在所稱的Monge Kantorov理論,這是朝著解決方案邁出的第一步。這里的新奇之處在于允許來自同一礦山的一些鐵礦提供給不同的鋼鐵廠。例如,一個礦山60%的鐵礦可以提供給一家鋼鐵廠,而該礦山剩余40%的鐵礦則可以提供給另一家鋼鐵廠。從數(shù)學上來說,這不再是一個函數(shù),因為同一個原點現(xiàn)在映射到潛在的多個目的地。與其相反,這被稱為起點分布和目的地分布之間的耦合,如下圖所示;從藍色分布(原點)中選擇一個礦山,并沿著該圖垂直移動,顯示了鐵礦被發(fā)送的鋼鐵廠(目的地)的分布。

作為這一新發(fā)展的一部分,Kantorivich引入了一個重要的概念,稱之為Wasserstein距離。與地圖上兩點之間的距離類似,Wasserstein距離(受其原始場景啟發(fā)也稱為推土機距離)測量兩個分布之間的距離,例如本例中的藍色和品紅色分布。如果所有的鐵礦都距離所有的鐵廠都很遠,那么礦山分布(位置)和鋼鐵廠分布之間的Wasserstein距離就會很大。即使有了這些新的改進,仍然不清楚是否真的存在運輸鐵礦資源的最佳方式,更不用說采用哪種方式了。最后在上世紀90年代,由于數(shù)學分析和優(yōu)化的改進這一問題獲得部分解決方案,該理論開始迅速發(fā)展。而進入21世紀,最優(yōu)運輸開始蔓延到其他領域,如粒子物理學、流體動力學,甚至統(tǒng)計和機器學習。  

現(xiàn)代的最優(yōu)運輸  

隨著新理論的爆炸式發(fā)展,在過去二十年中,最優(yōu)運輸已成為許多新的統(tǒng)計和人工智能算法的中心。在幾乎每個統(tǒng)計算法中,數(shù)據(jù)都被顯式或隱式地建模為具有某種潛在的概率分布。例如,如果收集不同國家的個人收入數(shù)據(jù),則該人口收入在每個國家都存在概率分布。如果希望根據(jù)人口的收入分布對兩個國家進行比較,那么需要一種方法來衡量這兩個分布之間的差距。這正是優(yōu)化運輸(尤其是Wasserstein距離)在數(shù)據(jù)科學中變得如此有用的原因。然而,Wasserstein距離并不是衡量兩個概率分布相距距離的唯一指標。事實上,由于它們與物理學和信息論的聯(lián)系,L-2距離和Kullback-Leibler(KL)散度這兩種選擇在歷史上更為常見。Wasserstein距離相對于這些替代方案的主要優(yōu)勢在于,它在計算距離時同時考慮了值及其概率,而L-2距離和KL散度僅考慮概率。下圖顯示了一個關于三個虛構(gòu)的國家收入的人工數(shù)據(jù)集的示例。  

在這種情況下,由于分布不重疊,藍色和品紅色分布之間的L-2距離(或KL散度)將與藍色和綠色分布之間的L-2距離大致相同。另一方面,藍色和品紅色分布之間的Wasserstein距離將遠小于藍色和綠色分布之間的Wasserstein距離,因為值之間存在顯著差異(水平分離)。Wasserstein距離的這一特性使其非常適合量化分布之間的差異,特別是數(shù)據(jù)集之間的差異。  

以最優(yōu)運輸實現(xiàn)公平  

隨著每天收集大量數(shù)據(jù),機器學習在許多行業(yè)中變得越來越普遍,數(shù)據(jù)科學家必須越來越小心謹慎,不要讓他們的分析和算法延續(xù)數(shù)據(jù)中現(xiàn)有的偏差和偏差永久化。例如,如果住房抵押貸款批準數(shù)據(jù)集包含關于申請者種族的信息,但由于使用的方法或無意識偏差,少數(shù)族裔在收集過程中受到歧視,則基于該數(shù)據(jù)訓練的模型將在一定程度上反映潛在的偏差。

優(yōu)化運輸可以從兩個方面幫助緩解這種偏差和提高公平性。第一種也是最簡單的方法是使用Wasserstein距離來確定數(shù)據(jù)集中是否存在潛在偏差。例如,可以估計批準給女性的貸款金額分布和批準給男性的貸款金額分配之間的Wasserstein距離,如果Wasserstein距離非常大,即具有統(tǒng)計顯著性,那么可能懷疑存在潛在偏差。這種測試兩組之間是否存在差異的想法在統(tǒng)計學中被稱為雙樣本假設檢驗。

或者,當?shù)讓訑?shù)據(jù)集本身存在偏差時,甚至可以使用最優(yōu)運輸來強制模型中的公平性。從實際的角度來看,這非常有用,因為許多真實的數(shù)據(jù)集會表現(xiàn)出一定程度的偏差,并且收集無偏差的數(shù)據(jù)可能非常昂貴、耗時或不可行。因此,使用現(xiàn)有的數(shù)據(jù)更為實際,無論數(shù)據(jù)有多不完善,并嘗試確保模型減輕這種偏差。這是通過在模型中強制實施稱為強人口統(tǒng)計奇偶性的約束來實現(xiàn)的,該約束迫使模型預測在統(tǒng)計上獨立于任何敏感屬性。一種方法是將模型預測的分布映射到不依賴于敏感屬性的調(diào)整預測的分布。然而,調(diào)整預測也會改變模型的性能和準確性,因此在模型性能和模型對敏感屬性的依賴程度(即公平性)之間存在權(quán)衡。  

通過盡可能少地更改預測以確保最佳模型性能,同時仍保證新預測獨立于敏感屬性,從而實現(xiàn)最佳運輸。這種調(diào)整之后的模型預測的新分布被稱為Wasserstein重心,在過去十年中一直是許多研究的主題。Wasserstein重心類似于概率分布的平均值,因為它最小化了從自身到所有其他分布的總距離。下圖顯示了三個分布(綠色、藍色和品紅色)以及它們的Wasserstein重心(紅色)。  

在上面的示例中,假設基于包含一個敏感屬性(例如婚姻狀況)的數(shù)據(jù)集構(gòu)建了一個模型來預測某人的年齡和收入,該屬性可以取三個可能的值:單身(藍色)、已婚(綠色)和喪偶/離婚(品紅色)。散點圖顯示了每個不同值的模型預測分布。但是希望調(diào)整這些值,以便新模型的預測對一個人的婚姻狀況視而不見,可以使用最佳運輸將這些分布中的每一個映射到紅色的重心。因為所有值都映射到相同的分布,不能再根據(jù)收入和年齡來判斷一個人的婚姻狀況,反之亦然。重心盡可能地保留了模型的保真度。  

企業(yè)和政府決策中使用的數(shù)據(jù)和機器學習模型越來越普遍,這導致了新的社會和道德問題的出現(xiàn),即如何確保這些模型的公平應用。由于收集方式的性質(zhì),許多數(shù)據(jù)集包含某種偏差,因此在它們上訓練的模型不會加劇這種偏差或任何歷史歧視,這一點很重要。最優(yōu)運輸只是解決這一問題的一種方法,近年來這一問題一直在加劇。如今,有快速有效的方法來計算最佳運輸?shù)貓D和距離,使這種方法適用于現(xiàn)代大型數(shù)據(jù)集。隨著人們越來越依賴基于數(shù)據(jù)的模型和洞察力,公平性已經(jīng)并將繼續(xù)成為數(shù)據(jù)科學的核心問題,而最佳運輸將在實現(xiàn)這一目標方面發(fā)揮關鍵作用。

原文標題:??Optimal Transport and its Applications to Fairness???,作者:Terrence Alsup?

責任編輯:華軒 來源: 51CTO
相關推薦

2021-06-11 18:48:23

人工智能AI

2022-08-19 09:53:20

人工智能大數(shù)據(jù)風險

2024-02-07 08:00:00

算法推薦系統(tǒng)BPR

2023-09-05 10:40:20

Meta人工智能

2020-02-07 15:14:23

機器學習人工智能谷歌

2023-01-19 08:00:00

2023-02-26 01:12:10

多元時間機器學習序列

2021-03-15 10:49:23

大數(shù)據(jù)算法人工智能

2020-12-16 08:20:59

數(shù)據(jù)多樣性數(shù)據(jù)大數(shù)據(jù)

2025-01-13 08:13:18

2024-09-18 05:25:00

可解釋性人工智能AI

2021-11-02 17:36:13

Python驗證程序員

2012-03-27 21:29:35

WP7

2022-03-24 10:23:51

時間輪方法任務

2014-09-30 09:20:13

SDN openflow NFV

2020-05-13 15:10:04

矩陣乘法深度學習人工智能-

2018-03-13 08:20:48

區(qū)塊鏈數(shù)據(jù)安全

2009-12-30 10:23:30

VLAN技術(shù)

2023-03-02 08:26:36

RedisAVL紅黑樹

2017-09-01 15:21:18

Raft算法CMQ應用
點贊
收藏

51CTO技術(shù)棧公眾號