大數(shù)據(jù)中的偏見:如何發(fā)現(xiàn)它并減輕其影響
數(shù)據(jù)管道的不同部分都會(huì)產(chǎn)生偏見。人們非常關(guān)注在分析過程中可能出現(xiàn)的偏見,但其實(shí)偏見可能出現(xiàn)在數(shù)據(jù)管道的更早期階段。
俄亥俄州立大學(xué)柯萬種族研究所高級(jí)研究員Kelly Capatosto表示,偏見有可能早在收集數(shù)據(jù)前就進(jìn)入數(shù)據(jù)生命周期。
她說:“如果有人基于調(diào)查結(jié)果來確定程序、模型或算法的運(yùn)行方式,那么設(shè)計(jì)師的先入為主的觀念可能最終會(huì)融入到該過程中。”
現(xiàn)在對大型數(shù)據(jù)集及其所包含的偏見的審查越來越多。在目標(biāo)市場營銷等領(lǐng)域中故意偏見可能會(huì)有所優(yōu)勢,因?yàn)閿?shù)據(jù)偏見可以提供更直接的見解,但大數(shù)據(jù)偏見會(huì)很快成為企業(yè)面臨的問題。
下面是發(fā)現(xiàn)偏見和減輕其影響的方法:
在哪里找到它
Enterprise Strategy Group(ESG)的高級(jí)分析師Mike Leone說:“偏見出現(xiàn)在數(shù)據(jù)生命周期的早期。”
即使在數(shù)據(jù)收集過程中,也可能會(huì)無意中包含偏見。正如Capatosto所說,某些偏見可能會(huì)根深蒂固于用于收集數(shù)據(jù)的調(diào)查中,但是由于訪問障礙,偏見也可能出現(xiàn)數(shù)據(jù)收集過程。最近的美國人口普查就是一個(gè)例子。
Capatosto說:“語言、貧困、獲取技術(shù)等方面存在障礙,這使得很難將這種信息有意義地整合到任何給定過程中。”
另一件事是混雜。Capatosto說,算法偏差最突出的問題之一是將身份與一定程度的風(fēng)險(xiǎn)混為一談。
Capatosto說:“在醫(yī)療保健方面,這非常重要,它具有聯(lián)系人追蹤功能,以及如何利用大數(shù)據(jù)和其他措施來建立圍繞健康問題的公共設(shè)施和基礎(chǔ)設(shè)施。”
她引用了最近的一項(xiàng)研究,該研究發(fā)現(xiàn)某些社區(qū)據(jù)稱具有更普遍的醫(yī)療保健需求,但是滿足這些需求的參數(shù)是花在醫(yī)療保健上的錢。其他研究發(fā)現(xiàn),費(fèi)用是有偏見的參數(shù),因?yàn)橛袝r(shí)費(fèi)用本身首先是獲取醫(yī)療保健的障礙。
雖然移除大數(shù)據(jù)中的惡意意圖偏見很重要,但有時(shí)有必要包含偏見。
Gartner公司副總裁Svetlana Sicular說:“如果數(shù)據(jù)量很大,你可能只想知道某個(gè)特定人群。”
Leone認(rèn)為,故意偏見在某種程度上意味著分析重點(diǎn)。當(dāng)涉及個(gè)性化或瞄準(zhǔn)特定目標(biāo)人群時(shí),有偏見的數(shù)據(jù)集可以幫助實(shí)現(xiàn)這些目標(biāo)。
他說:“偏見可為每位客戶提供真正定制的體驗(yàn)。”
但是,使用目標(biāo)數(shù)據(jù)集來定制受眾的體驗(yàn),并不會(huì)引起大數(shù)據(jù)偏差的大問題。更大的問題是無意識(shí)的偏見。
Sicular說:“無意的偏見可以源自不同的目的,包括惡意目的,例如使數(shù)據(jù)中毒或攻擊模型。”
Sicular表示,大數(shù)據(jù)無意偏見的示例是2019年Apple Card推出。在發(fā)行之后不久,該算法被發(fā)現(xiàn)為女性設(shè)置較低的信用額度。盡管蘋果和高盛(Goldman Sachs)聲稱這種歧視是無意的,但這樣的事情可能構(gòu)成最大的問題,即大數(shù)據(jù)中出現(xiàn)無意的偏見。
Sicular說:“很多技術(shù),很多平臺(tái)都試圖獲得可解釋性,解釋算法內(nèi)部發(fā)生了什么。”
在整個(gè)數(shù)據(jù)管道中,建立這種可解釋性可以減輕無意識(shí)的偏見。Capatosto說,這需要首先了解和熟悉大數(shù)據(jù)偏見的概念。這里的關(guān)鍵是建立透明度和強(qiáng)大的數(shù)據(jù)治理流程,以消除數(shù)據(jù)集中的偏差。
她說:“首先,要確保問責(zé)制不僅僅是事后的想法。”
多元化團(tuán)隊(duì)
Leone說,多元化的數(shù)據(jù)團(tuán)隊(duì)可以確定何時(shí)需要故意偏見。Sicular說,一個(gè)由具有不同背景的人組成的團(tuán)隊(duì)將根據(jù)他們的不同經(jīng)驗(yàn)提出疑問,這些經(jīng)驗(yàn)可能會(huì)改變方法。
她說:“一個(gè)人可能不會(huì)考慮某些事情。”
但是,如何聘用多元化的團(tuán)隊(duì)很重要。目標(biāo)不僅是擁有一支多元化的團(tuán)隊(duì)來校準(zhǔn)數(shù)據(jù)。 Capatosto說,從設(shè)計(jì)到部署的整個(gè)過程中,這些不同的觀點(diǎn)都是必要的。
她補(bǔ)充說,數(shù)據(jù)團(tuán)隊(duì)的多樣性可以幫助減少大數(shù)據(jù)中的偏見。她說:“我認(rèn)為,意見、觀點(diǎn)和優(yōu)勢點(diǎn)的多樣性將始終有助于盡早發(fā)現(xiàn)這些問題。”