提出AI消除性別偏見(jiàn)新方法，適用于任何模型

2022-12-08 13:00:10

開(kāi)發(fā) 前端

通過(guò)這一方法，團(tuán)隊(duì)證明如果上游預(yù)訓(xùn)練中對(duì)于性別偏見(jiàn)的矯正，能直接影響下游任務(wù)。

?陳丹琦新論文來(lái)了！

研究團(tuán)隊(duì)全員女將，這是她在普林斯頓的第一篇all-female author論文。

論文主題也和女性議題有關(guān)。

論文提出了MABEL，一種使用限定標(biāo)簽來(lái)讓AI減少性別偏見(jiàn)的方法。

通過(guò)這一方法，團(tuán)隊(duì)證明如果上游預(yù)訓(xùn)練中對(duì)于性別偏見(jiàn)的矯正，能直接影響下游任務(wù)。

而且適用于任何模型。

目前該論文被EMNLP 2022接收，項(xiàng)目已開(kāi)源。

在Hugging Face上也能找到使用了這一方法的BERT-base和BERT-large模型，即插即用。

使用限定標(biāo)簽減輕偏見(jiàn)

陳丹琦團(tuán)隊(duì)的這個(gè)新方法MABEL，全稱是一種使用專用標(biāo)簽消除性別偏見(jiàn)的方法（a Method for Attenuating Gender Bias using Entailment Labels）。

MABEL是在任務(wù)不可知的情況下來(lái)消除偏見(jiàn)的，換言之，這種方法適用于任何模型。

此前適用于這種情況的消除偏見(jiàn)方法，比較流行的是SEAT（句子編碼器關(guān)聯(lián)測(cè)試），但后來(lái)被相關(guān)研究證明：

其內(nèi)在指標(biāo)衡量出的結(jié)果與外部指標(biāo)沒(méi)有直接的相關(guān)性。

也就是說(shuō)，雖然一個(gè)模型在使用SEAT方法測(cè)試其消除偏見(jiàn)的得分很高，但在實(shí)際執(zhí)行任務(wù)的過(guò)程中仍然不及預(yù)期。

而這次研究團(tuán)隊(duì)呢，吸取了SEAT的經(jīng)驗(yàn)，內(nèi)在指標(biāo)與外部指標(biāo)兩手抓。

并且據(jù)團(tuán)隊(duì)介紹，MABEL還是第一個(gè)利用來(lái)自監(jiān)督句子對(duì)的語(yǔ)義信號(hào)來(lái)消除偏見(jiàn)的方法。

那它到底是怎樣來(lái)消除模型中的性別偏見(jiàn)的呢？

一言以蔽之，MABEL通過(guò)對(duì)預(yù)訓(xùn)練數(shù)據(jù)庫(kù)中的所有帶有敏感屬性的詞進(jìn)行反義替換，其他詞則保持不變，然后進(jìn)行對(duì)比學(xué)習(xí)來(lái)消除偏見(jiàn)。

具體來(lái)說(shuō)，研究團(tuán)隊(duì)做了兩方面的工作。

首先是數(shù)據(jù)集方面，研究團(tuán)隊(duì)使用的是自然語(yǔ)言推理（NLI）數(shù)據(jù)集，它在訓(xùn)練有區(qū)別性和高質(zhì)量的句子表征方面特別有效。

由于研究團(tuán)隊(duì)主攻性別歧視方向的偏見(jiàn)，因此，他們從NLI數(shù)據(jù)集中提取了在前提或者假設(shè)中包含性別術(shù)語(yǔ)的所有隱含對(duì)。

然后對(duì)數(shù)據(jù)進(jìn)行反事實(shí)增強(qiáng)，即將數(shù)據(jù)集中包含性別敏感的詞匯全部替換成反義詞匯，如男生→女生…

接下來(lái)的步驟就比較關(guān)鍵了：訓(xùn)練！

訓(xùn)練主要針對(duì)的是以下三個(gè)損失函數(shù)：

第一個(gè)是基于隱含的對(duì)比損失（Entailment-based contrastive loss），它比較像SimCSE。

△SimCSE

△Entailment-based contrastive loss

這種對(duì)比性的損失是將具有類似含義的兩個(gè)句子進(jìn)行對(duì)比，使兩個(gè)句子的隱含對(duì)中有更強(qiáng)的關(guān)聯(lián)，進(jìn)而使編碼器學(xué)習(xí)更多豐富的語(yǔ)義關(guān)聯(lián)。

第二個(gè)是對(duì)齊損失（Alignment loss），這就比較好理解了，它是用來(lái)表示原始隱含對(duì)和其增強(qiáng)對(duì)之間的內(nèi)部關(guān)聯(lián)。

也就是說(shuō)，這個(gè)函數(shù)能夠使模型最后生成的結(jié)果在男女之間更加平衡，以保證最后模型生成的結(jié)果性別歧視降到最低。

第三個(gè)是掩碼語(yǔ)言模型損失（Masked language modeling loss），這是最后額外附加的一個(gè)損失，目的是為了保持模型的語(yǔ)言建模能力。

研究團(tuán)隊(duì)在所有句子中隨機(jī)屏蔽了15%的標(biāo)記。通過(guò)利用周圍的上下文來(lái)預(yù)測(cè)原始的術(shù)語(yǔ)，編碼器被激勵(lì)去保留token級(jí)別的知識(shí)。

最終的損失函數(shù)如下：

講了這么多，那MABEL這個(gè)方法偏見(jiàn)消除的效果如何？

研究團(tuán)隊(duì)直接做了個(gè)可視化的柱狀圖來(lái)呈現(xiàn)這個(gè)方法消除性別歧視的效果。

在五個(gè)衡量指標(biāo)中，包括兩個(gè)內(nèi)在指標(biāo)（左邊兩個(gè)）和三個(gè)外部指標(biāo)，MABEL表現(xiàn)出了良好的公平性-性能權(quán)衡。

此外，研究團(tuán)隊(duì)還評(píng)估了語(yǔ)言模型在使用了消除性別歧視的方法后是否仍然保持一般的語(yǔ)言理解，結(jié)果顯示模型能夠很好地保留其在GLUE上的自然語(yǔ)言理解（NLU）能力。

陳丹琦帶隊(duì)，全員女將

最后，來(lái)看一下研究團(tuán)隊(duì)陣容。

陳丹琦，清華姚班校友，計(jì)算機(jī)領(lǐng)域近年來(lái)最受關(guān)注的青年學(xué)者之一。

現(xiàn)任普林斯頓大學(xué)助理教授，NLP組共同負(fù)責(zé)人、也是AIML組成員。

此前，她憑借在信息學(xué)競(jìng)賽圈內(nèi)的傳奇經(jīng)歷引發(fā)眾人關(guān)注——CDQ分治算法就是以她的名字命名。2008年，代表中國(guó)隊(duì)斬獲一枚IOI金牌。

她長(zhǎng)達(dá) 156 頁(yè)的博士畢業(yè)論文《Neural Reading Comprehension and Beyond》，也一度火爆出圈。不光獲得當(dāng)年斯坦福最佳博士論文獎(jiǎng)，還成為了斯坦福大學(xué)近十年來(lái)最熱門畢業(yè)論文之一。

今年2月，陳丹琦憑借在NLP領(lǐng)域的成就和潛力，斬獲斯隆研究獎(jiǎng)，該獎(jiǎng)項(xiàng)素有“諾獎(jiǎng)風(fēng)向標(biāo)”稱號(hào)。

論文一作為Jacqueline He。

她是一位今年剛剛畢業(yè)的普林斯頓計(jì)算機(jī)系本科生，目前是在Meta工作。

陳丹琦介紹說(shuō)，Jacqueline同時(shí)也在申請(qǐng)博士學(xué)位。

團(tuán)隊(duì)中還有一位陳丹琦的學(xué)生Mengzhou Xia。

她現(xiàn)在是普林斯頓計(jì)算機(jī)專業(yè)的一位博士生，本科畢業(yè)于復(fù)旦大學(xué)，后赴卡內(nèi)基梅隆大學(xué)讀研。研究興趣領(lǐng)域?yàn)榇笠?guī)模預(yù)訓(xùn)練模型的性能和效率。

除此之外，研究團(tuán)隊(duì)中還有一位72歲的高齡女學(xué)者。

她是普林斯頓語(yǔ)言學(xué)&計(jì)算機(jī)科學(xué)系教授Christiane D. Fellbaum。

其研究領(lǐng)域包括自然語(yǔ)言處理、詞匯語(yǔ)義、計(jì)算語(yǔ)言學(xué)、文本語(yǔ)料庫(kù)等，曾聯(lián)合開(kāi)發(fā)WordNet。這是一個(gè)基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典，可按照單詞意思組成了一個(gè)“單詞的網(wǎng)絡(luò)”。