Facebook 開源數(shù)據(jù)集,旨在消除 AI 偏見
Facebook 宣布開源了一個名為 Casual Conversations 的視頻數(shù)據(jù)集,旨在幫助研究人員評估其計算機視覺和音頻模型在各種年齡、性別、明顯的膚色和周圍光線條件下的準確性,以消除 AI 偏見。
Casual Conversations 中包含了 3011 名參與者的 45000 多個視頻,均勻分布了不同的性別、年齡段和膚色。Facebook 要求其中的付費參與者提交視頻并自己提供了年齡和性別標簽,以盡可能地消除誤差。
此外,F(xiàn)acebook 還為 Casual Conversations 招募了一些訓練有素的注釋員。這些注釋員在每個視頻中標注了光照水平,以幫助衡量 AI 模型在低光環(huán)境條件下如何對待不同膚色的人。并根據(jù) Fitzpatrick 量表對參與者的膚色進行了標記。Fitzpatrick 量表是美國皮膚科醫(yī)生 Thomas B. Fitzpatrick 在 1975 年開發(fā)的一種膚色分類模式,根據(jù)皮膚類型對紫外線的反應進行了概括分類,包括了 I 型(總是灼傷而從不曬黑的蒼白皮膚)到 VI 型(從不灼傷的深色素皮膚)。
Facebook 的 AI 團隊指出,其新的 Casual Conversations 數(shù)據(jù)集除了準確性測試外,還應該作為一種輔助工具,用于衡量數(shù)據(jù)集所代表的社區(qū)的計算機視覺和音頻模型的公平性。
目前,雖然該數(shù)據(jù)集已經(jīng)提供給開源社區(qū)使用,但 Facebook 也指出,Casual Conversations 仍有其局限性。例如,其只提供了”男性“、”女性“和”其他“的性別標簽選項,而沒有包含那些認定為非二元的之類的性別。
該公司表示,在接下里的一年左右的時間里,其將繼續(xù)探索擴大這一數(shù)據(jù)集的途徑,使其更具包容性,代表的內(nèi)容包括更廣泛的性別認同、年齡、地理位置、活動和其他特征。
本文轉(zhuǎn)自OSCHINA
本文標題:Facebook 開源數(shù)據(jù)集,旨在消除 AI 偏見
本文地址:https://www.oschina.net/news/136989/facebook-casual-conversations-dataset