自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

?數(shù)據(jù)集擁有自己的世界觀?不,其實還是人的世界觀

人工智能 機(jī)器學(xué)習(xí) 新聞
當(dāng)我們得到一個不完美的模型的時候,其中的數(shù)據(jù)集到底存在什么偏見?這些偏見是如何產(chǎn)生的?

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

伴隨深度學(xué)習(xí)的不斷日?;瑪?shù)據(jù)集中的偏見(bias)和公正性(fairness)已經(jīng)成為一個熱門研究方向。

偏見在AI領(lǐng)域是一個很棘手的話題:有些偏見是有益的,例如噪聲數(shù)據(jù)可以增加模型的魯棒性,有些偏見是有害的,例如傾向?qū)τ猩朔N識別錯誤。

而且,當(dāng)我們得到一個不完美的模型的時候,其中的數(shù)據(jù)集到底存在什么偏見?這些偏見是如何產(chǎn)生的?

谷歌的PAIR (People + AI Research)團(tuán)隊最近發(fā)表了一篇博文,用一個很簡單有趣的例子討論了這些問題。

原文鏈接:https://pair.withgoogle. com/explorables/dataset-worldviews/

1 有偏見的分類

假設(shè)我們擁有如下所示的不同形狀的數(shù)據(jù)集,它們對應(yīng)的標(biāo)簽是有無陰影,如下圖。

利用頁面上的交互式分類器,可以分類出如下的結(jié)果,并得出相應(yīng)的準(zhǔn)確性。

模型并不完美,為了對結(jié)果進(jìn)行糾正,你可能想知道模型正在犯什么錯誤,或者,數(shù)據(jù)存在哪種類型的偏見?

2 公正性分析

由于各個圖形的主要區(qū)別在于形狀,一個可能的偏見存在于形狀的差別。通過觀察你可能認(rèn)為三個最主要的形狀主要是圓、三角形和矩形。為了證實這個假設(shè),你要確信你的模型在面對圓、三角形和矩形的時候模型的表現(xiàn)能力的一樣的。接下來我們來做公正性分析(fairness analysis)。

首先我們需要對每個的形狀進(jìn)行標(biāo)注,但是一個問題是,有些形狀并不能很肯定地確定是什么形狀,這時候有兩種策略,一是把這種形狀判斷為最有可能是圓、三角形和矩形(with their best guess);一種是給出一個選項:上述三種形狀都不是(as "other")。之后我們分析模型對于每一類形狀的分類準(zhǔn)確率。該交互式頁面給了兩種策略的結(jié)果:

策略一:尋找最有可能的形狀:

第一種策略表明分類器對于矩形分類的結(jié)果最好,圓次之,三角形最差。不過這可以表明模型對三角形存在偏見嗎?我們在頁面上切換第二種策略。

策略二:上述都不是:

結(jié)果發(fā)生了變化!第二種策略則表明分類器對于三角形和矩形分類結(jié)果都最好,圓卻最差。我們對于偏見的理解因為我們制定分類的策略不同而不同,換言之,每一種分類方式代表著采取不同的角度看待哪些是重要的分類特征。而決定數(shù)據(jù)集和最終模型決策的是你——制定策略的人。也就是每個數(shù)據(jù)集都代表一種“世界觀”,其收集背后莫不代表著人的意志。

所以,再回過頭來想想,還有哪些策略或者規(guī)則的指定可能會影響我們的對于公正性的判斷?

對,我們當(dāng)初對于分類的標(biāo)準(zhǔn)是依照形狀,比如圓、三角形或者矩形,這也是我們?nèi)藶槎ǖ臉?biāo)準(zhǔn),如果換成”尖的“或者”圓的“呢?或者“小的”或者“大的”呢?下圖給出了不同評價標(biāo)準(zhǔn)下,正確和錯誤分類的個體:

圖注:當(dāng)類別標(biāo)準(zhǔn)是“尖的”或者“圓的”,以及其它模糊類別是“尋找最有可能的形狀”的時候的分類結(jié)果

圖注:當(dāng)類別標(biāo)準(zhǔn)是“小”或者“大的”,以及其它模糊類別是“尋找最有可能的形狀”的時候的分類結(jié)果

可以看到,每當(dāng)選擇一種標(biāo)準(zhǔn)的時候,所得到的錯誤分類的數(shù)據(jù)分布也都不同,因而每種情況下對于實例的偏見程度或者公正性分析也都會出現(xiàn)偏差——偏見似乎也有了偏見。

3 標(biāo)簽在講述故事

回顧一下,假設(shè)你是收集該數(shù)據(jù)集的負(fù)責(zé)成員,剛開始你做出關(guān)于與偏見相關(guān)的分類類別的決策,所有的形狀實例到底怎么分?你按照“尖的”和“圓的”,也就是下圖:

其它標(biāo)注者試圖回答下述問題:這個圖形是“尖的”還是“圓的”?

之后,收集完畢,你根據(jù)上述錯誤類別分析,你可以得到分類器在尖的形狀表現(xiàn)的好,圓的則表現(xiàn)的差,之后便有了如下的報告:

然后,如果一開始的評價標(biāo)準(zhǔn)是“大的”還是“小的”,重復(fù)上述步驟,你卻可以得到分類器在小的形狀上分類效果好,于是便有了這樣的故事...

想要避免這個問題的一個自然的解決方式是,收集更多的數(shù)據(jù)和更多的特征:如果我們有足夠多的數(shù)據(jù),知道它們足夠多的細(xì)節(jié),我們將可以避免做出不同的分類決策,從而產(chǎn)生唯一的偏見的影響因子。

不過,似乎并非這樣。想象一下,當(dāng)我們描述我們周圍的一件事情的時候,不管是向一個朋友講述一件事情的時候,還是告知計算機(jī)關(guān)于形狀的事情的時候,我們都會自覺不自覺地選擇自己認(rèn)為的最重要的部分,或者選擇用什么工具去傳遞它。

不管我們是否這么想,我們無時無刻不在做分類——

正如我們在形狀的例子中所看到的那樣,所有的選擇都使得某些特征比其它的特征更加重要,使得一些特征的差別是可見的一些卻可被忽略,都使得某些事物變得容易分類有些成為噪聲點。

是分類的標(biāo)準(zhǔn)在講述整個故事。

4 真實的場景

如果我們再回顧真實的機(jī)器學(xué)習(xí)應(yīng)用,比如監(jiān)督學(xué)習(xí)任務(wù)中的目標(biāo)檢測任務(wù)。我們想象有下面一幅圖片:

我們想在這樣的數(shù)據(jù)集上打標(biāo)注,因而我們想先對其中的目標(biāo)物體進(jìn)行標(biāo)注。其中的一種標(biāo)注如下:

這樣已經(jīng)看起來很客觀了,對嗎?畢竟山就是山、樹就是樹??墒羌词惯@樣,同一張圖的同一個區(qū)域的標(biāo)簽也可能不一樣,比如這樣:

山可以具體化名稱,樹也可以具體化“沒有醫(yī)用的植物”。

是的,并沒有一個普遍的方法去對待每一個物體、每一個單詞或者每一張圖片。數(shù)據(jù)集總是特定時間空間和條件的結(jié)果。它們是社會的產(chǎn)物,它們有歷史觀,它們有政治色彩。而忽略這些會帶來非常現(xiàn)實的后果。

那我們應(yīng)該怎么對待這些信息呢?

一個很好的起點是反思數(shù)據(jù)所在的上下文,并且始終對數(shù)據(jù)保持好奇。

很難去判斷一個數(shù)據(jù)集本身的價值——它們是客觀的,普遍的,中立的嗎——它可能只是反映一種你自己習(xí)慣的世界觀。所以理解你自己的世界觀可以告訴你所謂客觀數(shù)據(jù)的局限性。時刻問自己:你對這個世界做出了什么假設(shè)?什么是感覺像是常識?什么有些違背常理?重要的是,對于數(shù)據(jù)集不應(yīng)該忘記考慮:誰收集的它?為什么會收集它?誰付錢收集了它?所謂的”真值“標(biāo)簽來自哪里?

之后,你甚至可能會發(fā)現(xiàn)自己在質(zhì)疑收集數(shù)據(jù)過程中的某些假設(shè),從而對你的分類任務(wù)有更加整體地理解。

如果對你的數(shù)據(jù)有很多問題,你就已經(jīng)有很好的開端了。

5 研究團(tuán)隊介紹

People + AI Research (PAIR) 是 Google 的一個跨學(xué)科團(tuán)隊,通過基礎(chǔ)研究、構(gòu)建工具、創(chuàng)建設(shè)計框架以及與不同社區(qū)合作來探索人工智能的人性方面。

團(tuán)隊的宗旨讓機(jī)器學(xué)習(xí)發(fā)揮其積極潛力,因為它需要具有廣泛的參與性,涉及到它影響的社區(qū),并由不同的公民、政策制定者、活動家、藝術(shù)家等群體指導(dǎo)。

該團(tuán)隊開發(fā)了很多有趣的可視化交互頁面,探討了很多有趣的AI+公正性或者可解釋性的課題??烊ピ囋嚢桑?

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2015-09-22 12:02:07

戴爾云計算

2021-04-12 06:05:58

多線程ThreadJava

2011-02-21 17:19:53

2018-11-21 10:04:32

2013-03-11 13:40:48

4D打印

2020-03-25 10:18:24

安卓GoogleChrome

2013-05-30 10:11:53

失業(yè)的程序員程序員

2020-05-12 08:16:43

Elasticsear數(shù)據(jù)Lucene

2015-03-05 10:52:40

時代馬云阿里巴巴

2020-05-06 11:04:52

Elasticsear架構(gòu)運維

2018-04-18 13:00:42

區(qū)塊鏈

2013-04-19 10:43:36

2017-11-30 07:30:27

程序員代碼軟件世界觀

2022-04-08 08:06:05

ITCIOCFO

2017-11-13 09:20:19

技術(shù)程序員淘汰

2018-06-25 15:20:06

無助力外骨骼式NK01機(jī)甲

2016-03-21 09:42:51

易觀大數(shù)據(jù)互聯(lián)網(wǎng)

2021-07-27 21:58:13

人工智能AI

2020-08-27 14:05:32

TypeScript配置文件前端
點贊
收藏

51CTO技術(shù)棧公眾號