人工智能中 5 個(gè)讓人意想不到的誤差來源
譯者 | 開源中國 Ley, snake_007, 西直門交警, xubing0x00, 無若
我們傾向于認(rèn)為機(jī)器是沒有血肉,沒有個(gè)人思想,但能提供精準(zhǔn)計(jì)算的東西,尤其是智能機(jī)器。我們相信自駕汽車沒有私心,在判斷司機(jī)和路人生命孰重孰輕時(shí)不會(huì)有偏袒。
我們相信智能評(píng)估系統(tǒng)在進(jìn)行評(píng)估時(shí),會(huì)拋開所以主觀因素,做出客觀的判斷,如收入和 FICO 值。我們也相信學(xué)習(xí)系統(tǒng)會(huì)基于事實(shí)給出客觀結(jié)論,因?yàn)轵?qū)動(dòng)它們工作的是無偏差算法。
有些人認(rèn)為,不包含人類情感的機(jī)器存在 bug:它們應(yīng)該有人類一樣的思維模式。而另一些人認(rèn)為:機(jī)器就是機(jī)器,不應(yīng)帶有人類的主觀思想。還有一種折中的觀點(diǎn)認(rèn)為,它們可以有主觀的思想,但應(yīng)做出客觀的判斷。
而現(xiàn)實(shí)情況是,很少有智能系統(tǒng)可以做到毫無誤差,而且誤差的來源有很多途徑,如,訓(xùn)練系統(tǒng)的數(shù)據(jù)導(dǎo)致的誤差,交互誤差,突發(fā)情況引起的誤差,相似性誤差和目標(biāo)沖突導(dǎo)致的誤差等。
這些誤差通常難以被人察覺,但在我們構(gòu)建和部署智能系統(tǒng),需要對(duì)它們有一定的認(rèn)識(shí),這樣才可以在設(shè)計(jì)時(shí)有意識(shí)的避免可能引起的問題。
數(shù)據(jù)驅(qū)動(dòng)偏差
對(duì)于任何學(xué)習(xí)系統(tǒng),輸入的數(shù)據(jù)決定了輸出。這并不是一個(gè)新的觀點(diǎn),但當(dāng)看到系統(tǒng)被數(shù)以百萬的示例數(shù)據(jù)驅(qū)動(dòng)時(shí),我們往往會(huì)忘了這個(gè)觀點(diǎn)。人們往往會(huì)想:海量的數(shù)據(jù)可以將人類造成的誤差碾壓成渣渣。但是如果訓(xùn)練集本身就有偏斜的話,結(jié)果也可想而知。
最近,這種偏差已經(jīng)在深度學(xué)習(xí)的圖像識(shí)別系統(tǒng)中初露端倪。尼康的“亞洲面孔困惑”和惠普的膚色問題似乎都是偏斜示例集的產(chǎn)物。雖然兩者都是無意識(shí)產(chǎn)生并且都是可修復(fù)的,但這也表明了:如果我們不注意數(shù)據(jù)源偏差的問題的話,這種問題就會(huì)出現(xiàn)。
除了面部識(shí)別領(lǐng)域,更有其他對(duì)現(xiàn)實(shí)世界造成影響的情況。機(jī)器學(xué)習(xí)系統(tǒng)會(huì)用于建立一些用于預(yù)測(cè)被假釋人員的再犯罪概率,犯罪模式,或者預(yù)測(cè)潛力雇員的規(guī)則集。
這樣在這些領(lǐng)域會(huì)有潛在的負(fù)面的影響。當(dāng)我們用有偏差的數(shù)據(jù)源訓(xùn)練系統(tǒng)時(shí),如果數(shù)據(jù)源是和諧的但系統(tǒng)的決策算法有偏斜,也會(huì)使偏差延續(xù)下去。
交互引入的誤差
在某些系統(tǒng)通過大量的全集例子來學(xué)習(xí)的同時(shí),另外一些系統(tǒng)通過交互來學(xué)習(xí)。因此,由于交互中的用戶本身帶有偏見或者局限性,機(jī)器學(xué)習(xí)就可能在此基礎(chǔ)上產(chǎn)生誤差/偏見。
這種誤差的一個(gè)非常典型的例子就是微軟的 Tay。Tay 是一個(gè) Twitter 的聊天機(jī)器人,被設(shè)計(jì)為通過和用戶交互來學(xué)習(xí)。然而 Tay 受到某一社區(qū)影響,會(huì)產(chǎn)生種族歧視和女性歧視的言論。
事實(shí)上,這個(gè)用戶社區(qū)不斷地向 Tay 發(fā)出帶有侵犯性的言論,從而使得 Tay 的系統(tǒng)以這些言論為材料做出回復(fù)。
Tay 僅僅存在了 24 個(gè)小時(shí)就因上述情況被微軟關(guān)閉了。雖然 Tay 發(fā)出的種族歧視言論只被限制在 Twitter 范圍內(nèi),但它指示了世界的真實(shí)現(xiàn)實(shí)。當(dāng)我們構(gòu)建通過和人類伙伴交互而做決定并且學(xué)習(xí)的智能系統(tǒng)時(shí),同樣糟糕的訓(xùn)練問題也會(huì)出現(xiàn)在更多的情況之下。
考慮到我們對(duì)于機(jī)器做決定的不信任,試想如果我們給智能系統(tǒng)配備一個(gè)長期指導(dǎo)導(dǎo)師會(huì)發(fā)生什么?從 Tay 的事件中,我們知道了這些系統(tǒng)會(huì)從它們周圍的環(huán)境和人那里學(xué)習(xí)到“偏見”,不管好壞,都反映出了訓(xùn)練它們的人類的觀點(diǎn).
新生成的誤差
有時(shí),系統(tǒng)為個(gè)性化而做的決策將會(huì)導(dǎo)致誤差“泡沫”的產(chǎn)生。我們可以從 Facebook 當(dāng)前的狀態(tài)中看到這種誤差。在最頂層,F(xiàn)acebook 用戶可以看到他們朋友的博文,并和他們共享信息。
不幸的是,任何分析輸入數(shù)據(jù)流并提供其他內(nèi)容的算法將會(huì)給用戶提供已經(jīng)看到過的內(nèi)容。這一效果在用戶打開、喜歡和分享內(nèi)容的情況下進(jìn)一步被放大。結(jié)果導(dǎo)致信息流更加傾向于用戶已有的興趣集。
雖然這么做體現(xiàn)了個(gè)性化,也能讓人放心,但不是我們認(rèn)為的新聞的樣子。信息泡沫是“確定性誤差”的算法版本。用戶無需再過濾那些與自己信仰相沖突的信息,因?yàn)橄到y(tǒng)已經(jīng)自動(dòng)將其過濾。
這些信息誤差在新聞界造成的影響給人帶來許多困擾。但在企業(yè)中,我們把社交媒體的模型用于支持決策制定,支持產(chǎn)生信息泡沫的系統(tǒng)更能影響我們的認(rèn)知。知識(shí)份子僅從與他觀點(diǎn)相似的人那里得到信息,將無法看到對(duì)立的觀點(diǎn),會(huì)忽略和否認(rèn)其他的觀點(diǎn),導(dǎo)致體現(xiàn)問題不全面。
相似性偏差
有時(shí)偏差僅僅是系統(tǒng)在完成設(shè)計(jì)初衷的產(chǎn)物。比如,Google News,設(shè)計(jì)初衷是通過使用相關(guān)故事集匹配用戶查詢來提供故事。這明顯是它設(shè)計(jì)的目的,而且它完成的非常好。當(dāng)然,返回的結(jié)果是一些相互直接有關(guān)聯(lián)的相似故事集合。也就是說,它們定義了與 Facebook 個(gè)性化類似的信息泡沫。
這種模式突出顯示了新聞的作用及其傳播的問題——最明顯的是信息的平衡方法。“編輯控制”的缺失影響范圍巨大。雖然相似性是信息世界里一個(gè)強(qiáng)大的衡量標(biāo)準(zhǔn),但它不是唯一的。
不同的觀點(diǎn)為決策提供了有力的支持。如果信息系統(tǒng)僅依靠“類似于”查詢或現(xiàn)有文檔提供查詢結(jié)果,就容易產(chǎn)生“信息泡沫”。
相似性偏差更傾向于被接收,而對(duì)立、反向和沖突的概念提倡的是創(chuàng)造與革新,這種概念在企業(yè)中尤為重要。
沖突的目標(biāo)偏差
有時(shí)系統(tǒng)設(shè)計(jì)是有非常具體的商業(yè)目的的,而真實(shí)的偏差完全是在意料之外。
比如,一個(gè)旨在為潛在候選人提供職位描述的系統(tǒng)。當(dāng)用戶點(diǎn)擊職位描述時(shí),系統(tǒng)就會(huì)生成薪資。所以自然地,算法的目標(biāo)是提供獲得***點(diǎn)擊數(shù)的職位描述。
事實(shí)證明,人們傾向于點(diǎn)擊那些能滿足自我期望的職位,通過簡(jiǎn)單地介紹,可以加強(qiáng)人們對(duì)這一職位的刻板印象 [注:刻板印象主要是指人們對(duì)某個(gè)事物或物體形成的一種概括固定的看法,并把這種觀看法推而廣之,認(rèn)為這個(gè)事物或者整體都具有該特征,而忽視個(gè)體差異。]。
舉例來說,女性傾向點(diǎn)擊的工作標(biāo)簽是“護(hù)理”,而不是“醫(yī)療技術(shù)人員”。這并不是因?yàn)?ldquo;護(hù)理”工作比較好,而是因?yàn)榭贪逵∠?,使得這一工作與她們的決定匹配起來。
刻板印象在行為上的影響體現(xiàn)在:一個(gè)人刻板印象(例如:性別,人種,族群)與工作選擇相關(guān)聯(lián)。因此,大多數(shù)網(wǎng)站基于點(diǎn)擊行為的學(xué)習(xí)組件都會(huì)利用刻板印象帶來的影響。
機(jī)器誤差由人工導(dǎo)致
理想狀態(tài)下,智能系統(tǒng)及其算法是客觀的。但這些系統(tǒng)是由人工建立的,所以我們的誤差會(huì)導(dǎo)致機(jī)器的誤差。 通過對(duì)誤差本身及問題的根源進(jìn)行了解,有利于我們避免誤差的產(chǎn)生。
我們沒法創(chuàng)建完全沒有誤差的工具,但我們能盡量縮小誤差的范圍。