深度學(xué)習(xí)有時會犯一些奇怪的錯誤
深度學(xué)習(xí)可以是驚人的強(qiáng)大,但它也可能會犯任何人都不會犯的令人驚訝的錯誤。
當(dāng)計算機(jī)視覺開始騰飛時,人們觀察到基于深度學(xué)習(xí)的圖像分類器有點(diǎn)反復(fù)無常。例如,圖像分類器可能會正確識別校車的圖片,但當(dāng)包含少量噪音(精心選擇以混淆算法)時,可能會將其誤認(rèn)為鴕鳥。
深度學(xué)習(xí)有時也能看到根本沒有的東西。一組研究人員設(shè)計了一種生成圖像的方法,即使圖像實際上只由波浪線或其他抽象圖案組成,計算機(jī)視覺算法也會將其歸類為熟悉的對象,并具有非常高的置信度。
當(dāng)計算機(jī)視覺應(yīng)用于現(xiàn)實世界時,也會出現(xiàn)這樣的問題。通過在交通標(biāo)志上貼上小的彩色補(bǔ)丁,可以使計算機(jī)視覺算法將停車標(biāo)志誤認(rèn)為限速標(biāo)志。
這個問題并不局限于計算機(jī)視覺。亞馬遜在評估求職者的實驗性計算機(jī)程序–歐元™簡歷中注意到了這一點(diǎn)。在開發(fā)團(tuán)隊注意到該程序不是基于描述應(yīng)聘者™實際工作經(jīng)驗的詞語做出決定后,該實驗被關(guān)閉。相反,男性工程師傾向于按比例比女性更頻繁地使用不相關(guān)的詞匯。從本質(zhì)上說,該項目已經(jīng)學(xué)會了預(yù)測應(yīng)聘者™的性別,而不是是否適合這份工作。這種偏見之所以出現(xiàn),是因為該系統(tǒng)過去接受過關(guān)于提交給公司的簡歷的培訓(xùn),而且男性申請和被聘用到工程職位的次數(shù)比女性更多。
為什么計算機(jī)會犯愚蠢的錯誤?
當(dāng)一張基本相同的復(fù)制品被誤認(rèn)為鴕鳥時,校車的圖像怎么會被正確歸類呢?
深度學(xué)習(xí)模型是復(fù)雜的數(shù)學(xué)黑匣子。他們的決策邏輯往往很難處理。人類的大腦也是復(fù)雜的,但沒有理由兩個復(fù)雜的東西會對世界有相似的看法。這也許并不令人驚訝,人類和機(jī)器對是什么使兩張圖像相似有著截然不同的認(rèn)知。(™)
人類和人工智能看待世界的方式截然不同。當(dāng)人類看到鴕鳥的圖像時,他們會認(rèn)出它,把它與鴕鳥的概念聯(lián)系起來,并回憶起相關(guān)的事實:一只快速奔跑的不會飛的鳥,長長的脖子,生活在非洲等等。另一方面,人工智能甚至不知道鴕鳥指的是一種動物(或者,實際上,動物是什么)。對于人工智能來說,鴕鳥只是像素(在計算機(jī)視覺應(yīng)用中)或文本字符(在自然語言處理應(yīng)用中)的統(tǒng)計模式。人工智能應(yīng)用程序缺少大多數(shù)成年人共享的常識知識。
從統(tǒng)計模式的角度思考對人類來說是非常不直觀的。即使是AI應(yīng)用程序的開發(fā)人員也經(jīng)常很難理解系統(tǒng)學(xué)習(xí)到了什么樣的模式。
更糟糕的是,統(tǒng)計模型可能學(xué)習(xí)與開發(fā)人員預(yù)期完全不同的模式。統(tǒng)計方法走捷徑,學(xué)習(xí)訓(xùn)練數(shù)據(jù)中出現(xiàn)的最簡單的模式。如果大多數(shù)貼上北極熊標(biāo)簽的圖像都包括冰雪,那么模型可能會錯誤地認(rèn)識到北極熊的意思是白色背景。
培養(yǎng)更好的模型
有一些方法可以緩解問題,但沒有完全解決的辦法。從概念上講,最簡單的解決辦法是收集更多的訓(xùn)練數(shù)據(jù)。然而,覆蓋所有角落案例將需要不切實際的大量訓(xùn)練集。自動駕駛汽車的訓(xùn)練數(shù)據(jù)只能包含汽車在現(xiàn)實世界交通中可能遇到的一小部分情況。
一種相關(guān)的方法是通過裁剪、旋轉(zhuǎn)或增強(qiáng)具有低水平噪聲的圖像來生成訓(xùn)練樣本的略微修改的副本,從而綜合擴(kuò)展訓(xùn)練集。這是一種向模型表明人類仍將圖像視為同一對象的變化程度的一種方式。以這種方式訓(xùn)練的模型的預(yù)測被發(fā)現(xiàn)更可靠,更符合人類的感知。
如果預(yù)測模型能夠注意到它們被混淆了,問題就會得到緩解。例如,念力的一個原因可能是,輸入與模型在培訓(xùn)期間看到的任何東西都有很大不同。一個活躍的研究方向是找出如何讓算法衡量自己的信心。
最終的解決方案是在預(yù)測模型中加入人類常識知識。貝葉斯建模提供了整合先驗知識的原則性方法。然而,在復(fù)雜的問題中,用所需的概率分布形式來表達(dá)™的知識是困難的。
對人工智能發(fā)展的影響
正如上面討論的那樣,人工智能系統(tǒng)在大多數(shù)情況下都可以很好地工作,但偶爾也會出現(xiàn)令人驚訝的錯誤。這對人工智能系統(tǒng)的發(fā)展有一定的影響。
首先也是最重要的是,開發(fā)人員需要做好應(yīng)對意外預(yù)測的心理準(zhǔn)備。他們需要評估潛在錯誤的風(fēng)險,并為用戶提供適當(dāng)?shù)幕謴?fù)方法。
全面的測試可以在一定程度上確保系統(tǒng)按預(yù)期運(yùn)行。然而,測試永遠(yuǎn)不可能涵蓋所有情況。如果存在哪怕是極少數(shù)導(dǎo)致奇怪預(yù)測的罕見輸入,用戶遲早都會偶然發(fā)現(xiàn)。因此,人工智能系統(tǒng)應(yīng)該被設(shè)計成在出現(xiàn)令人驚訝的預(yù)測的情況下優(yōu)雅地降級。
應(yīng)用程序的性質(zhì)及其在自動化連續(xù)體中的位置也會影響特殊預(yù)測的影響。在一些應(yīng)用中,人工智能只是提供總是由人類審查的建議。Gmail AutoComplete就是這類應(yīng)用的一個例子,偶爾一個奇怪的建議可能會引起歡笑,但很少會產(chǎn)生嚴(yán)重的后果。另一方面,如果期望人工智能系統(tǒng)自主做出決策,那么它的設(shè)計應(yīng)該有足夠的誤差率。此外,還應(yīng)給予用戶檢查和回溯決策的控制權(quán)。
最后,不能總是回避奇怪的結(jié)果!意想不到的結(jié)果可能是創(chuàng)造力的搖籃。AI地下城是一個開放式文本冒險故事生成器。它的吸引力主要是基于它產(chǎn)生局部連貫句子的能力。與此同時,它追蹤完整故事背景的能力有限,往往會導(dǎo)致夢幻般的、任何事情都可能發(fā)生的故事情節(jié)。