科學家正研究以避免人工智能“走捷徑”從而實現(xiàn)更可靠的預測
一種新的方法迫使機器學習模型在學習一項任務時關注更多的數(shù)據(jù),這可以帶來更可靠的預測。如果你的Uber司機走了一條捷徑,你可能會更快到達目的地。但如果一個機器學習模型走捷徑,它可能會以意想不到的方式毀了你要做的事情。
在機器學習中,當模型依靠數(shù)據(jù)集的一個簡單特征來做決定,而不是學習數(shù)據(jù)的真正本質時,就會出現(xiàn)捷徑方案,這可能導致不準確的預測。例如,一個模型可能通過關注照片中出現(xiàn)的綠草,而不是牛的更復雜的形狀和圖案來學習識別牛的圖像。
麻省理工學院研究人員的一項新研究探討了一種流行的機器學習方法中的捷徑問題,并提出了一個解決方案,通過迫使模型在其決策中使用更多的數(shù)據(jù)來防止AI走捷徑。
通過刪除模型所關注的較簡單的特征,研究人員迫使它關注它沒有考慮過的數(shù)據(jù)的更復雜的特征。然后,通過要求模型以兩種方式解決同一任務--一次使用那些較簡單的特征,然后也使用它現(xiàn)在已經(jīng)學會識別的復雜特征--他們減少了捷徑解決方案的傾向,提高了模型的性能。
麻省理工學院的研究人員開發(fā)了一種技術,通過迫使模型關注數(shù)據(jù)中它之前沒有考慮過的特征,來減少對比學習模型使用捷徑的傾向。
這項工作的一個潛在應用是提高用于識別醫(yī)學圖像中疾病的機器學習模型的有效性。在這種情況下的捷徑解決方案可能會帶來錯誤的診斷,并對患者產(chǎn)生危險的影響。
了解捷徑的漫長道路
研究人員將他們的研究集中在對比學習上,這是一種強大的自我監(jiān)督機器學習的形式。在自我監(jiān)督的機器學習中,使用沒有來自人類的標簽描述的原始數(shù)據(jù)來訓練一個模型。因此,它可以成功地用于更多種類的數(shù)據(jù)。
自監(jiān)督學習模型學習有用的數(shù)據(jù)表征,這些數(shù)據(jù)被用作不同任務的輸入,如圖像分類。但如果該模型走捷徑,未能捕捉到重要的信息,這些任務也將無法使用這些信息。
例如,如果一個自監(jiān)督學習模型被訓練來對來自一些醫(yī)院的X射線中的肺炎進行分類,但是它學會了根據(jù)一個標簽來進行預測,這個標簽可以識別掃描件來自特定的醫(yī)院(因為有些醫(yī)院的肺炎病例比其他醫(yī)院多),那么當它被賦予來自新醫(yī)院的數(shù)據(jù)時,這個模型就不會有好的表現(xiàn)。
對于對比學習模型,一個編碼器算法被訓練來區(qū)分相似的輸入對和不相似的輸入對。這個過程將豐富而復雜的數(shù)據(jù),如圖像,以對比性學習模型可以解釋的方式進行編碼。
研究人員用一系列圖像測試了對比學習編碼器,發(fā)現(xiàn)在這個訓練過程中,他們也會陷入捷徑解決方案。編碼器傾向于關注圖像中最簡單的特征,以決定哪些輸入對是相似的,哪些是不相似的。理想情況下,編碼器在做決定時應該關注數(shù)據(jù)的所有有用特征。
因此,研究小組使相似和不相似的數(shù)據(jù)對之間的區(qū)別變得更難分辨,并發(fā)現(xiàn)這改變了編碼器將看哪些特征來做出決定。
如果你讓區(qū)分相似和不相似項目的任務變得越來越難,那么系統(tǒng)就被迫在數(shù)據(jù)中學習更多有意義的信息,因為不學習就無法解決這個任務。但是,增加這種難度導致了一種權衡--編碼器在關注數(shù)據(jù)的某些特征方面變得更好,但在關注其他特征方面變得更差,似乎幾乎忘記了更簡單的特征。
為了避免這種權衡,研究人員要求編碼器以原來的方式,使用較簡單的特征,并在研究人員刪除它已經(jīng)學到的信息之后,對這些配對進行區(qū)分。以兩種方式同時解決任務,使編碼器在所有特征方面都得到了改善。
他們的方法被稱為隱性特征修改,自適應地修改樣本,以去除編碼器用來區(qū)分配對的較簡單特征。該技術不依賴于人類的輸入,這很重要,因為現(xiàn)實世界的數(shù)據(jù)集可能有數(shù)百個不同的特征,它們可能以復雜的方式組合在一起。
可以解決的問題從汽車到慢性阻塞性肺病
研究人員用車輛的圖像對這種方法進行了一次測試。他們使用隱性特征修改來調整顏色、方向和車輛類型,使編碼器更難區(qū)分相似和不相似的圖像對。編碼器同時提高了其在所有三個特征--紋理、形狀和顏色--上的準確性。
為了了解該方法是否能經(jīng)受住更復雜的數(shù)據(jù),研究人員還用慢性阻塞性肺病(COPD)的醫(yī)學圖像數(shù)據(jù)庫中的樣本對其進行測試。同樣,該方法使他們評估的所有特征都得到了同步的改善。
雖然這項工作在了解捷徑解決方案的原因和努力解決這些問題方面邁出了一些重要的步伐,但研究人員表示,繼續(xù)完善這些方法并將其應用于其他類型的自我監(jiān)督學習將是未來進步的關鍵。