MIT研究發(fā)現(xiàn):十大最常用數(shù)據(jù)集標(biāo)簽錯誤率達(dá)3.4%
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
近日,麻省理工學(xué)院檢查了10個最常引用的AI數(shù)據(jù)集。他們發(fā)現(xiàn)其中存在大約3.4%的數(shù)據(jù)不正確或標(biāo)簽錯誤,這可能會導(dǎo)致使用這些數(shù)據(jù)集的AI系統(tǒng)出現(xiàn)問題。

這些數(shù)據(jù)集被引用次數(shù)均超過10萬次,其中包括來自新聞的文本數(shù)據(jù)集, 亞馬遜和IMDb評論。上圖就是幾個明顯標(biāo)簽錯誤的例子。
為了發(fā)現(xiàn)可能的錯誤,研究人員使用了Confident Learning,檢查數(shù)據(jù)集的標(biāo)簽噪聲。
研究人員發(fā)現(xiàn)QuickDraw數(shù)據(jù)集錯誤最多,大約有500萬,約占數(shù)據(jù)集的10%。