CV未來在這68張圖上?Google Brain深扒ImageNet:頂級模型全都預(yù)測失敗
過去的十年里,ImageNet基本就是計算機(jī)視覺領(lǐng)域的「晴雨表」,看準(zhǔn)確率有沒有提升,就知道有沒有新技術(shù)問世。
「刷榜」一直是模型創(chuàng)新的原動力,把模型Top-1準(zhǔn)確率推動到90%+,比人類還高。
但I(xiàn)mageNet數(shù)據(jù)集是否真的像我們想象中的那么有用?
很多論文都曾對ImageNet發(fā)出質(zhì)疑,比如數(shù)據(jù)的覆蓋度、偏見問題、標(biāo)簽是否完善等等。
其中最重要的是,模型90%的準(zhǔn)確率是否真的準(zhǔn)確?
最近Google Brain團(tuán)隊和加州大學(xué)伯克利分校的研究人員重新審視了幾個sota模型的預(yù)測結(jié)果,發(fā)現(xiàn)模型真正的準(zhǔn)確率還可能被低估了!
論文鏈接:https://arxiv.org/pdf/2205.04596.pdf
研究人員通過對一些頂級模型所犯的每一個錯誤進(jìn)行人工審查和分類,以便深入了解基準(zhǔn)數(shù)據(jù)集的長尾錯誤。
其中主要關(guān)注ImageNet的多標(biāo)簽子集評估,最好的模型已經(jīng)能達(dá)到97%的Top-1的準(zhǔn)確率。
這項研究的分析結(jié)果顯示,將近一半的所謂的預(yù)測錯誤根本就不是錯誤,并且還在圖片中發(fā)現(xiàn)了新的多標(biāo)簽,也就是說,如果沒有人工審查過預(yù)測結(jié)果,這些模型的性能可能都是被「低估」的!
不熟練的眾包數(shù)據(jù)標(biāo)注員往往會把數(shù)據(jù)標(biāo)注錯誤,在很大程度上也影響了模型準(zhǔn)確率的真實性。
為了校準(zhǔn)ImageNet數(shù)據(jù)集,促進(jìn)未來的良性進(jìn)展,研究人員在文中提供了一個更新版的多標(biāo)簽評估集,并把sota模型預(yù)測存在明顯錯誤的68個例子組合為一個新數(shù)據(jù)集ImageNet-Major,以方便未來CV研究者攻克這些bad case
還上「技術(shù)債」
從文章的標(biāo)題「什么時候面團(tuán)成了百吉餅?」就可以看出作者主要關(guān)注ImageNet里的標(biāo)簽問題,這也屬于是歷史遺留問題了。
下圖是一個非常典型的標(biāo)簽歧義例子,圖片里的標(biāo)簽為「面團(tuán)」,模型的預(yù)測結(jié)果為「百吉餅」,錯了嗎?
這個模型理論上來說并沒有預(yù)測錯誤,因為面團(tuán)正在烤,馬上就要成百吉餅了,所以既是面團(tuán)又是百吉餅。
可以見得模型實際上已經(jīng)能夠預(yù)測到這個面團(tuán)「即將成為」百吉餅,但在準(zhǔn)確率上卻沒有拿到這一分。
實際上,以標(biāo)準(zhǔn)ImageNet數(shù)據(jù)集的分類任務(wù)作為評價標(biāo)準(zhǔn),缺乏多標(biāo)簽、標(biāo)簽噪聲、未指定的類別等問題都在所難免。
從負(fù)責(zé)識別此類對象的眾包標(biāo)注員的角度來看,這是一個語義甚至是哲學(xué)上的難題,只能通過多標(biāo)簽來解決,所以在ImageNet的衍生數(shù)據(jù)集中主要改善的就是標(biāo)簽問題。
距ImageNet成立已經(jīng)過了16年,當(dāng)時的標(biāo)注人員、模型開發(fā)者對數(shù)據(jù)的理解肯定不如今天豐富,而ImageNet又是早期的大容量、標(biāo)注相對良好的數(shù)據(jù)集,所以ImageNet很自然而然地成了CV刷榜的標(biāo)準(zhǔn)。
但標(biāo)注數(shù)據(jù)的預(yù)算顯然不如開發(fā)模型來的多,所以標(biāo)簽問題的改善也成了一種技術(shù)債。
為了找出ImageNet中剩下的錯誤,研究人員使用了一個具有 30 億參數(shù)的標(biāo)準(zhǔn)ViT-3B模型(能夠達(dá)到 89.5% 的準(zhǔn)確度),其中JFT-3B作為預(yù)訓(xùn)練模型,并在ImageNet-1K上進(jìn)行了微調(diào)。
使用ImageNet2012_multilabel的數(shù)據(jù)集作為測試集的情況下,ViT-3B初步達(dá)到的準(zhǔn)確率為96.3%,其中模型明顯錯誤預(yù)測了676個圖像,然后對這些例子進(jìn)行深入研究。
在重新標(biāo)注數(shù)據(jù)時,作者沒有選擇眾包,而是組建了一個5名專家評審組成的小組進(jìn)行標(biāo)注,因為這類標(biāo)注錯誤對于非專業(yè)人員來說很難識別出來。
比如圖(a),普通的標(biāo)注人員可能寫一個「桌子」就過了,但實際上圖片里還有很多其他物體,比如屏幕、顯示器、馬克杯等等。
圖(b)的主體為兩個人,但標(biāo)簽為picket fence(柵欄),顯然也是不完善的,可能的標(biāo)簽還有領(lǐng)結(jié)、制服等等。
圖(c)也是一個明顯的例子,如果只標(biāo)出來「非洲象」,那象牙可能就被忽視掉了。
圖(d)的標(biāo)簽為lakeshore(湖岸),但標(biāo)注成seashore(海濱)實際上也沒毛病。
為了增加標(biāo)注效率,研究者還開發(fā)了一個專用的工具,能夠同時顯示模型預(yù)測的類別、預(yù)測分?jǐn)?shù)、標(biāo)簽和圖像。
在某些情況下,專家組之間可能還存在標(biāo)簽的爭議,這時候就把圖片放到谷歌搜索里來輔助標(biāo)注。
比如說有一個例子里,模型的預(yù)測結(jié)果里包含出租車,但圖片里面除了「一點黃色」之外根本沒有出租車的牌子。
這張圖片的標(biāo)注主要是通過谷歌圖片搜索發(fā)現(xiàn)圖像的背景是一個標(biāo)志性的橋梁,然后研究人員定位到了圖片所在的城市,對該城市中的出租車圖像進(jìn)行檢索后,認(rèn)可了這張圖片里確實包含出租車而非一輛普通的汽車。并且從車牌的設(shè)計上進(jìn)行對比,也驗證了模型的預(yù)測是正確的。
在對研究的幾個階段發(fā)現(xiàn)的錯誤進(jìn)行初步審查后,作者首先根據(jù)錯誤的嚴(yán)重程度將其分為兩類:
1. 主要錯誤(Major):人類能夠理解標(biāo)簽的含義,并且模型的預(yù)測和標(biāo)簽完全不沾邊;
2. 次要錯誤(Minor):標(biāo)簽的可能是錯誤的或者不完善導(dǎo)致的預(yù)測錯誤。需要專家審查數(shù)據(jù)后進(jìn)行糾正。
對于ViT-3B模型犯的155個主要錯誤,研究人員又找了其他三個模型共同預(yù)測來提高預(yù)測結(jié)果的多樣性。
四個模型全都預(yù)測失敗的主要錯誤有68個,然后分析了所有模型對這些例子的預(yù)測,并驗證了它們沒有一個是正確的新的多標(biāo)簽,即每個模型的預(yù)測結(jié)果確實都是主要錯誤。
這68個例子有幾個共同特點,首先就是不同方式訓(xùn)練的sota模型都在這個子集上犯了錯誤、并且專家評審也認(rèn)為預(yù)測結(jié)果完全和正確不沾邊。
68張圖像的數(shù)據(jù)集也足夠小,方便后續(xù)研究者進(jìn)行人工評估,如果未來攻克了這68個例子,那CV模型也許會取得新突破。
通過分析數(shù)據(jù),研究者又將預(yù)測錯誤劃分為四種類型:
1. 細(xì)粒度錯誤,其中預(yù)測的類別跟真實標(biāo)簽相似,但不完全相同;
2. 具有詞表外(OOV)的細(xì)粒度,其中模型識別其類別正確但在 ImageNet 中不存在該對象的類別;
3. 虛假相關(guān)性,其中預(yù)測的標(biāo)簽是從圖像的上下文中讀取的;
4. 非原型,其中標(biāo)簽中的對象與預(yù)測標(biāo)簽相似、但并非完全一致。
在審查了原始 676 個錯誤后,研究人員發(fā)現(xiàn)其中298 個應(yīng)該是正確的,或者可以確定原始標(biāo)簽是錯誤或有問題的。
總的來說,通過文章的研究結(jié)果可以得出四個結(jié)論:
1. 當(dāng)一個大型、高精度模型做出其他模型沒有的新預(yù)測時,大概其中50%都是正確的新多標(biāo)簽;
2. 更高精度的模型在類別和錯誤嚴(yán)重性之間沒有表現(xiàn)出明顯的相關(guān)性;
3. 如今SOTA模型在人工評估的多標(biāo)簽子集上的表現(xiàn)在很大程度上匹配或超過了最佳專家人類的表現(xiàn);
4. 有噪音的訓(xùn)練數(shù)據(jù)和未指定的類別可能是限制有效衡量圖像分類改進(jìn)的一個因素。
或許圖像標(biāo)簽問題還得等待自然語言處理技術(shù)來解決?