自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

CV未來在這68張圖上？Google Brain深扒ImageNet：頂級模型全都預(yù)測失敗

作者：新智元 2022-05-30 12:10:31

人工智能新聞

ImageNet的標(biāo)簽問題一直為人詬病，最近Google Brain全面分析了基準(zhǔn)內(nèi)遺留的歷史問題，并找出了所有頂級模型全都預(yù)測失敗的68張圖片，或許未來CV想取得突破，先得攻破這68關(guān)！

過去的十年里，ImageNet基本就是計算機(jī)視覺領(lǐng)域的「晴雨表」，看準(zhǔn)確率有沒有提升，就知道有沒有新技術(shù)問世。

「刷榜」一直是模型創(chuàng)新的原動力，把模型Top-1準(zhǔn)確率推動到90%+，比人類還高。

但I(xiàn)mageNet數(shù)據(jù)集是否真的像我們想象中的那么有用？

很多論文都曾對ImageNet發(fā)出質(zhì)疑，比如數(shù)據(jù)的覆蓋度、偏見問題、標(biāo)簽是否完善等等。

其中最重要的是，模型90%的準(zhǔn)確率是否真的準(zhǔn)確？

最近Google Brain團(tuán)隊和加州大學(xué)伯克利分校的研究人員重新審視了幾個sota模型的預(yù)測結(jié)果，發(fā)現(xiàn)模型真正的準(zhǔn)確率還可能被低估了！

論文鏈接：https://arxiv.org/pdf/2205.04596.pdf

研究人員通過對一些頂級模型所犯的每一個錯誤進(jìn)行人工審查和分類，以便深入了解基準(zhǔn)數(shù)據(jù)集的長尾錯誤。

其中主要關(guān)注ImageNet的多標(biāo)簽子集評估，最好的模型已經(jīng)能達(dá)到97%的Top-1的準(zhǔn)確率。

這項研究的分析結(jié)果顯示，將近一半的所謂的預(yù)測錯誤根本就不是錯誤，并且還在圖片中發(fā)現(xiàn)了新的多標(biāo)簽，也就是說，如果沒有人工審查過預(yù)測結(jié)果，這些模型的性能可能都是被「低估」的！

不熟練的眾包數(shù)據(jù)標(biāo)注員往往會把數(shù)據(jù)標(biāo)注錯誤，在很大程度上也影響了模型準(zhǔn)確率的真實性。

為了校準(zhǔn)ImageNet數(shù)據(jù)集，促進(jìn)未來的良性進(jìn)展，研究人員在文中提供了一個更新版的多標(biāo)簽評估集，并把sota模型預(yù)測存在明顯錯誤的68個例子組合為一個新數(shù)據(jù)集ImageNet-Major，以方便未來CV研究者攻克這些bad case

還上「技術(shù)債」

從文章的標(biāo)題「什么時候面團(tuán)成了百吉餅？」就可以看出作者主要關(guān)注ImageNet里的標(biāo)簽問題，這也屬于是歷史遺留問題了。

下圖是一個非常典型的標(biāo)簽歧義例子，圖片里的標(biāo)簽為「面團(tuán)」，模型的預(yù)測結(jié)果為「百吉餅」，錯了嗎？

這個模型理論上來說并沒有預(yù)測錯誤，因為面團(tuán)正在烤，馬上就要成百吉餅了，所以既是面團(tuán)又是百吉餅。

可以見得模型實際上已經(jīng)能夠預(yù)測到這個面團(tuán)「即將成為」百吉餅，但在準(zhǔn)確率上卻沒有拿到這一分。

實際上，以標(biāo)準(zhǔn)ImageNet數(shù)據(jù)集的分類任務(wù)作為評價標(biāo)準(zhǔn)，缺乏多標(biāo)簽、標(biāo)簽噪聲、未指定的類別等問題都在所難免。

從負(fù)責(zé)識別此類對象的眾包標(biāo)注員的角度來看，這是一個語義甚至是哲學(xué)上的難題，只能通過多標(biāo)簽來解決，所以在ImageNet的衍生數(shù)據(jù)集中主要改善的就是標(biāo)簽問題。

距ImageNet成立已經(jīng)過了16年，當(dāng)時的標(biāo)注人員、模型開發(fā)者對數(shù)據(jù)的理解肯定不如今天豐富，而ImageNet又是早期的大容量、標(biāo)注相對良好的數(shù)據(jù)集，所以ImageNet很自然而然地成了CV刷榜的標(biāo)準(zhǔn)。

但標(biāo)注數(shù)據(jù)的預(yù)算顯然不如開發(fā)模型來的多，所以標(biāo)簽問題的改善也成了一種技術(shù)債。

為了找出ImageNet中剩下的錯誤，研究人員使用了一個具有 30 億參數(shù)的標(biāo)準(zhǔn)ViT-3B模型（能夠達(dá)到 89.5% 的準(zhǔn)確度），其中JFT-3B作為預(yù)訓(xùn)練模型，并在ImageNet-1K上進(jìn)行了微調(diào)。

使用ImageNet2012_multilabel的數(shù)據(jù)集作為測試集的情況下，ViT-3B初步達(dá)到的準(zhǔn)確率為96.3%，其中模型明顯錯誤預(yù)測了676個圖像，然后對這些例子進(jìn)行深入研究。

在重新標(biāo)注數(shù)據(jù)時，作者沒有選擇眾包，而是組建了一個5名專家評審組成的小組進(jìn)行標(biāo)注，因為這類標(biāo)注錯誤對于非專業(yè)人員來說很難識別出來。

比如圖(a)，普通的標(biāo)注人員可能寫一個「桌子」就過了，但實際上圖片里還有很多其他物體，比如屏幕、顯示器、馬克杯等等。

圖(b)的主體為兩個人，但標(biāo)簽為picket fence（柵欄），顯然也是不完善的，可能的標(biāo)簽還有領(lǐng)結(jié)、制服等等。

圖(c)也是一個明顯的例子，如果只標(biāo)出來「非洲象」，那象牙可能就被忽視掉了。

圖(d)的標(biāo)簽為lakeshore（湖岸），但標(biāo)注成seashore（海濱）實際上也沒毛病。

為了增加標(biāo)注效率，研究者還開發(fā)了一個專用的工具，能夠同時顯示模型預(yù)測的類別、預(yù)測分?jǐn)?shù)、標(biāo)簽和圖像。

在某些情況下，專家組之間可能還存在標(biāo)簽的爭議，這時候就把圖片放到谷歌搜索里來輔助標(biāo)注。

比如說有一個例子里，模型的預(yù)測結(jié)果里包含出租車，但圖片里面除了「一點黃色」之外根本沒有出租車的牌子。

這張圖片的標(biāo)注主要是通過谷歌圖片搜索發(fā)現(xiàn)圖像的背景是一個標(biāo)志性的橋梁，然后研究人員定位到了圖片所在的城市，對該城市中的出租車圖像進(jìn)行檢索后，認(rèn)可了這張圖片里確實包含出租車而非一輛普通的汽車。并且從車牌的設(shè)計上進(jìn)行對比，也驗證了模型的預(yù)測是正確的。

在對研究的幾個階段發(fā)現(xiàn)的錯誤進(jìn)行初步審查后，作者首先根據(jù)錯誤的嚴(yán)重程度將其分為兩類：

1. 主要錯誤（Major）：人類能夠理解標(biāo)簽的含義，并且模型的預(yù)測和標(biāo)簽完全不沾邊；

2. 次要錯誤（Minor）：標(biāo)簽的可能是錯誤的或者不完善導(dǎo)致的預(yù)測錯誤。需要專家審查數(shù)據(jù)后進(jìn)行糾正。

對于ViT-3B模型犯的155個主要錯誤，研究人員又找了其他三個模型共同預(yù)測來提高預(yù)測結(jié)果的多樣性。

四個模型全都預(yù)測失敗的主要錯誤有68個，然后分析了所有模型對這些例子的預(yù)測，并驗證了它們沒有一個是正確的新的多標(biāo)簽，即每個模型的預(yù)測結(jié)果確實都是主要錯誤。

這68個例子有幾個共同特點，首先就是不同方式訓(xùn)練的sota模型都在這個子集上犯了錯誤、并且專家評審也認(rèn)為預(yù)測結(jié)果完全和正確不沾邊。

68張圖像的數(shù)據(jù)集也足夠小，方便后續(xù)研究者進(jìn)行人工評估，如果未來攻克了這68個例子，那CV模型也許會取得新突破。

通過分析數(shù)據(jù)，研究者又將預(yù)測錯誤劃分為四種類型：

1. 細(xì)粒度錯誤，其中預(yù)測的類別跟真實標(biāo)簽相似，但不完全相同；

2. 具有詞表外（OOV）的細(xì)粒度，其中模型識別其類別正確但在 ImageNet 中不存在該對象的類別；

3. 虛假相關(guān)性，其中預(yù)測的標(biāo)簽是從圖像的上下文中讀取的；

4. 非原型，其中標(biāo)簽中的對象與預(yù)測標(biāo)簽相似、但并非完全一致。

在審查了原始 676 個錯誤后，研究人員發(fā)現(xiàn)其中298 個應(yīng)該是正確的，或者可以確定原始標(biāo)簽是錯誤或有問題的。

總的來說，通過文章的研究結(jié)果可以得出四個結(jié)論：

1. 當(dāng)一個大型、高精度模型做出其他模型沒有的新預(yù)測時，大概其中50%都是正確的新多標(biāo)簽；

2. 更高精度的模型在類別和錯誤嚴(yán)重性之間沒有表現(xiàn)出明顯的相關(guān)性；

3. 如今SOTA模型在人工評估的多標(biāo)簽子集上的表現(xiàn)在很大程度上匹配或超過了最佳專家人類的表現(xiàn)；

4. 有噪音的訓(xùn)練數(shù)據(jù)和未指定的類別可能是限制有效衡量圖像分類改進(jìn)的一個因素。

或許圖像標(biāo)簽問題還得等待自然語言處理技術(shù)來解決？

責(zé)任編輯：張燕妮來源：新智元

模型 CV 谷歌

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="2z93h"><i id="2z93h"></i></blockquote>}

<sub id="2z93h"></sub>