自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="szt6n"><rp id="szt6n"></rp></u>

<ol id="szt6n"></ol>

<kbd id="szt6n"></kbd>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

何愷明新作：消除數(shù)據(jù)集偏差的十年之戰(zhàn)

2024-03-25 10:15:58

人工智能新聞

瞄準(zhǔn)一個(gè)橫亙?cè)贏I發(fā)展之路上十年之久的問(wèn)題：數(shù)據(jù)集偏差。

MIT新晉副教授何愷明，新作新鮮出爐：

瞄準(zhǔn)一個(gè)橫亙?cè)贏I發(fā)展之路上十年之久的問(wèn)題：數(shù)據(jù)集偏差。

該研究為何愷明在Meta期間與劉壯合作完成，他們?cè)谡撐闹兄赋觯?/p>

盡管過(guò)去十多年里業(yè)界為構(gòu)建更大、更多樣化、更全面、偏差更小的數(shù)據(jù)集做了很多努力，但現(xiàn)代神經(jīng)網(wǎng)絡(luò)似乎越來(lái)越善于”識(shí)破”并利用這些數(shù)據(jù)集中潛藏的偏差。

這不禁讓人懷疑：我們?cè)谙龜?shù)據(jù)集偏差的戰(zhàn)斗中，真的取得了勝利嗎？

數(shù)據(jù)集偏差之戰(zhàn)，在2011年由知名學(xué)者Antonio Torralba和Alyosha Efros提出——

Alyosha Efros正是Sora兩位一作博士小哥（Tim Brooks和William Peebles）的博士導(dǎo)師，而Antonio Torralba也在本科期間指導(dǎo)過(guò)Peebles。

當(dāng)時(shí)他們發(fā)現(xiàn)，機(jī)器學(xué)習(xí)模型很容易“過(guò)擬合”到特定的數(shù)據(jù)集上，導(dǎo)致在其他數(shù)據(jù)集上表現(xiàn)不佳。

十多年過(guò)去了，盡管我們有了更大、更多樣化的數(shù)據(jù)集，如ImageNet、YFCC100M、CC12M等，但這個(gè)問(wèn)題似乎并沒(méi)有得到根本解決。

反而，隨著神經(jīng)網(wǎng)絡(luò)變得越來(lái)越強(qiáng)大，它們“挖掘”和利用數(shù)據(jù)集偏差的能力也越來(lái)越強(qiáng)了！

為了分析這個(gè)問(wèn)題，何愷明團(tuán)隊(duì)設(shè)計(jì)了一個(gè)虛構(gòu)的”數(shù)據(jù)集分類”任務(wù)。

聽(tīng)名字你可能就猜到了：給定一張圖像，模型需要判斷它來(lái)自哪個(gè)數(shù)據(jù)集。通過(guò)看模型在這個(gè)任務(wù)上的表現(xiàn)，就可以了解它們捕捉數(shù)據(jù)集偏差的能力。

現(xiàn)代AI輕松識(shí)破不同數(shù)據(jù)集

在實(shí)驗(yàn)中團(tuán)隊(duì)發(fā)現(xiàn)，各種現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu)，如AlexNet、VGG、ResNet、ViT等，在數(shù)據(jù)集分類任務(wù)上表現(xiàn)出驚人的一致性：它們幾乎都能以超過(guò)80%的準(zhǔn)確率區(qū)分不同數(shù)據(jù)集的圖像！

更令人吃驚的是，這個(gè)發(fā)現(xiàn)在各種不同的條件下都非常穩(wěn)?。?/p>

不管是不同的數(shù)據(jù)集組合、不同的模型架構(gòu)、不同的模型尺寸、不同的訓(xùn)練數(shù)據(jù)量，還是不同的數(shù)據(jù)增強(qiáng)方法，神經(jīng)網(wǎng)絡(luò)始終能輕松”一眼識(shí)破”圖像的數(shù)據(jù)集來(lái)源。

那么，神經(jīng)網(wǎng)絡(luò)是如何做到這一點(diǎn)的呢？是靠單純的記憶，還是學(xué)到了一些更普適的規(guī)律？

為了揭開(kāi)謎底，團(tuán)隊(duì)做了一系列對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn)，如果把不同的數(shù)據(jù)集隨機(jī)混在一起，神經(jīng)網(wǎng)絡(luò)就很難再區(qū)分它們了（準(zhǔn)確率下降到了33%）。這說(shuō)明，神經(jīng)網(wǎng)絡(luò)并不是在單純地記憶每一張圖像，而是真的學(xué)到了一些數(shù)據(jù)集特有的模式。

更有趣的是，即使在自監(jiān)督學(xué)習(xí)的設(shè)置下，神經(jīng)網(wǎng)絡(luò)也展現(xiàn)出了驚人的”數(shù)據(jù)集辨識(shí)力”。在這種設(shè)置下，模型在訓(xùn)練時(shí)并沒(méi)有用到任何數(shù)據(jù)集的標(biāo)簽信息，但當(dāng)在這些自監(jiān)督學(xué)習(xí)到的特征上訓(xùn)練一個(gè)簡(jiǎn)單的線性分類器時(shí)，它依然能以超過(guò)70%的準(zhǔn)確率區(qū)分不同的數(shù)據(jù)集！

通過(guò)這一系列的實(shí)驗(yàn)，何愷明、劉壯等人的研究給我們敲響了警鐘：盡管這十年我們一直在努力構(gòu)建更大、更多樣化的數(shù)據(jù)集，但數(shù)據(jù)集偏差這個(gè)問(wèn)題似乎并沒(méi)有得到根本解決。相反，現(xiàn)代神經(jīng)網(wǎng)絡(luò)越來(lái)越善于利用這些偏差來(lái)獲得高準(zhǔn)確率，但這可能并不代表它們真正學(xué)到了魯棒、普適的視覺(jué)概念。

論文的最后，作者呼吁整個(gè)AI社區(qū)重新審視數(shù)據(jù)集偏差這個(gè)問(wèn)題，并重新思考如何在算法和數(shù)據(jù)兩個(gè)層面上來(lái)應(yīng)對(duì)這一挑戰(zhàn)。

CVPR最佳論文作者的通力合作

本文是何愷明在Meta期間，與Meta研究科學(xué)家劉壯合作完成。

現(xiàn)在，何愷明已經(jīng)正式在MIT上崗，擔(dān)任電氣工程與計(jì)算機(jī)科學(xué)系的助理教授。他的“開(kāi)學(xué)第一課”開(kāi)課即火爆，在youtube上已經(jīng)有2.9萬(wàn)的播放量。

和何愷明一樣，劉壯本科畢業(yè)自清華，并且也是CVPR最佳論文獎(jiǎng)得主——他是CVPR2017最佳論文DenseNet的第一作者。

2017年，劉壯從清華姚班畢業(yè)，進(jìn)入加州大學(xué)伯克利分校攻讀博士學(xué)位，師從Trevor Darrell，是賈揚(yáng)清的同門師弟。

博士畢業(yè)后，劉壯進(jìn)入Meta AI Research工作。在此之前，他已經(jīng)在Meta實(shí)習(xí)了一年多時(shí)間，期間和謝賽寧合作，發(fā)表了ConvNeXt。

論文地址：
https://arxiv.org/abs/2403.08632

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tfoot id="y1l3q"></tfoot>

<sub id="y1l3q"></sub>

<sub id="y1l3q"></sub>

<legend id="y1l3q"><track id="y1l3q"></track></legend>