自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度度量學習的這十三年,難道是錯付了嗎?

開發(fā) 開發(fā)工具 深度學習
近日,F(xiàn)acebook AI 和 Cornell Tech 的研究者在論文預印本平臺 arXiv 上公布了最新研究論文,聲稱這十三年來深度度量學習領域的研究進展「實際上并不存在」。

或許對于每一個領域來說,停下腳步去思考,與低頭趕路一樣重要。

[[326375]]

「度量學習(Metric Learning)」即學習一個度量空間,在該空間中的學習異常高效,這種方法用于小樣本分類時效果很好,不過度量學習方法的效果尚未在回歸或強化學習等其他元學習領域中驗證。

在人臉識別、指紋識別等開集分類的任務中,類別數(shù)往往很多而類內樣本數(shù)比較少。在這種情況下,基于深度學習的分類方法常表現(xiàn)出一些局限性,如缺少類內約束、分類器優(yōu)化困難等。而這些局限可以通過深度度量學習來解決。

「四年來,深度度量學習領域的論文經常表示已經在準確性層面取得了很大的進展,基本是十年前方法的兩倍以上?!故聦嵣希覀冋娴娜〉昧诉@么驚人的進展嗎?

近日,F(xiàn)acebook AI 和 Cornell Tech 的研究者在論文預印本平臺 arXiv 上公布了最新研究論文,聲稱這十三年來深度度量學習領域的研究進展「實際上并不存在」。

論文鏈接:https://arxiv.org/pdf/2003.08505.pdf

研究者發(fā)現(xiàn),度量學習的這些論文在實驗設置方面存在多種缺陷,比如不公平的實驗比較、測試集標簽泄露、不合理的評價指標等。于是,他們提出了一種新的評估方法來重新審視度量學習領域的多項研究。最后,他們通過實驗表明,現(xiàn)有論文宣稱的那些改進實在是「微不足道」,近幾年的 ArcFace,、SoftTriple,、CosFace 等十種算法,和十三年前的 Contrastive、Triplet 基線方法相比,并沒有什么實質性的提高。

也就是說,論文宣稱的改進是節(jié)節(jié)攀升的:

但實際情況卻是原地踏步:

之前的論文存在哪些缺陷?

1. 不公平的比較

為了宣稱新算法的性能比已有的方法要好。盡可能多地保持參數(shù)不變是很重要的。這樣便能夠確定性能的優(yōu)化是新算法帶來的提升,而不是由額外的參數(shù)造成的。但現(xiàn)有的度量學習論文的研究情況卻不是如此。

提高準確率最簡單的方法之一是優(yōu)化網(wǎng)絡架構,但這些論文卻沒有保證這項基本參數(shù)固定不變。度量學習中架構的選擇是非常重要的。在較小的數(shù)據(jù)集上的初始的準確率會隨著所選擇的網(wǎng)絡而變化。2017 年一篇被廣泛引用的論文用到了 ResNet50,然后聲稱性能得到了巨大的提升。這是值得質疑的,因為他們用的是 GoogleNet 作比較,初始準確率要低得多(見表 1)。

2. 通過測試集反饋進行訓練

該領域大多數(shù)論文會將每個數(shù)據(jù)集分開,類中的前 50% 用作訓練集,剩下的部分用作測試集。訓練過程中,研究者會定期檢查模型在測試集上的準確率。也就是,這里沒有驗證集,模型的選擇和超參數(shù)的調整是通過來自測試集的直接反饋完成的。一些論文并不定期檢查性能,而是在預先設置好的訓練迭代次數(shù)之后報告準確率。在這種情況下,如何設置迭代次數(shù)并不確定,超參數(shù)也仍然是在測試集性能的基礎上調整的。這種做法犯了機器學習研究的一個大忌。依靠測試集的反饋進行訓練會導致在測試集上過擬合。因此度量學習論文中所闡述的準確率的持續(xù)提升會被質疑。

3. 常用的準確率度量的缺點

為了報告準確率,大多數(shù)度量學習論文用到的指標是 Recall@K、標準化互信息(NMI)以及 F1 分值。但這些真的是最佳度量標準嗎?圖 1 展示了三種嵌入空間,雖然它們有不同的特性,但每個 Recall@1 的分值都接近 100%,說明這個指標基本上提供不了什么信息。

新的評估方法

以上種種缺陷造成了度量學習領域的「虛假繁榮」。因此研究者提出了一種新的評估方法,希望能夠對損失函數(shù)進行恰當?shù)脑u估。為此,他們做了如下設置:

1. 公平的比較和復現(xiàn)

所有的實驗都是在 PyTorch 上進行的,用到了 ImageNet 來預訓練 BN-Inception 網(wǎng)絡。訓練過程中凍結 BatchNorm 參數(shù),以減少過擬合。批大小設置為 32。

訓練過程中,圖像增強通過隨機調整大小的裁剪策略來完成。所有的網(wǎng)絡參數(shù)都用學習率為 1e-6 的 RMSprop 進行優(yōu)化。在計算損失函數(shù)之前和評估過程中,對嵌入進行 L2 歸一化。

2. 通過交叉驗證進行超參數(shù)搜索

為了找到最好的損失函數(shù)超參數(shù),研究運行了 50 次貝葉斯優(yōu)化迭代,每次迭代均包括 4 折交叉驗證:

類中的第一半用來交叉驗證,創(chuàng)建 4 個分區(qū),前 0-12.5% 是第一個分區(qū),12.5-25% 是第二個分區(qū),以此類推。

第二半用來做測試集,這和度量學習論文使用多年的設置相同,目的是便于和之前的論文結果做比較。

超參數(shù)都被優(yōu)化到能最大化驗證精確度的平均值。對于最佳超參數(shù),將加載每個訓練集分區(qū)的最高準確率檢查點,測試集的嵌入是經過計算和 L2 歸一化的,然后計算準確率。

3. 更有信息量的準確率度量指標

研究者用 Mean Average Precision at R (MAP@R) 來度量準確度,這一指標綜合了平均精度均值和 R 精度的思想。

R 精度的一個弱點是,它沒有說明正確檢索的排序。因此,該研究使用 MAP@R。MAP@R 的好處是比 Recall@1 更有信息量(見圖 1)。它可以直接從嵌入空間中計算出來,而不需要聚類步驟,也很容易理解。它獎勵聚類良好的嵌入空間。

實驗

1. 損失和數(shù)據(jù)集

研究者選擇了近年來多個會議論文在度量學習領域提出的先進方法(如表 6 所示),在 11 種損失和一種損失+miner 組合上進行實驗。

此前,度量學習領域的論文一直沒有面向驗證損失的內容,因此該研究加入了這方面的兩項損失。

研究者選用了 3 個度量學習領域廣泛使用的數(shù)據(jù)集:CUB200、Cars196 和 Stanford Online Products (SOP),選擇這 3 個數(shù)據(jù)集也便于和之前的論文做比較。表 3-5 展示了訓練運行的平均準確率,以及在適用時 95% 的置信區(qū)間,加粗部分代表了最好的平均準確率。同時也包括了預訓練模型的準確率,用 PCA 將模型的嵌入值減少到 512 或 128。

2. 論文 vs 現(xiàn)實

首先,讓我們看一下論文結果的普遍趨勢,圖 4(a) 展示了該領域中「本以為」的準確率提升,即新方法完全淘汰了舊方法。

但正如圖 4(b) 所示,實驗結果和預期并不一致。

研究者發(fā)現(xiàn),這些論文過分夸大了自己相對于兩種經典方法——對比損失(contrastive loss)和三元組損失(triplet loss)——的改進。許多論文表示,自己方法的性能超出了對比損失一倍還多,比三元組損失也高出 50% 以上。這些提升是因為這些損失造成了非常低的準確性。

這些數(shù)據(jù)有一些是來源于 2016 年的提升結構損失論文,在他們的對比損失和三元組損失的實現(xiàn)中,他們每批采樣 N/2 樣本對和 N/3 樣本三元組(N 是批的大小)。因此,他們只用到了每批里的一小部分數(shù)據(jù)信息。

他們將三元組的 margin 設置為 1,而最優(yōu)的值大約是 0.1。盡管有這些實現(xiàn)缺陷,大多數(shù)論文仍舊只是簡單地引用這些較低的數(shù)字,而不是依靠自己實現(xiàn)損失去獲得一個更有意義的基線。

通過這些基線損失所呈現(xiàn)的良好實現(xiàn)、公平競爭環(huán)境和機器學習實踐,研究者獲得了如圖 4(b) 所示的趨勢圖——事實上它似乎是平滑的走向。這表明無論是在 2006 年還是在 2019 年,各種方法的性能都是相似的。換句話說,度量學習算法并沒有取得論文中所說的那么夸張的進展,論文中沒有提到的前沿論文也值得懷疑。

這十幾年的研究投入,終究是錯付了嗎?

在這篇論文出現(xiàn)以后,很多人在討論:度量學習是否已經到了一個瓶頸期?我們還要繼續(xù)在這個研究方向上前進嗎?

第一個問題的答案是肯定的,第二個問題的答案也是肯定的。

中科院計算所博士生、知乎用戶 @ 王晉東認為:「其實大可不必心潮澎湃、攻擊別人、對該領域前途失望。」

其實每個領域經歷過一段長時間的發(fā)展以后,都必然會有研究者回過頭來進行反思。學術研究也適用于這條定律:「走得太遠,忘記了為什么出發(fā)?!?/p>

圖源:知乎 @ 王晉東不在家。https://www.zhihu.com/question/394204248/answer/1219383067

也有深度度量學習領域研究者、CVPR 2019 論文一作前來回答,并將這篇論文放在了自身研究介紹項目的開篇,希望「能讓做這個領域的人看到,引導新入這個坑的人向著正確的方向走。因為,我也曾是踩過這些坑過來的」。

圖源:知乎 @ 王珣。https://www.zhihu.com/question/394204248/answer/1219001568

質疑會帶來討論,討論則引起反思。停下腳步后的思考,與趕路一樣重要。在你的領域,也曾經有過這樣的討論嗎?

參考鏈接:https://www.zhihu.com/question/394204248

【本文是51CTO專欄機構“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】 

戳這里,看該作者更多好文

 

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2023-05-26 14:02:29

AI智能

2021-12-21 15:31:40

KubernetesDocker容器

2013-07-17 09:13:19

2019-01-17 05:14:07

深度學習人工智能AI

2020-01-06 09:14:59

Java程序員線程

2023-10-10 15:33:55

機器學習相似性度量

2023-09-20 09:56:18

深度學習人工智能

2018-09-29 10:05:54

深度學習神經網(wǎng)絡神經元

2017-10-30 14:51:44

APP網(wǎng)頁窗口

2021-05-10 11:40:51

函數(shù)NumpyPython

2017-05-09 08:18:11

機器學習損失函數(shù)正則化

2020-05-28 15:35:07

人工智能

2016-11-04 23:45:12

云安全信息安全

2020-06-24 08:26:10

編程語言Perl技術

2021-08-12 05:41:23

人工智能AI深度學習

2021-03-02 14:23:06

人工智能深度學習

2010-04-28 13:31:52

IT技術人員

2021-10-08 10:45:38

深度學習編程人工智能

2018-11-14 08:13:55

機房搬遷網(wǎng)絡

2022-09-16 15:17:44

機器之心
點贊
收藏

51CTO技術棧公眾號