自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CMU等提出超實(shí)用「模型泛化性」指標(biāo),分布外準(zhǔn)確率提升6% | ICML 2024 Oral

人工智能 新聞
研究人員提出了一種新方法,利用類層次結(jié)構(gòu)中的最低公共祖先(LCA)距離來評(píng)估深度學(xué)習(xí)模型的泛化能力,這比傳統(tǒng)的準(zhǔn)確率指標(biāo)更有效。此外,通過基于LCA距離的軟標(biāo)簽訓(xùn)練,模型在面對(duì)分布外數(shù)據(jù)時(shí)的準(zhǔn)確率得到了顯著提升,同時(shí)不影響其在訓(xùn)練數(shù)據(jù)上的性能。

當(dāng)前許多深度學(xué)習(xí)分類模型通常在大規(guī)模數(shù)據(jù)中訓(xùn)練以找到足以區(qū)分不同類別的特征。

然而,這種方式不可避免地學(xué)到偽相關(guān)特征(Spurious Correlation),導(dǎo)致訓(xùn)練的分類器在分布偏移(Distribution Shift)下往往會(huì)失效。因此,如何在衡量一個(gè)訓(xùn)練好的模型的泛化性(Generalization)一直是一個(gè)關(guān)鍵問題。

現(xiàn)有方法通常利用Accuracy-on-the-Line作為模型泛化性的一個(gè)指標(biāo),即利用驗(yàn)證集的top-1 accuracy來衡量模型在分布偏移下的性能,該指標(biāo)在同類模型中較為有效,但面對(duì)不同類型的模型(如視覺模型和視覺語言模型)時(shí),往往無法統(tǒng)一而有效地預(yù)測泛化性能。

卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的研究人員提出了一種新的泛化性評(píng)估方法:利用類層次結(jié)構(gòu)(Class Hierarchy)中的最低公共祖先距離(Lowest Common Ancestor Distance, LCA Distance)來判斷模型是否學(xué)到了更「合理」的特征。

圖片

論文地址:https://arxiv.org/pdf/2407.16067

項(xiàng)目地址:https://elvishelvis.github.io/papers/lca/

同時(shí),通過基于LCA距離構(gòu)建的額外損失函數(shù),可以在OOD測試集上顯著提高模型準(zhǔn)確率,最高可達(dá)6%,且對(duì)分布內(nèi)性能無負(fù)面影響。研究還發(fā)現(xiàn),VLM學(xué)習(xí)到的特征分布更接近人類的語義定義,為解釋VLM泛化性更好的現(xiàn)象提供了新的視角。

該研究已被ICML 2024接收為Oral Presentation,論文的第一作者史佳現(xiàn)任Google旗下自動(dòng)駕駛公司W(wǎng)aymo研究工程師,從事基礎(chǔ)模型(Foundation Models)的研究與應(yīng)用;論文為史佳在卡耐基梅隆大學(xué)攻讀計(jì)算機(jī)視覺碩士期間的研究成果;指導(dǎo)教授孔庶現(xiàn)任澳門大學(xué)助理教授。

判別式學(xué)習(xí):偽相關(guān)特征的陷阱

大多數(shù)分類模型只關(guān)注訓(xùn)練數(shù)據(jù)中區(qū)分不同類別的所有元素(例如背景顏色、有無天空等),而不考慮這些元素是否與類別語義定義一致。

導(dǎo)致模型易于依賴訓(xùn)練數(shù)據(jù)中的偽相關(guān)特征,比如:

  • 模型可能將「草地」這一背景特征作為「鴕鳥」類別的主要依據(jù),因?yàn)樵谟?xùn)練集中鴕鳥常出現(xiàn)于草地背景下。
  • 然而,當(dāng)測試集中出現(xiàn)的鴕鳥來自非草地背景(如卡通圖像或雕塑)時(shí),這些偽相關(guān)特征會(huì)使模型的泛化性能下降。

相比之下,具備更強(qiáng)泛化性的模型會(huì)關(guān)注諸如「長腿」和「長頸」等更符合人類對(duì)鴕鳥語義定義的特征,而非依賴背景等偽相關(guān)信息。

LCA距離:衡量泛化性能的新視角

研究人員認(rèn)為,通過語義層次結(jié)構(gòu)(如WordNet)可更準(zhǔn)確衡量模型是否學(xué)到語義一致的特征。

LCA距離的思路

LCA距離用于衡量兩個(gè)類在給定的語義層次結(jié)構(gòu)中的距離。例如,類別「鴕鳥」與「火烈鳥」的語義比「鴕鳥」與「獵豹」的語義距離更接近。

當(dāng)衡量真實(shí)類別與預(yù)測類別時(shí),更小的LCA距離意味著即使模型預(yù)測錯(cuò)誤,也更傾向于預(yù)測與真實(shí)類別在語義上更為接近的類別,從而體現(xiàn)模型對(duì)更符合語義特征的關(guān)注。

LCA距離為何有效?

LCA距離本質(zhì)上反映了模型與人類先驗(yàn)知識(shí)的對(duì)齊程度(alignment),能展示模型學(xué)習(xí)的特征是否符合人類語義定義。語義更接近的錯(cuò)誤預(yù)測(即更小的LCA距離)意味著模型學(xué)到了更具泛化性的特征。

圖片

當(dāng)模型學(xué)到與人類語義定義更一致的特征時(shí),即便預(yù)測錯(cuò)誤,也更可能落在語義相近的類別上

傳統(tǒng)「Accuracy-on-the-Line」的局限性

過去,「Accuracy-on-the-Line」假設(shè)認(rèn)為模型在分布內(nèi)(In-Distribution, ID)測試集上的準(zhǔn)確率可用于預(yù)測其在分布外(Out-of-Distribution,OOD)測試集上的性能。

對(duì)傳統(tǒng)視覺模型(Vision Models,VMs)而言,這種關(guān)系在一定程度上成立。然而,引入視覺-語言模型(Vision-Language Models,VLMs)后,情況出現(xiàn)了轉(zhuǎn)變。

VLMs使用大規(guī)模多模態(tài)數(shù)據(jù)和不同的訓(xùn)練范式(如從互聯(lián)網(wǎng)圖像與文本中進(jìn)行訓(xùn)練)。

結(jié)果顯示,VLMs在ID準(zhǔn)確率較低的同時(shí)展現(xiàn)出更高的OOD準(zhǔn)確率,并與VMs形成了兩條截然不同的趨勢線(如下圖左圖所示),破壞了Accuracy-on-the-Line中的線性關(guān)系。因此,傳統(tǒng)的ID準(zhǔn)確率指標(biāo)已無法統(tǒng)一衡量這兩類模型的泛化性能。

LCA-on-the-Line:LCA距離是一種更統(tǒng)一的泛化性指標(biāo)

通過LCA距離分析模型錯(cuò)誤預(yù)測的語義距離,可判斷模型是否依賴于偽相關(guān)特征。實(shí)驗(yàn)顯示,分布內(nèi)測試集上的LCA距離與模型在OOD測試集上的性能之間存在強(qiáng)相關(guān)性。

在實(shí)驗(yàn)中,研究對(duì)象包括36個(gè)VMs和39個(gè)VLMs,以ImageNet為分布內(nèi)測試集(ID dataset),并在包括ImageNet-Sketch、ObjectNet在內(nèi)的五個(gè)分布偏移測試集(OOD datasets)上測試。結(jié)果顯示:

  1. 恢復(fù)線性關(guān)系:與傳統(tǒng)ID準(zhǔn)確率不同,LCA距離在所有OOD測試集上均表現(xiàn)出更強(qiáng)的線性相關(guān)性(如下圖右圖所示)。例如,在ObjectNet上,LCA距離與OOD性能的相關(guān)性達(dá)到0.95,而ID準(zhǔn)確率僅為0.52。
  2. VLMs的優(yōu)勢:盡管部分VLMs在ID數(shù)據(jù)上的表現(xiàn)不及VMs,但其LCA距離明顯更低,顯示出在泛化性上的明顯優(yōu)勢。

圖片

LCA距離是一種更統(tǒng)一的泛化性指標(biāo)

LCA距離通過軟標(biāo)簽提升模型泛化性能

傳統(tǒng)分類任務(wù)中,模型通常采用單熱編碼(One-Hot Encoding)交叉熵?fù)p失(Cross-Entropy Loss)訓(xùn)練。這隱含了一個(gè)強(qiáng)假設(shè):真實(shí)類別之外的所有類別相互等同,且應(yīng)賦予相同的低概率。

單熱編碼過度強(qiáng)調(diào)類別間的區(qū)分,這可能導(dǎo)致模型即使在語義相近的類別(如「貓」和「狗」)之間,也努力最大化分類邊界,從而增加對(duì)偽相關(guān)特征(如背景)的依賴,而忽略了類別間的共享特征。

為了解決此問題,研究人員基于LCA距離引入軟標(biāo)簽(Soft Labels),為語義更近的類別賦予更高權(quán)重。例如,真實(shí)類別為「狗」時(shí),與其語義接近的「貓」可能獲得0.7的權(quán)重,而與「飛機(jī)」僅有0.1。

這一策略使模型的學(xué)習(xí)目標(biāo)得到正則化,引導(dǎo)其關(guān)注語義一致的特征,從而減少對(duì)偽相關(guān)特征的依賴。

圖片

實(shí)驗(yàn)顯示,LCA距離引導(dǎo)的軟標(biāo)簽可顯著提升模型在OOD測試集上的泛化性能,準(zhǔn)確率可提升最多6%,且不影響ID準(zhǔn)確率。

泛化到任何數(shù)據(jù)集:從WordNet到隱式層次結(jié)構(gòu)

雖然LCA距離最初依賴WordNet等預(yù)定義類層次結(jié)構(gòu),但并非所有數(shù)據(jù)集都有現(xiàn)成的層次結(jié)構(gòu)。對(duì)此,本研究論文提出了一種簡單的自動(dòng)生成隱式層次結(jié)構(gòu)(Latent Hierarchy)的方法:

  1. 特征提?。菏褂妙A(yù)訓(xùn)練模型提取每個(gè)類別的平均特征向量。
  2. 層次聚類:對(duì)這些特征進(jìn)行分層K-mean聚類,構(gòu)建類別關(guān)系的層次結(jié)構(gòu)。
  3. LCA距離計(jì)算:基于隱式層次結(jié)構(gòu)計(jì)算類別間的LCA距離。

圖片

實(shí)驗(yàn)顯示,使用不同預(yù)訓(xùn)練模型生成的隱式層次結(jié)構(gòu)所計(jì)算的LCA距離在OOD泛化性能預(yù)測(下圖左圖)與提升(下圖右圖)方面與基于WordNet的層次結(jié)構(gòu)具有類似效果,說明LCA距離具有普適性,能夠適應(yīng)無預(yù)定義層次結(jié)構(gòu)的數(shù)據(jù)集。

圖片

為什么VLM泛化性更好?

此項(xiàng)研究還為解釋VLM泛化性能優(yōu)勢提供了新的思路:VLM的高層次特征分布更符合人類語義定義。

實(shí)驗(yàn)顯示,使用VLM生成的隱式層次結(jié)構(gòu)所生成的軟標(biāo)簽在提升模型泛化性能方面優(yōu)于VM。

這說明VLM所學(xué)習(xí)的特征分布更接近人類語義,從而在OOD場景下表現(xiàn)更為出色。

圖片

X軸反映了不同的預(yù)訓(xùn)練模型生成的隱式結(jié)構(gòu)提高模型泛化性的程度,由此可見,VLM生成的隱式結(jié)構(gòu)能夠更好的提高模型泛化性。

總結(jié)與展望

LCA距離是統(tǒng)一的泛化性指標(biāo)

只依賴模型預(yù)測的類別間LCA距離,不受訓(xùn)練數(shù)據(jù)分布、模型結(jié)構(gòu)或temperature等參數(shù)的影響。因此,它能夠統(tǒng)一衡量包括VM和VLM在內(nèi)的多種模型的泛化能力,并且計(jì)算高效。

LCA距離可提升泛化性能

基于LCA距離引入軟標(biāo)簽可以引導(dǎo)模型關(guān)注與人類定義更為語義一致的特征,從而有效減少對(duì)偽相關(guān)特征的依賴,并有望在few-shot、預(yù)訓(xùn)練(pre-trained)等場景中加速模型收斂。

LCA距離提供了解釋VLM泛化性能的新思路

實(shí)驗(yàn)顯示VLM所學(xué)習(xí)的特征分布更貼近人類語義定義,幫助解釋為何VLM在OOD測試中表現(xiàn)更優(yōu)。

LCA距離體現(xiàn)了模型與人類先驗(yàn)知識(shí)的對(duì)齊

本文研究中使用的WordNet可替換為任何包含先驗(yàn)信息的語義層級(jí)或知識(shí)圖譜,這一特性有望應(yīng)用于其他與對(duì)齊(alignment)相關(guān)的任務(wù)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-10-18 12:27:35

人工智能人臉識(shí)別技術(shù)

2021-10-11 17:27:50

框架計(jì)算機(jī)開發(fā)

2023-03-03 18:31:23

網(wǎng)絡(luò)承運(yùn)商路由

2023-10-23 10:02:00

模型技術(shù)

2021-08-10 16:01:18

模型人工智能深度學(xué)習(xí)

2023-09-25 10:04:37

模型AI

2021-11-01 10:40:15

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-10-14 17:24:49

2021-04-21 10:18:25

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-06-24 09:33:01

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2023-10-26 08:40:15

模型隱私推理

2024-09-12 13:50:00

模型訓(xùn)練

2022-09-25 17:07:27

訓(xùn)練圖像

2023-11-08 08:38:43

2018-06-12 07:15:18

阿里巴巴技術(shù)語音識(shí)別

2023-05-04 09:39:16

AI模型

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2024-11-21 10:21:06

2024-06-19 12:57:34

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)