自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2023杰出論文獎(jiǎng)得主分享:適配任意密集預(yù)測(cè)任務(wù)的通用小樣本學(xué)習(xí)器

人工智能 新聞
近期,來自KAIST和MSRA的研究員提出了首個(gè)適配所有密集預(yù)測(cè)任務(wù)的小樣本學(xué)習(xí)器 VTM,以輕量化的遷移成本,賦予了計(jì)算機(jī)視覺模型預(yù)測(cè)新任務(wù)標(biāo)簽的能力,為計(jì)算機(jī)視覺中密集預(yù)測(cè)任務(wù)的處理以及小樣本學(xué)習(xí)方法打開了全新思路。

國(guó)際學(xué)習(xí)表征會(huì)議 ICLR(International Conference on Learning Representations),被公認(rèn)為當(dāng)前最具影響力的機(jī)器學(xué)習(xí)國(guó)際學(xué)術(shù)會(huì)議之一。

在今年的 ICLR 2023 大會(huì)上,微軟亞洲研究院發(fā)表了在機(jī)器學(xué)習(xí)魯棒性、負(fù)責(zé)任的人工智能等領(lǐng)域的最新研究成果。

其中,微軟亞洲研究院與韓國(guó)科學(xué)技術(shù)院(KAIST)在雙方學(xué)術(shù)合作框架下的科研合作成果,因出色的清晰性、洞察力、創(chuàng)造力和潛在的持久影響獲評(píng) ICLR 2023 杰出論文獎(jiǎng)。

圖片

論文地址:https://arxiv.org/abs/2303.14969

VTM:首個(gè)適配所有密集預(yù)測(cè)任務(wù)的小樣本學(xué)習(xí)器

密集預(yù)測(cè)任務(wù)是計(jì)算機(jī)視覺領(lǐng)域的一類重要任務(wù),如語(yǔ)義分割、深度估計(jì)、邊緣檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)等。對(duì)于這類任務(wù),手動(dòng)標(biāo)注像素級(jí)標(biāo)簽面臨著難以承受的巨額成本。因此,如何從少量的標(biāo)注數(shù)據(jù)中學(xué)習(xí)并作出準(zhǔn)確預(yù)測(cè),即小樣本學(xué)習(xí),是該領(lǐng)域備受關(guān)注的課題。近年來,關(guān)于小樣本學(xué)習(xí)的研究不斷取得突破,尤其是一些基于元學(xué)習(xí)和對(duì)抗學(xué)習(xí)的方法,深受學(xué)術(shù)界的關(guān)注和歡迎。

然而,現(xiàn)有的計(jì)算機(jī)視覺小樣本學(xué)習(xí)方法一般針對(duì)特定的某類任務(wù),如分類任務(wù)或語(yǔ)義分割任務(wù)。它們通常在設(shè)計(jì)模型架構(gòu)和訓(xùn)練過程中利用特定于這些任務(wù)的先驗(yàn)知識(shí)和假設(shè),因此不適合推廣到任意的密集預(yù)測(cè)任務(wù)。微軟亞洲研究院的研究員們希望探究一個(gè)核心問題:是否存在一種通用的小樣本學(xué)習(xí)器,可以從少量標(biāo)記圖像中學(xué)習(xí)任意段未見過的密集預(yù)測(cè)任務(wù)。

一個(gè)密集預(yù)測(cè)任務(wù)的目標(biāo)是學(xué)習(xí)從輸入圖像到以像素為單位注釋的標(biāo)簽的映射,它可以被定義為:

圖片

其中 H 和 W 分別是圖像的高與寬,輸入圖像一般包含 RGB 三個(gè)通道,C_Τ 表示輸出通道的數(shù)目。不同的密集預(yù)測(cè)任務(wù)可能涉及不同的輸出通道數(shù)目和通道屬性,如語(yǔ)義分割任務(wù)的輸出是多通道二值的,而深度估計(jì)任務(wù)的輸出是單通道連續(xù)值的。一個(gè)通用的小樣本學(xué)習(xí)器 F,對(duì)于任何這樣的任務(wù) Τ,在給定少量標(biāo)記樣本支持集 S_Τ(包含了 N 組樣本 X^i 和標(biāo)注 Y^i)的情況下,可以為未見過的查詢圖像 X^q 產(chǎn)生預(yù)測(cè),即:

圖片

如果存在適配任意密集預(yù)測(cè)任務(wù)的通用小樣本學(xué)習(xí)器,那么必須滿足以下期望:

  • 首先,它必須具備 e 統(tǒng)一的體系結(jié)構(gòu)。該結(jié)構(gòu)能夠處理任意密集預(yù)測(cè)任務(wù),并共享大多數(shù)任務(wù)所需的參數(shù),以便獲取可泛化的知識(shí),從而能以小量樣本學(xué)習(xí)任意未見過的任務(wù)。
  • 其次,學(xué)習(xí)器應(yīng)該靈活地調(diào)整其預(yù)測(cè)機(jī)制,以解決具有各種語(yǔ)義的未見過的任務(wù),同時(shí)足夠高效,以防止過度擬合。

因此,微軟亞洲研究院的研究員們?cè)O(shè)計(jì)并實(shí)現(xiàn)了小樣本學(xué)習(xí)器視覺token匹配 VTM(Visual Token Matching),其可用于任意的密集預(yù)測(cè)任務(wù)。這是首個(gè)適配所有密集預(yù)測(cè)任務(wù)的小樣本學(xué)習(xí)器,VTM 為計(jì)算機(jī)視覺中密集預(yù)測(cè)任務(wù)的處理以及小樣本學(xué)習(xí)方法打開了全新的思路。該工作獲得了 ICLR 2023 杰出論文獎(jiǎng)

VTM 的設(shè)計(jì)靈感源于類比人類的思維過程:給定一個(gè)新任務(wù)的少量示例,人類可以根據(jù)示例之間的相似性快速將類似的輸出分配給類似的輸入,同時(shí)也可以根據(jù)給定的上下文靈活變通輸入和輸出之間在哪些層面相似。研究員們使用基于圖像塊(patch)級(jí)別的非參數(shù)匹配實(shí)現(xiàn)了密集預(yù)測(cè)的類比過程。通過訓(xùn)練,模型被啟發(fā)出了捕捉圖像塊中相似性的能力。

給定一個(gè)新任務(wù)的少量標(biāo)記示例,VTM 首先會(huì)根據(jù)給定的示例以及示例的標(biāo)簽調(diào)整其對(duì)相似性的理解,從示例圖像塊中鎖定與待預(yù)測(cè)圖像塊相似的圖像塊,通過組合它們的標(biāo)簽來預(yù)測(cè)未見過的圖像塊的標(biāo)簽。

圖片

圖1:VTM 的整體架構(gòu)

VTM 采用分層的編碼器-解碼器架構(gòu),在多個(gè)層次上實(shí)現(xiàn)了基于圖像塊的非參數(shù)匹配。它主要由四個(gè)模塊組成,分別為圖像編碼器 f_Τ、標(biāo)簽編碼器 g、匹配模塊和標(biāo)簽解碼器 h。給定查詢圖像和支持集,圖像編碼器首先會(huì)獨(dú)立地提取每個(gè)查詢和支持圖像的圖像塊級(jí)表達(dá)。標(biāo)簽編碼器也會(huì)類似地提取每個(gè)支持標(biāo)簽的標(biāo)記。在每個(gè)層次的標(biāo)記給定后,匹配模塊會(huì)執(zhí)行非參數(shù)匹配,最終由標(biāo)簽解碼器推斷出查詢圖像的標(biāo)簽。

VTM 的本質(zhì)是一個(gè)元學(xué)習(xí)方法。其訓(xùn)練由多個(gè) episode 組成,每個(gè) episode 模擬一個(gè)小樣本學(xué)習(xí)問題。VTM 訓(xùn)練運(yùn)用到了元訓(xùn)練數(shù)據(jù)集 D_train,其中包含多種有標(biāo)簽的密集預(yù)測(cè)任務(wù)示例。每個(gè)訓(xùn)練 episode 都會(huì)模擬數(shù)據(jù)集中特定任務(wù) T_train 的小樣本學(xué)習(xí)場(chǎng)景,目標(biāo)是在給定支持集的條件下,為查詢圖像產(chǎn)生正確的標(biāo)簽。通過多個(gè)小樣本學(xué)習(xí)的經(jīng)驗(yàn),模型能夠?qū)W習(xí)到通用的知識(shí),以便快速、靈活地適應(yīng)新的任務(wù)。在測(cè)試時(shí),模型需要在訓(xùn)練數(shù)據(jù)集 D_train 中未包含的任意任務(wù) T_test 上進(jìn)行小樣本學(xué)習(xí)。

在處理任意任務(wù)時(shí),由于元訓(xùn)練和測(cè)試中的每個(gè)任務(wù)的輸出維度 C_Τ 不同,因此使得為所有任務(wù)設(shè)計(jì)統(tǒng)一的通用模型參數(shù)成為了巨大挑戰(zhàn)。為了提供一個(gè)簡(jiǎn)單而普適的解決方案,研究員們將任務(wù)轉(zhuǎn)換為 C_Τ 個(gè)單通道子任務(wù),分別學(xué)習(xí)每個(gè)通道,并使用共享的模型 F 獨(dú)立地對(duì)每個(gè)子任務(wù)進(jìn)行建模。

為了測(cè)試 VTM ,研究員們還特別構(gòu)建了 Taskonomy 數(shù)據(jù)集的一個(gè)變種,從而模擬未見過的密集預(yù)測(cè)任務(wù)的小樣本學(xué)習(xí)。Taskonomy 包含各種標(biāo)注過的室內(nèi)圖像,研究員們從中選擇了十個(gè)具有不同語(yǔ)義和輸出維度的密集預(yù)測(cè)任務(wù),將其分為五部分用于交叉驗(yàn)證。在每個(gè)拆分方式中,兩個(gè)任務(wù)用于小樣本評(píng)估(T_test),其余八個(gè)任務(wù)用于訓(xùn)練(T_train)。研究員們仔細(xì)構(gòu)造了分區(qū),使得訓(xùn)練和測(cè)試任務(wù)彼此有足夠的差異,例如將邊緣任務(wù)(TE,OE)分組為測(cè)試任務(wù),以便對(duì)新語(yǔ)義的任務(wù)進(jìn)行評(píng)估。

圖片

表1:在 Taskonomy 數(shù)據(jù)集上的定量比較( Few-shot 基線在訓(xùn)練了來自其他分區(qū)的任務(wù)后,在需測(cè)試的分區(qū)任務(wù)上進(jìn)行了 10-shot 學(xué)習(xí),其中完全監(jiān)督的基線在每個(gè) fold(DPT)或所有 fold(InvPT)上訓(xùn)練和評(píng)估了任務(wù))

表1和圖2分別定量與定性地展示了 VTM 和兩類基線模型在十個(gè)密集預(yù)測(cè)任務(wù)上的小樣本學(xué)習(xí)性能。其中,DPT 和 InvPT 是兩種最先進(jìn)的監(jiān)督學(xué)習(xí)方法,DPT 可獨(dú)立地針對(duì)每個(gè)單一任務(wù)進(jìn)行訓(xùn)練,而 InvPT 則可以聯(lián)合訓(xùn)練所有任務(wù)。由于在 VTM 之前還沒有針對(duì)通用密集預(yù)測(cè)任務(wù)開發(fā)的專用小樣本方法,因此研究員們將 VTM 與三種最先進(jìn)的小樣本分割方法,即 DGPNet、HSNet 和 VAT,進(jìn)行對(duì)比,并把它們拓展到處理密集預(yù)測(cè)任務(wù)的一般標(biāo)簽空間。VTM 在訓(xùn)練期間沒有訪問測(cè)試任務(wù) T_test,并且僅在測(cè)試時(shí)使用了少量(10張)的標(biāo)記圖像,但它卻在所有小樣本基線模型中表現(xiàn)得最好,并且在許多任務(wù)中的表現(xiàn)都具備與全監(jiān)督基線模型比較的競(jìng)爭(zhēng)力。

圖片

圖2:在 Taskonomy 的十個(gè)密集預(yù)測(cè)任務(wù)中,在新任務(wù)上僅提供十張標(biāo)記圖像的小樣本學(xué)習(xí)方法的定性比較。在其他方法失敗的情況下, VTM 成功地學(xué)習(xí)了所有具有不同語(yǔ)義和不同標(biāo)簽表示的新任務(wù)。

在圖2中,虛線上方的分別是真實(shí)標(biāo)簽和兩種監(jiān)督學(xué)習(xí)方法 DPT 和 InvPT。虛線下方的是小樣本學(xué)習(xí)方法。值得注意的是,其他小樣本基線在新任務(wù)上出現(xiàn)了災(zāi)難性的欠擬合,而 VTM 成功地學(xué)習(xí)了所有任務(wù)。實(shí)驗(yàn)說明,VTM 可以在極少量的標(biāo)記示例(<0.004%的完全監(jiān)督)上現(xiàn)表現(xiàn)出與完全監(jiān)督基線類似的競(jìng)爭(zhēng)力,并能夠在相對(duì)較少的附加數(shù)據(jù)(0.1%的完全監(jiān)督)下縮小與監(jiān)督方法的差距,甚至實(shí)現(xiàn)反超。

總結(jié)來說,盡管 VTM 的底層思路非常簡(jiǎn)單,但它具有統(tǒng)一的體系結(jié)構(gòu),可用于任意密集預(yù)測(cè)任務(wù),因?yàn)槠ヅ渌惴ū举|(zhì)上包含所有任務(wù)和標(biāo)簽結(jié)構(gòu)(例如,連續(xù)或離散)。此外,VTM 僅引入了少量的任務(wù)特定參數(shù),就能具備抗過擬合性與靈活性。未來研究員們希望進(jìn)一步探究預(yù)訓(xùn)練過程中的任務(wù)類型、數(shù)據(jù)量、以及數(shù)據(jù)分布對(duì)模型泛化性能的影響,從而幫助我們構(gòu)建一個(gè)真正普適的小樣本學(xué)習(xí)器。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-03-23 18:46:19

論文

2025-04-27 09:10:00

AI模型機(jī)器學(xué)習(xí)

2022-10-30 15:00:40

小樣本學(xué)習(xí)數(shù)據(jù)集機(jī)器學(xué)習(xí)

2021-05-12 15:22:07

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2020-10-06 16:28:49

AI

2021-08-19 15:48:05

增量攻擊網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2023-09-17 00:09:35

微軟新模型參數(shù)

2021-06-04 15:39:03

深度學(xué)習(xí)編程人工智能

2021-12-10 15:46:18

谷歌模型人工智能

2025-03-10 08:25:00

機(jī)器人AI模型

2024-05-08 09:37:36

AI論文

2021-11-23 09:34:50

深度學(xué)習(xí)編程人工智能

2021-02-25 15:40:21

深度學(xué)習(xí)編程人工智能

2023-05-08 15:22:00

AI研究

2025-01-27 00:57:43

2022-02-16 10:02:04

深度學(xué)習(xí)模型人工智能

2019-10-15 05:15:00

深度學(xué)習(xí)人工智能AI

2024-10-08 14:48:24

2022-03-24 09:05:15

自由軟件基金會(huì)自由軟件獎(jiǎng)FSF

2021-07-21 16:56:33

人工智能機(jī)器學(xué)習(xí)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)