自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

新聞 人工智能
清華大學(xué)孫茂松團(tuán)隊(duì)提出了一個(gè)全新的微調(diào)框架CPT,用顏色來遮蔽、融合圖像和語言,準(zhǔn)確率提升17.3%,標(biāo)準(zhǔn)差降低73.8%!

 [[428133]]

預(yù)訓(xùn)練模型在計(jì)算機(jī)視覺和語言上都取得了顯著成果,但這些語言模型有一個(gè)大問題就是訓(xùn)練過程和推理過程不匹配。清華大學(xué)孫茂松團(tuán)隊(duì)提出了一個(gè)全新的微調(diào)框架CPT,用顏色來遮蔽、融合圖像和語言,準(zhǔn)確率提升17.3%,標(biāo)準(zhǔn)差降低73.8%!

預(yù)先訓(xùn)練的視覺語言模型(Pre-Trained Vision-Language Models, VL-PTM)能夠同時(shí)處理語言和視覺上的信息,也是完成各種多模態(tài)任務(wù)的基礎(chǔ)模型。

但模型的預(yù)訓(xùn)練和微調(diào)之間存在著巨大的差距,在預(yù)訓(xùn)練期間,大多數(shù)VL PTM都是基于mask language modeling目標(biāo)進(jìn)行優(yōu)化的,主要任務(wù)就是在屏蔽的詞中從跨模態(tài)上下文中恢復(fù)。

然而,在微調(diào)過程中,下游任務(wù)通常是通過將未屏蔽token的表示分類到語義標(biāo)簽來完成的,在語義標(biāo)簽中通常會(huì)引入特定任務(wù)的參數(shù)。這種差別阻礙了VL PTM對(duì)下游任務(wù)的適應(yīng)性,因此需要大量的標(biāo)記數(shù)據(jù)來優(yōu)化VL-PTM對(duì)下游任務(wù)的視覺基礎(chǔ)能力。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

針對(duì)這個(gè)問題,清華大學(xué)的研究人員提出了一個(gè)新模型跨模態(tài)提示調(diào)節(jié)(Cross-Modal Prompt Tuning, CPT),也可以稱為Colorful Prompt Tuning。CPT是一種調(diào)整VL-PTM參數(shù)的新范式,關(guān)鍵點(diǎn)在于通過在圖像和文本中添加基于顏色的共同參照標(biāo)記,視覺基礎(chǔ)可以重新形成填補(bǔ)空白的問題,最大限度地減少預(yù)訓(xùn)練和微調(diào)之間的差距。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

為了在圖像數(shù)據(jù)中使用自然語言表達(dá)式,CPT由兩個(gè)組件組成:(1)一個(gè)視覺子提示(visual sub-prompt),用顏色塊唯一地標(biāo)記圖像區(qū)域;(2)一個(gè)文本子提示(textual sub-prompt),將查詢文本放入基于顏色的查詢模板中。然后,通過從查詢模板中的屏蔽標(biāo)記恢復(fù)相應(yīng)的彩色文本,可以實(shí)現(xiàn)目標(biāo)圖像區(qū)域的顯式定位。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

論文的作者是孫茂松教授,目前任清華大學(xué)人工智能研究院常務(wù)副院長(zhǎng)、清華大學(xué)計(jì)算機(jī)學(xué)位評(píng)定分委員會(huì)主席、教育部在線教育研究中心副主任、清華大學(xué)大規(guī)模在線開放教育研究中心主任。曾任清華大學(xué)計(jì)算機(jī)系主任、黨委書記。研究方向?yàn)樽匀徽Z言理解、中文信息處理、Web智能、社會(huì)計(jì)算和計(jì)算教育學(xué)等。

[[428134]]

配備CPT后,VL-PTMs可以在沒有任何標(biāo)記數(shù)據(jù)的情況下執(zhí)行zero-shot visual grouding,因?yàn)閂L PTMs在訓(xùn)練前已經(jīng)很好地學(xué)習(xí)了顏色的跨模態(tài)表示及其與其他概念(例如,對(duì)象、屬性和關(guān)系)的組合。

當(dāng)有幾個(gè)或全部標(biāo)記的實(shí)例可用時(shí),CPT可以根據(jù)基于熵的目標(biāo)函數(shù)對(duì)VL PTM進(jìn)行進(jìn)一步調(diào)整。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

雖然通過基于顏色的提示將圖像和文本連接起來看著很好用,但研究人員仍然發(fā)現(xiàn)了其中兩個(gè)關(guān)鍵問題:(1)如何確定顏色集C的配置;(2)如何使用有限的預(yù)訓(xùn)練顏色處理圖像區(qū)域的數(shù)量。

解決方法有跨模式提示搜索(Cross-modal Prompt Search)。以前在文本提示調(diào)優(yōu)方面的工作表明,提示配置(例如,文本模板)對(duì)性能有重大影響。這篇文章也是對(duì)搜索跨模態(tài)提示配置(即顏色集C)進(jìn)行的首次研究。

直觀地說,C應(yīng)該由VL PTM最敏感的顏色組成。為了獲得顏色,一種簡(jiǎn)單的方法是采用預(yù)訓(xùn)練文本中最常見的顏色文本,其標(biāo)準(zhǔn)RGB作為civ。但該解決方案是次優(yōu)的,因?yàn)檫@種方法在確定彩色文本時(shí)不考慮其視覺外觀,并且真實(shí)圖像中顏色的視覺外觀通常與其標(biāo)準(zhǔn)RGB不同。

所以在跨模式提示搜索中,首先確定一個(gè)全彩色文本的候選集。對(duì)于RGB空間中的每個(gè)可能顏色,將純色塊與文本子提示連接到VL PTMs中:[CLS] a photo in [MASK] color. [SEP]。然后為每個(gè)候選顏色文本獲得記錄分?jǐn)?shù)。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

記錄得分越大,表明cv和cw之間的相關(guān)性越高,并且刪除了在任何顏色視覺外觀中都沒有排名靠前的顏色文本。最后對(duì)于每個(gè)剩余的彩色文本,其視覺外觀由最大色彩確定,并且實(shí)驗(yàn)結(jié)果顯示得到的顏色配置明顯優(yōu)于原始的顏色配置。

圖像區(qū)域批處理(Image Region Batching)。在視覺基礎(chǔ)中,圖像中區(qū)域建議的數(shù)量通常超過顏色集合C的大小(∼ 10)。此外,嚴(yán)重重疊的色塊會(huì)阻礙視覺基礎(chǔ),因此需要將圖像區(qū)域分為多個(gè)批次,每個(gè)批次包含少量中度重疊的圖像區(qū)域,并分別使用視覺子提示標(biāo)記每個(gè)批次。為了處理不包含目標(biāo)區(qū)域的批,在解碼詞匯表中進(jìn)一步引入了一個(gè)新的候選文本none,表示批中沒有目標(biāo)區(qū)域。

實(shí)驗(yàn)結(jié)果表明,提示微調(diào)后的 VL-PTM的性能大大優(yōu)于微調(diào)后的PTM,

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

1、CPT在zero-shot 和few-shot 設(shè)置下比隨機(jī)基線和強(qiáng)微調(diào)基線有很大的優(yōu)勢(shì)(例如,在RefCOCO評(píng)估中,one-shot 的絕對(duì)準(zhǔn)確度平均提高17.3%)。不同的數(shù)據(jù)集和不同的訓(xùn)練次數(shù)之間的改進(jìn)是一致的。這表明CPT可以有效地提高VL PTM調(diào)諧的數(shù)據(jù)效率,并刺激VL PTM的視覺接地能力。

2、值得注意的是,與微調(diào)相比,CPT實(shí)現(xiàn)的標(biāo)準(zhǔn)偏差要小得多(例如,在RefCOCO評(píng)估中,一次試驗(yàn)平均降低73.8%的相對(duì)標(biāo)準(zhǔn)偏差)。這表明,來自預(yù)訓(xùn)練的連貫的調(diào)節(jié)方法可以導(dǎo)致更穩(wěn)定的few-shot 訓(xùn)練,這也是評(píng)估少鏡頭學(xué)習(xí)模型的關(guān)鍵因素。

3、可以注意到,在RefCOCO+評(píng)估中,CPT的微調(diào)性能稍遜于16 shots。原因是Ref-COCO+有更多基于顏色的表達(dá)(例如,穿著紅襯衫和藍(lán)帽子的人),這可能會(huì)干擾基于顏色的CPT。然而,在完全監(jiān)督的場(chǎng)景中,通過更多的調(diào)優(yōu)實(shí)例可以緩解這個(gè)問題,模型可以學(xué)習(xí)更好地區(qū)分查詢文本和提示模板中的顏色。

4、在完全監(jiān)督的設(shè)置下,CPT實(shí)現(xiàn)了與強(qiáng)微調(diào)VL PTM相當(dāng)?shù)男阅?。結(jié)果表明,即使在完全監(jiān)督的情況下,CPT也是VL-PTM的一種競(jìng)爭(zhēng)性調(diào)優(yōu)方法。總之,與普通的微調(diào)方法相比,CPT在zero-shot、few-shot和完全監(jiān)督的視覺方面實(shí)現(xiàn)了優(yōu)越/可比且更穩(wěn)定的性能。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-11-18 11:15:34

計(jì)算機(jī)AI技術(shù)

2021-07-08 15:39:50

機(jī)器學(xué)習(xí)人工智能計(jì)算

2024-01-03 12:31:09

2024-03-01 13:31:21

2021-11-01 10:40:15

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2019-01-29 10:27:27

量子計(jì)算機(jī)芯片超算

2023-09-01 14:06:00

模型AI

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2023-12-01 10:20:00

谷歌技術(shù)

2023-03-03 18:31:23

網(wǎng)絡(luò)承運(yùn)商路由

2023-12-12 13:51:00

AI訓(xùn)練

2023-05-04 07:39:33

2024-12-26 15:30:00

模型深度學(xué)習(xí)AI

2020-06-08 13:00:33

開源技術(shù) 軟件

2021-04-26 14:58:20

AI 數(shù)據(jù)人工智能

2023-03-20 10:19:25

ChatGPT數(shù)學(xué)

2023-03-13 13:24:34

智能Nature

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2013-09-27 17:29:16

清華大學(xué)IT運(yùn)維RIIL

2024-10-15 12:53:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)