自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

作者：佚名 2021-10-11 17:27:50

新聞人工智能

清華大學(xué)孫茂松團(tuán)隊(duì)提出了一個(gè)全新的微調(diào)框架CPT，用顏色來遮蔽、融合圖像和語言，準(zhǔn)確率提升17.3%，標(biāo)準(zhǔn)差降低73.8%！

預(yù)訓(xùn)練模型在計(jì)算機(jī)視覺和語言上都取得了顯著成果，但這些語言模型有一個(gè)大問題就是訓(xùn)練過程和推理過程不匹配。清華大學(xué)孫茂松團(tuán)隊(duì)提出了一個(gè)全新的微調(diào)框架CPT，用顏色來遮蔽、融合圖像和語言，準(zhǔn)確率提升17.3%，標(biāo)準(zhǔn)差降低73.8%！

預(yù)先訓(xùn)練的視覺語言模型（Pre-Trained Vision-Language Models, VL-PTM）能夠同時(shí)處理語言和視覺上的信息，也是完成各種多模態(tài)任務(wù)的基礎(chǔ)模型。

但模型的預(yù)訓(xùn)練和微調(diào)之間存在著巨大的差距，在預(yù)訓(xùn)練期間，大多數(shù)VL PTM都是基于mask language modeling目標(biāo)進(jìn)行優(yōu)化的，主要任務(wù)就是在屏蔽的詞中從跨模態(tài)上下文中恢復(fù)。

然而，在微調(diào)過程中，下游任務(wù)通常是通過將未屏蔽token的表示分類到語義標(biāo)簽來完成的，在語義標(biāo)簽中通常會(huì)引入特定任務(wù)的參數(shù)。這種差別阻礙了VL PTM對(duì)下游任務(wù)的適應(yīng)性，因此需要大量的標(biāo)記數(shù)據(jù)來優(yōu)化VL-PTM對(duì)下游任務(wù)的視覺基礎(chǔ)能力。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

針對(duì)這個(gè)問題，清華大學(xué)的研究人員提出了一個(gè)新模型跨模態(tài)提示調(diào)節(jié)（Cross-Modal Prompt Tuning, CPT），也可以稱為Colorful Prompt Tuning。CPT是一種調(diào)整VL-PTM參數(shù)的新范式，關(guān)鍵點(diǎn)在于通過在圖像和文本中添加基于顏色的共同參照標(biāo)記，視覺基礎(chǔ)可以重新形成填補(bǔ)空白的問題，最大限度地減少預(yù)訓(xùn)練和微調(diào)之間的差距。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

為了在圖像數(shù)據(jù)中使用自然語言表達(dá)式，CPT由兩個(gè)組件組成：（1）一個(gè)視覺子提示（visual sub-prompt），用顏色塊唯一地標(biāo)記圖像區(qū)域；（2）一個(gè)文本子提示（textual sub-prompt），將查詢文本放入基于顏色的查詢模板中。然后，通過從查詢模板中的屏蔽標(biāo)記恢復(fù)相應(yīng)的彩色文本，可以實(shí)現(xiàn)目標(biāo)圖像區(qū)域的顯式定位。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

論文的作者是孫茂松教授，目前任清華大學(xué)人工智能研究院常務(wù)副院長(zhǎng)、清華大學(xué)計(jì)算機(jī)學(xué)位評(píng)定分委員會(huì)主席、教育部在線教育研究中心副主任、清華大學(xué)大規(guī)模在線開放教育研究中心主任。曾任清華大學(xué)計(jì)算機(jī)系主任、黨委書記。研究方向?yàn)樽匀徽Z言理解、中文信息處理、Web智能、社會(huì)計(jì)算和計(jì)算教育學(xué)等。

配備CPT后，VL-PTMs可以在沒有任何標(biāo)記數(shù)據(jù)的情況下執(zhí)行zero-shot visual grouding，因?yàn)閂L PTMs在訓(xùn)練前已經(jīng)很好地學(xué)習(xí)了顏色的跨模態(tài)表示及其與其他概念（例如，對(duì)象、屬性和關(guān)系）的組合。

當(dāng)有幾個(gè)或全部標(biāo)記的實(shí)例可用時(shí)，CPT可以根據(jù)基于熵的目標(biāo)函數(shù)對(duì)VL PTM進(jìn)行進(jìn)一步調(diào)整。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

雖然通過基于顏色的提示將圖像和文本連接起來看著很好用，但研究人員仍然發(fā)現(xiàn)了其中兩個(gè)關(guān)鍵問題：（1）如何確定顏色集C的配置；（2）如何使用有限的預(yù)訓(xùn)練顏色處理圖像區(qū)域的數(shù)量。

解決方法有跨模式提示搜索（Cross-modal Prompt Search）。以前在文本提示調(diào)優(yōu)方面的工作表明，提示配置（例如，文本模板）對(duì)性能有重大影響。這篇文章也是對(duì)搜索跨模態(tài)提示配置（即顏色集C）進(jìn)行的首次研究。

直觀地說，C應(yīng)該由VL PTM最敏感的顏色組成。為了獲得顏色，一種簡(jiǎn)單的方法是采用預(yù)訓(xùn)練文本中最常見的顏色文本，其標(biāo)準(zhǔn)RGB作為civ。但該解決方案是次優(yōu)的，因?yàn)檫@種方法在確定彩色文本時(shí)不考慮其視覺外觀，并且真實(shí)圖像中顏色的視覺外觀通常與其標(biāo)準(zhǔn)RGB不同。

所以在跨模式提示搜索中，首先確定一個(gè)全彩色文本的候選集。對(duì)于RGB空間中的每個(gè)可能顏色，將純色塊與文本子提示連接到VL PTMs中：[CLS] a photo in [MASK] color. [SEP]。然后為每個(gè)候選顏色文本獲得記錄分?jǐn)?shù)。

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

記錄得分越大，表明cv和cw之間的相關(guān)性越高，并且刪除了在任何顏色視覺外觀中都沒有排名靠前的顏色文本。最后對(duì)于每個(gè)剩余的彩色文本，其視覺外觀由最大色彩確定，并且實(shí)驗(yàn)結(jié)果顯示得到的顏色配置明顯優(yōu)于原始的顏色配置。

圖像區(qū)域批處理（Image Region Batching）。在視覺基礎(chǔ)中，圖像中區(qū)域建議的數(shù)量通常超過顏色集合C的大小(∼ 10)。此外，嚴(yán)重重疊的色塊會(huì)阻礙視覺基礎(chǔ)，因此需要將圖像區(qū)域分為多個(gè)批次，每個(gè)批次包含少量中度重疊的圖像區(qū)域，并分別使用視覺子提示標(biāo)記每個(gè)批次。為了處理不包含目標(biāo)區(qū)域的批，在解碼詞匯表中進(jìn)一步引入了一個(gè)新的候選文本none，表示批中沒有目標(biāo)區(qū)域。

實(shí)驗(yàn)結(jié)果表明，提示微調(diào)后的 VL-PTM的性能大大優(yōu)于微調(diào)后的PTM，

清華大學(xué)孫茂松教授提出全新微調(diào)框架CPT準(zhǔn)確率提升17.3%

1、CPT在zero-shot 和few-shot 設(shè)置下比隨機(jī)基線和強(qiáng)微調(diào)基線有很大的優(yōu)勢(shì)（例如，在RefCOCO評(píng)估中，one-shot 的絕對(duì)準(zhǔn)確度平均提高17.3%）。不同的數(shù)據(jù)集和不同的訓(xùn)練次數(shù)之間的改進(jìn)是一致的。這表明CPT可以有效地提高VL PTM調(diào)諧的數(shù)據(jù)效率，并刺激VL PTM的視覺接地能力。

2、值得注意的是，與微調(diào)相比，CPT實(shí)現(xiàn)的標(biāo)準(zhǔn)偏差要小得多（例如，在RefCOCO評(píng)估中，一次試驗(yàn)平均降低73.8%的相對(duì)標(biāo)準(zhǔn)偏差）。這表明，來自預(yù)訓(xùn)練的連貫的調(diào)節(jié)方法可以導(dǎo)致更穩(wěn)定的few-shot 訓(xùn)練，這也是評(píng)估少鏡頭學(xué)習(xí)模型的關(guān)鍵因素。

3、可以注意到，在RefCOCO+評(píng)估中，CPT的微調(diào)性能稍遜于16 shots。原因是Ref-COCO+有更多基于顏色的表達(dá)（例如，穿著紅襯衫和藍(lán)帽子的人），這可能會(huì)干擾基于顏色的CPT。然而，在完全監(jiān)督的場(chǎng)景中，通過更多的調(diào)優(yōu)實(shí)例可以緩解這個(gè)問題，模型可以學(xué)習(xí)更好地區(qū)分查詢文本和提示模板中的顏色。

4、在完全監(jiān)督的設(shè)置下，CPT實(shí)現(xiàn)了與強(qiáng)微調(diào)VL PTM相當(dāng)?shù)男阅?。結(jié)果表明，即使在完全監(jiān)督的情況下，CPT也是VL-PTM的一種競(jìng)爭(zhēng)性調(diào)優(yōu)方法。總之，與普通的微調(diào)方法相比，CPT在zero-shot、few-shot和完全監(jiān)督的視覺方面實(shí)現(xiàn)了優(yōu)越/可比且更穩(wěn)定的性能。

責(zé)任編輯：張燕妮來源：新智元

框架計(jì)算機(jī)開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="u11ds"><track id="u11ds"></track></cite>

<legend id="u11ds"><track id="u11ds"></track></legend>

<sub id="u11ds"></sub>

<em id="u11ds"></em>