自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性

新聞 人工智能
縱橫交錯(cuò)描述(CxC)數(shù)據(jù)集使用圖像-文本,文本-文本和圖像-圖像對的語義相似性評級擴(kuò)展了MS-COCO的開發(fā)和測試范圍。

 如果一張圖片可以用一千個(gè)單詞描述,那么圖片中所能被描繪的對象之間便有如此多的細(xì)節(jié)和關(guān)系。我們可以描述狗皮毛的質(zhì)地,要被追逐的飛盤上的商標(biāo),剛剛?cè)舆^飛盤的人臉上的表情,等等。

[[398584]]

現(xiàn)階段,包含文本描述及其相應(yīng)圖像的描述的數(shù)據(jù)集(例如MS-COCO和Flickr30k)已被廣泛用于學(xué)習(xí)對齊的圖像和文本表示并建立描述模型。

然而,這些數(shù)據(jù)集的跨模態(tài)關(guān)聯(lián)有限:圖像未與其他圖像匹配,描述僅與同一張圖片的其他描述匹配,存在圖像與描述的匹配但未被標(biāo)記為匹配項(xiàng),并且沒有標(biāo)簽標(biāo)明何時(shí)圖像與描述之間是不匹配的。

為了彌補(bǔ)這一評估空白,我們提出了「交叉描述:針對MS-COCO的擴(kuò)展的模內(nèi)和模態(tài)語義相似性判斷」。

縱橫交錯(cuò)描述(CxC)數(shù)據(jù)集使用圖像-文本,文本-文本和圖像-圖像對的語義相似性評級擴(kuò)展了MS-COCO的開發(fā)和測試范圍。

評級標(biāo)準(zhǔn)基于「語義文本相似性」,這是一種在短文本對之間廣泛存在的語義相關(guān)性度量,我們還將其擴(kuò)展為包括對圖像的判斷。我們已經(jīng)發(fā)布了CxC的評分以及將CxC與現(xiàn)有MS-COCO數(shù)據(jù)合并的代碼。

創(chuàng)建CxC數(shù)據(jù)集

CxC數(shù)據(jù)集擴(kuò)展了MS-COCO評估拆分,并在模態(tài)內(nèi)和模態(tài)之間具有分級的相似性關(guān)聯(lián)。鑒于隨機(jī)選擇的圖像和描述匹配的相似性不高,我們提出了一種方法來對項(xiàng)目進(jìn)行選擇,通過人工評級從而產(chǎn)生一些具有較高相似性的新匹配。為了減少所選匹配對用于查找它們的模型的依賴性,我們引入了一種間接采樣方案,其中我們使用不同的編碼方法對圖像和描述進(jìn)行編碼,并計(jì)算相同模態(tài)項(xiàng)匹配之間的相似度進(jìn)而生成相似度矩陣。圖像使用Graph-RISE嵌入進(jìn)行編碼,而描述則使用兩種方法進(jìn)行編碼-基于GloVe嵌入的通用語句編碼器(USE)和平均單詞袋(BoW)。

由于每個(gè)MS-COCO示例都有五個(gè)輔助描述,因此我們平均每個(gè)輔助描述編碼以創(chuàng)建每個(gè)示例的單個(gè)表征,從而確保所有描述對都可以映射到圖像。

AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性

上:使用平均輔助描述編碼構(gòu)造的文本相似度矩陣(每個(gè)單元格對應(yīng)一個(gè)相似度分?jǐn)?shù)),每個(gè)文本條目對應(yīng)于單個(gè)圖像。下:數(shù)據(jù)集中每個(gè)圖像的圖像相似度矩陣。

我們從文本相似度矩陣中選擇兩個(gè)具有較高計(jì)算相似度的描述,然后獲取它們的每個(gè)圖像,從而生成一對新的圖像,這些圖像在外觀上不同,但根據(jù)描述的相似。

例如,「一只害羞地向側(cè)面看的狗」和「一只黑狗抬起頭來享受微風(fēng)」具有相當(dāng)高的模型相似性,因此下圖中兩只狗的對應(yīng)圖像 可以選擇圖像相似度等級。此步驟也可以從兩個(gè)具有較高計(jì)算相似度的圖像開始,以產(chǎn)生一對新的描述。

AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性

上:根據(jù)描述相似度來選擇圖像匹配。下:根據(jù)描圖像的相似度來選擇描述匹配。

通過使用現(xiàn)有的圖像標(biāo)題對在模態(tài)之間進(jìn)行鏈接來做到這一點(diǎn)。例如,如果人對一個(gè)描述匹配樣本ij的評級為高度相似,我們從樣本i中選擇圖像,并從樣本j中選擇描述,以獲得一個(gè)新的用于人工評級的模態(tài)內(nèi)匹配。然后,我們使用具有最高相似性的模態(tài)內(nèi)對進(jìn)行采樣,這可以包括一些具有高度相似性的新匹配。

AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性
AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性
AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性
AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性
AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性
AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性

不同相似度的語義圖像相似性(SIS)和語義圖像文本相似性(SITS)示例,其中5為最相似,0為完全不相似。

評估

MS-COCO的匹配是不完整的,因?yàn)橛袝r(shí)為一幅圖像的描述同樣適用于另一幅圖像,但這些關(guān)聯(lián)并未記錄到數(shù)據(jù)集中。CxC使用新的正向匹配增強(qiáng)了這些現(xiàn)有的檢索任務(wù),并且還支持新的圖像-圖像檢索任務(wù)。

通過其相似度的評級判斷,CxC還可以測量模型和人工評級之間的相關(guān)性。不僅如此,CxC的相關(guān)性分?jǐn)?shù)還考慮相似度的相對順序,其中包括低分項(xiàng)(不匹配項(xiàng))。

我們進(jìn)行了一系列實(shí)驗(yàn),以展示CxC評級的效用。為此,我們使用基于BERT的文本編碼器和使用EfficientNet-B4作為圖像編碼器構(gòu)造了三個(gè)雙編碼器(DE)模型:

1. 文本-文本(DE_T2T)模型,雙方使用共享的文本編碼器。

2. 使用上述文本和圖像編碼器的圖像文本模型(DE_I2T),且在文本編碼器上方有一個(gè)用來匹配圖像編碼器輸出的層。

3. 在文本-文本和圖像-文本任務(wù)的加權(quán)組合上訓(xùn)練的多任務(wù)模型(DE_I2T + T2T)。

AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性

文本-文本(T2T),圖像-文本(I2T)和多任務(wù)(I2T + T2T)雙編碼器模型的CxC檢索結(jié)果

從檢索任務(wù)的結(jié)果可以看出,DE_I2T + T2T(黃色條)在圖像文本和文本圖像檢索任務(wù)上的性能優(yōu)于DE_I2T(紅色條)。因此,添加模態(tài)內(nèi)(文本-文本)訓(xùn)練任務(wù)有助于提高模態(tài)間(圖像-文本,文本-圖像)性能。

AI識圖驢唇不對馬嘴?Google AI:用交錯(cuò)訓(xùn)練集提升圖像描述準(zhǔn)確性

相同模型的CxC相關(guān)結(jié)果

對于關(guān)聯(lián)任務(wù),DE_I2T在SIS上表現(xiàn)最好,而DE_I2T + T2T在總體上是最好的。相關(guān)分?jǐn)?shù)還顯示DE_I2T僅在圖像上表現(xiàn)良好:它具有最高的SIS,但具有更差的STS。

添加文本-文本損失到DE_I2T訓(xùn)練中(DE_I2T + T2T),可以使整體性能更加均衡。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-08-06 08:43:17

2022-12-17 19:57:17

ChatGPTAI模仿

2009-08-12 09:27:31

Google搜索

2022-08-19 09:53:20

人工智能大數(shù)據(jù)風(fēng)險(xiǎn)

2024-01-19 10:33:41

AI達(dá)沃斯論壇人工智能

2023-07-27 13:27:06

2021-11-11 19:35:16

人工智能AI深度學(xué)習(xí)

2024-12-09 09:20:00

MySQLNULL 值

2018-02-25 17:09:30

視頻AI圖像

2025-04-01 04:25:00

RAG數(shù)據(jù)檢索

2024-09-14 10:00:00

AI機(jī)器人計(jì)算

2024-12-11 08:12:24

2023-08-02 10:17:04

物聯(lián)網(wǎng)庫存管理

2021-07-26 17:09:42

AI 數(shù)據(jù)機(jī)器人

2022-03-23 09:36:51

AI訓(xùn)練模型

2024-11-27 13:36:10

2024-06-11 09:19:00

2020-09-24 18:07:04

華為云食道癌方案

2021-10-29 14:14:26

AI數(shù)據(jù)人工智能

2024-12-09 13:20:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號