自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

打破視覺(jué)-語(yǔ)言預(yù)訓(xùn)練的瓶頸:新算法解決噪聲和標(biāo)注問(wèn)題 精華

發(fā)布于 2024-10-17 15:29
瀏覽
0收藏

引言:探索視覺(jué)-語(yǔ)言對(duì)比預(yù)訓(xùn)練中的噪聲和低質(zhì)量標(biāo)注問(wèn)題

在視覺(jué)-語(yǔ)言對(duì)比預(yù)訓(xùn)練中,噪聲和標(biāo)注質(zhì)量被認(rèn)為是影響訓(xùn)練效果的重要因素。本文通過(guò)深入研究和分析訓(xùn)練過(guò)程中的兩個(gè)主要問(wèn)題——錯(cuò)誤的負(fù)樣本對(duì)分配和低質(zhì)量及多樣性不足的標(biāo)注——揭示了通過(guò)解決這些問(wèn)題來(lái)提高訓(xùn)練質(zhì)量的潛力尚未被完全實(shí)現(xiàn)。

首先,我們研究了影響對(duì)比學(xué)習(xí)的噪聲問(wèn)題,即在一個(gè)批次中可能會(huì)發(fā)現(xiàn)語(yǔ)義相似甚至相同的圖像/標(biāo)注被錯(cuò)誤地視為負(fù)樣本對(duì)。其次,我們探討了標(biāo)注的低質(zhì)量和多樣性不足問(wèn)題,標(biāo)注可能簡(jiǎn)短且缺乏細(xì)節(jié),嘈雜,或與圖像完全無(wú)關(guān)。

為了解決第一個(gè)問(wèn)題,我們提出了一種算法,通過(guò)圖像-文本、圖像-圖像和文本-文本的相似性來(lái)挖掘新的正樣本對(duì),以減少因語(yǔ)義相似的圖像/標(biāo)注而產(chǎn)生的錯(cuò)誤負(fù)樣本。對(duì)于第二個(gè)問(wèn)題,我們首先使用最先進(jìn)的圖像描述生成技術(shù)為每個(gè)訓(xùn)練圖像生成偽標(biāo)注,這些偽標(biāo)注將作為給定圖像的新真實(shí)正樣本。然后,我們提出在同一批次中使用多個(gè)偽標(biāo)注進(jìn)行訓(xùn)練,以有效增加標(biāo)注的多樣性。

通過(guò)應(yīng)用所提出的解決方案,我們最終獲得了每個(gè)圖像的多個(gè)正樣本對(duì),這意味著我們需要使用一種能夠適應(yīng)多個(gè)正樣本的損失函數(shù)來(lái)訓(xùn)練我們的模型。在這里,我們提出使用sigmoid損失來(lái)滿足這一需求,該損失允許每個(gè)樣本和每個(gè)批次動(dòng)態(tài)變化的正樣本數(shù)量,且對(duì)噪聲具有魯棒性。

打破視覺(jué)-語(yǔ)言預(yù)訓(xùn)練的瓶頸:新算法解決噪聲和標(biāo)注問(wèn)題-AI.x社區(qū)

  • 論文標(biāo)題:FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models
  • 機(jī)構(gòu):Samsung AI Center Cambridge, UK; Technical University of Iasi, Romania; Queen Mary University of London, UK
    論文鏈接:https://arxiv.org/pdf/2405.10286.pdf

問(wèn)題分析:錯(cuò)誤負(fù)樣本對(duì)和低質(zhì)量標(biāo)題的影響

1. 錯(cuò)誤負(fù)樣本對(duì)的識(shí)別與修正

在大規(guī)模對(duì)比圖像-文本預(yù)訓(xùn)練中,錯(cuò)誤地將近似重復(fù)的樣本視為負(fù)樣本對(duì)是一個(gè)常見(jiàn)問(wèn)題。這種錯(cuò)誤的負(fù)樣本對(duì)會(huì)顯著阻礙訓(xùn)練過(guò)程和模型質(zhì)量。為了解決這一問(wèn)題,我們提出了一種算法,通過(guò)計(jì)算圖像-文本、圖像-圖像和文本-文本的相似性,來(lái)重新分配這些錯(cuò)誤的負(fù)樣本對(duì)為正樣本。這種方法可以有效減少訓(xùn)練數(shù)據(jù)中由于語(yǔ)義相似的圖像或標(biāo)題而產(chǎn)生的錯(cuò)誤負(fù)樣本。

2. 標(biāo)題質(zhì)量與多樣性的提升策略

低質(zhì)量和多樣性不足的標(biāo)題會(huì)影響模型的訓(xùn)練效果。為了提高標(biāo)題的質(zhì)量和多樣性,我們首先使用先進(jìn)的圖像描述生成技術(shù)(如BLIP2)為每個(gè)訓(xùn)練圖像生成偽標(biāo)題,這些偽標(biāo)題將作為給定圖像的新真正正樣本。然后,我們提出在同一批次中使用多個(gè)偽標(biāo)題(例如,每個(gè)圖像選擇五個(gè)標(biāo)題)進(jìn)行批量文本增強(qiáng),以有效增加標(biāo)題的多樣性。

解決方案:新正樣本的挖掘與偽標(biāo)題的批量文本增強(qiáng)

1. 基于相似性挖掘新的正樣本對(duì)

我們提出的算法不僅修正了錯(cuò)誤的負(fù)樣本對(duì),還能夠基于圖像和文本特征的余弦相似性挖掘新的正樣本對(duì)。這一過(guò)程通過(guò)動(dòng)態(tài)調(diào)整正樣本的數(shù)量來(lái)適應(yīng)模型訓(xùn)練,從而提高了訓(xùn)練的準(zhǔn)確性和效率。

2. 使用偽標(biāo)題進(jìn)行批量文本增強(qiáng)

為了進(jìn)一步提高模型對(duì)圖像描述的準(zhǔn)確性,我們采用批量文本增強(qiáng)的策略,將多個(gè)偽標(biāo)題納入同一批次的訓(xùn)練中。這種方法不僅增加了文本的多樣性,還通過(guò)集成多個(gè)偽標(biāo)題來(lái)改善了單個(gè)錯(cuò)誤標(biāo)題可能帶來(lái)的負(fù)面影響,從而提高了模型的魯棒性和描述能力。

打破視覺(jué)-語(yǔ)言預(yù)訓(xùn)練的瓶頸:新算法解決噪聲和標(biāo)注問(wèn)題-AI.x社區(qū)

模型訓(xùn)練:采用sigmoid損失函數(shù)

1. Sigmoid損失函數(shù)的選擇與優(yōu)勢(shì)

在處理視覺(jué)-語(yǔ)言對(duì)比預(yù)訓(xùn)練中,特別是在面對(duì)數(shù)據(jù)質(zhì)量和噪聲問(wèn)題時(shí),傳統(tǒng)的對(duì)比損失函數(shù)(如InfoNCE)可能不足以處理多個(gè)正樣本的情況。這是因?yàn)檫@些損失函數(shù)通常假設(shè)每個(gè)樣本只有一個(gè)正樣本。為了解決這一問(wèn)題,我們采用了sigmoid損失函數(shù)。Sigmoid損失函數(shù)的主要優(yōu)勢(shì)在于它能夠自然地處理每個(gè)樣本動(dòng)態(tài)變化的正樣本數(shù)量,且對(duì)噪聲具有較強(qiáng)的魯棒性。

在我們的設(shè)置中,每個(gè)圖像不僅與其原始標(biāo)注配對(duì),還可能與通過(guò)算法生成的多個(gè)偽標(biāo)注配對(duì),這些偽標(biāo)注是通過(guò)高級(jí)圖像標(biāo)題生成技術(shù)(如BLIP2)創(chuàng)建的。這種方法增加了訓(xùn)練過(guò)程中的正樣本數(shù)量,有助于模型更好地理解和描述圖像內(nèi)容。sigmoid損失函數(shù)能夠有效地處理這種多正樣本的情況,而不會(huì)引入額外的計(jì)算成本。

2. 多正樣本對(duì)訓(xùn)練的實(shí)現(xiàn)

為了增加訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量,我們采用了批量文本增強(qiáng)技術(shù),即在同一批次中為每個(gè)圖像生成多個(gè)偽標(biāo)注。這些偽標(biāo)注作為正樣本輸入模型,通過(guò)sigmoid損失函數(shù)進(jìn)行訓(xùn)練。這種方法不僅提高了標(biāo)注的多樣性,還通過(guò)集成多個(gè)偽標(biāo)注來(lái)減少單個(gè)錯(cuò)誤標(biāo)注對(duì)模型訓(xùn)練的影響。

此外,我們還采用了一種新的正樣本挖掘算法,通過(guò)分析圖像-文本、圖像-圖像和文本-文本之間的相似性來(lái)動(dòng)態(tài)地識(shí)別和校正錯(cuò)誤的負(fù)樣本對(duì),將其轉(zhuǎn)換為正樣本。這一策略進(jìn)一步增加了正樣本的數(shù)量和質(zhì)量,為模型訓(xùn)練提供了更豐富的學(xué)習(xí)信號(hào)。

實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

我們的模型在多個(gè)公開(kāi)可用的視覺(jué)-語(yǔ)言數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練和測(cè)試,包括YFCC15M-v2、CC3M和CC12M等。這些數(shù)據(jù)集包含大量的圖像-文本對(duì),適用于視覺(jué)-語(yǔ)言對(duì)比學(xué)習(xí)的大規(guī)模訓(xùn)練。

在實(shí)驗(yàn)中,我們使用了與CLIP相同的模型架構(gòu)和設(shè)置,采用AdamW優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-3,權(quán)重衰減為0.1。圖像通過(guò)隨機(jī)縮放和裁剪至224×224像素,應(yīng)用隨機(jī)翻轉(zhuǎn)、高斯模糊和顏色抖動(dòng)等增強(qiáng)技術(shù)。文本數(shù)據(jù)則被截?cái)嘀?7個(gè)令牌。

所有模型均在8塊NVIDIA A100 GPU上訓(xùn)練32個(gè)周期。我們的實(shí)驗(yàn)設(shè)置旨在公平地與先前的工作進(jìn)行比較,并展示我們方法在處理多正樣本和噪聲數(shù)據(jù)時(shí)的優(yōu)勢(shì)。通過(guò)這些實(shí)驗(yàn),我們證明了采用sigmoid損失函數(shù)和多正樣本策略的有效性,實(shí)現(xiàn)了在多個(gè)基準(zhǔn)測(cè)試上的顯著性能提升。

實(shí)驗(yàn)結(jié)果與分析:模型性能的顯著提升

1. 圖像識(shí)別與檢索的改進(jìn)

在圖像識(shí)別和檢索方面,通過(guò)對(duì)比訓(xùn)練數(shù)據(jù)中的噪聲和低質(zhì)量標(biāo)注的處理,我們的方法在多個(gè)數(shù)據(jù)集上都顯示出了顯著的性能提升。具體來(lái)說(shuō),我們的模型在11個(gè)數(shù)據(jù)集上的圖像識(shí)別平均提升了約6%,在Flickr30k和MSCOCO的圖像檢索任務(wù)上分別提升了約19%和15%。這一成績(jī)的提升歸功于我們對(duì)錯(cuò)誤負(fù)樣本對(duì)的糾正以及對(duì)訓(xùn)練數(shù)據(jù)質(zhì)量的改進(jìn)。

打破視覺(jué)-語(yǔ)言預(yù)訓(xùn)練的瓶頸:新算法解決噪聲和標(biāo)注問(wèn)題-AI.x社區(qū)

打破視覺(jué)-語(yǔ)言預(yù)訓(xùn)練的瓶頸:新算法解決噪聲和標(biāo)注問(wèn)題-AI.x社區(qū)

2. 不同組件的影響分析

我們的方法包括兩個(gè)主要的技術(shù)改進(jìn):錯(cuò)誤負(fù)樣本對(duì)的糾正和批量文本增強(qiáng)。通過(guò)對(duì)這些組件的單獨(dú)分析,我們發(fā)現(xiàn)圖像-文本相似度矩陣(Sit)是最有影響力的,因?yàn)樗粌H幫助過(guò)濾掉錯(cuò)誤的配對(duì),還調(diào)整了語(yǔ)義上相似的樣本。此外,我們還觀察到,使用多個(gè)偽標(biāo)題進(jìn)行訓(xùn)練可以顯著提高模型的準(zhǔn)確性,這驗(yàn)證了批量文本增強(qiáng)的有效性。

結(jié)論與展望:多正樣本對(duì)策略的前景與挑戰(zhàn)

通過(guò)本研究,我們展示了在視覺(jué)-語(yǔ)言對(duì)比預(yù)訓(xùn)練中處理多個(gè)正樣本對(duì)的潛力和效果。我們的方法不僅顯著提高了模型在圖像識(shí)別和檢索任務(wù)上的性能,而且還提出了一種新的損失函數(shù)——sigmoid損失,以適應(yīng)訓(xùn)練樣本中正樣本數(shù)量的動(dòng)態(tài)變化。

盡管我們的方法取得了顯著的進(jìn)步,但在實(shí)際應(yīng)用中仍面臨一些挑戰(zhàn)。例如,如何有效地從大規(guī)模噪聲數(shù)據(jù)中挖掘和利用真正的正樣本對(duì),以及如何進(jìn)一步優(yōu)化模型以處理更大規(guī)模的數(shù)據(jù)集。此外,多正樣本對(duì)策略在不同類(lèi)型的視覺(jué)-語(yǔ)言任務(wù)中的普適性和效果還有待進(jìn)一步研究。

總之,多正樣本對(duì)策略為視覺(jué)-語(yǔ)言模型的訓(xùn)練提供了新的視角和可能性,預(yù)示著在自動(dòng)圖像標(biāo)注、圖像檢索以及其他相關(guān)領(lǐng)域的廣泛應(yīng)用前景。

總結(jié):視覺(jué)-語(yǔ)言預(yù)訓(xùn)練的新方向及其潛在影響

在視覺(jué)-語(yǔ)言預(yù)訓(xùn)練領(lǐng)域,最新的研究提出了一種新的方法,通過(guò)解決錯(cuò)誤的負(fù)樣本配對(duì)和低質(zhì)量的圖像描述問(wèn)題,顯著提高了模型的性能。這些問(wèn)題一直是影響訓(xùn)練質(zhì)量的關(guān)鍵因素,而現(xiàn)有的解決方案尚未完全發(fā)揮其潛力。通過(guò)深入分析和新算法的應(yīng)用,研究者們成功地推動(dòng)了這一領(lǐng)域的發(fā)展。

1. 錯(cuò)誤的負(fù)樣本配對(duì)問(wèn)題

在傳統(tǒng)的對(duì)比學(xué)習(xí)中,每個(gè)批次中可能會(huì)錯(cuò)誤地將語(yǔ)義相近的樣本視為負(fù)樣本對(duì)。這種現(xiàn)象在數(shù)據(jù)集中普遍存在,尤其是在大規(guī)模的圖像-文本數(shù)據(jù)集中。為了解決這一問(wèn)題,研究者提出了一種新的算法,通過(guò)分析圖像-圖像、文本-文本和圖像-文本之間的相似性,動(dòng)態(tài)地重新分配正負(fù)樣本對(duì)。這種方法有效減少了因語(yǔ)義近似而產(chǎn)生的錯(cuò)誤負(fù)樣本,從而提高了模型的訓(xùn)練效果。

2. 圖像描述的質(zhì)量和多樣性問(wèn)題

傳統(tǒng)的數(shù)據(jù)集中的圖像描述往往質(zhì)量不高,缺乏詳細(xì)信息,這嚴(yán)重影響了模型的學(xué)習(xí)效果。為了提高描述的質(zhì)量和多樣性,研究者采用了最先進(jìn)的圖像描述生成技術(shù),為每張圖像生成多個(gè)偽描述。這些偽描述作為新的正樣本參與訓(xùn)練,顯著增加了描述的多樣性和質(zhì)量。此外,通過(guò)批量文本增強(qiáng)技術(shù),同一批次中的多個(gè)偽描述可以同時(shí)用于訓(xùn)練,進(jìn)一步提升了模型的性能。

3. 新的損失函數(shù)

由于引入了多個(gè)正樣本對(duì),傳統(tǒng)的對(duì)比損失函數(shù)已不再適用。研究者提出使用sigmoid損失函數(shù),這種損失函數(shù)可以靈活地處理每個(gè)樣本的動(dòng)態(tài)正樣本數(shù)量,且對(duì)噪聲具有較強(qiáng)的魯棒性。這一改進(jìn)使得模型訓(xùn)練更加高效,同時(shí)也減少了因錯(cuò)誤標(biāo)注帶來(lái)的負(fù)面影響。

通過(guò)這些創(chuàng)新方法的應(yīng)用,研究者在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上取得了顯著的性能提升,不僅在圖像識(shí)別任務(wù)上平均提高了約6%,在圖像檢索任務(wù)上也分別在Flickr30k和MSCOCO數(shù)據(jù)集上提高了約19%和15%。這些成果不僅展示了處理錯(cuò)誤負(fù)樣本配對(duì)和提高圖像描述質(zhì)量的重要性,也為未來(lái)的視覺(jué)-語(yǔ)言預(yù)訓(xùn)練研究提供了新的方向。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦