自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 | 四川大學(xué)提出Test-time Adaptation新范式,突破查詢偏移挑戰(zhàn)

人工智能 新聞
近日,四川大學(xué) XLearning 團(tuán)隊(duì)將 TTA 拓展至跨模態(tài)檢索任務(wù)中,有效緩解了查詢偏移(Query Shift)挑戰(zhàn)的負(fù)面影響,有望推動(dòng) Inference time compute 向跨模態(tài)應(yīng)用發(fā)展。

在 NeurIPS 2024 大會(huì)上,OpenAI 聯(lián)合創(chuàng)始人兼前首席科學(xué)家 Ilya Sutskever 在其主題報(bào)告中展望了基礎(chǔ)模型的未來(lái)研究方向,其中包括了 Inference Time Compute [1],即增強(qiáng)模型在推理階段的能力,這也是 OpenAI o1 和 o3 等核心項(xiàng)目的關(guān)鍵技術(shù)路徑。

作為 Inference Time Compute 的重要方向之一,Test-time Adaptation(TTA)旨在使預(yù)訓(xùn)練模型動(dòng)態(tài)適應(yīng)推理階段中不同分布類型的數(shù)據(jù),能夠有效提高神經(jīng)網(wǎng)絡(luò)模型的分布外泛化能力。

然而,當(dāng)前 TTA 的應(yīng)用場(chǎng)景仍存在較大局限性,主要集中在單模態(tài)任務(wù)中,如識(shí)別、分割等領(lǐng)域。

近日,四川大學(xué) XLearning 團(tuán)隊(duì)將 TTA 拓展至跨模態(tài)檢索任務(wù)中,有效緩解了查詢偏移(Query Shift)挑戰(zhàn)的負(fù)面影響,有望推動(dòng) Inference time compute 向跨模態(tài)應(yīng)用發(fā)展。

目前,該論文已被機(jī)器學(xué)習(xí)國(guó)際頂會(huì) ICLR 2025 接收并評(píng)選為 Spotlight(入選比例 5.1%)。

圖片

  • 論文題目:Test-time Adaptation for Cross-modal Retrieval with Query Shift
  • 論文地址:https://openreview.net/forum?id=BmG88rONaU
  • 項(xiàng)目地址:https://hbinli.github.io/TCR/

背景與挑戰(zhàn)

跨模態(tài)檢索旨在通過構(gòu)建多模態(tài)共同空間來(lái)關(guān)聯(lián)不同模態(tài)的數(shù)據(jù),在搜索引擎、推薦系統(tǒng)等領(lǐng)域具有重要的應(yīng)用價(jià)值。如圖 1 (a) 所示,現(xiàn)有方法通?;陬A(yù)訓(xùn)練模型來(lái)構(gòu)建共同空間,并假設(shè)推理階段的查詢數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分布一致。然而,如圖 1 (b) 所示,在現(xiàn)實(shí)場(chǎng)景中,用戶的查詢往往具有高度個(gè)性化的特點(diǎn),甚至可能涉及不常見的需求,導(dǎo)致查詢偏移(Query Shift)挑戰(zhàn),即模型推理時(shí)查詢數(shù)據(jù)與源域數(shù)據(jù)的分布顯著不同。

圖片

圖 1:(a) 主流范式:利用預(yù)訓(xùn)練模型 Zero-shot 檢索或者 Fine-tune 后檢索。(b) 導(dǎo)致查詢偏移的原因:難以對(duì)數(shù)據(jù)稀缺的領(lǐng)域進(jìn)行微調(diào);即使微調(diào)模型,也會(huì)面臨 “眾口難調(diào)” 的問題。(c) 觀察:查詢偏移會(huì)降低模態(tài)內(nèi)的均勻性和增大模態(tài)間的差異。

如圖 1 (c) 所示,本文觀察到,查詢偏移不僅會(huì)破壞查詢模態(tài)的均勻性(Modality Uniformity),使得模型難以區(qū)分多樣化的查詢,還會(huì)增大查詢模態(tài)與候選模態(tài)間的差異(Modality Gap),破壞預(yù)訓(xùn)練模型構(gòu)建的跨模態(tài)對(duì)齊關(guān)系。這兩點(diǎn)都會(huì)導(dǎo)致預(yù)訓(xùn)練模型在推理階段的性能急劇下降。

盡管 TTA 作為能夠?qū)崟r(shí)應(yīng)對(duì)分布偏移的范式已取得顯著成功,但現(xiàn)有方法仍無(wú)法有效應(yīng)對(duì)查詢偏移挑戰(zhàn)。一方面,當(dāng)前 TTA 范式面向單模態(tài)任務(wù)設(shè)計(jì),無(wú)法有效應(yīng)對(duì)查詢偏移對(duì)模態(tài)內(nèi)分布和模態(tài)間對(duì)齊關(guān)系的影響。另一方面,現(xiàn)有 TTA 方法主要應(yīng)用于識(shí)別任務(wù),無(wú)法應(yīng)對(duì)檢索任務(wù)中的高噪聲現(xiàn)象,即候選項(xiàng)遠(yuǎn)大于類別數(shù)量會(huì)導(dǎo)致更大的錯(cuò)誤幾率。

主要貢獻(xiàn)

針對(duì)上述挑戰(zhàn),本文提出了 TCR,貢獻(xiàn)如下:

  • 從模態(tài)內(nèi)分布和模態(tài)間差異兩個(gè)層面,揭示了查詢偏移導(dǎo)致檢索性能下降的根本原因。
  • 將 TTA 范式擴(kuò)展至跨模態(tài)檢索領(lǐng)域,通過調(diào)整模態(tài)內(nèi)分布、模態(tài)間差異以及緩解檢索過程中的高噪聲現(xiàn)象,實(shí)現(xiàn)查詢偏移下的魯棒跨模態(tài)檢索。
  • 為跨模態(tài)檢索 TTA 建立了統(tǒng)一的基準(zhǔn),涵蓋 6 個(gè)廣泛應(yīng)用的數(shù)據(jù)集和 130 種風(fēng)格各異、程度不同的模態(tài)損壞場(chǎng)景,支持包括 BLIP [2]、CLIP [3] 等主流預(yù)訓(xùn)練模型。

觀察與方法

本文通過一系列的分析實(shí)驗(yàn)和方法設(shè)計(jì),深入探究了查詢偏移對(duì)公共空間的負(fù)面影響以及造成的高噪聲現(xiàn)象,具體如下:

圖片

圖 2:TCR 的框架圖

1)挑戰(zhàn)一:查詢偏移對(duì)模態(tài)內(nèi)和模態(tài)間的負(fù)面影響

為了進(jìn)一步探究查詢偏移對(duì)公共空間的負(fù)面影響,本文以一種 Untrain 的方式進(jìn)行量化實(shí)驗(yàn),即對(duì)推理階段的數(shù)據(jù)特征如下變換:

圖片

其中,Q 和 G 分別代表查詢模態(tài)與候選模態(tài),圖片 代表查詢模態(tài)的第 i 個(gè)樣本,圖片圖片分別代表查詢模態(tài)的樣本中心。換句話說(shuō),通過放縮樣本離中心的距離,調(diào)整模態(tài)內(nèi)分布的均勻性;通過對(duì)查詢模態(tài)的樣本進(jìn)行位移,控制兩個(gè)模態(tài)之間的差異。實(shí)驗(yàn)結(jié)論如下:

如圖 3(a),當(dāng)增大模態(tài)內(nèi)均勻性(圖片)和降低模態(tài)間差異(圖片)時(shí),檢索性能有所提升,反之不然。正如 [4] 中討論的,過度消除模態(tài)間差異不會(huì)改善甚至?xí)档湍P托阅堋?/span>本文進(jìn)一步觀察到當(dāng)降低模態(tài)間差異至源域的 Modality Gap 附近時(shí),能夠借助預(yù)訓(xùn)練模型構(gòu)建的良好跨模態(tài)關(guān)系,保障模型性能。

圖片

圖 3:模態(tài)內(nèi)均勻性與模態(tài)間差異的觀察

基于上述觀察,本文提出了如下?lián)p失:

模態(tài)內(nèi)分布約束。讓當(dāng)前查詢遠(yuǎn)離查詢模態(tài)的樣本中心,從而顯式增大模態(tài)內(nèi)均勻性:

圖片

其中,B代表當(dāng)前批次。

模態(tài)間差異約束。對(duì)齊目標(biāo)域和源域的模態(tài)間差異:

圖片

其中,圖片代表推理時(shí)的模態(tài)間差異,圖片代表預(yù)估的源域模態(tài)間差異。

如圖 4 所示,本文提出的 TCR 不僅增大了模態(tài)內(nèi)均勻性,而且降低了模態(tài)間差異,進(jìn)而提升了跨模態(tài)檢索性能。

圖片

圖 4:TTA 前后的特征分布

2)挑戰(zhàn)二:查詢偏移造成的高噪聲現(xiàn)象

過去的 TTA 方法依賴熵最小化范式,且主要應(yīng)用于分類任務(wù)。盡管可以通過將檢索視為分類任務(wù),進(jìn)而使用熵最小化,但檢索任務(wù)中候選項(xiàng)遠(yuǎn)大于類別的數(shù)量,直接應(yīng)用該范式會(huì)導(dǎo)致模型欠擬合。針對(duì)此,本文提出查詢預(yù)測(cè)優(yōu)化如下:

圖片

其中,圖片代表最近鄰篩選操作。該模塊不僅能夠排除不相關(guān)的候選項(xiàng),而且排除的候選項(xiàng)能夠避免對(duì)正確候選的大海撈針,從而避免模型欠擬合。如圖 5 所示,使用查詢預(yù)測(cè)優(yōu)化(Ref.)能夠顯著提升 TTA 的穩(wěn)定性。

圖片

圖 5:溫度系數(shù)的消融實(shí)驗(yàn)

盡管上述優(yōu)化緩解了欠擬合現(xiàn)象,但是查詢偏移仍然會(huì)導(dǎo)致大量的噪聲預(yù)測(cè)。針對(duì)此,本文提出噪聲魯棒學(xué)習(xí):

圖片

其中,圖片代表查詢預(yù)測(cè)的熵,圖片代表自適應(yīng)閾值。噪聲魯棒學(xué)習(xí)不僅通過自適應(yīng)閾值來(lái)過濾高熵的預(yù)測(cè),還為低熵的預(yù)測(cè)分配更高的權(quán)重,進(jìn)而實(shí)現(xiàn)對(duì)噪聲預(yù)測(cè)的魯棒性。

基準(zhǔn)與實(shí)驗(yàn)

為了更好地研究查詢偏移對(duì)跨模態(tài)檢索任務(wù)的影響,本文提出以下兩中評(píng)估方法:

  • 僅查詢偏移:只有查詢模態(tài)的分布與源域數(shù)據(jù)不同。依據(jù) [5],在 COCO [6] 和 Flickr [7] 數(shù)據(jù)集上分別引入了 16 種圖像損壞和 15 種文本損壞(按照不同嚴(yán)重程度共計(jì) 130 種損壞)。為了保證僅查詢偏移,先讓模型在對(duì)應(yīng)數(shù)據(jù)集上進(jìn)行微調(diào),隨后將微調(diào)后的模型應(yīng)用于僅有查詢偏移的推理數(shù)據(jù)集中。
  • 查詢 - 候選偏移:查詢模態(tài)和候選模態(tài)的分布都與源域數(shù)據(jù)不同。為了保證查詢 - 候選偏移,本文直接將預(yù)訓(xùn)練模型應(yīng)用于各領(lǐng)域的推理數(shù)據(jù)中,包括電商領(lǐng)域的 Fashion-Gen [8]、ReID 領(lǐng)域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然圖像領(lǐng)域的 Nocaps [11] 等。

部分實(shí)驗(yàn)結(jié)果如下:

1)僅查詢偏移

圖片

表 1:僅查詢偏移下的性能比較

2)查詢 - 候選偏移

圖片


圖片

表 3、4:查詢 - 候選偏移下的性能比較

總結(jié)與展望

本文提出的 TCR 從模態(tài)內(nèi)分布和模態(tài)間差異兩個(gè)層面揭示了查詢偏移對(duì)跨模態(tài)檢索性能的負(fù)面影響,并進(jìn)一步構(gòu)建了跨模態(tài)檢索 TTA 基準(zhǔn),為后續(xù)研究提供了實(shí)驗(yàn)觀察和評(píng)估體系。

展望未來(lái),隨著基礎(chǔ)模型的快速發(fā)展,TTA 有望在更復(fù)雜的跨模態(tài)場(chǎng)景(如 VQA 等)中發(fā)揮關(guān)鍵作用,推動(dòng)基礎(chǔ)模型從 "靜態(tài)預(yù)訓(xùn)練" 邁向 "推理自適應(yīng)" 的發(fā)展。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-21 10:08:37

2024-09-11 12:31:59

2025-02-27 14:10:00

模型AI訓(xùn)練

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2025-02-25 10:04:10

2009-03-20 12:23:36

信息

2025-04-10 09:15:03

2021-09-29 13:32:19

華為

2021-09-13 20:34:03

計(jì)算

2020-01-06 08:24:40

軟件開發(fā)者 IBM

2024-06-19 12:57:34

AI訓(xùn)練

2025-03-07 08:50:00

AI生成技術(shù)

2024-04-03 18:03:25

華為

2009-12-29 18:44:48

智能網(wǎng)絡(luò)四川災(zāi)區(qū)Radware

2024-06-25 09:40:29

2023-07-11 17:26:35

昇騰AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)