ICLR 2025 | 四川大學(xué)提出Test-time Adaptation新范式,突破查詢偏移挑戰(zhàn)
在 NeurIPS 2024 大會(huì)上,OpenAI 聯(lián)合創(chuàng)始人兼前首席科學(xué)家 Ilya Sutskever 在其主題報(bào)告中展望了基礎(chǔ)模型的未來(lái)研究方向,其中包括了 Inference Time Compute [1],即增強(qiáng)模型在推理階段的能力,這也是 OpenAI o1 和 o3 等核心項(xiàng)目的關(guān)鍵技術(shù)路徑。
作為 Inference Time Compute 的重要方向之一,Test-time Adaptation(TTA)旨在使預(yù)訓(xùn)練模型動(dòng)態(tài)適應(yīng)推理階段中不同分布類型的數(shù)據(jù),能夠有效提高神經(jīng)網(wǎng)絡(luò)模型的分布外泛化能力。
然而,當(dāng)前 TTA 的應(yīng)用場(chǎng)景仍存在較大局限性,主要集中在單模態(tài)任務(wù)中,如識(shí)別、分割等領(lǐng)域。
近日,四川大學(xué) XLearning 團(tuán)隊(duì)將 TTA 拓展至跨模態(tài)檢索任務(wù)中,有效緩解了查詢偏移(Query Shift)挑戰(zhàn)的負(fù)面影響,有望推動(dòng) Inference time compute 向跨模態(tài)應(yīng)用發(fā)展。
目前,該論文已被機(jī)器學(xué)習(xí)國(guó)際頂會(huì) ICLR 2025 接收并評(píng)選為 Spotlight(入選比例 5.1%)。
- 論文題目:Test-time Adaptation for Cross-modal Retrieval with Query Shift
- 論文地址:https://openreview.net/forum?id=BmG88rONaU
- 項(xiàng)目地址:https://hbinli.github.io/TCR/
背景與挑戰(zhàn)
跨模態(tài)檢索旨在通過構(gòu)建多模態(tài)共同空間來(lái)關(guān)聯(lián)不同模態(tài)的數(shù)據(jù),在搜索引擎、推薦系統(tǒng)等領(lǐng)域具有重要的應(yīng)用價(jià)值。如圖 1 (a) 所示,現(xiàn)有方法通?;陬A(yù)訓(xùn)練模型來(lái)構(gòu)建共同空間,并假設(shè)推理階段的查詢數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分布一致。然而,如圖 1 (b) 所示,在現(xiàn)實(shí)場(chǎng)景中,用戶的查詢往往具有高度個(gè)性化的特點(diǎn),甚至可能涉及不常見的需求,導(dǎo)致查詢偏移(Query Shift)挑戰(zhàn),即模型推理時(shí)查詢數(shù)據(jù)與源域數(shù)據(jù)的分布顯著不同。
圖 1:(a) 主流范式:利用預(yù)訓(xùn)練模型 Zero-shot 檢索或者 Fine-tune 后檢索。(b) 導(dǎo)致查詢偏移的原因:難以對(duì)數(shù)據(jù)稀缺的領(lǐng)域進(jìn)行微調(diào);即使微調(diào)模型,也會(huì)面臨 “眾口難調(diào)” 的問題。(c) 觀察:查詢偏移會(huì)降低模態(tài)內(nèi)的均勻性和增大模態(tài)間的差異。
如圖 1 (c) 所示,本文觀察到,查詢偏移不僅會(huì)破壞查詢模態(tài)的均勻性(Modality Uniformity),使得模型難以區(qū)分多樣化的查詢,還會(huì)增大查詢模態(tài)與候選模態(tài)間的差異(Modality Gap),破壞預(yù)訓(xùn)練模型構(gòu)建的跨模態(tài)對(duì)齊關(guān)系。這兩點(diǎn)都會(huì)導(dǎo)致預(yù)訓(xùn)練模型在推理階段的性能急劇下降。
盡管 TTA 作為能夠?qū)崟r(shí)應(yīng)對(duì)分布偏移的范式已取得顯著成功,但現(xiàn)有方法仍無(wú)法有效應(yīng)對(duì)查詢偏移挑戰(zhàn)。一方面,當(dāng)前 TTA 范式面向單模態(tài)任務(wù)設(shè)計(jì),無(wú)法有效應(yīng)對(duì)查詢偏移對(duì)模態(tài)內(nèi)分布和模態(tài)間對(duì)齊關(guān)系的影響。另一方面,現(xiàn)有 TTA 方法主要應(yīng)用于識(shí)別任務(wù),無(wú)法應(yīng)對(duì)檢索任務(wù)中的高噪聲現(xiàn)象,即候選項(xiàng)遠(yuǎn)大于類別數(shù)量會(huì)導(dǎo)致更大的錯(cuò)誤幾率。
主要貢獻(xiàn)
針對(duì)上述挑戰(zhàn),本文提出了 TCR,貢獻(xiàn)如下:
- 從模態(tài)內(nèi)分布和模態(tài)間差異兩個(gè)層面,揭示了查詢偏移導(dǎo)致檢索性能下降的根本原因。
- 將 TTA 范式擴(kuò)展至跨模態(tài)檢索領(lǐng)域,通過調(diào)整模態(tài)內(nèi)分布、模態(tài)間差異以及緩解檢索過程中的高噪聲現(xiàn)象,實(shí)現(xiàn)查詢偏移下的魯棒跨模態(tài)檢索。
- 為跨模態(tài)檢索 TTA 建立了統(tǒng)一的基準(zhǔn),涵蓋 6 個(gè)廣泛應(yīng)用的數(shù)據(jù)集和 130 種風(fēng)格各異、程度不同的模態(tài)損壞場(chǎng)景,支持包括 BLIP [2]、CLIP [3] 等主流預(yù)訓(xùn)練模型。
觀察與方法
本文通過一系列的分析實(shí)驗(yàn)和方法設(shè)計(jì),深入探究了查詢偏移對(duì)公共空間的負(fù)面影響以及造成的高噪聲現(xiàn)象,具體如下:
圖 2:TCR 的框架圖
1)挑戰(zhàn)一:查詢偏移對(duì)模態(tài)內(nèi)和模態(tài)間的負(fù)面影響
為了進(jìn)一步探究查詢偏移對(duì)公共空間的負(fù)面影響,本文以一種 Untrain 的方式進(jìn)行量化實(shí)驗(yàn),即對(duì)推理階段的數(shù)據(jù)特征如下變換:
其中,Q 和 G 分別代表查詢模態(tài)與候選模態(tài), 代表查詢模態(tài)的第 i 個(gè)樣本,
和
分別代表查詢模態(tài)的樣本中心。換句話說(shuō),通過放縮樣本離中心的距離,調(diào)整模態(tài)內(nèi)分布的均勻性;通過對(duì)查詢模態(tài)的樣本進(jìn)行位移,控制兩個(gè)模態(tài)之間的差異。實(shí)驗(yàn)結(jié)論如下:
如圖 3(a),當(dāng)增大模態(tài)內(nèi)均勻性()和降低模態(tài)間差異(
)時(shí),檢索性能有所提升,反之不然。正如 [4] 中討論的,過度消除模態(tài)間差異不會(huì)改善甚至?xí)档湍P托阅堋?/span>本文進(jìn)一步觀察到當(dāng)降低模態(tài)間差異至源域的 Modality Gap 附近時(shí),能夠借助預(yù)訓(xùn)練模型構(gòu)建的良好跨模態(tài)關(guān)系,保障模型性能。
圖 3:模態(tài)內(nèi)均勻性與模態(tài)間差異的觀察
基于上述觀察,本文提出了如下?lián)p失:
模態(tài)內(nèi)分布約束。讓當(dāng)前查詢遠(yuǎn)離查詢模態(tài)的樣本中心,從而顯式增大模態(tài)內(nèi)均勻性:
其中,B代表當(dāng)前批次。
模態(tài)間差異約束。對(duì)齊目標(biāo)域和源域的模態(tài)間差異:
其中,代表推理時(shí)的模態(tài)間差異,
代表預(yù)估的源域模態(tài)間差異。
如圖 4 所示,本文提出的 TCR 不僅增大了模態(tài)內(nèi)均勻性,而且降低了模態(tài)間差異,進(jìn)而提升了跨模態(tài)檢索性能。
圖 4:TTA 前后的特征分布
2)挑戰(zhàn)二:查詢偏移造成的高噪聲現(xiàn)象
過去的 TTA 方法依賴熵最小化范式,且主要應(yīng)用于分類任務(wù)。盡管可以通過將檢索視為分類任務(wù),進(jìn)而使用熵最小化,但檢索任務(wù)中候選項(xiàng)遠(yuǎn)大于類別的數(shù)量,直接應(yīng)用該范式會(huì)導(dǎo)致模型欠擬合。針對(duì)此,本文提出查詢預(yù)測(cè)優(yōu)化如下:
其中,代表最近鄰篩選操作。該模塊不僅能夠排除不相關(guān)的候選項(xiàng),而且排除的候選項(xiàng)能夠避免對(duì)正確候選的大海撈針,從而避免模型欠擬合。如圖 5 所示,使用查詢預(yù)測(cè)優(yōu)化(Ref.)能夠顯著提升 TTA 的穩(wěn)定性。
圖 5:溫度系數(shù)的消融實(shí)驗(yàn)
盡管上述優(yōu)化緩解了欠擬合現(xiàn)象,但是查詢偏移仍然會(huì)導(dǎo)致大量的噪聲預(yù)測(cè)。針對(duì)此,本文提出噪聲魯棒學(xué)習(xí):
其中,代表查詢預(yù)測(cè)的熵,
代表自適應(yīng)閾值。噪聲魯棒學(xué)習(xí)不僅通過自適應(yīng)閾值來(lái)過濾高熵的預(yù)測(cè),還為低熵的預(yù)測(cè)分配更高的權(quán)重,進(jìn)而實(shí)現(xiàn)對(duì)噪聲預(yù)測(cè)的魯棒性。
基準(zhǔn)與實(shí)驗(yàn)
為了更好地研究查詢偏移對(duì)跨模態(tài)檢索任務(wù)的影響,本文提出以下兩中評(píng)估方法:
- 僅查詢偏移:只有查詢模態(tài)的分布與源域數(shù)據(jù)不同。依據(jù) [5],在 COCO [6] 和 Flickr [7] 數(shù)據(jù)集上分別引入了 16 種圖像損壞和 15 種文本損壞(按照不同嚴(yán)重程度共計(jì) 130 種損壞)。為了保證僅查詢偏移,先讓模型在對(duì)應(yīng)數(shù)據(jù)集上進(jìn)行微調(diào),隨后將微調(diào)后的模型應(yīng)用于僅有查詢偏移的推理數(shù)據(jù)集中。
- 查詢 - 候選偏移:查詢模態(tài)和候選模態(tài)的分布都與源域數(shù)據(jù)不同。為了保證查詢 - 候選偏移,本文直接將預(yù)訓(xùn)練模型應(yīng)用于各領(lǐng)域的推理數(shù)據(jù)中,包括電商領(lǐng)域的 Fashion-Gen [8]、ReID 領(lǐng)域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然圖像領(lǐng)域的 Nocaps [11] 等。
部分實(shí)驗(yàn)結(jié)果如下:
1)僅查詢偏移
表 1:僅查詢偏移下的性能比較
2)查詢 - 候選偏移
表 3、4:查詢 - 候選偏移下的性能比較
總結(jié)與展望
本文提出的 TCR 從模態(tài)內(nèi)分布和模態(tài)間差異兩個(gè)層面揭示了查詢偏移對(duì)跨模態(tài)檢索性能的負(fù)面影響,并進(jìn)一步構(gòu)建了跨模態(tài)檢索 TTA 基準(zhǔn),為后續(xù)研究提供了實(shí)驗(yàn)觀察和評(píng)估體系。
展望未來(lái),隨著基礎(chǔ)模型的快速發(fā)展,TTA 有望在更復(fù)雜的跨模態(tài)場(chǎng)景(如 VQA 等)中發(fā)揮關(guān)鍵作用,推動(dòng)基礎(chǔ)模型從 "靜態(tài)預(yù)訓(xùn)練" 邁向 "推理自適應(yīng)" 的發(fā)展。