自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="znhk5"></blockquote>

<wbr id="znhk5"><sup id="znhk5"></sup></wbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

ICLR 2025 | 四川大學(xué)提出Test-time Adaptation新范式，突破查詢偏移挑戰(zhàn)

作者：機(jī)器之心 2025-03-18 09:33:13

人工智能新聞

近日，四川大學(xué) XLearning 團(tuán)隊(duì)將 TTA 拓展至跨模態(tài)檢索任務(wù)中，有效緩解了查詢偏移（Query Shift）挑戰(zhàn)的負(fù)面影響，有望推動(dòng) Inference time compute 向跨模態(tài)應(yīng)用發(fā)展。

在 NeurIPS 2024 大會(huì)上，OpenAI 聯(lián)合創(chuàng)始人兼前首席科學(xué)家 Ilya Sutskever 在其主題報(bào)告中展望了基礎(chǔ)模型的未來(lái)研究方向，其中包括了 Inference Time Compute [1]，即增強(qiáng)模型在推理階段的能力，這也是 OpenAI o1 和 o3 等核心項(xiàng)目的關(guān)鍵技術(shù)路徑。

作為 Inference Time Compute 的重要方向之一，Test-time Adaptation（TTA）旨在使預(yù)訓(xùn)練模型動(dòng)態(tài)適應(yīng)推理階段中不同分布類型的數(shù)據(jù)，能夠有效提高神經(jīng)網(wǎng)絡(luò)模型的分布外泛化能力。

然而，當(dāng)前 TTA 的應(yīng)用場(chǎng)景仍存在較大局限性，主要集中在單模態(tài)任務(wù)中，如識(shí)別、分割等領(lǐng)域。

近日，四川大學(xué) XLearning 團(tuán)隊(duì)將 TTA 拓展至跨模態(tài)檢索任務(wù)中，有效緩解了查詢偏移（Query Shift）挑戰(zhàn)的負(fù)面影響，有望推動(dòng) Inference time compute 向跨模態(tài)應(yīng)用發(fā)展。

目前，該論文已被機(jī)器學(xué)習(xí)國(guó)際頂會(huì) ICLR 2025 接收并評(píng)選為 Spotlight（入選比例 5.1%）。

論文題目：Test-time Adaptation for Cross-modal Retrieval with Query Shift
論文地址：https://openreview.net/forum?id=BmG88rONaU
項(xiàng)目地址：https://hbinli.github.io/TCR/

背景與挑戰(zhàn)

跨模態(tài)檢索旨在通過構(gòu)建多模態(tài)共同空間來(lái)關(guān)聯(lián)不同模態(tài)的數(shù)據(jù)，在搜索引擎、推薦系統(tǒng)等領(lǐng)域具有重要的應(yīng)用價(jià)值。如圖 1 (a) 所示，現(xiàn)有方法通?；陬A(yù)訓(xùn)練模型來(lái)構(gòu)建共同空間，并假設(shè)推理階段的查詢數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分布一致。然而，如圖 1 (b) 所示，在現(xiàn)實(shí)場(chǎng)景中，用戶的查詢往往具有高度個(gè)性化的特點(diǎn)，甚至可能涉及不常見的需求，導(dǎo)致查詢偏移（Query Shift）挑戰(zhàn)，即模型推理時(shí)查詢數(shù)據(jù)與源域數(shù)據(jù)的分布顯著不同。

圖 1：(a) 主流范式：利用預(yù)訓(xùn)練模型 Zero-shot 檢索或者 Fine-tune 后檢索。(b) 導(dǎo)致查詢偏移的原因：難以對(duì)數(shù)據(jù)稀缺的領(lǐng)域進(jìn)行微調(diào)；即使微調(diào)模型，也會(huì)面臨 “眾口難調(diào)” 的問題。(c) 觀察：查詢偏移會(huì)降低模態(tài)內(nèi)的均勻性和增大模態(tài)間的差異。

如圖 1 (c) 所示，本文觀察到，查詢偏移不僅會(huì)破壞查詢模態(tài)的均勻性（Modality Uniformity），使得模型難以區(qū)分多樣化的查詢，還會(huì)增大查詢模態(tài)與候選模態(tài)間的差異（Modality Gap），破壞預(yù)訓(xùn)練模型構(gòu)建的跨模態(tài)對(duì)齊關(guān)系。這兩點(diǎn)都會(huì)導(dǎo)致預(yù)訓(xùn)練模型在推理階段的性能急劇下降。

盡管 TTA 作為能夠?qū)崟r(shí)應(yīng)對(duì)分布偏移的范式已取得顯著成功，但現(xiàn)有方法仍無(wú)法有效應(yīng)對(duì)查詢偏移挑戰(zhàn)。一方面，當(dāng)前 TTA 范式面向單模態(tài)任務(wù)設(shè)計(jì)，無(wú)法有效應(yīng)對(duì)查詢偏移對(duì)模態(tài)內(nèi)分布和模態(tài)間對(duì)齊關(guān)系的影響。另一方面，現(xiàn)有 TTA 方法主要應(yīng)用于識(shí)別任務(wù)，無(wú)法應(yīng)對(duì)檢索任務(wù)中的高噪聲現(xiàn)象，即候選項(xiàng)遠(yuǎn)大于類別數(shù)量會(huì)導(dǎo)致更大的錯(cuò)誤幾率。

主要貢獻(xiàn)

針對(duì)上述挑戰(zhàn)，本文提出了 TCR，貢獻(xiàn)如下：

從模態(tài)內(nèi)分布和模態(tài)間差異兩個(gè)層面，揭示了查詢偏移導(dǎo)致檢索性能下降的根本原因。
將 TTA 范式擴(kuò)展至跨模態(tài)檢索領(lǐng)域，通過調(diào)整模態(tài)內(nèi)分布、模態(tài)間差異以及緩解檢索過程中的高噪聲現(xiàn)象，實(shí)現(xiàn)查詢偏移下的魯棒跨模態(tài)檢索。
為跨模態(tài)檢索 TTA 建立了統(tǒng)一的基準(zhǔn)，涵蓋 6 個(gè)廣泛應(yīng)用的數(shù)據(jù)集和 130 種風(fēng)格各異、程度不同的模態(tài)損壞場(chǎng)景，支持包括 BLIP [2]、CLIP [3] 等主流預(yù)訓(xùn)練模型。

觀察與方法

本文通過一系列的分析實(shí)驗(yàn)和方法設(shè)計(jì)，深入探究了查詢偏移對(duì)公共空間的負(fù)面影響以及造成的高噪聲現(xiàn)象，具體如下：

圖 2：TCR 的框架圖

1）挑戰(zhàn)一：查詢偏移對(duì)模態(tài)內(nèi)和模態(tài)間的負(fù)面影響

為了進(jìn)一步探究查詢偏移對(duì)公共空間的負(fù)面影響，本文以一種 Untrain 的方式進(jìn)行量化實(shí)驗(yàn)，即對(duì)推理階段的數(shù)據(jù)特征如下變換：

其中，Q 和 G 分別代表查詢模態(tài)與候選模態(tài)，代表查詢模態(tài)的第 i 個(gè)樣本，和分別代表查詢模態(tài)的樣本中心。換句話說(shuō)，通過放縮樣本離中心的距離，調(diào)整模態(tài)內(nèi)分布的均勻性；通過對(duì)查詢模態(tài)的樣本進(jìn)行位移，控制兩個(gè)模態(tài)之間的差異。實(shí)驗(yàn)結(jié)論如下：

如圖 3（a），當(dāng)增大模態(tài)內(nèi)均勻性（）和降低模態(tài)間差異（）時(shí)，檢索性能有所提升，反之不然。正如 [4] 中討論的，過度消除模態(tài)間差異不會(huì)改善甚至?xí)档湍Ｐ托阅堋?/span>本文進(jìn)一步觀察到當(dāng)降低模態(tài)間差異至源域的 Modality Gap 附近時(shí)，能夠借助預(yù)訓(xùn)練模型構(gòu)建的良好跨模態(tài)關(guān)系，保障模型性能。

圖 3：模態(tài)內(nèi)均勻性與模態(tài)間差異的觀察

基于上述觀察，本文提出了如下?lián)p失：

模態(tài)內(nèi)分布約束。讓當(dāng)前查詢遠(yuǎn)離查詢模態(tài)的樣本中心，從而顯式增大模態(tài)內(nèi)均勻性：

其中，B代表當(dāng)前批次。

模態(tài)間差異約束。對(duì)齊目標(biāo)域和源域的模態(tài)間差異：

其中，代表推理時(shí)的模態(tài)間差異，代表預(yù)估的源域模態(tài)間差異。

如圖 4 所示，本文提出的 TCR 不僅增大了模態(tài)內(nèi)均勻性，而且降低了模態(tài)間差異，進(jìn)而提升了跨模態(tài)檢索性能。

圖 4：TTA 前后的特征分布

2）挑戰(zhàn)二：查詢偏移造成的高噪聲現(xiàn)象

過去的 TTA 方法依賴熵最小化范式，且主要應(yīng)用于分類任務(wù)。盡管可以通過將檢索視為分類任務(wù)，進(jìn)而使用熵最小化，但檢索任務(wù)中候選項(xiàng)遠(yuǎn)大于類別的數(shù)量，直接應(yīng)用該范式會(huì)導(dǎo)致模型欠擬合。針對(duì)此，本文提出查詢預(yù)測(cè)優(yōu)化如下：

其中，代表最近鄰篩選操作。該模塊不僅能夠排除不相關(guān)的候選項(xiàng)，而且排除的候選項(xiàng)能夠避免對(duì)正確候選的大海撈針，從而避免模型欠擬合。如圖 5 所示，使用查詢預(yù)測(cè)優(yōu)化（Ref.）能夠顯著提升 TTA 的穩(wěn)定性。

圖 5：溫度系數(shù)的消融實(shí)驗(yàn)

盡管上述優(yōu)化緩解了欠擬合現(xiàn)象，但是查詢偏移仍然會(huì)導(dǎo)致大量的噪聲預(yù)測(cè)。針對(duì)此，本文提出噪聲魯棒學(xué)習(xí)：

其中，代表查詢預(yù)測(cè)的熵，代表自適應(yīng)閾值。噪聲魯棒學(xué)習(xí)不僅通過自適應(yīng)閾值來(lái)過濾高熵的預(yù)測(cè)，還為低熵的預(yù)測(cè)分配更高的權(quán)重，進(jìn)而實(shí)現(xiàn)對(duì)噪聲預(yù)測(cè)的魯棒性。

基準(zhǔn)與實(shí)驗(yàn)

為了更好地研究查詢偏移對(duì)跨模態(tài)檢索任務(wù)的影響，本文提出以下兩中評(píng)估方法：

僅查詢偏移：只有查詢模態(tài)的分布與源域數(shù)據(jù)不同。依據(jù) [5]，在 COCO [6] 和 Flickr [7] 數(shù)據(jù)集上分別引入了 16 種圖像損壞和 15 種文本損壞（按照不同嚴(yán)重程度共計(jì) 130 種損壞）。為了保證僅查詢偏移，先讓模型在對(duì)應(yīng)數(shù)據(jù)集上進(jìn)行微調(diào)，隨后將微調(diào)后的模型應(yīng)用于僅有查詢偏移的推理數(shù)據(jù)集中。
查詢 - 候選偏移：查詢模態(tài)和候選模態(tài)的分布都與源域數(shù)據(jù)不同。為了保證查詢 - 候選偏移，本文直接將預(yù)訓(xùn)練模型應(yīng)用于各領(lǐng)域的推理數(shù)據(jù)中，包括電商領(lǐng)域的 Fashion-Gen [8]、ReID 領(lǐng)域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然圖像領(lǐng)域的 Nocaps [11] 等。

部分實(shí)驗(yàn)結(jié)果如下：

1）僅查詢偏移

表 1：僅查詢偏移下的性能比較

2）查詢 - 候選偏移

表 3、4：查詢 - 候選偏移下的性能比較

總結(jié)與展望

本文提出的 TCR 從模態(tài)內(nèi)分布和模態(tài)間差異兩個(gè)層面揭示了查詢偏移對(duì)跨模態(tài)檢索性能的負(fù)面影響，并進(jìn)一步構(gòu)建了跨模態(tài)檢索 TTA 基準(zhǔn)，為后續(xù)研究提供了實(shí)驗(yàn)觀察和評(píng)估體系。

展望未來(lái)，隨著基礎(chǔ)模型的快速發(fā)展，TTA 有望在更復(fù)雜的跨模態(tài)場(chǎng)景（如 VQA 等）中發(fā)揮關(guān)鍵作用，推動(dòng)基礎(chǔ)模型從 "靜態(tài)預(yù)訓(xùn)練" 邁向 "推理自適應(yīng)" 的發(fā)展。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 數(shù)據(jù)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)