自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北京大學(xué)彭宇新教授團(tuán)隊開源最新多輪交互式商品檢索模型、數(shù)據(jù)集及評測基準(zhǔn)

人工智能 新聞
本文構(gòu)建了新的多輪組合圖像檢索數(shù)據(jù)集和評測基準(zhǔn)FashionMT。

本文是北京大學(xué)彭宇新教授團(tuán)隊在多輪交互式商品檢索的最新研究成果,已被 ICLR 2025 接收并開源。

圖像檢索是計算機(jī)視覺的經(jīng)典任務(wù),近年來在電商等場景中廣泛應(yīng)用。然而,單一圖像難以滿足用戶需求,用戶常需要修改圖像以適配特定場景。為此,組合圖像檢索(CIR)應(yīng)運(yùn)而生,旨在通過結(jié)合參考圖像和修改文本來定位目標(biāo)圖像。隨著多輪交互需求的增加,多輪組合圖像檢索(MTCIR)逐漸成為研究熱點,能夠利用用戶迭代反饋不斷優(yōu)化檢索結(jié)果。然而,現(xiàn)有MTCIR方法通常通過串聯(lián)單輪CIR數(shù)據(jù)集構(gòu)建多輪數(shù)據(jù)集,存在兩點不足:

(1)歷史上下文缺失:修改文本缺乏對歷史圖像的關(guān)聯(lián),導(dǎo)致檢索偏離實際場景;

(2)數(shù)據(jù)規(guī)模受限:單輪數(shù)據(jù)集規(guī)模有限,串聯(lián)方式進(jìn)一步壓縮了多輪數(shù)據(jù)集的規(guī)模,難以滿足研究和應(yīng)用需求。

為解決上述問題,本文構(gòu)建了新的多輪組合圖像檢索數(shù)據(jù)集和評測基準(zhǔn)FashionMT。其特點包括:

(1)回溯性:每輪修改文本可能涉及歷史參考圖像信息(如保留特定屬性),要求算法回溯利用多輪歷史信息;

(2)多樣化:FashionMT包含的電商圖像數(shù)量和類別分別是MT FashionIQ的14倍和30倍,且交互輪次數(shù)量接近其27倍,提供了豐富的多模態(tài)檢索場景。

本文進(jìn)一步提出了多輪聚合-迭代模型MAI,重點應(yīng)對MTCIR中的兩大挑戰(zhàn):

(1)多模態(tài)語義聚合。

(2)多輪信息優(yōu)化。具體而言,MAI引入了一種新的兩階段語義聚合(TSA)范式,并結(jié)合循環(huán)組合損失(CCL)計算。TSA通過引入描述文本作為過渡,逐步將圖像與其描述文本聚合,再與修改文本聚合。CCL的循環(huán)結(jié)構(gòu)進(jìn)一步增強(qiáng)了語義一致性和模態(tài)對齊。此外,本文設(shè)計了一種無參數(shù)的多輪迭代優(yōu)化(MIO)機(jī)制,動態(tài)選擇具有高語義多樣性的代表性標(biāo)記,有效壓縮了歷史數(shù)據(jù)表征的存儲空間。實驗結(jié)果表明,本方法在所提出的新基準(zhǔn)FashionMT的召回指標(biāo)上平均提升了8%,優(yōu)于現(xiàn)有方法。

  • 論文標(biāo)題:MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval
  • 論文鏈接:https://openreview.net/pdf?id=gXyWbl71n1
  • 開源代碼:https://github.com/PKU-ICST-MIPL/MAI_ICLR2025
  • 實驗室網(wǎng)址:https://www.wict.pku.edu.cn/mipl

背景與動機(jī)

多輪組合圖像檢索(MTCIR)作為電商場景的關(guān)鍵技術(shù),旨在通過持續(xù)對話理解用戶動態(tài)調(diào)整的需求?,F(xiàn)有方法采用"多輪串聯(lián)單輪"范式時,模型陷入僅依賴當(dāng)前輪次圖像的路徑依賴,導(dǎo)致歷史語義鏈路斷裂——當(dāng)用戶修改需求涉及歷史屬性時(如"保留前兩輪的袖口設(shè)計"),檢索系統(tǒng)因無法回溯上下文而失效。這一現(xiàn)象暴露兩大關(guān)鍵不足:首先,現(xiàn)有數(shù)據(jù)集構(gòu)建方式割裂了跨輪次的語義關(guān)聯(lián),使模型陷入局部最優(yōu)陷阱;其次,傳統(tǒng)單輪優(yōu)化范式難以適應(yīng)多輪場景的語義累積特性,在長程信息傳遞與動態(tài)記憶壓縮方面存在設(shè)計局限。

針對上述不足,本文提出了系統(tǒng)性解決方案:

(1) 跨輪次語義建??蚣埽?/strong>通過顯式標(biāo)注多輪修改需求與歷史圖像的語義關(guān)聯(lián),構(gòu)建首個具備歷史回溯特性的數(shù)據(jù)集和評測基準(zhǔn)FashionMT;

(2) 兩階段跨模態(tài)語義聚合:設(shè)計基于TSA模塊與CCL損失的漸進(jìn)式對齊架構(gòu),通過圖像-文本-指令的層級交互解決模態(tài)鴻溝問題;

(3) 動態(tài)記憶壓縮機(jī)制:設(shè)計MIO模塊,利用基于聚類算法的token選擇策略實現(xiàn)長程依賴建模中的信息優(yōu)化,在保持檢索精度的同時減少歷史信息冗余存儲。本文方法實現(xiàn)了多輪檢索中語義連續(xù)性與計算效率的協(xié)同優(yōu)化。

圖1. 多輪組合圖像檢索樣例展示

數(shù)據(jù)集和評測基準(zhǔn)

本文的數(shù)據(jù)主要來源于兩個渠道:1. 從現(xiàn)有的單輪組合圖像檢索數(shù)據(jù)集收集圖像及相關(guān)文本;2. 從多個電商平臺爬取圖像及相關(guān)文本。在數(shù)據(jù)預(yù)處理過程中,本文對爬取的圖像進(jìn)行了清洗,去除損壞、模糊以及非商品類圖像。

圖2. 數(shù)據(jù)集和評測基準(zhǔn)FashionMT數(shù)據(jù)分布圖

受現(xiàn)有修改文本手工標(biāo)注過程的啟發(fā),本文提出了一個自動化的數(shù)據(jù)集構(gòu)建框架-修改生成框架(MGF),旨在通過捕捉參考圖像和目標(biāo)圖像對之間的差異,自動構(gòu)建數(shù)據(jù)集。該框架包括以下步驟:

1. 圖像選擇:從某一產(chǎn)品子類中選擇N+1張圖像用于N輪交易;2. 標(biāo)題生成:利用圖像描述模型為這些圖像生成標(biāo)題;3. 基礎(chǔ)修改生成:采用大型語言模型(LLM)描述相鄰輪次圖像標(biāo)題之間的差異;4. 回溯性修改生成:確定需要回溯分析的特定輪次,并根據(jù)最新圖像與歷史圖像之間的屬性交集生成相應(yīng)的修改文本。

為了更好地適應(yīng)現(xiàn)實場景中的回溯性需求,本文設(shè)定了兩種回溯性修改文本生成情境:回滾和組合。在回滾設(shè)置中,通過回滾的方式在指定的參考圖像與目標(biāo)圖像之間生成修改文本。該情境下的示例為:“Compared to the most recent turn, I still prefer the item from the second turn. Building on that, I like...”。在組合設(shè)置中,用戶結(jié)合多個歷史輪次中的圖像屬性來構(gòu)建修改請求。該情境下的示例為:“I like ... from the first turn, and ... from the second turn” 。在此設(shè)置中,修改文本由兩部分組成:第一部分是描述需要保留的公共屬性,并以提示 “Keep the {Attr} in the {ID} turn” 開頭,其中 {Attr}表示如顏色、logo、圖案等屬性,{ID}表示與目標(biāo)圖像共享屬性的輪次;第二部分描述附加的修改需求。

FashionMT在規(guī)模和豐富性上顯著超越現(xiàn)有數(shù)據(jù)集,圖像數(shù)量是MT FashionIQ的14倍,類別數(shù)量是MT Shoes的近10倍。通過利用修改生成框架,F(xiàn)ashionMT實現(xiàn)了高效的交易構(gòu)建,數(shù)據(jù)集規(guī)模為MT FashionIQ的27倍。此外,F(xiàn)ashionMT的修改文本更加詳盡,平均長度是MT FashionIQ的兩倍。作為專為MTCIR任務(wù)設(shè)計的數(shù)據(jù)集,F(xiàn)ashionMT為多模態(tài)圖像檢索任務(wù)提供了更加全面和真實的數(shù)據(jù)支持。

技術(shù)方案

為應(yīng)對MTCIR中的兩大挑戰(zhàn)——多模態(tài)語義聚合多輪信息優(yōu)化,本文提出了多輪聚合-迭代模型(MAI)。如圖3所示,MAI包含4個主要模塊:

1.多模態(tài)語義聚合(BSA):通過聚合圖像描述和修改文本的語義信息,增強(qiáng)圖像與文本之間的語義對齊。

2.多輪迭代優(yōu)化(MIO):通過優(yōu)化多輪交互中的關(guān)鍵語義 tokens,減少冗余信息,提升檢索性能。

3.修改語義聚合(MSA):將修改文本與參考圖像的語義信息進(jìn)行融合,以強(qiáng)化修改內(nèi)容對圖像的語義影響。

4.循環(huán)組合損失(CCL):通過多輪訓(xùn)練中的循環(huán)優(yōu)化機(jī)制,強(qiáng)化目標(biāo)圖像與修改文本之間的匹配度。

圖3. 多輪聚合-迭代模型方法框架圖

模塊1:多模態(tài)語義聚合(BSA)

在第 n 輪,首先對修改文本進(jìn)行語法分析,判斷是否存在回滾操作,判斷標(biāo)準(zhǔn)是基于預(yù)設(shè)模板生成的修改文本。如果修改文本匹配回滾模板,則將參考圖像指定為回滾輪次中的圖像;如果不匹配,則默認(rèn)選擇第 n 輪的參考圖像。通過凍結(jié)視覺編碼器提取圖像的視覺補(bǔ)丁嵌入。BSA 框架通過可學(xué)習(xí)的 tokens,首先學(xué)習(xí)圖像及其描述之間的模態(tài)語義,然后與修改文本進(jìn)行交互,從而在與修改文本交互時增強(qiáng)模態(tài)之間的相關(guān)性。經(jīng)過 BSA 后,tokens 聚合了參考圖像和圖像描述的多模態(tài)語義,記為。

模塊2:多輪迭代優(yōu)化(MIO)

盡管tokens 比視覺嵌入更節(jié)省空間,但為每一輪存儲這些 tokens 仍會消耗大量空間。電商圖像通常具有不同的屬性,如顏色、風(fēng)格、尺寸等,而多輪檢索往往涉及同一子類別的商品,導(dǎo)致多輪圖像之間存在相似屬性。因此,提出了一種無參數(shù)機(jī)制,用于優(yōu)化并保留在多輪交互中關(guān)鍵的語義屬性。本方法將上一輪的學(xué)習(xí)到的與當(dāng)前輪的拼接得到,優(yōu)化過程包括以下幾個步驟:

(1)聚類:基于 k-最近鄰的密度峰值聚類算法(DPC-kNN),對進(jìn)行聚類,聚類操作可表示如下

其中表示第 i 個聚類,為第 i 個聚類的質(zhì)心。

(2)密度估計:聚類后,根據(jù)簇內(nèi) tokens 與其他 tokens 的距離,估計每個簇的密度,低密度的 tokens 會被過濾掉。密度估計公式為:

其中 Nei(v) 表示 v 的鄰近 tokens。

(3)修剪:通過計算每個 token 的密度和與鄰近點的距離,過濾得分較低的 tokens,保留得分高即語義顯著的 tokens。最終表示為 ,有效保留了攜帶判別性語義的 tokens,減少了計算資源的消耗。

模塊3:修改語義聚合(MSA)

在 MSA 階段,本文將包含參考語義的tokens 與修改文本嵌入 m_n 進(jìn)行交互。通過凍結(jié)文本編碼器提取修改文本的嵌入,將其與拼接后輸入自注意力層。隨后,經(jīng)過線性變換和歸一化處理,最終得到參考端的嵌入,該嵌入同時包含來自參考圖像、圖像描述和修改文本的多模態(tài)語義。由于涉及多個歷史圖像,BSA 將通過拼接前幾輪的tokens 與對應(yīng)的圖像描述,進(jìn)行多模態(tài)嵌入的聚合。隨后,這些嵌入將與修改文本在 MSA 中進(jìn)行語義聚合。

模塊4:循環(huán)組合損失(CCL)

在多輪組合圖像檢索任務(wù)中,修改文本在檢索過程中的引導(dǎo)作用至關(guān)重要。為此,本文提出了循環(huán)組合損失(CCL),旨在通過對多模態(tài)信息進(jìn)行精確對齊,強(qiáng)化圖像與文本之間的語義關(guān)聯(lián),特別是文本修改的語義。具體而言,本文設(shè)計的循環(huán)組合損失目標(biāo)是通過多輪迭代中圖像和文本的語義對齊,確保檢索結(jié)果更加準(zhǔn)確。該損失函數(shù)結(jié)合了4種嵌入的約束,包括參考圖像的語義嵌入、目標(biāo)圖像的語義嵌入、修改文本的語義嵌入以及目標(biāo)圖像的文本特征。通過多輪訓(xùn)練,強(qiáng)化每輪之間語義的傳遞和優(yōu)化,使得最終的目標(biāo)圖像能更好地與修改文本匹配。循環(huán)組合損失(CCL) 由以下4項損失組成: 

(1)參考圖像語義與目標(biāo)圖像語義之間的相似度損失

(2)目標(biāo)圖像語義與修改文本語義之間的相似度損失

(3)修改文本語義與目標(biāo)圖像文本特征之間的相似度損失

(4)目標(biāo)圖像文本特征與參考圖像語義之間的相似度損失

每一項相似度損失通過批量分類損失計算,使用內(nèi)積方法(余弦相似度)衡量嵌入之間的相似性。最終,循環(huán)組合損失為各輪損失的累積,確保在多輪交互中,所有語義信息得到充分融合和優(yōu)化,其公式展示如下:

實驗結(jié)果

表1. 在FashionMT數(shù)據(jù)集上的實驗結(jié)果

表1的實驗結(jié)果表明,本文所提出的MAI方法顯著優(yōu)于現(xiàn)有方法,在檢索的召回率平均指標(biāo)上相比新加坡A*STAR研究院的SPRC方法提高了8.63%,相比北京大學(xué)發(fā)布的多模態(tài)混合輸入大模型MMICL提高了11.77%。

圖4. 在FashionMT數(shù)據(jù)集上的檢索結(jié)果可視化

圖4表明, MAI通過利用TSA和CCL高效聚合圖像-描述文本的語義,能夠有效處理細(xì)粒度需求,使其對“縐布”和“復(fù)古設(shè)計”等領(lǐng)域特定術(shù)語具有識別能力。此外,MAI通過使用MIO組件保留多輪歷史關(guān)鍵信息,能夠精確解釋諸如“肩帶設(shè)計”等模糊表達(dá),從而滿足回溯性需求。

更多內(nèi)容,請參見原文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-18 09:10:00

2013-04-02 11:23:17

Hadoop優(yōu)酷

2024-08-13 15:00:00

大模型提示學(xué)習(xí)

2012-02-03 11:13:49

北京大學(xué)浪潮高性能計算

2009-08-17 11:02:25

2012-11-28 16:05:47

應(yīng)用交付負(fù)載均衡AD

2015-11-23 17:37:54

51社保

2023-12-14 13:30:00

AI模型

2012-08-04 08:16:39

戴爾

2023-05-19 11:00:19

數(shù)據(jù)集開源

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2016-04-14 16:21:38

2024-07-02 13:30:50

2024-01-09 15:07:44

AI訓(xùn)練

2009-06-01 11:04:39

CIO

2015-02-06 09:23:52

賽可達(dá)實驗室網(wǎng)絡(luò)安全

2023-09-19 13:48:02

2024-11-11 07:03:00

HK-O1aw人工智能法律推理大模型

2012-10-15 16:43:04

2012年度IT博客大賴茂生
點贊
收藏

51CTO技術(shù)棧公眾號