多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí);基于心理意象模擬的感知視角推理;動態(tài)視覺token壓縮框架
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
2025-04-24|USYD, Deep Glint, Alibaba Group, ICL(Imperial)|??28
??http://arxiv.org/abs/2504.17432v1???
???https://huggingface.co/papers/2504.17432???
???https://garygutc.github.io/UniME??
研究背景與意義
- 背景概述:當(dāng)前多模態(tài)表示學(xué)習(xí)領(lǐng)域,CLIP框架因其跨模態(tài)對比學(xué)習(xí)能力被廣泛采用,尤其在圖文檢索和聚類任務(wù)中表現(xiàn)突出。然而,CLIP存在文本長度限制、圖文編碼解耦以及組合性不足等瓶頸,限制了其在復(fù)雜多模態(tài)任務(wù)中的表現(xiàn)。
- 挑戰(zhàn)點(diǎn):現(xiàn)有模型難以有效捕捉細(xì)粒度語義和復(fù)雜指令,且在區(qū)分難負(fù)樣本時表現(xiàn)不佳,影響了多模態(tài)表示的判別能力和泛化性能。
- 研究目標(biāo):本文提出UniME框架,旨在突破模態(tài)壁壘,利用多模態(tài)大語言模型(MLLMs)學(xué)習(xí)通用且具備強(qiáng)判別能力的多模態(tài)嵌入,提升跨任務(wù)的表現(xiàn)力和組合理解能力。
研究方法與創(chuàng)新
技術(shù)框架:UniME采用兩階段訓(xùn)練策略:
- 文本判別知識蒸餾:從強(qiáng)大的LLM教師模型遷移判別知識,增強(qiáng)MLLM語言組件的嵌入能力。該階段通過文本輸入訓(xùn)練,利用KL散度對齊學(xué)生模型與教師模型的嵌入分布,有效克服因自回歸結(jié)構(gòu)導(dǎo)致的判別力不足。
- 難負(fù)樣本增強(qiáng)指令調(diào)優(yōu):通過過濾偽負(fù)樣本和采樣多樣化的難負(fù)樣本,強(qiáng)化模型對細(xì)粒度差異的敏感性,提升跨模態(tài)對齊和指令執(zhí)行能力。該階段結(jié)合多模態(tài)輸入和任務(wù)特定指令,進(jìn)一步優(yōu)化嵌入判別力。
創(chuàng)新點(diǎn):
- 引入基于教師模型的判別知識蒸餾,顯著提升語言組件嵌入的判別力。
- 設(shè)計(jì)偽負(fù)樣本過濾機(jī)制和多難負(fù)樣本采樣策略,有效解決難負(fù)樣本辨識難題,增強(qiáng)模型泛化能力。
- 結(jié)合任務(wù)指令調(diào)優(yōu),提升復(fù)雜檢索和視覺問答等任務(wù)的執(zhí)行效果。
理論基礎(chǔ):結(jié)合信息論中的KL散度優(yōu)化和對比學(xué)習(xí)中的InfoNCE損失,理論上保證了模型在判別性和對齊能力上的提升。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
實(shí)驗(yàn)設(shè)計(jì):
- 訓(xùn)練數(shù)據(jù)涵蓋273k自然語言推理文本對和MMEB基準(zhǔn)中的20個多模態(tài)任務(wù)數(shù)據(jù),保證多樣性和任務(wù)覆蓋。
- 評估指標(biāo)主要為Precision@1和Recall@1,覆蓋分類、視覺問答、檢索和視覺定位等多種任務(wù)。
- 對比基線包括CLIP、EVA-CLIP、E5-V、VLM2Vec等多模態(tài)模型,涵蓋不同規(guī)模和結(jié)構(gòu)。
主要結(jié)果:
- UniME在MMEB基準(zhǔn)上平均提升4.1%-4.2%的性能,尤其在視覺問答和檢索任務(wù)中表現(xiàn)突出。
- 在短文本和長文本圖文檢索任務(wù)中,UniME通過兩階段訓(xùn)練分別帶來顯著提升,最終性能超過VLM2Vec和EVA-CLIP。
- 組合性檢索任務(wù)中,UniME展示了更強(qiáng)的語義理解和判別能力,部分指標(biāo)提升幅度達(dá)15.9%以上。
- 統(tǒng)計(jì)顯著性:訓(xùn)練過程中,硬負(fù)樣本帶來的梯度顯著高于易負(fù)樣本,訓(xùn)練損失穩(wěn)定且收斂良好,表明模型有效學(xué)習(xí)了更具挑戰(zhàn)性的判別信息。
- 多場景表現(xiàn):UniME在跨模態(tài)多任務(wù)、不同數(shù)據(jù)分布(內(nèi)外部分布)下均表現(xiàn)出穩(wěn)健性和優(yōu)越性,驗(yàn)證了其通用嵌入的有效性。
結(jié)論與展望
研究貢獻(xiàn)總結(jié):
- 提出了一種創(chuàng)新的兩階段訓(xùn)練框架,成功提升了MLLM的多模態(tài)判別嵌入能力。
- 通過知識蒸餾與難負(fù)樣本增強(qiáng),顯著改善了模型在細(xì)粒度語義理解和復(fù)雜指令執(zhí)行上的表現(xiàn)。
- 實(shí)驗(yàn)驗(yàn)證了UniME在多任務(wù)、多數(shù)據(jù)集上的優(yōu)越性能,推動了多模態(tài)大語言模型在通用嵌入學(xué)習(xí)領(lǐng)域的應(yīng)用。
局限性分析:
- 訓(xùn)練過程對計(jì)算資源需求較高,尤其是在大規(guī)模硬負(fù)樣本采樣階段。
- 目前模型在極長文本處理和極端復(fù)雜組合任務(wù)上仍有提升空間。
未來展望:
- 探索更高效的硬負(fù)樣本采樣與過濾機(jī)制,降低訓(xùn)練成本。
- 結(jié)合更先進(jìn)的視覺編碼器和更大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),進(jìn)一步提升模型泛化能力。
- 拓展模型在跨模態(tài)生成、交互式多模態(tài)理解等更廣泛應(yīng)用場景中的表現(xiàn)。
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
2025-04-24|KAIST, Stanford U, NVIDIA|??18
??http://arxiv.org/abs/2504.17207v1???
???https://huggingface.co/papers/2504.17207???
???https://apc-vlm.github.io/??
研究背景與意義
- 問題定義與挑戰(zhàn)視覺語言模型(VLMs)在空間推理方面取得了顯著進(jìn)展,但仍存在嚴(yán)重的視角偏見,主要局限于攝像頭視角的自我中心(egocentric)空間理解,難以實(shí)現(xiàn)從任意參考視角(allocentric)進(jìn)行空間推理。該缺陷限制了VLMs在導(dǎo)航、環(huán)境交互和協(xié)作等高階智能任務(wù)中的應(yīng)用能力。
- 現(xiàn)狀概述現(xiàn)有研究多聚焦提升VLMs的自我中心空間推理能力,盡管通過深度學(xué)習(xí)和視覺適配器等技術(shù)增強(qiáng)了模型對空間關(guān)系的感知,但對視角轉(zhuǎn)換的支持仍極其有限。即使有指令調(diào)優(yōu)嘗試,模型仍傾向于回歸攝像頭視角,缺乏真正的多視角空間理解能力。
- 研究意義該論文提出通過模擬人類“心理意象”(mental imagery)機(jī)制,構(gòu)建抽象的場景表示,使VLMs能夠從任意視角進(jìn)行空間推理,突破了傳統(tǒng)VLMs的視角限制。這不僅提升了模型的空間認(rèn)知能力,也為實(shí)現(xiàn)更接近人類的視覺理解和智能交互奠定了基礎(chǔ)。
研究方法與創(chuàng)新
核心方法框架——APC(Abstract Perspective Change)APC框架由三個關(guān)鍵階段構(gòu)成:
- 數(shù)值文本提示,直接提供3D坐標(biāo)和方向信息;
- 抽象視覺提示,將對象以彩色立方體形式渲染,形成簡化視覺場景,輔以對應(yīng)的文本映射,強(qiáng)化模型的空間感知。
- 場景抽象構(gòu)建:利用現(xiàn)成的視覺基礎(chǔ)模型(如目標(biāo)檢測、圖像分割、方向估計(jì))從輸入圖像中提取對象,構(gòu)建包含對象3D位置和朝向的粗略三維抽象表示。
- 視角轉(zhuǎn)換:選定參考視角(參考觀察者),將抽象場景從攝像頭坐標(biāo)系轉(zhuǎn)換到該視角的自我中心坐標(biāo)系,實(shí)現(xiàn)視角的“重新定位”。
- 視角提示生成:將轉(zhuǎn)換后的抽象場景以兩種形式輸入VLM:
創(chuàng)新點(diǎn)
- 模擬人類心理意象,通過構(gòu)建抽象的三維場景表示,使VLMs擺脫對原始攝像頭視角的依賴,實(shí)現(xiàn)多視角空間推理。
- 視角轉(zhuǎn)換機(jī)制,將復(fù)雜的allocentric問題轉(zhuǎn)化為VLM擅長處理的egocentric問題,巧妙利用現(xiàn)有模型的能力。
- 多模態(tài)提示設(shè)計(jì),數(shù)值與視覺提示的結(jié)合,既提供精確的空間信息,又保留視覺直觀性,提升推理準(zhǔn)確性和魯棒性。
- 通用性強(qiáng),框架適用于多種空間推理任務(wù)和數(shù)據(jù)集,無需專門針對特定任務(wù)或視角進(jìn)行微調(diào)。
理論基礎(chǔ)
研究借鑒認(rèn)知科學(xué)中關(guān)于心理意象的理論,強(qiáng)調(diào)人類通過抽象視覺和空間表征實(shí)現(xiàn)視角切換的能力,為計(jì)算機(jī)視覺提供了新的啟發(fā)。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
實(shí)驗(yàn)設(shè)計(jì)
- 采用兩個主流空間推理基準(zhǔn):
- 對比對象包括多款開源和專有VLM(如Qwen2.5-VL、LLaVA、GPT-4o等)、專門針對空間推理設(shè)計(jì)的模型(SpatialVLM、SpatialRGPT、SpatialPIN)以及基于密集重建的視角合成方法(SpatialPIN*、ViewCrafter)。
- 評估指標(biāo)為空間推理準(zhǔn)確率,特別關(guān)注模型在不同視角偏差(角度θ)下的表現(xiàn),以測試視角感知能力的魯棒性。
- **COMFORT++**(合成場景,評估左/右、遠(yuǎn)近、可見性和朝向等多種空間關(guān)系);
- 3DSRBench(真實(shí)圖像,涉及多視角空間推理)。
結(jié)果分析
- APC顯著超越所有基線,視覺提示版本(APC-Vis)在COMFORT++左/右任務(wù)中達(dá)到近90%準(zhǔn)確率,較最佳基線提升約40個百分點(diǎn)。
- 在更復(fù)雜的可見性和朝向任務(wù)中,APC依然保持60%以上準(zhǔn)確率,表現(xiàn)優(yōu)于多數(shù)基線。
- 數(shù)值提示版本雖稍遜于視覺提示,但也大幅領(lǐng)先傳統(tǒng)方法。
- 在3DSRBench真實(shí)圖像任務(wù)中,APC同樣展示出強(qiáng)勁性能,表明框架對現(xiàn)實(shí)場景具備良好適應(yīng)性。
- 視角偏差實(shí)驗(yàn)顯示,傳統(tǒng)模型準(zhǔn)確率隨視角偏移顯著下降,而APC在整個角度范圍內(nèi)均保持高準(zhǔn)確率,驗(yàn)證了其強(qiáng)大的視角轉(zhuǎn)換和多視角推理能力。
- 視覺提示能夠有效緩解數(shù)值提示中模型出現(xiàn)的邏輯錯誤,提升推理的準(zhǔn)確性和穩(wěn)定性。
結(jié)論與展望
總結(jié)貢獻(xiàn)
- 本文提出的APC框架通過模擬人類心理意象機(jī)制,實(shí)現(xiàn)了VLM的視角感知能力突破,支持任意參考視角的空間推理。該方法有效結(jié)合視覺基礎(chǔ)模型和VLM的優(yōu)勢,通過抽象場景構(gòu)建和視角轉(zhuǎn)換,將allocentric推理轉(zhuǎn)化為egocentric推理,顯著提升多項(xiàng)空間推理任務(wù)的性能。實(shí)驗(yàn)驗(yàn)證了APC在合成及真實(shí)數(shù)據(jù)集上的優(yōu)越性和魯棒性,展示了其廣泛的應(yīng)用潛力。
局限性分析
- 場景抽象依賴于視覺基礎(chǔ)模型的準(zhǔn)確性,深度估計(jì)、對象定位和方向估計(jì)的誤差會影響最終推理效果。
- 當(dāng)前方法對復(fù)雜動態(tài)場景和大規(guī)模對象環(huán)境的適應(yīng)性尚需進(jìn)一步驗(yàn)證。
- 數(shù)值提示存在邏輯推理錯誤的風(fēng)險(xiǎn),視覺提示雖有效緩解但仍有提升空間。
方法展望
- 未來可探索更精細(xì)的場景抽象技術(shù),結(jié)合多模態(tài)傳感器數(shù)據(jù)提升三維重建精度。
- 結(jié)合強(qiáng)化學(xué)習(xí)或自監(jiān)督學(xué)習(xí),增強(qiáng)模型對視角轉(zhuǎn)換的內(nèi)在理解和泛化能力。
- 擴(kuò)展至動態(tài)場景和視頻數(shù)據(jù),實(shí)現(xiàn)連續(xù)視角切換和時空推理。
- 探索與機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)等實(shí)際應(yīng)用的深度融合,推動VLM在真實(shí)環(huán)境中的智能交互能力。
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
2025-04-23|UIUC, Salesforce Research|??8
??http://arxiv.org/abs/2504.17040v1???
???https://huggingface.co/papers/2504.17040???
???https://mikewangwzhl.github.io/dymu??
研究背景與意義
- 問題定義與現(xiàn)狀概述視覺-語言模型(Vision-Language Models,VLMs)通過視覺編碼器將圖像轉(zhuǎn)換為固定長度的視覺token序列,再與文本token結(jié)合進(jìn)行多模態(tài)理解。然而,當(dāng)前主流的視覺編碼器(如ViT架構(gòu))為固定分辨率的圖像生成固定數(shù)量的視覺token,不論圖像內(nèi)容復(fù)雜度如何,token數(shù)量均不變,導(dǎo)致計(jì)算資源浪費(fèi),尤其在處理簡單圖像時效率低下。
- 挑戰(zhàn)點(diǎn)
- 固定長度的視覺token導(dǎo)致計(jì)算資源與圖像內(nèi)容不匹配,簡單圖像無法減少計(jì)算負(fù)擔(dān)。
- 現(xiàn)有減少token數(shù)量的方法多為固定壓縮比例,缺乏對圖像復(fù)雜度的動態(tài)適應(yīng)。
- 訓(xùn)練自由(training-free)方法多忽視視覺編碼器本身的token冗余,且在減少token時,保持下游任務(wù)性能是一大難題。
- 研究目標(biāo)本文旨在提出一種訓(xùn)練自由的動態(tài)視覺token壓縮框架DYMU(Dynamic Merging and Virtual Unmerging),根據(jù)圖像復(fù)雜度動態(tài)調(diào)整視覺token數(shù),既減少計(jì)算開銷,又保持VLM性能,且適用于多種主流視覺編碼器和語言模型架構(gòu)。
研究方法與創(chuàng)新
- 核心技術(shù)描述
- 動態(tài)token合并(Dynamic Token Merging,DToMe)通過基于視覺token的相似度,采用層級雙邊匹配算法,動態(tài)合并冗余的視覺token。閾值由大規(guī)模圖像數(shù)據(jù)統(tǒng)計(jì)獲得,支持根據(jù)圖像復(fù)雜度自適應(yīng)調(diào)整token數(shù)量,避免固定壓縮比例帶來的性能損失。
- 虛擬token解合(Virtual Token Unmerging,VTU)解決語言模型對固定長度視覺token序列的依賴。VTU通過稀疏矩陣映射和旋轉(zhuǎn)位置編碼(RoPE)線性特性,重構(gòu)完整的視覺token序列的注意力矩陣,從而在不增加訓(xùn)練的前提下,保持語言模型對視覺信息的完整感知。
- 創(chuàng)新點(diǎn)詳解
- 內(nèi)容感知的動態(tài)token壓縮不同于傳統(tǒng)固定長度token,DToMe根據(jù)圖像內(nèi)容復(fù)雜度動態(tài)調(diào)整token數(shù),提升資源利用率。
- 訓(xùn)練自由且兼容主流模型DYMU無需額外訓(xùn)練,直接應(yīng)用于現(xiàn)有ViT視覺編碼器和RoPE-based語言模型,方便快速部署。
- 高效的虛擬token重構(gòu)機(jī)制VTU利用矩陣稀疏性和RoPE旋轉(zhuǎn)編碼的數(shù)學(xué)性質(zhì),實(shí)現(xiàn)在減少token數(shù)的同時,準(zhǔn)確模擬完整token序列的注意力機(jī)制,兼顧效率與性能。
- 層級閾值統(tǒng)計(jì)方法采用大規(guī)模圖像集統(tǒng)計(jì),針對每個Transformer層計(jì)算合并閾值,確保動態(tài)合并的穩(wěn)定性和泛化能力。
- 方法優(yōu)勢與理論基礎(chǔ)
- 計(jì)算復(fù)雜度降低通過減少視覺token數(shù)量,顯著降低視覺編碼器及后續(xù)自注意力層的計(jì)算開銷,理論上計(jì)算量與token數(shù)線性相關(guān),實(shí)踐中實(shí)現(xiàn)近線性加速。
- 性能保持與提升結(jié)合DToMe和VTU,DYMU在多種視覺任務(wù)中保持甚至超越固定長度token方法的性能,尤其在復(fù)雜圖像上表現(xiàn)更優(yōu)。
- 理論嚴(yán)謹(jǐn)充分利用Transformer注意力機(jī)制的線性代數(shù)性質(zhì)和RoPE旋轉(zhuǎn)編碼的數(shù)學(xué)結(jié)構(gòu),保證重構(gòu)注意力矩陣的準(zhǔn)確性和效率。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
- 實(shí)驗(yàn)設(shè)置
- 視覺編碼器采用CLIP和SigLIP等主流ViT架構(gòu),語言模型包括Vicuna-7B和Qwen2。
- 評測基準(zhǔn)涵蓋多模態(tài)理解和推理任務(wù),如GQA、MMBench、MME、POPE、TextVQA、ScienceQA等,以及視頻理解任務(wù)。
- 采用大規(guī)模多樣化圖像數(shù)據(jù)集(如LLaVA指令調(diào)優(yōu)數(shù)據(jù)集)統(tǒng)計(jì)合并閾值,保證方法泛化。
- 對比對象涵蓋固定長度壓縮(如ToMe)和其他訓(xùn)練自由壓縮方法。
- 結(jié)果表現(xiàn)
- DYMU在減少視覺token數(shù)達(dá)32%-85%的同時,保持了97.7%-100.4%的平均性能,相較于固定長度壓縮方法在復(fù)雜圖像上有明顯優(yōu)勢。
- VTU顯著提升了語言模型處理動態(tài)token序列的性能穩(wěn)定性,消除了token數(shù)變化帶來的性能波動。
- 通過圖像復(fù)雜度與token數(shù)的強(qiáng)相關(guān)性驗(yàn)證,DYMU能夠根據(jù)圖像內(nèi)容智能分配token預(yù)算。
- 在Any-Resolution模型(LLaVA-OneVision)和視頻任務(wù)中,DYMU同樣展現(xiàn)出良好的適配性和性能保持能力。
- 不同閾值設(shè)定(低、中、高)實(shí)現(xiàn)了性能與計(jì)算資源的靈活權(quán)衡,滿足多場景需求。
- 統(tǒng)計(jì)顯著性與多場景表現(xiàn)
- 通過多任務(wù)、多數(shù)據(jù)集驗(yàn)證,DYMU表現(xiàn)穩(wěn)定,且對閾值估計(jì)數(shù)據(jù)集的選擇不敏感,體現(xiàn)了方法的魯棒性。
- 結(jié)合背景移除、OCR、目標(biāo)檢測等視覺預(yù)處理工具,DYMU進(jìn)一步降低token數(shù),展示了良好的擴(kuò)展性和靈活性。
結(jié)論與展望
- 研究貢獻(xiàn)總結(jié)
- 提出了首個訓(xùn)練自由、動態(tài)視覺token壓縮框架DYMU,解決了視覺token固定長度帶來的計(jì)算資源浪費(fèi)問題。
- 創(chuàng)新設(shè)計(jì)了動態(tài)token合并與虛擬token解合兩大模塊,實(shí)現(xiàn)了內(nèi)容感知的token壓縮與語言模型對變長token序列的高效處理。
- 在多種視覺語言模型和任務(wù)上驗(yàn)證了DYMU的有效性和泛化能力,顯著提升了計(jì)算效率且保持甚至提升了性能。
- 通過大規(guī)模圖像統(tǒng)計(jì)方法確定合并閾值,保證了動態(tài)合并的穩(wěn)定性和實(shí)用性。
- 局限性分析
- 對空間敏感的任務(wù)(如TextVQA和空間推理)性能仍有一定下降,提示token合并可能破壞部分細(xì)粒度空間信息。
- 虛擬token解合雖然有效,但仍存在輕微的性能折損,未來可進(jìn)一步優(yōu)化重構(gòu)精度。
- 目前主要針對視覺token壓縮,視頻時間維度冗余尚未充分利用。
- 未來工作展望
- 探索針對空間敏感任務(wù)的自適應(yīng)token合并策略,提升細(xì)粒度空間信息保留能力。
- 優(yōu)化虛擬token解合算法,減少重構(gòu)誤差,進(jìn)一步提升下游任務(wù)性能。
- 擴(kuò)展DYMU至視頻時序token壓縮,結(jié)合時空冗余,提升視頻理解效率。
- 結(jié)合更多視覺預(yù)處理和任務(wù)特定模塊,實(shí)現(xiàn)更靈活的計(jì)算資源分配和性能優(yōu)化。
綜上,DYMU以其創(chuàng)新的動態(tài)視覺token合并與虛擬token解合技術(shù),為視覺語言模型的高效推理提供了全新思路和實(shí)用方案,具有廣泛的應(yīng)用前景和研究價值。
本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇
