Jina CLIP v2:為多模態(tài)RAG設計的向量模型 原創(chuàng)
多模態(tài)的數據通過統(tǒng)一的向量表示,可以實現不同模態(tài)數據的互相檢索或者理解轉換,是多模態(tài) AI 應用的基石。Jina.ai最近推出了全新的通用多語言多模態(tài)向量模型 Jina CLIP v2,在實現強大跨模態(tài)檢索可能的同時,也為多模態(tài)RAG應用奠定了基礎。
Paper: https://arxiv.org/abs/2405.20204
Model: https://huggingface.co/jinaai/jina-clip-v2
概覽
Jina-CLIP V2 是一款通用的、多語言、多模態(tài)(文本與圖像) Embedding 模型
多模態(tài)embedding技術能夠通過一致的表示方式,實現跨不同模態(tài)的數據搜索和理解。Jina-CLIP V2 基于Jina-CLIP V1和我們最近發(fā)布的Jina-Embeddings V3構建,帶來了幾項重大改進:
?? 性能提升:與V1相比,V2在文本-圖像和文本-文本檢索任務中展現了3%的性能提升。與V1類似,V2的文本編碼器可以作為一個有效的多語言長文本密集檢索器。其性能與我們的前沿模型Jina-Embeddings V3相當(目前是MTEB上最好的1B參數以下的多語言Embedding模型)。
?? 多語言支持:Jina-CLIP V2的文本部分使用了與Jina-Embeddings V3相同的架構,支持89種語言的多語言-圖像檢索,與nllb-clip-large-siglip相比,在多語言圖像檢索任務中顯示出高達4%的性能提升。
?? 更高圖像分辨率:Jina-CLIP V2現在支持512x512的輸入圖像分辨率,這是從V1的224x224的顯著提升。這一更高分辨率使得V2能夠更好地處理細節(jié)圖像,改進特征提取,并更準確地識別細粒度的視覺元素。
?? 可變維度輸出:Jina-CLIP V2引入了套娃式表示學習(Matryoshka Representation Learning,MRL)技術,只需設置 dimensions 參數,即可獲取指定維度的向量輸出,且在減少存儲成本的同時,保持強大的性能。
模型結構
Jina-CLIP V2參數量達到0.9B,融合了兩個強大的編碼器:
- 文本編碼器為Jina-XLM-RoBERTa,也是Jina-Embeddings V3的核心;
- 視覺編碼器為EVA02-L14,由BAAI開發(fā)的CLIP ViT模型。
這兩個編碼器的結合,使得Jina-CLIP V2在多模態(tài)任務中表現出色,能夠同時處理文本和圖像數據,為用戶提供更加精準和高效的信息檢索與理解能力。
這些編碼器經過CLIP聯合訓練,以創(chuàng)建對齊的圖像和文本表示。
類似于CLIP的模型已經成為通用多模態(tài)應用的骨干。有了Jina-CLIP V2,正在將這些能力提升到一個新的水平,打破語言障礙,提供更準確的跨模態(tài)理解和檢索。
性能
在跨模態(tài)檢索任務中,Jina CLIP v2 支持 89 種語言,在包括中文、英語、法語、德語、日語、俄語、阿拉伯語和西班牙語在內的主要語種中都表現優(yōu)異。性能比目前最先進的 CLIP 模型 NLLB-CLIP-SigLIP 相當甚至更好。
Jina-CLIP V2 的文本和圖像編碼器均引入了套娃式表征學習(Matryoshka Representation Learning, MRL)技術,來實現靈活的靈活的輸出維度長度。輸出維度可以從 1024 截斷至 64 維,并在很大程度上能保持原有性能。
評估結果表明,即使是激進的 75% 維度削減,模型在文本、圖像和跨模態(tài)任務中仍能保持 99% 以上的性能,展現出了 Jina-CLIP V2 極高的壓縮效率。
本文轉載自公眾號思源數據科學 作者:思源Source
原文鏈接:??https://mp.weixin.qq.com/s/5auciYvg7MmpDS57bavb9Q??
