自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

發(fā)布于 2025-4-25 06:47

瀏覽

0收藏

訓(xùn)練一個(gè)好的向量模型的重點(diǎn)在于最大限度地利用了更多、更高質(zhì)量的負(fù)樣本，來訓(xùn)練模型。
騰訊提出的Conan-embedding，采用了動(dòng)態(tài)硬負(fù)樣本挖掘方法，以便在整個(gè)訓(xùn)練過程中向模型展示更多具有挑戰(zhàn)性的負(fù)樣本。
最近發(fā)布Conan-embedding-V2版本，在MTEB榜單上已經(jīng)超越了BGE等一眾傳統(tǒng)豪強(qiáng)。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

支持中、英雙語

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

一、Conan-embedding-V2

V1版本主要基于通用預(yù)訓(xùn)練的雙向Bert模型進(jìn)行Embedding任務(wù)的訓(xùn)練。
V2版本從頭訓(xùn)練了原創(chuàng)詞表和模型結(jié)構(gòu)的大模型基座——Conan-1.4B，在此基礎(chǔ)上進(jìn)行了中、英、多語言的Embedding任務(wù)的訓(xùn)練。
上下文長(zhǎng)度從v1版本的512，提升到了32k。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

訓(xùn)練的4個(gè)階段

第1和第2階段，大語言模型（LLM）訓(xùn)練階段

加入嵌入數(shù)據(jù)，以更好地使LLM與嵌入任務(wù)對(duì)齊

設(shè)計(jì)了Conan-1.4B，包含8層Attention Layers，Hidden Size為3584，最長(zhǎng)上下文32k。

參數(shù)量是1.4B，能夠在較少的參數(shù)下提供更大的Embedding維度。

從基礎(chǔ)的字母、符號(hào)上，在約40萬條多語言語料上訓(xùn)練了Conan的BBPE分詞器，目標(biāo)詞表大小15萬，完成了詞表訓(xùn)練。

第3階段，弱監(jiān)督訓(xùn)練階段

使用與LLM監(jiān)督微調(diào)（SFT）相同的配對(duì)數(shù)據(jù)，并應(yīng)用軟掩碼來彌合LLM與嵌入模型之間的差距。

使用gte-Qwen2-7B-instruct模型進(jìn)行評(píng)分，并丟棄得分低于0.4的數(shù)據(jù)

訓(xùn)練中采用了InfoNCE損失函數(shù)，并結(jié)合In-Batch Negative采樣

第4階段，監(jiān)督訓(xùn)練階段

引入了跨語言檢索數(shù)據(jù)集和動(dòng)態(tài)硬負(fù)例挖掘方法，以提高數(shù)據(jù)的多樣性和價(jià)值

針對(duì)不同的下游任務(wù)進(jìn)行任務(wù)特定的微調(diào)。

將任務(wù)分為四類：檢索、跨語言檢索、分類和語義文本相似度（STS）。

前三類任務(wù)：包括一個(gè)查詢、一個(gè)正例文本和一些負(fù)例文本，使用經(jīng)典的InfoNCE損失函數(shù)。

STS任務(wù)涉及區(qū)分兩個(gè)文本之間的相似度，采用CoSENT損失來優(yōu)化。

為了更好的對(duì)比Conan-embedding提升了哪些內(nèi)容，下面也簡(jiǎn)單介紹一下Conan-embeddingV1，尤其注意一下難例數(shù)據(jù)挖掘的方法，v2版本也是用同樣的方法

二、Conan-embeddingV1

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

總共分為：預(yù)訓(xùn)練和微調(diào)兩個(gè)階段

2.1 預(yù)訓(xùn)練階段

篩選數(shù)據(jù)：bge-large-zh-v1.5模型評(píng)分，丟棄所有得分低于 0.4 的數(shù)據(jù)。
使用帶批內(nèi)負(fù)樣本的 InfoNCE 損失進(jìn)行訓(xùn)練，它利用小批量?jī)?nèi)的其他樣本作為負(fù)樣本優(yōu)化模型。
即，在每個(gè)小批量中，除了目標(biāo)樣本的正樣本對(duì)之外的所有樣本都被視為負(fù)樣本。
通過最大化正樣本對(duì)的相似性并最小化負(fù)樣本對(duì)的相似性，批內(nèi)負(fù)樣本 InfoNCE 損失可以有效地提高模型的判別能力和表示學(xué)習(xí)性能。
此方法通過充分利用小批量?jī)?nèi)的樣本，提高了訓(xùn)練效率，減少了生成額外負(fù)樣本的需求。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

2.2 監(jiān)督微調(diào)

監(jiān)督微調(diào)時(shí)對(duì)不同的下游任務(wù)執(zhí)行特定的微調(diào)任務(wù)。將任務(wù)分為兩類：

檢索任務(wù)：

包括查詢、正文本和負(fù)文本，經(jīng)典的損失函數(shù)是 InfoNCE 損失。

STS 任務(wù)：

涉及區(qū)分兩個(gè)文本之間的相似性，經(jīng)典的損失函數(shù)是交叉熵?fù)p失。

CoSENT 損失略優(yōu)于交叉熵?fù)p失，因此采用 CoSENT 損失來優(yōu)化 STS 任務(wù)。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

三、難例數(shù)據(jù)挖掘

一種動(dòng)態(tài)難樣本挖掘方法介紹：

對(duì)于每個(gè)數(shù)據(jù)點(diǎn)，記錄當(dāng)前相對(duì)于查詢的難樣本的平均分?jǐn)?shù)。
每 100 次迭代，如果分?jǐn)?shù)乘以 1.15 小于初始分?jǐn)?shù)，并且分?jǐn)?shù)的絕對(duì)值小于 0.8，將認(rèn)為負(fù)樣本不再困難，并進(jìn)行新一輪的難樣本挖掘。
在每次動(dòng)態(tài)困難負(fù)例挖掘過程中，如果需要替換困難負(fù)例，使用 (i-1)\times n + 10到i\times n +10 的案例作為負(fù)例，其中 i表示第 i次替換，而 n表示每次使用的困難負(fù)例數(shù)量。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區(qū)

上圖展示了動(dòng)態(tài)困難負(fù)例挖掘與標(biāo)準(zhǔn)困難負(fù)例挖掘中正例和負(fù)例的得分-步數(shù)曲線
隨著步驟的增加，標(biāo)準(zhǔn)困難負(fù)例挖掘中負(fù)例的得分停止下降并開始振蕩，表明模型已經(jīng)完成了從該批負(fù)例中學(xué)習(xí)。
相反，動(dòng)態(tài)困難負(fù)例挖掘一旦檢測(cè)到負(fù)例不再對(duì)模型構(gòu)成挑戰(zhàn)，就會(huì)替換這些困難負(fù)例。

??https://arxiv.org/pdf/2408.15710??
??https://huggingface.co/TencentBAC/Conan-embedding-v2??
??https://zhuanlan.zhihu.com/p/1897675709696149020??

本文轉(zhuǎn)載自??CourseAI??，作者：CourseAI

標(biāo)簽

已于2025-4-25 10:09:37修改

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

熱門內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

使用BERT的LLM提取摘要

51CTO內(nèi)容精選 ? 2938瀏覽 ? 0回復(fù)
騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

輕薄滴假象 ? 3327瀏覽 ? 0回復(fù)
如何將大型語言模型（LLM）轉(zhuǎn)換為嵌入模型

51CTO內(nèi)容精選 ? 2672瀏覽 ? 0回復(fù)
The Annotated BERT注釋加量版，讀懂代碼才算讀懂了BERT

魚蟲子 ? 2342瀏覽 ? 0回復(fù)
OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維

PaperAgent ? 4906瀏覽 ? 0回復(fù)
從零實(shí)現(xiàn)大模型-BERT微調(diào)

魚蟲子 ? 2819瀏覽 ? 0回復(fù)
最強(qiáng)大模型統(tǒng)計(jì)網(wǎng)站，從此告別LLM選擇恐懼癥！

魚蟲子 ? 2703瀏覽 ? 0回復(fù)
BERT如何增強(qiáng)NLP的性能

51CTO內(nèi)容精選 ? 2114瀏覽 ? 0回復(fù)
OpenAI文本嵌入模型入門指南

51CTO內(nèi)容精選 ? 3177瀏覽 ? 0回復(fù)
NLP范式總結(jié) | 擁抱新范式

zhcs333 ? 1813瀏覽 ? 0回復(fù)
CFO應(yīng)該理性擁抱Gen-AI

51CTO內(nèi)容精選 ? 1862瀏覽 ? 0回復(fù)
2025年，擁抱AI Agent！

探索AGI ? 2223瀏覽 ? 0回復(fù)
大模型語義分析之嵌入(Embedding)模型

AI探索時(shí)代 ? 2766瀏覽 ? 0回復(fù)
Meta公布BLT新架構(gòu)：告別token，擁抱patch

51CTO內(nèi)容精選 ? 1543瀏覽 ? 0回復(fù)
深入解析Transformers、BERT與SBERT：從原理到應(yīng)用

Halo咯咯 ? 3005瀏覽 ? 0回復(fù)
騰訊元寶登頂下載榜，AI 下一戰(zhàn)拼什么？

算家計(jì)算 ? 1636瀏覽 ? 0回復(fù)
告別粗糙AI生成！BlobCtrl帶你玩轉(zhuǎn)元素級(jí)視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1280瀏覽 ? 0回復(fù)
RAG 模型的“靈魂伴侶”：如何挑選最適合的嵌入方法？

Halo咯咯 ? 2037瀏覽 ? 0回復(fù)
從零開始微調(diào)Embedding模型：基于BERT的實(shí)戰(zhàn)教程

AI悠閑區(qū) ? 795瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復(fù)雜文檔理解性能爆炸12%，錯(cuò)誤率直降21% 2025-04-14 23:56:55發(fā)布
3.4K Star 港大開源AutoAgent登頂GAIA全球評(píng)測(cè)，成本直降50%碾壓商業(yè)巨頭 2025-04-02 00:11:16發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復(fù)雜文檔理解性能爆炸12%，錯(cuò)誤率直降21%

社區(qū)精華內(nèi)容

目錄