智源開源最強(qiáng)語義向量模型BGE!中英文測評全面超過OpenAI、Meta
語義向量模型(Embedding Model)已經(jīng)被廣泛應(yīng)用于搜索、推薦、數(shù)據(jù)挖掘等重要領(lǐng)域。
在大模型時代,它更是用于解決幻覺問題、知識時效問題、超長文本問題等各種大模型本身制約或不足的必要技術(shù)。然而,當(dāng)前中文世界的高質(zhì)量語義向量模型仍比較稀缺,且很少開源。
為加快解決大模型的制約問題,近日,智源發(fā)布最強(qiáng)開源可商用中英文語義向量模型BGE(BAAI General Embedding),在中英文語義檢索精度與整體語義表征能力均超越了社區(qū)所有同類模型,如OpenAI 的text embedding 002等。此外,BGE 保持了同等參數(shù)量級模型中的最小向量維度,使用成本更低。
FlagEmbedding:https://github.com/FlagOpen/FlagEmbedding
BGE 模型鏈接:https://huggingface.co/BAAI/
BGE 代碼倉庫:https://github.com/FlagOpen/FlagEmbedding
C-MTEB 評測基準(zhǔn)鏈接:https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark
本次BGE模型相關(guān)代碼均開源于FlagOpen飛智大模型技術(shù)開源體系旗下FlagEmbedding項(xiàng)目,一個聚焦于Embedding技術(shù)和模型的新版塊。智源研究院將持續(xù)向?qū)W術(shù)及產(chǎn)業(yè)界開源更為完整的大模型全棧技術(shù)。
與此同時,鑒于當(dāng)前中文社區(qū)缺乏全面的評測基準(zhǔn),智源團(tuán)隊發(fā)布了當(dāng)前最大規(guī)模、最為全面的中文語義向量表征能力評測基準(zhǔn)C-MTEB(Chinese Massive Text Embedding Benchmark),包含6大類評測任務(wù)和31個數(shù)據(jù)集,為評測中文語義向量的綜合表征能力奠定可靠的基礎(chǔ),全部測試數(shù)據(jù)以及評測代碼已開源。
值得大模型應(yīng)用開發(fā)者關(guān)注的好消息:將 LangChain 與智源BGE結(jié)合,可以輕松定制本地知識問答助手,而不需要花較高的成本訓(xùn)練垂類大模型。
檢索精度大幅領(lǐng)先,中英文共87個任務(wù)上表現(xiàn)優(yōu)異
BGE 是當(dāng)前中文任務(wù)下最強(qiáng)語義向量模型,各項(xiàng)語義表征能力全面超越同類開源模型。
中文語義向量綜合表征能力評測 C-MTEB 的實(shí)驗(yàn)結(jié)果顯示(Table 1),BGE中文模型(BGE-zh)在對接大語言模型最常用到的檢索能力上領(lǐng)先優(yōu)勢尤為顯著,檢索精度約為 OpenAI Text Embedding 002 的1.4倍。
Table 1. 中文語義向量綜合表征能力評測(C-MTEB)
注:Model Size一列中Base ~100M,Large ~300M,XXL ~11BBGE w.o. Instruct: BGE輸入端沒有使用instruction
與中文能力相類似,BGE 英文模型(BGE-en)的語義表征能力同樣出色。根據(jù)英文評測基準(zhǔn) MTEB 的評測結(jié)果(Table 2),盡管社區(qū)中已有不少優(yōu)秀的基線模型,BGE 依然在總體指標(biāo)(Average)與檢索能力(Retrieval)兩個核心維度超越了此前開源的所有同類模型。
同時,BGE 的各項(xiàng)能力都顯著超越社區(qū)中最為流行的選項(xiàng):OpenAI Text Embedding 002。
Table 2. 英文語義向量綜合表征能力評測(MTEB)注:Model Size一列中 Base ~100M,Large ~300M,XXL ~11B
Figure 1. 中文C-MTEB(左)、英文MTEB(右)注:BGE為紅色,OpenAI Text Embedding 002為藍(lán)色
中文語義向量,全面評測基準(zhǔn) C-MTEB
此前,中文社區(qū)一直缺乏全面、有效的評測基準(zhǔn),BGE 研究團(tuán)隊依托現(xiàn)有的中文開源數(shù)據(jù)集構(gòu)建了針對中文語義向量的評測基準(zhǔn) C-MTEB(Chinese Massive Text Embedding Benchmark,如 Table 3所示)。
C-MTEB 的建設(shè)參照了同類別英文基準(zhǔn) MTEB [12],總共涵蓋6大類評測任務(wù)(檢索、排序、句子相似度、推理、分類、聚類),涉及31個相關(guān)數(shù)據(jù)集。
C-MTEB 是當(dāng)前最大規(guī)模、最為全面的中文語義向量評測基準(zhǔn),為可靠、全面的測試中文語義向量的綜合表征能力提供了實(shí)驗(yàn)基礎(chǔ)。
目前,C-MTEB 的全部測試數(shù)據(jù)以及評測代碼已連同 BGE 模型一并開源。
Table 3. C-MTEB 評測任務(wù)維度及數(shù)據(jù)集
技術(shù)亮點(diǎn):高效預(yù)訓(xùn)練+大規(guī)模文本對微調(diào)
BGE 出色的語義表征能力源于兩方面要素:1)針對表征的預(yù)訓(xùn)練,2)大規(guī)模文本對訓(xùn)練。
BGE 在悟道 [10]、Pile [11] 兩個大規(guī)模語料集上采取了針對表征的預(yù)訓(xùn)練算法 RetroMAE [5,6](Figure 2):將低掩碼率的輸入編碼為語義向量(Embed),再將高掩碼率的輸入與語義向量拼接以重建原始輸入。這樣一來,BGE 得以利用無標(biāo)簽語料實(shí)現(xiàn)語言模型基座對語義表征任務(wù)的適配。
Figure 2. RetroMAE 預(yù)訓(xùn)練算法示意
BGE 針對中文、英文分別構(gòu)建了多達(dá)120M、232M的樣本對數(shù)據(jù),從而幫助模型掌握實(shí)際場景中各種不同的語義匹配任務(wù),并借助負(fù)采樣擴(kuò)增 [7] 與難負(fù)樣例挖掘 [8] 進(jìn)一步提升對比學(xué)習(xí)的難度,實(shí)現(xiàn)了多達(dá)65K的負(fù)樣本規(guī)模,增強(qiáng)了語義向量的判別能力。
另外,BGE 借鑒 Instruction Tuning [9] 的思想,采取了非對稱的指令添加方式,在問題端添加場景描述, 提升了語義向量在多任務(wù)場景下的通用能力,如Figure 3所示:
Figure 3. 注入場景提示提升多任務(wù)通用能力
綜上,BGE 是當(dāng)前性能最佳的語義向量模型,尤其在語義檢索能力上大幅領(lǐng)先。
其卓越的能力為構(gòu)建大語言模型應(yīng)用(如閱讀理解、開放域問答、知識型對話)提供了重要的功能組件。相較于此前的開源模型,BGE 并未增加模型規(guī)模與向量的維度,因而保持了相同的運(yùn)行、存儲效率。
目前,BGE 中英文模型均已開源,代碼及權(quán)重均采用 MIT 協(xié)議,支持免費(fèi)商用。
作為智源「FlagOpen大模型技術(shù)開源體系」的重要組成部分,BGE 將持續(xù)迭代和更新,賦能大模型生態(tài)基礎(chǔ)設(shè)施建設(shè)。
BGE 模型鏈接:https://huggingface.co/BAAI/
BGE 代碼倉庫:https://github.com/FlagOpen/FlagEmbedding
FlagOpen官網(wǎng):https://flagopen.baai.ac.cn/
語義向量模型知識拓展
1. 語義向量模型是什么?
語義向量模型(Embedding Model)被廣泛應(yīng)用于搜索、推薦、數(shù)據(jù)挖掘等重要領(lǐng)域,將自然形式的數(shù)據(jù)樣本(如語言、代碼、圖片、音視頻)轉(zhuǎn)化為向量(即連續(xù)的數(shù)字序列),并用向量間的“距離”衡量數(shù)據(jù)樣本之間的“相關(guān)性” 。
2. 大模型時代,幫助緩解幻覺問題、長期記憶挑戰(zhàn)等的必要技術(shù)
- 與時俱進(jìn)獲取知識
只能基于模型訓(xùn)練中的階段性「死板」知識儲備,是導(dǎo)致大模型在回答問題時出現(xiàn)幻覺的重要因素。而借助語義向量模型的幫助,大模型可以獲取與時俱進(jìn)的「活知識」,答案又新又準(zhǔn)。具體而言,通過語義向量模型建立某個垂直領(lǐng)域的知識庫索引(Index),可以為大模型高效補(bǔ)充世界知識、本地知識:當(dāng)用戶向LLM提問時,LLM 會從最新最全知識庫中獲取答案。
- 提升大模型長期記憶
大模型困長期記憶久已,現(xiàn)有LLM存在上下文輸入長度限制,制約了長文本方面的處理能力。利用語義向量模型,可將長文檔結(jié)構(gòu)化,與LLM更好地直接交互,從而彌補(bǔ)長文本處理能力短板。
3. LangChain等大模型明星應(yīng)用的關(guān)鍵力量
OpenAI、Google、Meta 等廠商均推出了針對大模型的語義向量模型及API服務(wù),直接促進(jìn)了全球大模型開發(fā)者社區(qū)誕生了眾多有影響力的大模型應(yīng)用框架及工具:諸如大模型應(yīng)用框架 LangChain、向量存儲數(shù)據(jù)庫Pinecone、文檔格式化索引工具Llama Index、自主「思考」步驟并完成任務(wù)的助手AutoGPT 等。