自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智源開源最強(qiáng)語義向量模型BGE!中英文測評全面超過OpenAI、Meta

人工智能 新聞
智源大模型技術(shù)版圖再填一員——BAAI General Embedding,中英文測評全面超過OpenAI、Meta等。

語義向量模型(Embedding Model)已經(jīng)被廣泛應(yīng)用于搜索、推薦、數(shù)據(jù)挖掘等重要領(lǐng)域。

在大模型時代,它更是用于解決幻覺問題、知識時效問題、超長文本問題等各種大模型本身制約或不足的必要技術(shù)。然而,當(dāng)前中文世界的高質(zhì)量語義向量模型仍比較稀缺,且很少開源。

為加快解決大模型的制約問題,近日,智源發(fā)布最強(qiáng)開源可商用中英文語義向量模型BGE(BAAI General  Embedding),在中英文語義檢索精度與整體語義表征能力均超越了社區(qū)所有同類模型,如OpenAI 的text embedding 002等。此外,BGE 保持了同等參數(shù)量級模型中的最小向量維度,使用成本更低。

FlagEmbedding:https://github.com/FlagOpen/FlagEmbedding

BGE 模型鏈接:https://huggingface.co/BAAI/

BGE 代碼倉庫:https://github.com/FlagOpen/FlagEmbedding

C-MTEB 評測基準(zhǔn)鏈接:https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark

本次BGE模型相關(guān)代碼均開源于FlagOpen飛智大模型技術(shù)開源體系旗下FlagEmbedding項(xiàng)目,一個聚焦于Embedding技術(shù)和模型的新版塊。智源研究院將持續(xù)向?qū)W術(shù)及產(chǎn)業(yè)界開源更為完整的大模型全棧技術(shù)。

與此同時,鑒于當(dāng)前中文社區(qū)缺乏全面的評測基準(zhǔn),智源團(tuán)隊發(fā)布了當(dāng)前最大規(guī)模、最為全面的中文語義向量表征能力評測基準(zhǔn)C-MTEB(Chinese Massive Text Embedding Benchmark),包含6大類評測任務(wù)和31個數(shù)據(jù)集,為評測中文語義向量的綜合表征能力奠定可靠的基礎(chǔ),全部測試數(shù)據(jù)以及評測代碼已開源。

值得大模型應(yīng)用開發(fā)者關(guān)注的好消息:將 LangChain 與智源BGE結(jié)合,可以輕松定制本地知識問答助手,而不需要花較高的成本訓(xùn)練垂類大模型。

檢索精度大幅領(lǐng)先,中英文共87個任務(wù)上表現(xiàn)優(yōu)異

BGE 是當(dāng)前中文任務(wù)下最強(qiáng)語義向量模型,各項(xiàng)語義表征能力全面超越同類開源模型。

中文語義向量綜合表征能力評測 C-MTEB 的實(shí)驗(yàn)結(jié)果顯示(Table 1),BGE中文模型(BGE-zh)在對接大語言模型最常用到的檢索能力上領(lǐng)先優(yōu)勢尤為顯著,檢索精度約為 OpenAI Text Embedding 002 的1.4倍。

Table 1. 中文語義向量綜合表征能力評測(C-MTEB)

注:Model Size一列中Base ~100M,Large ~300M,XXL ~11BBGE w.o. Instruct: BGE輸入端沒有使用instruction

與中文能力相類似,BGE 英文模型(BGE-en)的語義表征能力同樣出色。根據(jù)英文評測基準(zhǔn) MTEB 的評測結(jié)果(Table 2),盡管社區(qū)中已有不少優(yōu)秀的基線模型,BGE 依然在總體指標(biāo)(Average)與檢索能力(Retrieval)兩個核心維度超越了此前開源的所有同類模型。

同時,BGE 的各項(xiàng)能力都顯著超越社區(qū)中最為流行的選項(xiàng):OpenAI Text Embedding 002。

圖片Table 2. 英文語義向量綜合表征能力評測(MTEB)注:Model Size一列中 Base ~100M,Large ~300M,XXL ~11B

Figure 1. 中文C-MTEB(左)、英文MTEB(右)注:BGE為紅色,OpenAI Text Embedding 002為藍(lán)色

中文語義向量,全面評測基準(zhǔn) C-MTEB  

此前,中文社區(qū)一直缺乏全面、有效的評測基準(zhǔn),BGE 研究團(tuán)隊依托現(xiàn)有的中文開源數(shù)據(jù)集構(gòu)建了針對中文語義向量的評測基準(zhǔn) C-MTEB(Chinese Massive Text Embedding Benchmark,如 Table 3所示)。

C-MTEB 的建設(shè)參照了同類別英文基準(zhǔn) MTEB [12],總共涵蓋6大類評測任務(wù)(檢索、排序、句子相似度、推理、分類、聚類),涉及31個相關(guān)數(shù)據(jù)集。

C-MTEB 是當(dāng)前最大規(guī)模、最為全面的中文語義向量評測基準(zhǔn),為可靠、全面的測試中文語義向量的綜合表征能力提供了實(shí)驗(yàn)基礎(chǔ)。

目前,C-MTEB 的全部測試數(shù)據(jù)以及評測代碼已連同 BGE 模型一并開源。

Table 3. C-MTEB 評測任務(wù)維度及數(shù)據(jù)集

技術(shù)亮點(diǎn):高效預(yù)訓(xùn)練+大規(guī)模文本對微調(diào)

BGE 出色的語義表征能力源于兩方面要素:1)針對表征的預(yù)訓(xùn)練,2)大規(guī)模文本對訓(xùn)練。

BGE 在悟道 [10]、Pile [11] 兩個大規(guī)模語料集上采取了針對表征的預(yù)訓(xùn)練算法 RetroMAE [5,6](Figure 2):將低掩碼率的輸入編碼為語義向量(Embed),再將高掩碼率的輸入與語義向量拼接以重建原始輸入。這樣一來,BGE 得以利用無標(biāo)簽語料實(shí)現(xiàn)語言模型基座對語義表征任務(wù)的適配。

Figure 2. RetroMAE 預(yù)訓(xùn)練算法示意

BGE 針對中文、英文分別構(gòu)建了多達(dá)120M、232M的樣本對數(shù)據(jù),從而幫助模型掌握實(shí)際場景中各種不同的語義匹配任務(wù),并借助負(fù)采樣擴(kuò)增 [7] 與難負(fù)樣例挖掘 [8] 進(jìn)一步提升對比學(xué)習(xí)的難度,實(shí)現(xiàn)了多達(dá)65K的負(fù)樣本規(guī)模,增強(qiáng)了語義向量的判別能力。

另外,BGE 借鑒 Instruction Tuning [9] 的思想,采取了非對稱的指令添加方式,在問題端添加場景描述, 提升了語義向量在多任務(wù)場景下的通用能力,如Figure 3所示:

Figure 3. 注入場景提示提升多任務(wù)通用能力

綜上,BGE 是當(dāng)前性能最佳的語義向量模型,尤其在語義檢索能力上大幅領(lǐng)先。

其卓越的能力為構(gòu)建大語言模型應(yīng)用(如閱讀理解、開放域問答、知識型對話)提供了重要的功能組件。相較于此前的開源模型,BGE 并未增加模型規(guī)模與向量的維度,因而保持了相同的運(yùn)行、存儲效率。

目前,BGE 中英文模型均已開源,代碼及權(quán)重均采用 MIT 協(xié)議,支持免費(fèi)商用。

作為智源「FlagOpen大模型技術(shù)開源體系」的重要組成部分,BGE 將持續(xù)迭代和更新,賦能大模型生態(tài)基礎(chǔ)設(shè)施建設(shè)。

BGE 模型鏈接:https://huggingface.co/BAAI/

BGE 代碼倉庫:https://github.com/FlagOpen/FlagEmbedding

FlagOpen官網(wǎng):https://flagopen.baai.ac.cn/

語義向量模型知識拓展

1. 語義向量模型是什么?

語義向量模型(Embedding Model)被廣泛應(yīng)用于搜索、推薦、數(shù)據(jù)挖掘等重要領(lǐng)域,將自然形式的數(shù)據(jù)樣本(如語言、代碼、圖片、音視頻)轉(zhuǎn)化為向量(即連續(xù)的數(shù)字序列),并用向量間的“距離”衡量數(shù)據(jù)樣本之間的“相關(guān)性” 。

2. 大模型時代,幫助緩解幻覺問題、長期記憶挑戰(zhàn)等的必要技術(shù)

- 與時俱進(jìn)獲取知識

只能基于模型訓(xùn)練中的階段性「死板」知識儲備,是導(dǎo)致大模型在回答問題時出現(xiàn)幻覺的重要因素。而借助語義向量模型的幫助,大模型可以獲取與時俱進(jìn)的「活知識」,答案又新又準(zhǔn)。具體而言,通過語義向量模型建立某個垂直領(lǐng)域的知識庫索引(Index),可以為大模型高效補(bǔ)充世界知識、本地知識:當(dāng)用戶向LLM提問時,LLM 會從最新最全知識庫中獲取答案。

- 提升大模型長期記憶

大模型困長期記憶久已,現(xiàn)有LLM存在上下文輸入長度限制,制約了長文本方面的處理能力。利用語義向量模型,可將長文檔結(jié)構(gòu)化,與LLM更好地直接交互,從而彌補(bǔ)長文本處理能力短板。

3. LangChain等大模型明星應(yīng)用的關(guān)鍵力量

OpenAI、Google、Meta 等廠商均推出了針對大模型的語義向量模型及API服務(wù),直接促進(jìn)了全球大模型開發(fā)者社區(qū)誕生了眾多有影響力的大模型應(yīng)用框架及工具:諸如大模型應(yīng)用框架 LangChain、向量存儲數(shù)據(jù)庫Pinecone、文檔格式化索引工具Llama Index、自主「思考」步驟并完成任務(wù)的助手AutoGPT 等。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-09-16 13:31:25

模型訓(xùn)練

2023-09-15 13:08:56

AI訓(xùn)練

2025-03-19 09:30:00

2015-08-18 15:19:51

2025-03-11 10:00:00

圖片模型數(shù)據(jù)

2020-07-16 13:00:18

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-07-20 09:49:56

開源技術(shù) 趨勢

2021-10-15 15:26:10

AI 數(shù)據(jù)人工智能

2020-06-08 11:16:06

百度

2024-05-14 16:58:05

騰訊混元大模型文生圖

2015-12-01 11:17:41

Windows 10Version 151鏡像

2010-04-06 09:33:37

CentOS系統(tǒng)

2009-10-20 14:07:00

CCIE必讀書籍

2013-06-21 10:48:18

WP7Windows Pho中英文互翻譯

2023-10-12 14:40:10

AI模型

2009-08-13 09:26:14

.NET正則表達(dá)式

2009-03-17 09:52:22

Unicode中英文Python

2023-12-25 13:24:00

模型OCR頁面

2025-04-14 09:17:00

2022-12-06 14:11:32

開源模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號