自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="abnod"></blockquote>}

<legend id="abnod"><track id="abnod"></track></legend><style id="abnod"></style>

<s id="abnod"><li id="abnod"></li></s>

<big id="abnod"><rt id="abnod"></rt></big>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

智源開源最強(qiáng)語義向量模型BGE！中英文測評全面超過OpenAI、Meta

作者：新智元 2023-08-09 10:08:00

人工智能新聞

智源大模型技術(shù)版圖再填一員——BAAI General Embedding，中英文測評全面超過OpenAI、Meta等。

語義向量模型（Embedding Model）已經(jīng)被廣泛應(yīng)用于搜索、推薦、數(shù)據(jù)挖掘等重要領(lǐng)域。

在大模型時代，它更是用于解決幻覺問題、知識時效問題、超長文本問題等各種大模型本身制約或不足的必要技術(shù)。然而，當(dāng)前中文世界的高質(zhì)量語義向量模型仍比較稀缺，且很少開源。

為加快解決大模型的制約問題，近日，智源發(fā)布最強(qiáng)開源可商用中英文語義向量模型BGE（BAAI General Embedding），在中英文語義檢索精度與整體語義表征能力均超越了社區(qū)所有同類模型，如OpenAI 的text embedding 002等。此外，BGE 保持了同等參數(shù)量級模型中的最小向量維度，使用成本更低。

FlagEmbedding：https://github.com/FlagOpen/FlagEmbedding

BGE 模型鏈接：https://huggingface.co/BAAI/

BGE 代碼倉庫：https://github.com/FlagOpen/FlagEmbedding

C-MTEB 評測基準(zhǔn)鏈接：https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark

本次BGE模型相關(guān)代碼均開源于FlagOpen飛智大模型技術(shù)開源體系旗下FlagEmbedding項(xiàng)目，一個聚焦于Embedding技術(shù)和模型的新版塊。智源研究院將持續(xù)向?qū)W術(shù)及產(chǎn)業(yè)界開源更為完整的大模型全棧技術(shù)。

與此同時，鑒于當(dāng)前中文社區(qū)缺乏全面的評測基準(zhǔn)，智源團(tuán)隊發(fā)布了當(dāng)前最大規(guī)模、最為全面的中文語義向量表征能力評測基準(zhǔn)C-MTEB（Chinese Massive Text Embedding Benchmark），包含6大類評測任務(wù)和31個數(shù)據(jù)集，為評測中文語義向量的綜合表征能力奠定可靠的基礎(chǔ)，全部測試數(shù)據(jù)以及評測代碼已開源。

值得大模型應(yīng)用開發(fā)者關(guān)注的好消息：將 LangChain 與智源BGE結(jié)合，可以輕松定制本地知識問答助手，而不需要花較高的成本訓(xùn)練垂類大模型。

檢索精度大幅領(lǐng)先，中英文共87個任務(wù)上表現(xiàn)優(yōu)異

BGE 是當(dāng)前中文任務(wù)下最強(qiáng)語義向量模型，各項(xiàng)語義表征能力全面超越同類開源模型。

中文語義向量綜合表征能力評測 C-MTEB 的實(shí)驗(yàn)結(jié)果顯示（Table 1），BGE中文模型（BGE-zh）在對接大語言模型最常用到的檢索能力上領(lǐng)先優(yōu)勢尤為顯著，檢索精度約為 OpenAI Text Embedding 002 的1.4倍。

Table 1. 中文語義向量綜合表征能力評測（C-MTEB）

注：Model Size一列中Base ~100M，Large ~300M，XXL ~11BBGE w.o. Instruct: BGE輸入端沒有使用instruction

與中文能力相類似，BGE 英文模型（BGE-en）的語義表征能力同樣出色。根據(jù)英文評測基準(zhǔn) MTEB 的評測結(jié)果（Table 2），盡管社區(qū)中已有不少優(yōu)秀的基線模型，BGE 依然在總體指標(biāo)（Average）與檢索能力（Retrieval）兩個核心維度超越了此前開源的所有同類模型。

同時，BGE 的各項(xiàng)能力都顯著超越社區(qū)中最為流行的選項(xiàng)：OpenAI Text Embedding 002。

Table 2. 英文語義向量綜合表征能力評測（MTEB）注：Model Size一列中 Base ~100M，Large ~300M，XXL ~11B

Figure 1. 中文C-MTEB（左）、英文MTEB（右）注：BGE為紅色，OpenAI Text Embedding 002為藍(lán)色

中文語義向量，全面評測基準(zhǔn) C-MTEB

此前，中文社區(qū)一直缺乏全面、有效的評測基準(zhǔn)，BGE 研究團(tuán)隊依托現(xiàn)有的中文開源數(shù)據(jù)集構(gòu)建了針對中文語義向量的評測基準(zhǔn) C-MTEB（Chinese Massive Text Embedding Benchmark，如 Table 3所示）。

C-MTEB 的建設(shè)參照了同類別英文基準(zhǔn) MTEB [12]，總共涵蓋6大類評測任務(wù)（檢索、排序、句子相似度、推理、分類、聚類），涉及31個相關(guān)數(shù)據(jù)集。

C-MTEB 是當(dāng)前最大規(guī)模、最為全面的中文語義向量評測基準(zhǔn)，為可靠、全面的測試中文語義向量的綜合表征能力提供了實(shí)驗(yàn)基礎(chǔ)。

目前，C-MTEB 的全部測試數(shù)據(jù)以及評測代碼已連同 BGE 模型一并開源。

Table 3. C-MTEB 評測任務(wù)維度及數(shù)據(jù)集

技術(shù)亮點(diǎn)：高效預(yù)訓(xùn)練+大規(guī)模文本對微調(diào)

BGE 出色的語義表征能力源于兩方面要素：1）針對表征的預(yù)訓(xùn)練，2）大規(guī)模文本對訓(xùn)練。

BGE 在悟道 [10]、Pile [11] 兩個大規(guī)模語料集上采取了針對表征的預(yù)訓(xùn)練算法 RetroMAE [5,6]（Figure 2）：將低掩碼率的輸入編碼為語義向量（Embed），再將高掩碼率的輸入與語義向量拼接以重建原始輸入。這樣一來，BGE 得以利用無標(biāo)簽語料實(shí)現(xiàn)語言模型基座對語義表征任務(wù)的適配。

Figure 2. RetroMAE 預(yù)訓(xùn)練算法示意

BGE 針對中文、英文分別構(gòu)建了多達(dá)120M、232M的樣本對數(shù)據(jù)，從而幫助模型掌握實(shí)際場景中各種不同的語義匹配任務(wù)，并借助負(fù)采樣擴(kuò)增 [7] 與難負(fù)樣例挖掘 [8] 進(jìn)一步提升對比學(xué)習(xí)的難度，實(shí)現(xiàn)了多達(dá)65K的負(fù)樣本規(guī)模，增強(qiáng)了語義向量的判別能力。

另外，BGE 借鑒 Instruction Tuning [9] 的思想，采取了非對稱的指令添加方式，在問題端添加場景描述，提升了語義向量在多任務(wù)場景下的通用能力，如Figure 3所示：

Figure 3. 注入場景提示提升多任務(wù)通用能力

綜上，BGE 是當(dāng)前性能最佳的語義向量模型，尤其在語義檢索能力上大幅領(lǐng)先。

其卓越的能力為構(gòu)建大語言模型應(yīng)用（如閱讀理解、開放域問答、知識型對話）提供了重要的功能組件。相較于此前的開源模型，BGE 并未增加模型規(guī)模與向量的維度，因而保持了相同的運(yùn)行、存儲效率。

目前，BGE 中英文模型均已開源，代碼及權(quán)重均采用 MIT 協(xié)議，支持免費(fèi)商用。

作為智源「FlagOpen大模型技術(shù)開源體系」的重要組成部分，BGE 將持續(xù)迭代和更新，賦能大模型生態(tài)基礎(chǔ)設(shè)施建設(shè)。

BGE 模型鏈接：https://huggingface.co/BAAI/

BGE 代碼倉庫：https://github.com/FlagOpen/FlagEmbedding

FlagOpen官網(wǎng)：https://flagopen.baai.ac.cn/

語義向量模型知識拓展

1. 語義向量模型是什么？

語義向量模型（Embedding Model）被廣泛應(yīng)用于搜索、推薦、數(shù)據(jù)挖掘等重要領(lǐng)域，將自然形式的數(shù)據(jù)樣本（如語言、代碼、圖片、音視頻）轉(zhuǎn)化為向量（即連續(xù)的數(shù)字序列），并用向量間的“距離”衡量數(shù)據(jù)樣本之間的“相關(guān)性” 。

2. 大模型時代，幫助緩解幻覺問題、長期記憶挑戰(zhàn)等的必要技術(shù)

- 與時俱進(jìn)獲取知識

只能基于模型訓(xùn)練中的階段性「死板」知識儲備，是導(dǎo)致大模型在回答問題時出現(xiàn)幻覺的重要因素。而借助語義向量模型的幫助，大模型可以獲取與時俱進(jìn)的「活知識」，答案又新又準(zhǔn)。具體而言，通過語義向量模型建立某個垂直領(lǐng)域的知識庫索引（Index），可以為大模型高效補(bǔ)充世界知識、本地知識：當(dāng)用戶向LLM提問時，LLM 會從最新最全知識庫中獲取答案。

- 提升大模型長期記憶

大模型困長期記憶久已，現(xiàn)有LLM存在上下文輸入長度限制，制約了長文本方面的處理能力。利用語義向量模型，可將長文檔結(jié)構(gòu)化，與LLM更好地直接交互，從而彌補(bǔ)長文本處理能力短板。

3. LangChain等大模型明星應(yīng)用的關(guān)鍵力量

OpenAI、Google、Meta 等廠商均推出了針對大模型的語義向量模型及API服務(wù)，直接促進(jìn)了全球大模型開發(fā)者社區(qū)誕生了眾多有影響力的大模型應(yīng)用框架及工具：諸如大模型應(yīng)用框架 LangChain、向量存儲數(shù)據(jù)庫Pinecone、文檔格式化索引工具Llama Index、自主「思考」步驟并完成任務(wù)的助手AutoGPT 等。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="xjv6p"></blockquote>

<abbr id="xjv6p"></abbr>

<sub id="xjv6p"></sub>