智源開放3億條語義向量模型訓(xùn)練數(shù)據(jù), BGE模型持續(xù)迭代更新
伴隨著大模型開發(fā)和應(yīng)用的火熱發(fā)展,作為大模型核心基礎(chǔ)組件的 Embedding 重要性愈發(fā)凸顯。智源于一月前發(fā)布的開源可商用中英文語義向量模型 BGE(BAAI General Embedding)在社區(qū)收獲頗高關(guān)注度,Hugging Face 累計下載量達(dá)到數(shù)十萬。當(dāng)前,BGE 快速迭代推出 1.5 版本并公布多項更新,其中,BGE 首次開源 3 億條大規(guī)模訓(xùn)練數(shù)據(jù),幫助社區(qū)訓(xùn)練同類模型,推動該領(lǐng)域技術(shù)發(fā)展。
- MTP數(shù)據(jù)集鏈接:https://data.baai.ac.cn/details/BAAI-MTP
- BGE 模型鏈接:https://huggingface.co/BAAI
- BGE 代碼倉庫:https://github.com/FlagOpen/FlagEmbedding
3 億中英向量模型訓(xùn)練數(shù)據(jù)開放
業(yè)界語義向量模型訓(xùn)練數(shù)據(jù)首次開源,達(dá) 3 億中英文數(shù)據(jù)。
BGE 的出色能力很大程度上源于其大規(guī)模、多樣化的訓(xùn)練數(shù)據(jù)。此前,業(yè)界同行鮮有發(fā)布同類數(shù)據(jù)集。在本次更新中,智源首次將 BGE 的訓(xùn)練數(shù)據(jù)向社區(qū)予以開放,為推動此類技術(shù)進一步發(fā)展打下了基礎(chǔ)。
此次發(fā)布的數(shù)據(jù)集 MTP 由總計 3 億條中英文關(guān)聯(lián)文本對構(gòu)成;其中,中文記錄達(dá) 1 億條,英文數(shù)據(jù)達(dá) 2 億條。數(shù)據(jù)收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等語料,經(jīng)過必要的采樣、抽取、清洗獲得。
詳細(xì)細(xì)節(jié)請參考 Data Hub:https://data.baai.ac.cn
MTP 為迄今開源的最大規(guī)模中英文關(guān)聯(lián)文本對數(shù)據(jù)集,為訓(xùn)練中英文語義向量模型提供重要基礎(chǔ)。
響應(yīng)開發(fā)者社區(qū),BGE 功能升級
基于社區(qū)反饋,BGE 在其 1.0 的版本之上進行了進一步優(yōu)化,其表現(xiàn)更加穩(wěn)健、出色。具體升級如下:
- 模型更新。BGE-*-zh-v1.5 緩解了相似度分布問題,通過對訓(xùn)練數(shù)據(jù)進行過濾,刪除低質(zhì)量數(shù)據(jù),提高訓(xùn)練時溫度系數(shù) temperature 至 0.02,使得相似度數(shù)值更加平穩(wěn) 。
- 新增模型。開源 BGE-reranker 交叉編碼器模型,可更加精準(zhǔn)找到相關(guān)文本,支持中英雙語。不同于向量模型需要輸出向量,BGE-reranker 直接文本對輸出相似度,排序準(zhǔn)確度更高,可用于對向量召回結(jié)果的重新排序,提升最終結(jié)果的相關(guān)性。
- 新增功能。BGE1.1 增加難負(fù)樣本挖掘腳本,難負(fù)樣本可有效提升微調(diào)后檢索的效果;在微調(diào)代碼中增加在微調(diào)中增加指令的功能;模型保存也將自動轉(zhuǎn)成 sentence transformer 格式,更方便模型加載。
值得一提的是,日前,智源聯(lián)合 Hugging Face 發(fā)布了一篇技術(shù)報告,報告提出用 C-Pack 增強中文通用語義向量模型。
《C-Pack: Packaged Resources To Advance General Chinese Embedding》
鏈接:https://arxiv.org/pdf/2309.07597.pdf
在開發(fā)者社區(qū)收獲高熱度
BGE 發(fā)布自以來受到大模型開發(fā)者社區(qū)關(guān)注,目前 Hugging Face 累計下載量達(dá)到數(shù)十萬,且已被 LangChain、LangChain-Chatchat、llama_index 等知名開源項目集成。
Langchain 官方、LangChain 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Harrison Chase、Deep trading 創(chuàng)始人 Yam Peleg 等社區(qū)大 V 對 BGE 表示關(guān)注。
堅持開源開放,促進協(xié)同創(chuàng)新,智源大模型技術(shù)開體系 FlagOpen BGE 新增 FlagEmbedding 新版塊,聚焦于 Embedding 技術(shù)和模型,BGE 是其中明星開源項目之一。FlagOpen 致力于打造大模型時代的 AI 技術(shù)基礎(chǔ)設(shè)施,未來將持續(xù)向?qū)W術(shù)界和產(chǎn)業(yè)界開源更為完整的大模型全棧技術(shù)。