大模型應(yīng)用落地:如何選擇合適的 Embedding 模型? 原創(chuàng)
0、背景落地
在生成式人工智能(GenAI)領(lǐng)域,檢索增強(qiáng)生成(RAG)作為一種策略脫穎而出,它通過集成外部數(shù)據(jù)來擴(kuò)充像 ChatGPT 這樣的大型語言模型(LLM)的現(xiàn)有知識庫。
RAG 系統(tǒng)核心涉及三種關(guān)鍵的人工智能模型組件:嵌入(Embedding)模型負(fù)責(zé)將信息轉(zhuǎn)化為數(shù)學(xué)向量,重排名(Reranker)模型則用于優(yōu)化搜索結(jié)果,而強(qiáng)大的基礎(chǔ)語言模型確保了豐富的語境理解和生成。
本篇文章旨在指導(dǎo)您依據(jù)數(shù)據(jù)特性及目標(biāo)領(lǐng)域,比如:金融專業(yè),來挑選最合適的嵌入模型,從而最大化 RAG 系統(tǒng)的效能與準(zhǔn)確性。
1、文本數(shù)據(jù):MTEB 排行榜
HuggingFace 推出的 MTEB leaderboard 是一個(gè)綜合性的文本嵌入模型比較平臺,讓您可以一覽各模型的綜合性能表現(xiàn)。
為了滿足向量搜索的需求,建議優(yōu)先關(guān)注“Retrieval Average”這一列,并按降序排列,以識別在檢索任務(wù)中表現(xiàn)最優(yōu)的模型。在此基礎(chǔ)上,尋找那些內(nèi)存占用小、效率高的佼佼者。
- 嵌入向量維度指的是模型輸出向量的長度,即函數(shù) f 將輸入 x 轉(zhuǎn)化為向量 y 的 y 部分,體現(xiàn)了模型對文本特征的編碼深度。
- 而最大 Token 數(shù)則是模型能夠處理的文本片段的最大長度,相當(dāng)于函數(shù) f中的輸入 x,影響著單次請求能包含的信息量。
在篩選理想模型時(shí),您不僅可根據(jù)檢索性能排序,還能夠依據(jù)特定條件進(jìn)一步篩選:
- 語言支持:涵蓋法語、英語、中文、波蘭語等多語種。(示例篩選:task=retrieval, Language=chinese)
- 領(lǐng)域適應(yīng):針對法律文本的專業(yè)應(yīng)用。(如:task=retrieval, Domain=law)
值得注意的是,MTEB上的排名可能因新公開的訓(xùn)練數(shù)據(jù)而有所偏差,某些模型的評分可能存在虛高現(xiàn)象。因此,參考 HuggingFace 的官方博客,學(xué)習(xí)如何辨別模型排名的真實(shí)可靠性顯得尤為重要。在訪問每個(gè)模型的“模型卡片”頁面時(shí),以下幾個(gè)步驟至關(guān)重要:
- 深入探究訓(xùn)練詳情:查找相關(guān)博客和研究論文,這些資料會詳細(xì)介紹模型的訓(xùn)練數(shù)據(jù)、任務(wù)設(shè)定等關(guān)鍵信息。
- 留意模型來源:知名機(jī)構(gòu)或公司的模型往往更值得信賴。比如:voyage-lite-02-instruct 模型的卡片缺少與其同系列其他模型的關(guān)聯(lián)信息,暗示其可能存在過擬合問題,不推薦實(shí)際部署。
基于上述考量,我建議使用 Snowflake 新推出的“snowflake-arctic-embed-1”模型。該模型不僅在排名上表現(xiàn)搶眼,而且以其較小的體積適合在有限資源的設(shè)備上運(yùn)行,此外,模型卡片提供的博客和論文鏈接也增加了其透明度和可信度。
2、圖像數(shù)據(jù):ResNet50
如果您希望查找與某張圖片風(fēng)格或內(nèi)容相似的其他圖片,比如:搜尋更多關(guān)于蘇格蘭折耳貓的圖像資料,一種方法是上傳一張?jiān)撈贩N貓的照片,并利用圖像搜索引擎去發(fā)掘類似圖片。
ResNet50 作為一種廣泛采納的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,自2015年微軟基于 ImageNet 數(shù)據(jù)集的訓(xùn)練成果以來,便成為了圖像識別領(lǐng)域的基石之一。
類似地,在面對視頻搜索需求時(shí),ResNet50 能夠發(fā)揮作用,通過將視頻分解成一系列靜態(tài)幀,對每一幀應(yīng)用模型以生成對應(yīng)的嵌入向量。隨后,基于這些向量進(jìn)行相似性比對,系統(tǒng)能夠甄選出與查詢視頻最為接近的視頻內(nèi)容,從而為用戶提供高度匹配的搜索結(jié)果。
3、音頻數(shù)據(jù):PANNs
就如同圖像搜索一樣,您也能夠依據(jù)提供的音頻片段去探尋類似的音頻內(nèi)容。
PANNs(預(yù)訓(xùn)練音頻神經(jīng)網(wǎng)絡(luò))作為一種主流的音頻檢索 Embedding 模型,其優(yōu)勢在于它基于龐大的音頻資料庫進(jìn)行了預(yù)先訓(xùn)練,對此在音頻分類與標(biāo)簽分配等任務(wù)上展現(xiàn)出卓越的能力。
4、多模態(tài)圖像與文本數(shù)據(jù):SigLIP 或 Unum
近年來,一系列旨在對文本、圖像、音頻及視頻等多種非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行綜合訓(xùn)練的 Embedding 模型應(yīng)運(yùn)而生。這些創(chuàng)新模型能夠在統(tǒng)一的向量空間框架下,有效把握并表達(dá)不同形態(tài)的非結(jié)構(gòu)數(shù)據(jù)所蘊(yùn)含的深層語義信息。
多模態(tài) Embedding 技術(shù)的發(fā)展,使得跨領(lǐng)域的應(yīng)用如文本導(dǎo)向的圖像檢索、圖像內(nèi)容的自動生成描述,乃至圖像間的相似性搜索成為可能,極大地拓寬了人工智能的應(yīng)用范疇。
2021年,OpenAI 發(fā)布的 CLIP 作為 Embedding 模型的典范,開辟了新領(lǐng)域,盡管其定制化微調(diào)的需求增加了使用的復(fù)雜度。這一挑戰(zhàn)隨后在2024年迎來了轉(zhuǎn)機(jī),谷歌推出了 SigLIP(Sigmoidal-CLIP),該模型憑借在 zero-shot prompt 任務(wù)上的出色表現(xiàn),顯著降低了部署難度,提升了用戶體驗(yàn)。
與此同時(shí),輕量級的小型 LLM(語言模型)日益受到青睞。它們的吸引力在于能夠擺脫對高端云計(jì)算資源的依賴,輕松實(shí)現(xiàn)在個(gè)人筆記本上的運(yùn)行。這些“小而美”的模型,因內(nèi)存占用低、響應(yīng)速度快以及處理效率高的特點(diǎn),正逐步改變著 AI 應(yīng)用的格局。Unum 等平臺更是提供了集成多模態(tài)功能的小型 Embedding 模型,進(jìn)一步推動了 AI 技術(shù)的普及與應(yīng)用便捷性。
5、多模態(tài)文本、音頻、視頻數(shù)據(jù)
多模態(tài)的文本-音頻 RAG(檢索增強(qiáng)的生成)系統(tǒng)廣泛采納了多模態(tài)生成型 LLMs。此過程啟始于音頻信息的文本化轉(zhuǎn)換,創(chuàng)造音頻-文本配對,繼而將文本內(nèi)容編碼為 Embedding 形式的向量,以便利用 RAG 機(jī)制進(jìn)行常規(guī)的文本查詢。最終階段涉及將檢索到的文本逆向關(guān)聯(lián)回相應(yīng)的音頻片段。
OpenAI 的 Whisper 技術(shù)在這方面起到了橋接作用,它能夠?qū)崿F(xiàn)語音到文本的高效轉(zhuǎn)寫。相反地,OpenAI 還開發(fā)了 Text-to-Speech(TTS)模型,完成了從文本到語音的逆向轉(zhuǎn)換,豐富了多模態(tài)交互的閉環(huán)。
至于多模態(tài)文本-視頻的 RAG 應(yīng)用,則采取了類似的策略,先將復(fù)雜的視頻內(nèi)容簡化為可處理的文本描述,經(jīng) Embedding 轉(zhuǎn)化后執(zhí)行文本查詢,最后輸出相關(guān)的視頻片段作為檢索成果。
OpenAI 的創(chuàng)新工具 Sora,則在文本到視頻的生成領(lǐng)域展現(xiàn)了非凡能力,與 Dall-E 在圖像生成領(lǐng)域的成就相似,Sora 僅需用戶輸入文本提示,即可借助強(qiáng)大的 LLM 生成對應(yīng)的視頻內(nèi)容。Sora 的靈活性不僅限于文本,還能基于靜態(tài)圖像或現(xiàn)有視頻進(jìn)行視頻的衍生創(chuàng)作,進(jìn)一步拓展了多模態(tài)內(nèi)容生成的邊界。
Milvus目前已經(jīng)集成了主流的Embedding模型,體驗(yàn)鏈接:???https://milvus.io/docs/embeddings.md??
本文轉(zhuǎn)載自公眾號玄姐聊AGI 作者:玄姐
原文鏈接:????https://mp.weixin.qq.com/s/IKyF7k_vswDnaCosylw2kA???
