llamaindex的BM25Retriever基于RankBM25[1]的OkapiBM25。RankBM25,兩行代碼實現(xiàn)搜索引擎RankBM25?提供了多種BM25算法,如OkapiBM25?,BM25L?,BM25+等。它的使用也非常簡單安裝pipinstallrankbm25初始化以O(shè)kapiBM25為例fromrankbm25importBM25Okapicorpus["Hellotheregoodman!","ItisquitewindyinLondon","Howistheweathertoday"]分詞使用空格tokenizedcorpus[doc.split("")fordocincorpus]bm25BM25Okapi(tokenizedcorpus)...
2024-06-06 11:27:16 5923瀏覽 0點贊 0回復(fù) 0收藏
TLDR本文將展示如何使用DuckDB的數(shù)組類型和余弦相似度函數(shù)實現(xiàn)高效的基于文本嵌入的向量搜索,并通過電影數(shù)據(jù)集實例演示其應(yīng)用。簡介現(xiàn)在,許多分析任務(wù)涉及文本數(shù)據(jù),例如電子商務(wù)商店的產(chǎn)品評論。這些任務(wù)包括但不限于分類、聚類和相似性比較。它們主要使用文本數(shù)據(jù)的向量嵌入表示來實現(xiàn)矢量搜索功能。DuckDB提供了Array[2]和List[3]數(shù)據(jù)類型,可以用來存儲和處理向量嵌入,以實現(xiàn)向量搜索。在這個系列博客的第一篇中,我們將...
2024-05-17 11:07:00 3984瀏覽 0點贊 0回復(fù) 0收藏
什么是RAG?檢索增強生成(RAG)是指對大型語言模型輸出進行優(yōu)化,使其能夠在生成響應(yīng)之前引用訓(xùn)練數(shù)據(jù)來源之外的權(quán)威知識庫。大型語言模型(LLM)用海量數(shù)據(jù)進行訓(xùn)練,使用數(shù)十億個參數(shù)為回答問題、翻譯語言和完成句子等任務(wù)生成原始輸出。在LLM本就強大的功能基礎(chǔ)上,RAG將其擴展為能訪問特定領(lǐng)域或組織的內(nèi)部知識庫,所有這些都無需重新訓(xùn)練模型。這是一種經(jīng)濟高效地改進LLM輸出的方法,讓它在各種情境下都能保持相關(guān)性、準...
2024-05-15 14:08:15 2967瀏覽 0點贊 0回復(fù) 0收藏
LMStudio簡介LMStudio是一款免費本地模型部署、應(yīng)用軟件,主要功能:?模型部署?Chat應(yīng)用?兼容OpenAI的LocalServer,支持以下接口?GETv1models?POSTv1chatcompletions?POSTv1embeddings?POSTv1completionsLMStudiovsollamaLMStudio功能上比ollama+OpenWebUI弱不少(OpenWebUI的缺點就是比較難安裝),有興趣OpenWebUI的,建議看看這兩篇文章?一行代碼讓你免魔法部署OpenWebUI?ollama使用技巧集錦沒有魔法,無法下載hugg...
2024-05-07 12:13:58 1.9w瀏覽 0點贊 0回復(fù) 0收藏