自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="u3pqs"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

BM25Retriever 支持中文嗎？

發(fā)布于 2024-6-6 11:27

瀏覽

0收藏

llama_index 的BM25Retriever 基于Rank-BM25[1]的Okapi BM25。

Rank-BM25，兩行代碼實(shí)現(xiàn)搜索引擎

Rank-BM25? 提供了多種BM25算法，如Okapi BM25?， BM25L?， BM25+等。它的使用也非常簡單

安裝

pip install rank_bm25

初始化

以O(shè)kapi BM25為例

from rank_bm25 import BM25Okapi

corpus = [
    "Hello there good man!",
    "It is quite windy in London",
    "How is the weather today?"
]
# 分詞使用空格
tokenized_corpus = [doc.split(" ") for doc in corpus]

bm25 = BM25Okapi(tokenized_corpus)

查詢(文檔排名)

query = "windy London"
tokenized_query = query.split(" ")

doc_scores = bm25.get_scores(tokenized_query)
# array([0.        , 0.93729472, 0.        ])

??：Rank-BM25 不做任何文本預(yù)處理。如果想要做諸如轉(zhuǎn)換為小寫、停用詞移除、詞干提取等操作，需要自己實(shí)現(xiàn)。所以如果要進(jìn)行處理中文，就需要用到專業(yè)的中文分詞器了。

中文分詞器

分詞器是自然語言處理（NLP）中非常重要的工具，它們將連續(xù)的文本字符串分割成有意義的單元，通常是單詞或短語。中文分詞器的實(shí)現(xiàn)很多，如 jieba，SnowNLP，THULAC?， HanLP? 等，可以根據(jù)需要選擇，這里就以 jieba 為例。

安裝

pip install nltk jieba

下載停用詞

import nltk
nltk.download('stopwords')

import jieba
from typing import List

def chinese_tokenizer(text: str) -> List[str]:
    tokens = jieba.lcut(text)
    return [token for token in tokens if token not in stopwords.words('chinese')]

corpus = [
    "床前明月光",
    "疑是地上霜",
    "舉頭望明月",
    "低頭思故鄉(xiāng)",
]
tokenized_corpus = [chinese_tokenizer(doc) for doc in corpus]
bm25 = BM25Okapi(tokenized_corpus)
query = "床前明月光"
tokenized_query = chinese_tokenizer(query)

doc_scores = bm25.get_scores(tokenized_query)
doc_scores
# array([1.8621931, 0.       , 0.       , 0.       ])

BM25Retriever

BM25Retriever? 基于 Rank-BM25?，可以指定分詞方法，如果不指定，則使用默認(rèn)的tokenize_remove_stopwords。

from nltk.stem import PorterStemmer

def tokenize_remove_stopwords(text: str) -> List[str]:
    # lowercase and stem words
    text = text.lower()
    stemmer = PorterStemmer()
    words = list(simple_extract_keywords(text))
    return [stemmer.stem(word) for word in words]

如果想使用前面定義的chinese_tokenizer，只需這樣做

from llama_index.retrievers.bm25 import BM25Retriever
from llama_index.core import Document
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.response.notebook_utils import display_source_node

documents = [Document(text="床前明月光"),
             Document(text="疑是地上霜"),
             Document(text="舉頭望明月"),
             Document(text="低頭思故鄉(xiāng)")]

splitter = SentenceSplitter(chunk_size=1024)
nodes = splitter.get_nodes_from_documents(documents)

retriever = BM25Retriever.from_defaults(
    nodes=nodes,
    similarity_top_k=2,
    tokenizer=chinese_tokenizer
)

nodes = retriever.retrieve("故鄉(xiāng)")
for node in nodes:
    display_source_node(node)

BM25Retriever 支持中文嗎？-AI.x社區(qū)

已知問題

昨天介紹了 DuckDBRetriever ，它基于DuckDB fts，于是不可避免地有以下幾個(gè)缺點(diǎn)，

1. 不支持中文

2. 不能增量更新，只能重建索引BM25Retriever 的缺點(diǎn)是不能持久化，只能全部加載內(nèi)存中。

有沒有既可以持久化，又支持中文分詞，并且可以對索引進(jìn)行增加和刪除的呢？

BM25Retriever 支持中文嗎？-AI.x社區(qū)

BM25算法

Okapi BM25，一般簡稱 BM25 算法，在 20 世紀(jì) 70 年代到 80 年代，由英國一批信息檢索領(lǐng)域的計(jì)算機(jī)科學(xué)家發(fā)明。這里的 BM 是 “最佳匹配”（Best Match）的縮寫，Okapi 是第一個(gè)使用這種方法的信息獲取系統(tǒng)的名稱。在信息檢索領(lǐng)域，BM25 算法是工程實(shí)踐中舉足輕重的重要的 Baseline 算法。迄今為止距 BM25 的提出已經(jīng)過去三十多年，但是這個(gè)算法依然在很多信息檢索的任務(wù)中表現(xiàn)優(yōu)異，是很多工程師首選的算法之一。

BM25（Best Match 25）是一種用于信息檢索的統(tǒng)計(jì)算法，主要用于評估搜索詞（query）和文檔之間的相關(guān)性。它基于概率檢索模型，通過計(jì)算查詢詞與文檔之間的相關(guān)性得分來對文檔進(jìn)行排序。BM25算法的核心思想可以概括為以下幾點(diǎn)：

1.查詢詞權(quán)重（IDF）：BM25使用逆文檔頻率（Inverse Document Frequency，IDF）來衡量查詢詞的重要性。IDF的計(jì)算公式為： BM25Retriever 支持中文嗎？-AI.x社區(qū)

IDF公式其中，(N)是文檔集合中的文檔總數(shù)，(n(qi))是包含查詢詞(qi)的文檔數(shù)量。IDF值越高，表示查詢詞在文檔集合中越稀有，其權(quán)重越大。

2.詞頻和文檔長度的標(biāo)準(zhǔn)化：BM25考慮到詞頻（TF）與相關(guān)性之間的關(guān)系是非線性的。為了平衡詞頻對得分的影響，引入了飽和函數(shù)和文檔長度因子。標(biāo)準(zhǔn)化后的詞頻公式為：

BM25Retriever 支持中文嗎？-AI.x社區(qū)

TF公式其中，(tf(qi, d))是查詢詞在文檔中的詞頻，(Ld)是文檔長度，(Lavg)是文檔集合中所有文檔的平均長度，(k1)和(b)是調(diào)節(jié)參數(shù)。

3.查詢詞頻率的加權(quán)：如果查詢較長，某些詞在查詢中出現(xiàn)頻率較高，BM25還會考慮這些詞在查詢中的頻率，通過引入另一個(gè)調(diào)節(jié)參數(shù)(k3)來調(diào)整查詢詞頻率對得分的影響。

4.最終得分計(jì)算：BM25的最終得分是查詢中每個(gè)詞與文檔相關(guān)性得分的加權(quán)和。公式為：

BM25Retriever 支持中文嗎？-AI.x社區(qū)

Score其中，(R(qi, d))是查詢詞(qi)與文檔(d)的相關(guān)性得分。

BM25算法因其簡單、高效且效果良好，在搜索引擎和信息檢索系統(tǒng)中得到了廣泛應(yīng)用。它的參數(shù)(k1)、(b)和(k3)可以根據(jù)具體應(yīng)用場景進(jìn)行調(diào)整，以達(dá)到最佳的檢索效果。

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型推理框架RTP-LLM對LoRA的支持

wx5bbef785639a1 ? 3911瀏覽 ? 0回復(fù)
港中文提出CLongEval中文基準(zhǔn)測試集，準(zhǔn)確評估大模型長上下文能力

zhangyannni ? 4898瀏覽 ? 0回復(fù)
Agentic RAG Golden-Retriever：顯著提升企業(yè)知識庫問答準(zhǔn)確性、檢索效率！

PaperAgent ? 2681瀏覽 ? 0回復(fù)
ChatGPT 輸出現(xiàn)支持預(yù)定義！

51CTO技術(shù)棧 ? 2357瀏覽 ? 0回復(fù)
大模型是泡沫嗎？

NLP工作站 ? 2068瀏覽 ? 0回復(fù)
支持大模型流式輸出的JSON提取工具

恰似驚鴻 ? 2975瀏覽 ? 0回復(fù)
高效信息檢索新方法：LangChain中Retriever的多種高級策略

Halo咯咯 ? 3142瀏覽 ? 0回復(fù)
一個(gè)開源、清晰的本地 Graph RAG UI，支持Graph RAG 和 Hybrid RAG（支持Ollama）

AI博物院 ? 5182瀏覽 ? 0回復(fù)
快來試試Golden Retriever 指代消歧

AI博物院 ? 2212瀏覽 ? 0回復(fù)
25個(gè)生成式AI核心術(shù)語【值得收藏】

Halo咯咯 ? 3514瀏覽 ? 0回復(fù)
支持25種復(fù)雜編輯類型！浙大等提出AnyEdit：統(tǒng)一高質(zhì)量圖像編輯框架

angel ? 3025瀏覽 ? 0回復(fù)
2025年企業(yè)必備的25款A(yù)I工具

Halo咯咯 ? 4724瀏覽 ? 0回復(fù)
Open Notebook：開源AI筆記工具，支持多模型與多格式內(nèi)容集成

穿越時(shí)空111 ? 2784瀏覽 ? 0回復(fù)
深度剖析25種RAG變體：全網(wǎng)最全~沒有之一

柏企閱文 ? 2241瀏覽 ? 0回復(fù)
支持GPU加速，輕松應(yīng)對復(fù)雜文檔

AI博物院 ? 4292瀏覽 ? 0回復(fù)
MES-RAG：準(zhǔn)確率提升 25%！

大語言模型論文跟蹤 ? 948瀏覽 ? 0回復(fù)
你了解大模型的生態(tài)體系嗎？大模型從技術(shù)到應(yīng)用的內(nèi)容梳理

AI探索時(shí)代 ? 1014瀏覽 ? 0回復(fù)
支持 MCP 很炸裂！!

玄姐聊AGI ? 73瀏覽 ? 0回復(fù)
ICLR'25 | 基于記憶網(wǎng)絡(luò)和混合Prototype的時(shí)間序列異常檢測方法

海因斯DK ? 72瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

在 DUCKDB 中構(gòu)建人工智能驅(qū)動的搜索功能 2024-05-17 11:07:00發(fā)布
6行代碼入門RAG開發(fā) 2024-05-15 14:08:15發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：在 DUCKDB 中構(gòu)建人工智能驅(qū)動的搜索功能

社區(qū)精華內(nèi)容

目錄

<s id="3q4ow"><li id="3q4ow"></li></s>

<sup id="3q4ow"><rt id="3q4ow"></rt></sup>