一個輕量級RAG文本切塊項(xiàng)目Chonkie
Chonkie:實(shí)用的RAG分塊庫,輕量級、速度快,可隨時對文本進(jìn)行分塊。
圖片
支持的方法
Chonkie 提供了多個分塊器,可高效地為RAG應(yīng)用程序拆分文本。以下是可用分塊器的簡要概述:
- TokenChunker:將文本分割成固定大小的標(biāo)記塊。
- WordChunker:根據(jù)單詞將文本分成塊。
- SentenceChunker:根據(jù)句子將文本分成塊。
- SemanticChunker:根據(jù)語義相似性將文本分成塊。
- SDPMChunker:使用語義雙重合并方法分割文本。
基準(zhǔn)(VS LangChain LlamaIndex)
尺寸
- 默認(rèn)安裝: 9.7MB(其他版本為 80-171MB)
- 具有語義:仍然比競爭對手更輕!
圖片
速度
- token分塊:比最慢的替代方案快 33 倍
- 句子分塊:比競爭對手快近 2 倍
- 語義分塊:比其他方法快 2.5 倍
####
pip install chonkie
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer.from_pretrained("gpt2")
# Initialize the chunker
chunker = TokenChunker(tokenizer)
# Chunk some text
chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")
# Access chunks
for chunk in chunks:
print(f"Chunk: {chunk.text}")
print(f"Tokens: {chunk.token_count}")
https://github.com/bhavnicksm/chonkie
https://pypi.org/project/chonkie/
本文轉(zhuǎn)載自??PaperAgent??
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)

回復(fù)
相關(guān)推薦