自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一個輕量級RAG文本切塊項(xiàng)目Chonkie

發(fā)布于 2024-11-13 15:17
瀏覽
0收藏

Chonkie:實(shí)用的RAG分塊庫,輕量級、速度快,可隨時對文本進(jìn)行分塊。

一個輕量級RAG文本切塊項(xiàng)目Chonkie-AI.x社區(qū)圖片

支持的方法

Chonkie 提供了多個分塊器,可高效地為RAG應(yīng)用程序拆分文本。以下是可用分塊器的簡要概述:

  • TokenChunker:將文本分割成固定大小的標(biāo)記塊。
  • WordChunker:根據(jù)單詞將文本分成塊。
  • SentenceChunker:根據(jù)句子將文本分成塊。
  • SemanticChunker:根據(jù)語義相似性將文本分成塊。
  • SDPMChunker:使用語義雙重合并方法分割文本。

基準(zhǔn)(VS LangChain LlamaIndex)

尺寸

  • 默認(rèn)安裝: 9.7MB(其他版本為 80-171MB)
  • 具有語義:仍然比競爭對手更輕!

一個輕量級RAG文本切塊項(xiàng)目Chonkie-AI.x社區(qū)圖片

速度

  • token分塊:比最慢的替代方案快 33 倍
  • 句子分塊:比競爭對手快近 2 倍
  • 語義分塊:比其他方法快 2.5 倍

一個輕量級RAG文本切塊項(xiàng)目Chonkie-AI.x社區(qū)

####
pip install chonkie


# First import the chunker you want from Chonkie 
from chonkie import TokenChunker


# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer 
tokenizer = Tokenizer.from_pretrained("gpt2")


# Initialize the chunker
chunker = TokenChunker(tokenizer)


# Chunk some text
chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")


# Access chunks
for chunk in chunks:
    print(f"Chunk: {chunk.text}")
    print(f"Tokens: {chunk.token_count}")

https://github.com/bhavnicksm/chonkie
https://pypi.org/project/chonkie/

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦