自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

RAG技術(shù)性能提升之文檔分塊策略方案原創(chuàng)

發(fā)布于 2024-7-9 07:20

瀏覽

0收藏

在人工智能領(lǐng)域，尤其是大型語言模型（LLM）的應(yīng)用中，檢索增強(qiáng)生成（Retrieval-Augmented Generation, RAG）技術(shù)正變得越來越重要。RAG技術(shù)通過結(jié)合檢索和生成能力，為模型提供了豐富的外部知識源，從而生成更準(zhǔn)確、更符合上下文的答案。本文將深入探討RAG技術(shù)中的文檔分塊策略，這些策略對于提高檢索效率和生成質(zhì)量具有決定性作用。

RAG技術(shù)性能提升之文檔分塊策略方案 -AI.x社區(qū)

一、文檔分塊策略的重要性

文檔分塊是RAG技術(shù)中的關(guān)鍵步驟，它影響著模型對信息的檢索和理解。合理的分塊策略可以：

提高檢索的準(zhǔn)確性和效率。
保持文本的邏輯和語義完整性。
增強(qiáng)模型對文本內(nèi)容的理解和生成能力。

二、固定大小分塊

固定大小分塊是一種簡單且計(jì)算成本低的方法，適用于對文本進(jìn)行均勻劃分，便于模型處理。

核心優(yōu)勢：

簡單易實(shí)現(xiàn)，計(jì)算成本低，不需要復(fù)雜的NLP處理。
適用于對文本進(jìn)行標(biāo)準(zhǔn)化處理的場景。

示例代碼：

from langchain.text_splitter import CharacterTextSplitter


text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
encoding="cl100k_base", 
chunk_size=100, 
chunk_overlap=0
)
texts = text_splitter.split_text(state_of_the_union)

三、基于結(jié)構(gòu)的分塊

基于結(jié)構(gòu)的分塊方法利用文檔的固有結(jié)構(gòu)，如HTML或Markdown中的標(biāo)題和段落，以保持內(nèi)容的邏輯性和完整性。

核心優(yōu)勢：

利用文檔結(jié)構(gòu)信息，提高分塊的語義相關(guān)性。
適用于結(jié)構(gòu)化文檔的處理。

示例代碼：

from langchain.text_splitter import HTMLHeaderTextSplitter


html_string = "<html>...</html>"
headers_to_split_on = [("h1", "Header 1"), ("h2", "Header 2"), ("h3", "Header 3")]
html_splitter = HTMLHeaderTextSplitter(headers_to_split_notallow=headers_to_split_on)
html_header_splits = html_splitter.split_text(html_string)

四、基于語義的分塊

基于語義的分塊策略關(guān)注于文本的語義獨(dú)立性，確保每個分塊包含完整的語義信息?？梢酝ㄟ^標(biāo)點(diǎn)符號、自然段落或使用NLTK、Spacy等工具實(shí)現(xiàn)。

核心優(yōu)勢：

保持語義完整性，提高文本的可讀性和理解性。
適用于需要深入理解文本內(nèi)容的場景。

示例代碼：

from langchain_experimental.text_splitter import SemanticChunker
from langchain.embeddings import OpenAIEmbeddings


text_splitter = SemanticChunker(OpenAIEmbeddings())
docs = text_splitter.create_documents([state_of_the_union], breakpoint_threshold_type="percentile")
print(docs[0].page_content)

五、遞歸分塊

遞歸分塊是一種動態(tài)的分塊方法，可以使用一組分隔符，以分層和迭代的方式將文本劃分為更小的塊，動態(tài)適應(yīng)不同類型的文本數(shù)據(jù)。

核心優(yōu)勢：

適應(yīng)性強(qiáng)，能夠處理不同類型和結(jié)構(gòu)的文本。
提高分塊的靈活性和準(zhǔn)確性。

示例代碼：

from langchain.text_splitter import RecursiveCharacterTextSplitter


text_splitter = RecursiveCharacterTextSplitter(
    # 指定每個文本塊（chunk）的大小為100個字符
chunk_size=100, 
    # 設(shè)置相鄰文本塊之間的重疊字符數(shù)為20
chunk_overlap=20,
    # 指定用于測量文本長度的函數(shù)
length_function=len,
    # 不使用正則表達(dá)式作為分隔符來分割文本
is_separator_regex=False,
)
texts = text_splitter.create_documents([state_of_the_union])


print(texts[0])
print(texts[1])

總結(jié)：

選擇合適的文檔分塊策略對于提升RAG技術(shù)的效果至關(guān)重要。不同的分塊策略適用于不同的場景，可以根據(jù)應(yīng)用需求和數(shù)據(jù)特性選擇單一策略或組合使用多種策略。通過合理的分塊，可以增強(qiáng)RAG技術(shù)結(jié)合檢索和生成能力，為大模型語言提供更準(zhǔn)確、高效的答案。

本文轉(zhuǎn)載自公眾號頂層架構(gòu)領(lǐng)域

原文鏈接：??https://mp.weixin.qq.com/s/sSnZbEbiKUe5GMS6eBtuXg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2024-7-9 11:15:11修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

提升RAG系統(tǒng)性能10條策略建議

AIGC觀察者 ? 2515瀏覽 ? 0回復(fù)
Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實(shí)踐

Syrupup ? 4235瀏覽 ? 0回復(fù)
大模型技術(shù)細(xì)節(jié)——大模型之文本生成與文檔總結(jié)

AI探索時(shí)代 ? 5601瀏覽 ? 0回復(fù)
RAG文檔解析器，核心技術(shù)剖析

小虎哦哦 ? 2964瀏覽 ? 0回復(fù)
文檔概要索引，簡單提升檢索性能的新選擇

恰似驚鴻 ? 2166瀏覽 ? 0回復(fù)
Adaptive-RAG：性能提升50%以上的高效RAG策略

大語言模型論文跟蹤 ? 2259瀏覽 ? 0回復(fù)
TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備

恰似驚鴻 ? 3619瀏覽 ? 0回復(fù)
提升人工智能性能的三種關(guān)鍵的LLM壓縮策略

51CTO內(nèi)容精選 ? 1834瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 2068瀏覽 ? 0回復(fù)
提升RAG性能的全攻略：優(yōu)化檢索增強(qiáng)生成系統(tǒng)的策略大揭秘

Halo咯咯 ? 5187瀏覽 ? 0回復(fù)
為什么分塊在RAG技術(shù)中很重要？但又很沒有存在感？

AI探索時(shí)代 ? 1729瀏覽 ? 0回復(fù)
如何優(yōu)化大型語言模型（LLM）的分塊策略

51CTO內(nèi)容精選 ? 2274瀏覽 ? 0回復(fù)
AI時(shí)代，技術(shù)性失業(yè)會愈演愈烈嗎

數(shù)字化助推器 ? 2003瀏覽 ? 0回復(fù)
提升RAG性能：分塊后，Chunk Enrichment的2個關(guān)鍵優(yōu)化步驟不可錯過

凝固的雨_1 ? 2130瀏覽 ? 0回復(fù)
RAG常見13種分塊策略大總結(jié)（一覽表）

大模型自然語言處理 ? 1612瀏覽 ? 0回復(fù)
ViDoRAG：提升視覺RAG性能10%

大語言模型論文跟蹤 ? 1573瀏覽 ? 0回復(fù)
基于代理知識蒸餾技術(shù)克服文檔提取和RAG策略失敗問題?

51CTO內(nèi)容精選 ? 1013瀏覽 ? 0回復(fù)
RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路

大模型自然語言處理 ? 948瀏覽 ? 0回復(fù)
Hybrid-RRF：動態(tài)權(quán)重混合檢索RAG方案

大語言模型論文跟蹤 ? 1818瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Label Studio 數(shù)據(jù)標(biāo)注工具詳解 2024-08-28 07:25:43發(fā)布
Easy-RAG 一個適合學(xué)習(xí)、使用、自主擴(kuò)展的檢索增強(qiáng)生成系統(tǒng) 2024-08-21 16:33:57發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： AI技術(shù)新前沿本地LLM模型推理訓(xùn)練加速

下一篇： AI大模型技術(shù)的四大核心架構(gòu)演進(jìn)之路

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="u3nbq"></blockquote>}

<legend id="u3nbq"></legend>

<sub id="u3nbq"></sub>