自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="x6rna"></sub>

<sub id="x6rna"></sub>

<style id="x6rna"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實(shí)踐

發(fā)布于 2024-7-19 11:55

瀏覽

0收藏

近日，Maria Khalusova在Unstructured官方博客分享了有關(guān)分塊的最佳實(shí)踐。

Unstructured成立于2022年9月，致力于解決自然語言處理（NLP）和大型語言模型（LLM）應(yīng)用中的數(shù)據(jù)預(yù)處理問題。公司總部位于美國，專注于將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為LLM可以處理的格式，當(dāng)下流行的pdf解析庫就來自于它們，它們在數(shù)據(jù)預(yù)處理方面擁有非常前沿的技術(shù)和經(jīng)驗(yàn)。

分塊是文檔處理的一個(gè)步驟，當(dāng)各種格式的文檔被解析變成文本文檔后，接下來就需要對文檔進(jìn)行分塊。而這一步驟也直接會影響到后期檢索和模型推理總結(jié)的效果。這時(shí)候必然會帶來一些常見的問題如：為什么要分塊？最佳塊大小是多少？拆分文本的最佳方法是什么？等等。在這篇文章里，博文作者將給出他們的實(shí)踐分享。

為什么需要分塊？

出于多種原因，在為 RAG 準(zhǔn)備數(shù)據(jù)時(shí)，分塊是必不可少的預(yù)處理步驟。

1）上下文窗口限制

首先從基礎(chǔ)開始。檢索到的塊將直接作為上下文輸入到提示中，以便LLM生成響應(yīng)。這意味著所有檢索到的塊的總長度至少不能超過LLM的上下文窗口。盡管當(dāng)下許多LLM有相當(dāng)大的上下文窗口，但實(shí)際上并不希望填滿上下文窗口，因?yàn)檫@些LLM會面臨“大海撈針”的問題（延伸閱讀：超長上下文窗口大模型的“照妖鏡”——大海撈針實(shí)驗(yàn)，大模型“打假”必知必會）。另外，開發(fā)者可能還想以其他方式利用這個(gè)大上下文窗口，比如提供詳細(xì)的指令、角色描述或一些少樣本示例（few-shot）。

此外，如果打算使用相似性搜索并嵌入（embedding）文檔，必須考慮到嵌入模型也有一個(gè)有限的上下文窗口。這些模型不能嵌入超過其上下文窗口最大長度的文本。這個(gè)限制因具體模型而異，但可以在模型的描述中找到這些信息，例如在Hugging Face Hub上的模型卡片上。一旦知道將使用哪種模型來生成嵌入，就能確定文本塊的最大值（以token為單位，而不是字符或單詞）。嵌入模型通常在上下文窗口大小上的最大值約為8K token或更少，這相當(dāng)于英語中的大約6200個(gè)單詞。為了直觀理解有多大，比如，整個(gè)《指環(huán)王》系列，包括《霍比特人》，大約有576,459個(gè)單詞，所以如果想利用這個(gè)語料庫進(jìn)行RAG與相似性搜索，需要將其分成至少93個(gè)塊。

2）塊大小對檢索精度的影響

雖然嵌入模型對其可以嵌入的標(biāo)記數(shù)量規(guī)定了硬性的最大限制，但這并不意味著分塊必須達(dá)到這個(gè)長度。這只是意味著它們不能超過這個(gè)長度。事實(shí)上，在許多情況下，使用每個(gè)分塊的最大長度（如 6200 字（8K 標(biāo)記））可能會過長。這里有幾個(gè)令人信服的理由來選擇較小的語塊。

回想一下當(dāng)我們嵌入一段文本以獲得嵌入向量時(shí)會發(fā)生什么。大多數(shù)嵌入模型都是編碼器類型的轉(zhuǎn)換器模型，輸入文本的最大長度為 768。不管你給模型的是 10 個(gè)字的句子還是 1000 個(gè)字的段落，得到的嵌入向量的維度都是一樣的，都是 768。其工作原理是，模型首先將文本轉(zhuǎn)換為token，在預(yù)訓(xùn)練過程中為每個(gè)token學(xué)習(xí)了一個(gè)向量表征。然后，它將應(yīng)用一個(gè)池化操作，將單個(gè)token表征平均為一個(gè)單向量表征。

常見的池化類型包括：

CLS池化：特殊CLS token的向量表征成為整個(gè)序列的表征
平均池化：token向量表征的平均值作為整個(gè)序列的表征返回
最大池化：具有最大值的token向量表征成為整個(gè)序列的表征

其目標(biāo)是將細(xì)粒度的token級表征壓縮成單一的固定長度表征，其中包含整個(gè)輸入序列的含義。這種壓縮本身就是有損的。對于較大的塊，表征可能會變得過于粗糙，可能會掩蓋重要的細(xì)節(jié)。為確保精確檢索，文本塊必須擁有有意義且細(xì)致入微的表征。

現(xiàn)在，請考慮另一個(gè)潛在問題。一個(gè)大塊可能包含多個(gè)主題，其中一些可能與用戶查詢相關(guān)，而另一些則不相關(guān)。在這種情況下，單個(gè)向量中每個(gè)主題的表示可能會變得模糊，這同樣會影響檢索精度。

另一方面，較小的片段可以保持重點(diǎn)突出的上下文，從而可以更精確地匹配和檢索相關(guān)信息。通過將文檔分解成有意義的片段，檢索器可以更準(zhǔn)確地找到特定段落或事實(shí)，從而最終提高 RAG 性能。那么，在保持上下文完整性的前提下，文件塊可以有多??？這取決于文檔的性質(zhì)，可能需要進(jìn)行一些試驗(yàn)。通常情況下，250 個(gè) token 左右的塊大?。ㄏ喈?dāng)于約 1000 個(gè)字符）是一個(gè)合理的實(shí)驗(yàn)起點(diǎn)。

分塊的常見方法

1）字符級分塊

將大文檔分割成小塊的最基本方法是將文本分成 N 個(gè)字符大小的塊。通常在這種情況下，還會指定一定數(shù)量的字符，這些字符應(yīng)在連續(xù)的文本塊之間重疊。這在一定程度上降低了句子或觀點(diǎn)在相鄰兩塊之間的邊界被突然切斷的可能性。不過，可以想象，即使有重疊，每個(gè)塊的固定字符數(shù)加上固定的重疊窗口，也不可避免地會導(dǎo)致信息流中斷、不同主題混合，甚至句子在一個(gè)詞的中間被分割。字符分割法完全不考慮文檔結(jié)構(gòu)。

2）句子級分塊或遞歸分塊

字符分割是一種簡單化的方法，完全沒有考慮到文檔的結(jié)構(gòu)。這種方法完全依賴于固定的字符數(shù)，經(jīng)常會導(dǎo)致句子在中途甚至在詞的中間被拆分，效果并不好。

解決這一問題的方法之一是使用遞歸分塊法，這種方法有助于保留單個(gè)句子。使用這種方法，您可以指定一個(gè)有序的分隔符列表來指導(dǎo)分割過程。例如，以下是一些常用的分隔符：

"\n\n" - 雙換行符，通常表示段落斷開
"\n" - 單換行符
"." - 句號
" " - 空格

如果按照指定的順序使用上述分隔符，過程將是這樣的。首先，遞歸分塊會在每次出現(xiàn)雙新行（"\n\n"）時(shí)分解文檔。然后，如果這些分段仍然超過了所需的分塊大小，它將在新行處進(jìn)一步分解它們（"\n"），以此類推。

雖然這種方法大大降低了中途斷句的可能性，但仍然無法捕捉到復(fù)雜的文檔結(jié)構(gòu)。文檔通常包含多種元素，如段落、章節(jié)頁眉、頁腳、列表、表格等，所有這些元素都有助于文檔的整體組織。然而，上述遞歸分塊法主要考慮的是段落和句子，而忽略了其他結(jié)構(gòu)上的細(xì)微差別。

此外，文檔以多種本地格式存儲，因此必須為每種不同的文檔類型設(shè)計(jì)不同的分隔符。上面的列表可能對純文本很有效，但對于標(biāo)記符，你需要一個(gè)更細(xì)致、更有針對性的分隔符列表；如果是 HTML 或 XML 文檔，還需要另一個(gè)列表，等等。將這種方法擴(kuò)展到處理 PDF 和 PowerPoint 演示文稿等基于圖像的文檔，會帶來更多復(fù)雜性。如果使用場景涉及各種非結(jié)構(gòu)化文檔，那么統(tǒng)一應(yīng)用遞歸分塊很快就會成為一項(xiàng)繁重的任務(wù)。

使用Unstructured智能分塊

Unstructured提供了多種智能分塊策略，所有這些策略都比前面提到的方法有明顯優(yōu)勢。一旦使用 Unstructured 對任何類型的文檔進(jìn)行分區(qū)，分塊處理就會應(yīng)用于一組單獨(dú)的文檔元素，這些元素代表原始文檔的邏輯單元并反映其結(jié)構(gòu)，而不是處理一堵帶有隨機(jī)潛在分隔符的純文本墻。

Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實(shí)踐-AI.x社區(qū)

這就意味著，你不必再想辦法區(qū)分文檔的各個(gè)部分。Unstructured 已經(jīng)完成了這些繁重的工作，直接展示不同的文檔元素，這些元素封裝了文檔中的段落、表格、圖片、代碼片段和其他任何有意義的文本單元。在完成分區(qū)步驟后，文檔已經(jīng)被劃分為更小的片段。這是否意味著文檔已經(jīng)分塊？不完全是，但已經(jīng)成功了一半！

分區(qū)后得到的某些文檔元素可能仍會超出嵌入模型的上下文窗口或所需的塊大小。這些需要進(jìn)一步分割。相反，有些文檔元素可能太小，無法包含足夠的上下文。例如，一個(gè)列表被分割成單個(gè)的 ListItem元素，但你可以選擇將這些元素合并成一個(gè)單一的塊，只要它們?nèi)匀环掀迷O(shè)置的塊大小。

從系統(tǒng)劃分為離散元素的文檔開始，Unstructured 提供的智能分塊策略可以做到這一點(diǎn)：

確保信息流不中斷，防止簡單的字符分塊造成的中途分詞。
控制塊的最大和最小尺寸。
保證不同的主題或想法，如不同主題的獨(dú)立章節(jié)，不會被合并。

智能分塊比遞歸分塊更進(jìn)一步，它實(shí)際上考慮到了文檔的語義結(jié)構(gòu)和內(nèi)容。

智能分塊提供了四種策略，它們在保證分塊內(nèi)容純凈度方面各有不同：

基本分塊策略：這種方法可以在遵守最大分塊大小限制的前提下，將連續(xù)元素組合起來，最大限度地填充每個(gè)分塊。如果單個(gè)孤立的元素超過了最大硬限制，就會被分成兩個(gè)或更多塊。
按標(biāo)題分塊策略：該策略利用分區(qū)過程中識別的文檔元素類型來理解文檔結(jié)構(gòu)，并保留章節(jié)邊界。這就意味著，單個(gè)數(shù)據(jù)塊永遠(yuǎn)不會包含出現(xiàn)在兩個(gè)不同章節(jié)中的文本，從而確保主題保持自足，提高檢索精度。
按頁面分塊策略（僅支持API調(diào)用）：該策略專為每一頁都能傳遞獨(dú)特信息的文檔而設(shè)計(jì)，可確保來自不同頁面的內(nèi)容絕不會混雜在同一個(gè)分塊中。當(dāng)檢測到一個(gè)新頁面時(shí)，即使下一個(gè)元素可以放在之前的內(nèi)容塊中，也會完成現(xiàn)有的內(nèi)容塊并開始一個(gè)新的內(nèi)容塊。
按相似性分塊策略（僅支持API調(diào)用）：當(dāng)文檔結(jié)構(gòu)無法提供明確的主題邊界時(shí)，可以使用 "通過相似性 "策略。該策略使用 "sentence-transformers/multi-qa-mpnet-base-dot-v1 "嵌入模型來識別在主題上相似的順序元素，并將它們組合成塊。

Unstructured 智能分塊策略的另一個(gè)優(yōu)勢是可普遍適用于各種文檔類型。不需要像遞歸分塊那樣，為每個(gè)文檔硬編碼和維護(hù)分隔符列表?？梢暂p松嘗試分塊大小和分塊策略，為任何給定的使用場景找出最佳方案。

結(jié)論

分塊是任何 RAG 系統(tǒng)中必不可少的預(yù)處理步驟之一。設(shè)置時(shí)的選擇會影響檢索質(zhì)量，進(jìn)而影響系統(tǒng)的整體性能。以下是設(shè)計(jì)分塊步驟時(shí)需要注意的一些事項(xiàng)：

嘗試不同的塊大小：雖然大塊可能包含更多上下文，但也會導(dǎo)致表述粗糙，對檢索精度產(chǎn)生負(fù)面影響。最佳塊大小取決于文檔的性質(zhì)，但要在不丟失重要上下文的情況下優(yōu)化較小的塊。
利用巧妙的分塊策略：選擇分塊策略，在有語義意義的邊界上分隔文本，避免信息流中斷或內(nèi)容混雜。
評估分塊選擇對 RAG 整體性能的影響：為您的特定用例設(shè)置評估集，并跟蹤分塊大小和分塊策略實(shí)驗(yàn)對整體性能的影響。無論文檔類型如何，您只需調(diào)整一兩個(gè)參數(shù)，非結(jié)構(gòu)化技術(shù)就能簡化分塊實(shí)驗(yàn)。

原文：https://unstructured.io/blog/chunking-for-rag-best-practices

本文轉(zhuǎn)載自?? AI工程化??，作者：ully

標(biāo)簽

應(yīng)用中文

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

麻省理工分享ChatGPT，在教育的5個(gè)實(shí)際應(yīng)用案例

Aceryt ? 4954瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 4749瀏覽 ? 0回復(fù)
OpenAI在RAG技術(shù)上的最佳實(shí)踐與策略

AIGC觀察者 ? 3285瀏覽 ? 0回復(fù)
實(shí)踐出真知：Agents 領(lǐng)域“一年打怪升級”的經(jīng)驗(yàn)分享

Baihai_IDP ? 3283瀏覽 ? 0回復(fù)
LLM 剪枝+蒸餾：NVIDIA 的最佳實(shí)踐

amei2000go ? 3717瀏覽 ? 0回復(fù)
告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧

探索AGI ? 3022瀏覽 ? 0回復(fù)
RAG 的未來 - 自動(dòng)文檔檢索

探索AGI ? 2148瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺的檢索增強(qiáng)生成在多模態(tài)文檔上的應(yīng)用

大模型自然語言處理 ? 2415瀏覽 ? 0回復(fù)
RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實(shí)踐

AI博物院 ? 1888瀏覽 ? 0回復(fù)
RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實(shí)踐

AI博物院 ? 3417瀏覽 ? 0回復(fù)
大語言模型評測中的評價(jià)指標(biāo)：方法、基準(zhǔn)和最佳實(shí)踐

芝士AI吃魚 ? 7810瀏覽 ? 0回復(fù)
再談大模型長文本分塊，以及分塊在RAG中的作用？

AI探索時(shí)代 ? 2585瀏覽 ? 0回復(fù)
分享3點(diǎn)關(guān)于AI 產(chǎn)品管理的最佳實(shí)踐

zhishan15 ? 1774瀏覽 ? 0回復(fù)
傳統(tǒng)分塊已死？Agentic Chunking拯救語義斷裂，實(shí)測RAG準(zhǔn)確率飆升40%，LLM開發(fā)者必看！

AI博物院 ? 2569瀏覽 ? 0回復(fù)
一鍵開啟大模型評估：LangChain下場給出最佳實(shí)踐

ermulong ? 1617瀏覽 ? 0回復(fù)
RAG項(xiàng)目必備！文檔解析神器MinerU：2.5萬星標(biāo)！支持GPU加速，輕松應(yīng)對復(fù)雜文檔

AI博物院 ? 4283瀏覽 ? 0回復(fù)
RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路

大模型自然語言處理 ? 948瀏覽 ? 0回復(fù)
基于文本結(jié)構(gòu)分塊 - 文本分塊（Text Splitting），RAG不可缺失的重要環(huán)節(jié)

AI取經(jīng)路 ? 595瀏覽 ? 0回復(fù)
Anthropic開源Agentic Coding最佳實(shí)踐！

探索AGI ? 626瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型靠強(qiáng)化學(xué)習(xí)就能無限變強(qiáng)？清華潑了一盆冷水 13h前發(fā)布
METR發(fā)現(xiàn) AI 編碼的“摩爾定律”？指數(shù)級增長或顛覆軟件開發(fā) 13h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：如何在保證模型性能條件下優(yōu)化Prompt降低使用成本及響應(yīng)延遲？

下一篇：高盛洞察：生成式AI：投入很高，收益太少？

社區(qū)精華內(nèi)容

目錄

<em id="rkwhy"><rt id="rkwhy"></rt></em>

<strike id="rkwhy"></strike>