自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="3o6ij"><sup id="3o6ij"></sup></p>

<menuitem id="3o6ij"></menuitem>

<big id="3o6ij"><code id="3o6ij"><rp id="3o6ij"></rp></code></big>

<legend id="3o6ij"><track id="3o6ij"></track></legend>

<legend id="3o6ij"><track id="3o6ij"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

再談大模型長(zhǎng)文本分塊，以及分塊在RAG中的作用？原創(chuàng)

AI探索時(shí)代

發(fā)布于 2024-12-19 14:39

瀏覽

0收藏

“ 向量數(shù)據(jù)庫(kù)的檢索原理，就是存儲(chǔ)不同數(shù)據(jù)之間的向量關(guān)系，在檢索時(shí)通過(guò)向量關(guān)系查詢(xún)相關(guān)數(shù)據(jù) ”

文本分塊也就是chunk技術(shù)是大模型領(lǐng)域中非常重要的一項(xiàng)技術(shù)，原因就在于大模型眾所周知的問(wèn)題，上下文窗口限制；雖然說(shuō)現(xiàn)在大模型的窗口經(jīng)過(guò)幾次擴(kuò)容之后已經(jīng)達(dá)到了一個(gè)非常可觀的長(zhǎng)度，但依然還存在很多問(wèn)題。

比如說(shuō)，長(zhǎng)文本導(dǎo)致的模型幻覺(jué)問(wèn)題；中間丟失現(xiàn)象等多種性能問(wèn)題；而且，在RAG技術(shù)中，長(zhǎng)文本也是一個(gè)亟待解決的問(wèn)題。

而現(xiàn)在業(yè)內(nèi)普遍的處理方式就是文本分塊，把一段長(zhǎng)文本根據(jù)某種方式拆分成多種小的文本塊；這樣就有助于大模型進(jìn)行處理，也能間接降低大模型的幻覺(jué)等問(wèn)題。

文本分塊

在大模型上下文窗口中文本分塊就比較好理解，這就類(lèi)似于我們平?？匆槐竞芎竦臅?shū)；我們無(wú)法做到一次就給全部看完，因此常見(jiàn)的做法就是今天看一點(diǎn)，明天看一點(diǎn)，然后一段時(shí)間之后就看完了。

而我們?cè)诳磿?shū)的過(guò)程中，比如昨天看了一部分停了下來(lái)；今天接著看，但可能我們一時(shí)想不起來(lái)昨天看到哪里了；因此就會(huì)找到昨天看的大概位置再往前一點(diǎn)，這樣有助于我們回憶昨天看的內(nèi)容；也有助于上下文的連貫性。

而大模型長(zhǎng)文本處理有一種方式也是采用類(lèi)似的方式，那就是把文本按照chunk_size進(jìn)行分塊；然后使用chunk_overlap重疊一部分內(nèi)容。而chunk_overlap重疊的部分就相當(dāng)于我們看書(shū)時(shí)往前看的一部分，這樣有助于上下文的連貫性，特別是對(duì)大模型這種沒(méi)有記憶能力的系統(tǒng)來(lái)說(shuō)。

而在代碼方面具體的表現(xiàn)就如下所示，加載文檔之后使用分詞工具根據(jù)不同的長(zhǎng)度進(jìn)行分詞，分詞的長(zhǎng)度和重疊部分就是由chunk_size和chunk_overlap來(lái)指定，之后再轉(zhuǎn)化為向量。

"""
加載文檔
"""
def load_documents(directory=dir_path):
    loader = DirectoryLoader(directory)
    documents = loader.load()


    # for document in documents:
    #     print(document)
    # 文檔分割
    text_spliter = CharacterTextSplitter(chunk_size=256, chunk_overlap=10)
    spliter_docs = text_spliter.split_documents(documents)


    return spliter_docs

當(dāng)然，在一些沒(méi)有語(yǔ)義相關(guān)的上下文中，也可以不使用chunk_overlap參數(shù)；只根據(jù)chunk_size或其它方式進(jìn)行分塊。比如說(shuō)，今天工作日我在上班；今天天氣不錯(cuò)；這兩句話從語(yǔ)義上來(lái)說(shuō)沒(méi)有任何相關(guān)性，因此可以進(jìn)行完全分塊。

雖然說(shuō)文本分塊是大模型技術(shù)中很常見(jiàn)的一種處理方式，但現(xiàn)在有一個(gè)疑問(wèn)就是；在大模型上下文窗口中這樣的使用方式很容易理解；但在RAG中就存在一個(gè)問(wèn)題。

RAG中一般使用向量數(shù)據(jù)庫(kù)作為數(shù)據(jù)的存儲(chǔ)方式，原因就在于向量數(shù)據(jù)庫(kù)能很好的保證文本之間的語(yǔ)義關(guān)系(也有圖像關(guān)系，混合關(guān)系等多種情況)。

但長(zhǎng)文本被分塊之后，在向量數(shù)據(jù)庫(kù)中的表現(xiàn)形式也是一條一條的記錄；如果說(shuō)一條語(yǔ)義相關(guān)的長(zhǎng)文本被拆分成多個(gè)小塊，然后存儲(chǔ)在向量數(shù)據(jù)庫(kù)的不同位置。

再談大模型長(zhǎng)文本分塊，以及分塊在RAG中的作用？-AI.x社區(qū)

這時(shí)在進(jìn)行向量檢索時(shí)，向量數(shù)據(jù)庫(kù)是怎么保證檢索內(nèi)容的相關(guān)性的？

難道是因?yàn)榫哂姓Z(yǔ)義相關(guān)的內(nèi)容被保存在相近距離的向量空間中？比如歐氏距離就是通過(guò)計(jì)算不同向量之間的距離來(lái)表示其相關(guān)性。

但如果面對(duì)著百億級(jí)以上的向量存儲(chǔ)需求，向量數(shù)據(jù)庫(kù)怎么保證快速且準(zhǔn)確高效的檢索到相關(guān)數(shù)據(jù)？

個(gè)人猜測(cè)，長(zhǎng)文本被拆分之后，為了保證語(yǔ)義相關(guān)性，因此采用了chun_overlap的方式來(lái)讓拆分的文本有重疊的內(nèi)容；根據(jù)這些重疊的內(nèi)容，在進(jìn)行向量計(jì)算的時(shí)候會(huì)把這相關(guān)的數(shù)據(jù)放到一塊；或者能夠通過(guò)一種方式進(jìn)行快速檢索。

如下圖所示，文本被拆分之后，因?yàn)橛衏hunk_overlap參數(shù)關(guān)聯(lián)文本的語(yǔ)義關(guān)系；那么，在向量數(shù)據(jù)庫(kù)中就會(huì)把語(yǔ)義相關(guān)的內(nèi)容記錄到更近的位置；這樣在檢索的時(shí)候，就可以根據(jù)向量之間的關(guān)系獲取相關(guān)的數(shù)據(jù)。

再談大模型長(zhǎng)文本分塊，以及分塊在RAG中的作用？-AI.x社區(qū)

這就類(lèi)似于傳統(tǒng)SQL語(yǔ)句的like功能，可以根據(jù)某個(gè)字段或語(yǔ)句查詢(xún)到多條記錄；然后再?gòu)倪@多條記錄中篩選出語(yǔ)義相關(guān)性最高的數(shù)據(jù)。

但這同樣有新的問(wèn)題，那就是chunk_overlap只是文檔拆分的一種方式；還有很多其它的方式可以拆分；那么這就說(shuō)明一件事，chunk_overlap只是一種表象，核心在于怎么保證上下文語(yǔ)義的相關(guān)性；如果不使用chunk_overlap的方式，或者不使用歐式距離的計(jì)算方式，那么怎么才能保證文本上下文的相關(guān)性呢？

而且，我們都知道大模型是經(jīng)過(guò)訓(xùn)練和微調(diào)的方式，通過(guò)不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)值來(lái)“學(xué)習(xí)”不同文本(多模態(tài))數(shù)據(jù)之間的關(guān)系，那這個(gè)學(xué)習(xí)的過(guò)程是不是就是在不斷的計(jì)算向量之間的關(guān)系？

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/VL10Snh_jqbtGLR38vOXMQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

文本分塊哪家強(qiáng)？LumberChunker、語(yǔ)義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)

PaperAgent ? 3525瀏覽 ? 0回復(fù)
檢索生成(RAG) vs 長(zhǎng)文本大模型：實(shí)際應(yīng)用中如何選擇？

Baihai_IDP ? 2797瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 4757瀏覽 ? 0回復(fù)
Unstructured專(zhuān)家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實(shí)踐

Syrupup ? 4246瀏覽 ? 0回復(fù)
NeedleBench 超長(zhǎng)文本評(píng)測(cè)基準(zhǔn)：大語(yǔ)言模型能否在 1000K 長(zhǎng)度上檢索推理？

戀戀青鳥(niǎo) ? 2545瀏覽 ? 0回復(fù)
清華大學(xué)揭露RAG的雙面性：全面分析揭示大模型中RAG噪聲的作用

AI論文解讀 ? 3696瀏覽 ? 0回復(fù)
RAG新范式MemLong：用于長(zhǎng)文本生成的記憶增強(qiáng)檢索

PaperAgent ? 2557瀏覽 ? 0回復(fù)
AI存儲(chǔ)：存儲(chǔ)系統(tǒng)在優(yōu)化AI訓(xùn)練中的關(guān)鍵作用

chengganfei ? 4084瀏覽 ? 0回復(fù)
再談大模型檢索增強(qiáng)生成——RAG

AI探索時(shí)代 ? 1845瀏覽 ? 0回復(fù)
大模型技術(shù)的重點(diǎn)與難點(diǎn)，以及在實(shí)際操作中需要注意的事項(xiàng)

AI探索時(shí)代 ? 4427瀏覽 ? 0回復(fù)
大模型長(zhǎng)文本所面臨的主要問(wèn)題

AI探索時(shí)代 ? 2328瀏覽 ? 0回復(fù)
為什么分塊在RAG技術(shù)中很重要？但又很沒(méi)有存在感？

AI探索時(shí)代 ? 1731瀏覽 ? 0回復(fù)
如何優(yōu)化大型語(yǔ)言模型（LLM）的分塊策略

51CTO內(nèi)容精選 ? 2286瀏覽 ? 0回復(fù)
RAG在智能問(wèn)答系統(tǒng)中的應(yīng)用

數(shù)字化助推器 ? 1994瀏覽 ? 0回復(fù)
提升RAG性能：分塊后，Chunk Enrichment的2個(gè)關(guān)鍵優(yōu)化步驟不可錯(cuò)過(guò)

凝固的雨_1 ? 2141瀏覽 ? 0回復(fù)
Kimi的長(zhǎng)文本能力：為何優(yōu)于其他大模型

風(fēng)云2002_1 ? 2066瀏覽 ? 0回復(fù)
RAG常見(jiàn)13種分塊策略大總結(jié)（一覽表）

大模型自然語(yǔ)言處理 ? 1630瀏覽 ? 0回復(fù)
RAG分塊優(yōu)化之語(yǔ)義分塊方法CrossFormer模型技術(shù)思路

大模型自然語(yǔ)言處理 ? 964瀏覽 ? 0回復(fù)
基于文本結(jié)構(gòu)分塊 - 文本分塊（Text Splitting），RAG不可缺失的重要環(huán)節(jié)

AI取經(jīng)路 ? 598瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究 1天前發(fā)布
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案 1天前發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：什么是相似性搜索？大模型的底座技術(shù)

下一篇：影響RAG檢索效果的原因有那些？

社區(qū)精華內(nèi)容

目錄

<rt id="eotnv"></rt>

<sub id="eotnv"><p id="eotnv"></p></sub>

^{<sub id="eotnv"></sub>}