自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<table id="2rutl"><strong id="2rutl"></strong></table>

<tt id="2rutl"><option id="2rutl"></option></tt>

<dfn id="2rutl"><strong id="2rutl"><thead id="2rutl"></thead></strong></dfn>

<thead id="2rutl"></thead>

<var id="2rutl"><strike id="2rutl"></strike></var>

<samp id="2rutl"></samp>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-4-2 07:36

瀏覽

0收藏

筆者在前期文章中總結(jié)了RAG的分塊《??RAG常見13種分塊策略大總結(jié)（一覽表）??》，本文介紹一個(gè)語義分段的工作，該工作解決的問題是文本語義分割，即將文檔分割成多個(gè)具有連續(xù)語義的段落。傳統(tǒng)方法通常依賴于預(yù)處理文檔以分段來解決輸入長(zhǎng)度限制問題，但這會(huì)導(dǎo)致段間關(guān)鍵語義信息的丟失。RAG系統(tǒng)中的文本分塊方法主要分為基于規(guī)則和基于LLM的方法。

插入一個(gè)思路，其實(shí)，語義分段的方式筆者在很早實(shí)踐過一個(gè)思路，不管是RAG分塊還是基于規(guī)則分塊，都會(huì)或多或少的都是段落信息，如何通過語義的方式分割段落？筆者之前的思路最初的想法來源于序列標(biāo)注模型，那么是否能應(yīng)用序列標(biāo)注的方法，來預(yù)測(cè)文本行之間的跳轉(zhuǎn)概率？答案是肯定的，以pdf為例，具體實(shí)施步驟如下：先放上筆者之前的老圖：

RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路-AI.x社區(qū)

從pdf讀取程序或ocr引擎中得到文本行及其坐標(biāo)；
使用神經(jīng)網(wǎng)絡(luò)對(duì)第i行的文本進(jìn)行編碼，得到文本嵌入向量text_emb(i)；
提取對(duì)應(yīng)行的圖像，得到圖像嵌入向量img_emb(i)；
提取字號(hào)、文字長(zhǎng)度特征，并進(jìn)行歸一化得到特征向量；
聚合步驟2、3、4得到的向量，得到行嵌入line_emb(i)；
使用神經(jīng)網(wǎng)絡(luò)對(duì)行向量序列[line_emb(i)]進(jìn)行序列標(biāo)注。

整體方案流程圖如下：

RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路-AI.x社區(qū)

接下來，本文介紹的方法有異曲同工之處，也是采用序列標(biāo)注的方式進(jìn)行，供參考。

方法-CrossFormer

RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路-AI.x社區(qū)

任務(wù)定義

CrossFormer 將文本語義分割任務(wù)定義為句子級(jí)別的序列標(biāo)注問題。給定一個(gè)文檔，包含個(gè)句子，每個(gè)句子被分配一個(gè)二分類標(biāo)簽。標(biāo)簽表示由語義連貫性統(tǒng)一的一個(gè)段落的終端邊界，而表示在同一主題段落內(nèi)的連續(xù)性。目標(biāo)是訓(xùn)練一個(gè)函數(shù) ，能夠根據(jù)上下文預(yù)測(cè)每個(gè)句子的標(biāo)簽。

為了實(shí)現(xiàn)這一點(diǎn)，模型在每個(gè)句子的末尾添加一個(gè)特殊的標(biāo)記 [SENT]，并評(píng)估這個(gè)標(biāo)記是否標(biāo)志著一個(gè)段落邊界。通過這種方式，文檔被分割成一組不相交的語義段落。

文檔預(yù)處理

RAG分塊優(yōu)化之語義分塊方法CrossFormer模型技術(shù)思路-AI.x社區(qū)

由于文本語義分割任務(wù)通常涉及長(zhǎng)文檔，需要采用適當(dāng)?shù)慕７椒▉碛行幚磉@些文檔。論文中采用了截?cái)嗪头侄蔚姆椒?。步驟如下：

分段：根據(jù)任務(wù)指定的分隔符（如換行符或句號(hào)）對(duì)文檔進(jìn)行分段。
截?cái)?/strong>：將每個(gè)句子截?cái)嗟阶畲箝L(zhǎng)度。
拼接：將截?cái)嗪蟮木渥影错樞蚱唇樱纬啥鄠€(gè)文檔段，每個(gè)段的長(zhǎng)度不超過。
批處理：將這些文檔段組裝成一個(gè)批次，并輸入模型進(jìn)行訓(xùn)練或推理。

跨段融合模塊 (CSFM)

CSFM 是 CrossFormer 的核心組件，用于增強(qiáng)文檔段之間的語義連貫性。原理如下：

全局語義表示：通過選擇預(yù)訓(xùn)練的特殊標(biāo)記 [CLS] 和 [SEP]，提取每個(gè)段落的語義表示。然后，通過最大池化從這些表示中獲取最大的語義成分，得到全局語義信息。
拼接和線性變換：將全局語義嵌入與每個(gè)分隔符嵌入進(jìn)行拼接，并通過兩個(gè)線性層進(jìn)行處理，得到，即結(jié)合了全局語義信息的分隔符表示。
分類：將輸入線性層并應(yīng)用 Softmax 函數(shù)，得到分類結(jié)果，從而確定段落邊界。

訓(xùn)練模型使用交叉熵?fù)p失函數(shù)即可。

通過這種方式，CSFM 能夠有效地捕捉文檔段之間的語義依賴關(guān)系，提高分割性能。

CrossFormer 作為 RAG 文本塊分割器

CrossFormer 可以作為RAG系統(tǒng)中的文本塊分割器，生成更具語義連貫性的文本塊。流程如下：

流程圖

分割長(zhǎng)文檔：首先使用 CrossFormer 對(duì)輸入文檔進(jìn)行分割，生成一系列文本塊。
長(zhǎng)度評(píng)估：評(píng)估每個(gè)文本塊的長(zhǎng)度。如果長(zhǎng)度超過預(yù)設(shè)閾值，則將其輸入分割隊(duì)列進(jìn)行進(jìn)一步處理，直到確定不需要額外分割或文本塊長(zhǎng)度低于指定閾值。
檢索和生成：使用分割后的文本塊進(jìn)行檢索和生成。通過檢索器和問題提示進(jìn)行相關(guān)性檢索，生成上下文，并將其輸入到LLM中以獲得最終答案。

局限性

CrossFormer不能精確控制文本塊長(zhǎng)度的上限。因此，可能需要結(jié)合基于規(guī)則的方法來輸出合適的長(zhǎng)度。
作為線性文本語義分割模型，CrossFormer不能輸出部分重疊的文本塊，這在RAG系統(tǒng)的某些場(chǎng)景中是必需的。

實(shí)驗(yàn)效果

文本語義分割的結(jié)果

在RAG基準(zhǔn)測(cè)試上的結(jié)果

參考文獻(xiàn)：CrossFormer: Cross-Segment Semantic Fusion for Document Segmentation，https://arxiv.org/pdf/2503.23671v1

公眾號(hào)大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/YSt1G-M5yEJCb8VcW0OlnA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽
RAG
自然語言處理

已于2025-4-2 07:36:18修改

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報(bào)
舉報(bào)

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

ICRA 2024：基于語義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent

AIGC最前線 ? 3327瀏覽 ? 0回復(fù)
文本分塊哪家強(qiáng)？LumberChunker、語義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)

PaperAgent ? 3522瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 4757瀏覽 ? 0回復(fù)
Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實(shí)踐

Syrupup ? 4242瀏覽 ? 0回復(fù)
大模型學(xué)習(xí)方法之——大模型技術(shù)學(xué)習(xí)路線

AI探索時(shí)代 ? 3875瀏覽 ? 0回復(fù)
RAG開發(fā)新技術(shù)：利用語義相似度提升標(biāo)簽過濾質(zhì)量

51CTO內(nèi)容精選 ? 2353瀏覽 ? 0回復(fù)
大模型檢索增強(qiáng)(RAG)技術(shù)之——GraphRAG，知識(shí)庫產(chǎn)品必不可少的技術(shù)

AI探索時(shí)代 ? 2589瀏覽 ? 0回復(fù)
大模型微調(diào)方法之QLoRA

shizhi02 ? 2219瀏覽 ? 0回復(fù)
RAG增強(qiáng)之路：增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路

大模型自然語言處理 ? 2330瀏覽 ? 0回復(fù)
為什么分塊在RAG技術(shù)中很重要？但又很沒有存在感？

AI探索時(shí)代 ? 1729瀏覽 ? 0回復(fù)
再談大模型長(zhǎng)文本分塊，以及分塊在RAG中的作用？

AI探索時(shí)代 ? 2591瀏覽 ? 0回復(fù)
如何優(yōu)化大型語言模型（LLM）的分塊策略

51CTO內(nèi)容精選 ? 2280瀏覽 ? 0回復(fù)
大模型語義分析之嵌入(Embedding)模型

AI探索時(shí)代 ? 2760瀏覽 ? 0回復(fù)
提升RAG性能：分塊后，Chunk Enrichment的2個(gè)關(guān)鍵優(yōu)化步驟不可錯(cuò)過

凝固的雨_1 ? 2139瀏覽 ? 0回復(fù)
傳統(tǒng)分塊已死？Agentic Chunking拯救語義斷裂，實(shí)測(cè)RAG準(zhǔn)確率飆升40%，LLM開發(fā)者必看！

AI博物院 ? 2569瀏覽 ? 0回復(fù)
RAG常見13種分塊策略大總結(jié)（一覽表）

大模型自然語言處理 ? 1615瀏覽 ? 0回復(fù)
PathRAG：通過圖剪枝的方法優(yōu)化Graph-based RAG的性能方法淺析

大模型自然語言處理 ? 1673瀏覽 ? 0回復(fù)
RAG進(jìn)階技術(shù)！這十種方法你一定要知道

Halo咯咯 ? 1195瀏覽 ? 0回復(fù)
基于文本結(jié)構(gòu)分塊 - 文本分塊（Text Splitting），RAG不可缺失的重要環(huán)節(jié)

AI取經(jīng)路 ? 595瀏覽 ? 0回復(fù)

大模型自然語言處理

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)
王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)
Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)
Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)
只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：公式識(shí)別：利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識(shí)別能力

下一篇： DyPRAG：即插即用動(dòng)態(tài)將上下文轉(zhuǎn)化為參數(shù)知識(shí)，有效緩解RAG幻覺

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷