自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="v083w"></cite>

<style id="v083w"></style>

<cite id="v083w"><rp id="v083w"><form id="v083w"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

RAG之PDF文件中多種格式數(shù)據(jù)解析實(shí)踐原創(chuàng)

發(fā)布于 2024-7-2 11:15

瀏覽

0收藏

RAG 檢索增強(qiáng)生成由2部分構(gòu)成：一是離線對異構(gòu)的數(shù)據(jù)進(jìn)行數(shù)據(jù)工程處理成知識，并存儲(chǔ)在知識庫中，二是基于用戶的提問進(jìn)行知識庫的檢索增強(qiáng)。如下圖所示：

RAG之PDF文件中多種格式數(shù)據(jù)解析實(shí)踐 -AI.x社區(qū)

其中最關(guān)鍵的一個(gè)環(huán)節(jié)是 PDF 格式的文件如何提取成知識，下面詳細(xì)剖析。

1、PDF 文件中文本數(shù)據(jù)如何提??？

能夠處理文本提取的 Python 庫有多個(gè)，其中較為知名的包括 pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber。在這些庫中，PyMuPDF 因其出色的文本提取能力而備受推崇。特別是在處理雙欄布局等復(fù)雜格式的 PDF 文件時(shí)，PyMuPDF 能夠最大程度地保留 PDF 的閱讀順序，這對于確保文本內(nèi)容的準(zhǔn)確性和完整性至關(guān)重要。

下面我們將以雙欄布局的 PDF 文件為例，展示使用 PyMuPDF 庫進(jìn)行文字提取的效果。

RAG之PDF文件中多種格式數(shù)據(jù)解析實(shí)踐 -AI.x社區(qū)

進(jìn)行文本提取的代碼如下所示：

RAG之PDF文件中多種格式數(shù)據(jù)解析實(shí)踐 -AI.x社區(qū)

打印的結(jié)果如下所示：

RAG之PDF文件中多種格式數(shù)據(jù)解析實(shí)踐 -AI.x社區(qū)

2、PDF 文件中表格數(shù)據(jù)如何提??？

在處理表格提取任務(wù)時(shí)，camelot 和 tabula 是兩個(gè)備受推崇的庫。它們各自在提取有線表和少線表（即含有較少分隔線的表格）方面展現(xiàn)出了良好的效果。接下來，我將分別以有線表為例，簡要介紹 camelot庫的使用。

camelot 是一個(gè)強(qiáng)大的 Python 庫，專門用于從 PDF 文件中提取表格數(shù)據(jù)。對于有線表，即表格中包含明確分隔線的表格，camelot 表現(xiàn)出色。通過指定 PDF 文件路徑和表格所在的頁面區(qū)域，camelot 能夠準(zhǔn)確地識別并提取出表格中的數(shù)據(jù)，比如有線表原始數(shù)據(jù)：

RAG之PDF文件中多種格式數(shù)據(jù)解析實(shí)踐 -AI.x社區(qū)

使用 camelot 提取有線表的示例代碼如下：

RAG之PDF文件中多種格式數(shù)據(jù)解析實(shí)踐 -AI.x社區(qū)

表格數(shù)據(jù)的打印結(jié)果如下所示：

RAG之PDF文件中多種格式數(shù)據(jù)解析實(shí)踐 -AI.x社區(qū)

3、掃描 PDF 的文本數(shù)據(jù)如何提?。?/h4>
在從掃描的 PDF 文件中提取文本時(shí)，使用開源的 PaddleOCR，并且用 PPStructure 做版面的分析。我們還是以下面的 PDF 文件為例，不過這是 PDF 文件的掃描版。
提取文本的代碼如下：

得到的結(jié)果如下所示：
圖中的左邊是根據(jù)給出的版面分析結(jié)果畫出來的，可以看出對雙欄 PDF 做了正確的解析。右邊是根據(jù)識別出來的文本以及文本的坐標(biāo)畫出來的，可以看出基本上和左邊的版面以及內(nèi)容是一致的。

本文轉(zhuǎn)載自公眾號玄姐聊AGI 作者：玄姐
原文鏈接：??https://mp.weixin.qq.com/s/fsntWsBQMZY2hjBXKAcC2w??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

生成式AI大模型之提示詞工程實(shí)踐

數(shù)字化助推器 ? 3079瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)之特征工程深度解析

51CTO內(nèi)容精選 ? 2512瀏覽 ? 0回復(fù)
Gptpdf：一個(gè)簡單巧妙的復(fù)雜Pdf解析工具，提升RAG效果

Syrupup ? 5301瀏覽 ? 0回復(fù)
從數(shù)據(jù)倉庫到數(shù)據(jù)飛輪：技術(shù)進(jìn)化與實(shí)踐案例解析

wx6110dd2be671e ? 2113瀏覽 ? 0回復(fù)
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 4666瀏覽 ? 0回復(fù)
RAG增強(qiáng)之路：增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路

大模型自然語言處理 ? 2330瀏覽 ? 0回復(fù)
【多模態(tài)&RAG】多模態(tài)RAG ColPali實(shí)踐

大模型自然語言處理 ? 2005瀏覽 ? 0回復(fù)
高效信息檢索新方法：LangChain中Retriever的多種高級策略

Halo咯咯 ? 3125瀏覽 ? 0回復(fù)
Agent實(shí)踐之如何在京東LLM落地

數(shù)字化助推器 ? 2177瀏覽 ? 0回復(fù)
高效抽取PDF文件打造RAG，從LlamaParse轉(zhuǎn)向PymuPDF4llm

AI科技論談 ? 2681瀏覽 ? 0回復(fù)
AI大模型實(shí)踐之字節(jié)0-1智能客服

數(shù)字化助推器 ? 1829瀏覽 ? 0回復(fù)
大模型之深入探索RAG流程

一起AI技術(shù) ? 2417瀏覽 ? 0回復(fù)
大模型之深入了解Retrievers解析器

一起AI技術(shù) ? 2881瀏覽 ? 0回復(fù)
模型訓(xùn)練前置處理之——數(shù)據(jù)預(yù)處理

AI探索時(shí)代 ? 1575瀏覽 ? 0回復(fù)
Transformer中的位置編碼技術(shù)：從理論到實(shí)踐的深度解析！

南夏的算法驛站 ? 1501瀏覽 ? 0回復(fù)
MCP協(xié)議之MCP-server(sse方式)實(shí)踐

一起AI技術(shù) ? 5095瀏覽 ? 0回復(fù)
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語言處理 ? 848瀏覽 ? 0回復(fù)
打破數(shù)據(jù)孤島！MCP協(xié)議深度解析

Halo咯咯 ? 1594瀏覽 ? 0回復(fù)
Dify Sandbox實(shí)現(xiàn)文件路徑獲取與Excel數(shù)據(jù)處理

九歌AI大模型 ? 862瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

從 Local MCP Server 到 Remote MCP Server 架構(gòu)設(shè)計(jì)演進(jìn) 17h前發(fā)布
Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 17h前發(fā)布

熱門推薦

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

暴論：2025年，程序員必學(xué)技能就是 MCP 0回復(fù)

Java 開發(fā)必看！MCP Server 實(shí)戰(zhàn)全攻略，原來這么簡單 0回復(fù)

11張圖全面總結(jié) MCP、A2A、Function Calling 架構(gòu)設(shè)計(jì)間關(guān)系 0回復(fù)

MCP 架構(gòu)設(shè)計(jì)演進(jìn)：從 Local MCP Server 到 Remote MCP Server 開源架構(gòu)設(shè)計(jì)實(shí)現(xiàn) 0回復(fù)

上一篇：大模型應(yīng)用落地：如何選擇合適的 Embedding 模型？

下一篇：新RAG架構(gòu)范式！DSPy將革命性改變RAG系統(tǒng)架構(gòu)方式??！

社區(qū)精華內(nèi)容

目錄

<sub id="5gw15"></sub>^{<blockquote id="5gw15"></blockquote>}

<sub id="5gw15"></sub>