自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果

發(fā)布于 2024-7-5 08:43

瀏覽

0收藏

在構建RAG應用時，一個核心的工作就是構建知識庫，進而以便于在實際進行問答時能夠更準確地檢索到文檔內(nèi)有關于問題的相關上下文信息。而知識庫文檔的一大來源來自于pdf格式文件，這類文件通常是富文本的，包含圖片，表格等，且無法直接解析，必須通過一些技術手段將其拆分識別形成可被后續(xù)處理的文本文件，如text或markdown。

“Quility in，Quility Out”是構建高質(zhì)量RAG的指導思想，因此，文檔處理流程第一步——加載解析就變得尤為重要，也是很多RAG框架體現(xiàn)其核心優(yōu)勢的地方之一，比如RAGFlow 的核心組件DeepDoc利用OCR、布局識別、表格解析等技術提取文字，圖片等內(nèi)容。llamaindex推出了llamaparse智能解析復雜內(nèi)容的pdf，提取文字，圖片，表格等信息，并默認輸出為markdown格式文件。

Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果-AI.x社區(qū)

最近出現(xiàn)了一個新的工具gptpdf（https://github.com/CosmosShadow/gptpdf），創(chuàng)新的使用了視覺大語言模型（如 GPT-4o）將復雜PDF 解析為 markdown，實現(xiàn)非常簡潔，核心代碼僅有293行，但幾乎可以完美地解析排版、數(shù)學公式、表格、圖片、圖表等，每頁平均成本為0.013 美元（GPT-4o接口費用）。

其核心實現(xiàn)流程分為兩步，如下所示：

1、使用 PyMuPDF 庫，對 PDF 進行解析出所有非文本區(qū)域，并做好標記.

Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果-AI.x社區(qū)

2、使用視覺大模型（如 GPT-4o）進行解析，得到 markdown 文件.

Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果-AI.x社區(qū)

GPT-4o的默認提示詞為，對于別的大模型可以結合效果表現(xiàn)進行調(diào)整：

DEFAULT_PROMPT = """使用markdown語法，將圖片中識別到的文字轉(zhuǎn)換為markdown格式輸出。你必須做到：
1. 輸出和使用識別到的圖片的相同的語言，例如，識別到英語的字段，輸出的內(nèi)容必須是英語。
2. 不要解釋和輸出無關的文字，直接輸出圖片中的內(nèi)容。例如，嚴禁輸出 “以下是我根據(jù)圖片內(nèi)容生成的markdown文本：”這樣的例子，而是應該直接輸出markdown。
3. 內(nèi)容不要包含在```markdown ```中、段落公式使用 $$ $$ 的形式、行內(nèi)公式使用 $ $ 的形式、忽略掉長直線、忽略掉頁碼。


再次強調(diào)，不要解釋和輸出無關的文字，直接輸出圖片中的內(nèi)容。
"""
DEFAULT_RECT_PROMPT = """圖片中用紅色框和名稱(%s)標注出了一些區(qū)域。
如果區(qū)域是表格或者圖片，使用 ![]() 的形式插入到輸出內(nèi)容中，否則直接輸出文字內(nèi)容。
"""
DEFAULT_ROLE_PROMPT = """你是一個PDF文檔解析器，使用markdown和latex語法輸出圖片的內(nèi)容。
"""

整個使用也比較簡單，可以方便地集成到現(xiàn)有的RAG流程中或是單獨使用。

from gptpdf import parse_pdf


api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

gptpdf-ui項目在此基礎上封裝為web服務，支持在線解析和預覽。

Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果-AI.x社區(qū) 圖片

本文轉(zhuǎn)載自 ??AI工程化??，作者： ully

標簽

贊

收藏

回復

舉報

回復

相關推薦

RAG之PDF文件中多種格式數(shù)據(jù)解析實踐

玄姐聊AGI ? 4229瀏覽 ? 0回復
又來一個RAG：RankRAG，英偉達RAG新思路

大語言模型論文跟蹤 ? 2556瀏覽 ? 0回復
LabelU：一個強大且易用的多模態(tài)數(shù)據(jù)標注工具

AIGC觀察者 ? 5995瀏覽 ? 0回復
RAGLAB：又來一個RAG框架，還是模塊化的

大語言模型論文跟蹤 ? 2263瀏覽 ? 0回復
一個開源、清晰、強大且可定制的RAG UI

PaperAgent ? 2839瀏覽 ? 0回復
顛覆傳統(tǒng)OCR輕松搞定復雜PDF的工具

恰似驚鴻 ? 3341瀏覽 ? 0回復
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 4667瀏覽 ? 0回復
Agent遇上4萬個工具？一個Token搞定！

探索AGI ? 1978瀏覽 ? 0回復
RAG增強之路：增強PDF解析并結構化技術路線方案及思路

大模型自然語言處理 ? 2330瀏覽 ? 0回復
TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備

恰似驚鴻 ? 3629瀏覽 ? 0回復
一個輕量級RAG文本切塊項目Chonkie

PaperAgent ? 2451瀏覽 ? 0回復
RAG 應用效果不太理想？試試以下RAG優(yōu)化策略大幅提升問答效果

AI博物院 ? 7273瀏覽 ? 0回復
一個開源、清晰的本地 Graph RAG UI，支持Graph RAG 和 Hybrid RAG（支持Ollama）

AI博物院 ? 5182瀏覽 ? 0回復
混合RAG系統(tǒng)，提升復雜推理任務表現(xiàn)

大模型自然語言處理 ? 2019瀏覽 ? 0回復
一個強大的集成學習算法：梯度提升樹！

寶寶數(shù)模AI ? 1711瀏覽 ? 0回復
構建一個完全本地的語音激活的實用RAG系統(tǒng)

51CTO內(nèi)容精選 ? 1445瀏覽 ? 0回復
從一個簡單的神經(jīng)網(wǎng)絡模型開始

AI探索時代 ? 1538瀏覽 ? 0回復
RAG項目必備！文檔解析神器MinerU：2.5萬星標！支持GPU加速，輕松應對復雜文檔

AI博物院 ? 4292瀏覽 ? 0回復
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語言處理 ? 848瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

大模型靠強化學習就能無限變強？清華潑了一盆冷水 17h前發(fā)布
METR發(fā)現(xiàn) AI 編碼的“摩爾定律”？指數(shù)級增長或顛覆軟件開發(fā) 18h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：沒有標記數(shù)據(jù)集，如何做大模型指令微調(diào)？介紹一款有潛力的標記數(shù)據(jù)集生成模型

下一篇：新一代的交互形式LUI（language user interface）到來，微軟為它架了一座橋

社區(qū)精華內(nèi)容

目錄

<sup id="uk3zl"><rt id="uk3zl"><form id="uk3zl"></form></rt></sup>

<cite id="uk3zl"><track id="uk3zl"></track></cite>