自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Gptpdf:一個簡單巧妙的復雜Pdf解析工具,提升RAG效果

發(fā)布于 2024-7-5 08:43
瀏覽
0收藏

在構建RAG應用時,一個核心的工作就是構建知識庫,進而以便于在實際進行問答時能夠更準確地檢索到文檔內(nèi)有關于問題的相關上下文信息。而知識庫文檔的一大來源來自于pdf格式文件,這類文件通常是富文本的,包含圖片,表格等,且無法直接解析,必須通過一些技術手段將其拆分識別形成可被后續(xù)處理的文本文件,如text或markdown。

“Quility in,Quility Out”是構建高質(zhì)量RAG的指導思想,因此,文檔處理流程第一步——加載解析就變得尤為重要,也是很多RAG框架體現(xiàn)其核心優(yōu)勢的地方之一,比如RAGFlow 的核心組件DeepDoc利用OCR、布局識別、表格解析等技術提取文字,圖片等內(nèi)容。llamaindex推出了llamaparse智能解析復雜內(nèi)容的pdf,提取文字,圖片,表格等信息,并默認輸出為markdown格式文件。

Gptpdf:一個簡單巧妙的復雜Pdf解析工具,提升RAG效果-AI.x社區(qū)

最近出現(xiàn)了一個新的工具gptpdf(https://github.com/CosmosShadow/gptpdf),創(chuàng)新的使用了視覺大語言模型(如 GPT-4o)將復雜PDF 解析為 markdown,實現(xiàn)非常簡潔,核心代碼僅有293行,但幾乎可以完美地解析排版、數(shù)學公式、表格、圖片、圖表等,每頁平均成本為0.013 美元(GPT-4o接口費用)。

其核心實現(xiàn)流程分為兩步,如下所示:

1、使用 PyMuPDF 庫,對 PDF 進行解析出所有非文本區(qū)域,并做好標記.

Gptpdf:一個簡單巧妙的復雜Pdf解析工具,提升RAG效果-AI.x社區(qū)

2、使用視覺大模型(如 GPT-4o)進行解析,得到 markdown 文件.

Gptpdf:一個簡單巧妙的復雜Pdf解析工具,提升RAG效果-AI.x社區(qū)

GPT-4o的默認提示詞為,對于別的大模型可以結合效果表現(xiàn)進行調(diào)整:

DEFAULT_PROMPT = """使用markdown語法,將圖片中識別到的文字轉(zhuǎn)換為markdown格式輸出。你必須做到:
1. 輸出和使用識別到的圖片的相同的語言,例如,識別到英語的字段,輸出的內(nèi)容必須是英語。
2. 不要解釋和輸出無關的文字,直接輸出圖片中的內(nèi)容。例如,嚴禁輸出 “以下是我根據(jù)圖片內(nèi)容生成的markdown文本:”這樣的例子,而是應該直接輸出markdown。
3. 內(nèi)容不要包含在```markdown ```中、段落公式使用 $$ $$ 的形式、行內(nèi)公式使用 $ $ 的形式、忽略掉長直線、忽略掉頁碼。


再次強調(diào),不要解釋和輸出無關的文字,直接輸出圖片中的內(nèi)容。
"""
DEFAULT_RECT_PROMPT = """圖片中用紅色框和名稱(%s)標注出了一些區(qū)域。
如果區(qū)域是表格或者圖片,使用 ![]() 的形式插入到輸出內(nèi)容中,否則直接輸出文字內(nèi)容。
"""
DEFAULT_ROLE_PROMPT = """你是一個PDF文檔解析器,使用markdown和latex語法輸出圖片的內(nèi)容。
"""

整個使用也比較簡單,可以方便地集成到現(xiàn)有的RAG流程中或是單獨使用。

from gptpdf import parse_pdf


api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

gptpdf-ui項目在此基礎上封裝為web服務,支持在線解析和預覽。

Gptpdf:一個簡單巧妙的復雜Pdf解析工具,提升RAG效果-AI.x社區(qū)圖片

本文轉(zhuǎn)載自 ??AI工程化??,作者: ully

收藏
回復
舉報
回復
相關推薦