RAG項(xiàng)目必備!文檔解析神器MinerU:2.5萬星標(biāo)!支持GPU加速,輕松應(yīng)對復(fù)雜文檔 原創(chuàng)
我們都知道,對于RAG(檢索增強(qiáng)生成)的項(xiàng)目來說,構(gòu)建知識庫的過程常常包含文檔的解析。文檔的解析效果直接影響到知識庫的質(zhì)量,進(jìn)而影響問答系統(tǒng)的質(zhì)量。因此,一款好的PDF解析工具對于RAG項(xiàng)目的成功至關(guān)重要。
今天,向大家推薦一款由上海人工智能實(shí)驗(yàn)室打造的智能文檔處理工具——MinerU。這款工具剛剛完成了新年大升級,在GitHub上已經(jīng)獲得了超過2.5萬星標(biāo),甚至連谷歌工程師都在安利!
獲取MinerU
- MinerU官網(wǎng):https://mineru.net/
- MinerU代碼地址:https://github.com/opendatalab/MinerU
- MinerU 線上demo入口:https://mineru.net/OpenSourceTools/Extractor
通過以上鏈接,你可以訪問MinerU的官方網(wǎng)站、獲取源代碼以及嘗試在線演示功能。
產(chǎn)品介紹
支持多種類型轉(zhuǎn)換
MinerU能夠輕松應(yīng)對各種PDF文檔需求,包括考題、PPT、論文、教科書、圖書、雜志、筆記、新聞、研報(bào)等,并支持其他類型的文檔轉(zhuǎn)換為PDF后提取,如圖片、PPT和Word文檔。
支持多語言識別
跨語言識別,全球通用。目前支持中文(簡體和繁體)、英文、俄語、日語、韓語等多種語言。
多元素解析
精確解析多種元素,全面提取信息,包括文本、公式、表格、化學(xué)方程式、圖表等。
技術(shù)介紹
刪除頁眉、頁腳、腳注、頁碼等元素
精準(zhǔn)識別版面元素,刪除頁眉/頁腳/腳注,同時(shí)保留正文內(nèi)容。
識別圖片和表格,轉(zhuǎn)換為多模態(tài)的Markdown
MinerU能夠識別并轉(zhuǎn)換圖片和表格為多模態(tài)的Markdown格式。
解析數(shù)學(xué)公式、超長公式,轉(zhuǎn)換為Markdown格式
無論是簡單的數(shù)學(xué)公式還是復(fù)雜的超長公式,MinerU都能準(zhǔn)確解析并轉(zhuǎn)換為Markdown格式。
保留原文檔的結(jié)構(gòu),包括標(biāo)題、段落、列表等
MinerU能夠保留原文檔的結(jié)構(gòu),確保輸出的內(nèi)容與原文件保持一致。
支持多種輸出格式
MinerU支持多種輸出格式,包括多模態(tài)與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等。
多平臺支持
MinerU兼容Windows、Linux和Mac平臺,支持CPU、GPU、NPU加速。
如何使用
本地運(yùn)行
創(chuàng)建并激活Conda環(huán)境:
conda create -n MinerU python=3.10
conda activate MinerU
安裝??magic-pdf?
?及其依賴:
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
安裝??modelscope?
?并下載模型:
pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py
配置??magic-pdf.json?
??: 配置文件會自動(dòng)生成在用戶目錄下,文件名為??magic-pdf.json?
?。你可以根據(jù)需要修改配置文件中的功能開關(guān):
{
"bucket_info": {
"bucket-name-1": [
"ak",
"sk",
"endpoint"
]
},
"models-dir": "{path}/models", # 這里的path默認(rèn)會是模型下載下來的路徑,也可以挪動(dòng)模型,修改路徑
"layoutreader-model-dir": "{path}/layoutreader",
"device-mode": "cpu", # 配置服務(wù)運(yùn)行的基礎(chǔ)環(huán)境,如果是cpu環(huán)境就配置cpu,如果是gup cuda,這里就配置為cuda
"layout-config": {
"model": "layoutlmv3" // 使用layoutlmv3請修改為“l(fā)ayoutlmv3"
},
"formula-config": {
"mfd_model": "yolo_v8_mfd",
"mfr_model": "unimernet_small",
"enable": true // 公式識別功能默認(rèn)是開啟的,如果需要關(guān)閉請修改此處的值為"false"
},
"table-config": {
"model": "rapid_table", // 表格識別默認(rèn)使用"rapid_table"這個(gè)速度最快,可以切換為"tablemaster"和"struct_eqtable"
"enable": false, // 表格識別功能默認(rèn)是開啟的,如果需要關(guān)閉請修改此處的值為"false"
"max_time": 400
},
"config_version": "1.0.0"
}
使用Docker部署
下載Dockerfile:
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile
構(gòu)建Docker鏡像:
docker build -t mineru:latest .
運(yùn)行Docker容器:
docker run --rm -it --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"
驗(yàn)證安裝: 在容器內(nèi)運(yùn)行以下命令,驗(yàn)證??magic-pdf?
?是否安裝成功:
magic-pdf --help
注意事項(xiàng)
- 模型下載:?
?download_models.py?
?腳本會自動(dòng)下載所需的模型文件,確保網(wǎng)絡(luò)連接正常。 - 配置文件:?
?magic-pdf.json?
?文件中的配置項(xiàng)可以根據(jù)實(shí)際需求進(jìn)行調(diào)整,例如關(guān)閉某些功能以節(jié)省資源。 - Docker部署:如果使用GPU,請確保主機(jī)上已安裝NVIDIA驅(qū)動(dòng)(大于12.1)和CUDA,并且Docker已配置為支持GPU。
本文轉(zhuǎn)載自公眾號AI 博物院 作者:longyunfeigu
