MinerU一款全能、開(kāi)源的文檔與網(wǎng)頁(yè)數(shù)據(jù)提取工具
MinerU 是一款由上海人工智能實(shí)驗(yàn)室OpenDataLab團(tuán)隊(duì)發(fā)布的全能、開(kāi)源的文檔與網(wǎng)頁(yè)數(shù)據(jù)提取工具。它能夠?qū)瑘D片、表格、公式等元素的多模態(tài)PDF文檔轉(zhuǎn)化為清晰、易于分析的Markdown格式,同時(shí)也支持從包含廣告等干擾信息的網(wǎng)頁(yè)中快速解析、抽取正式內(nèi)容,并將其批量轉(zhuǎn)化為Markdown格式。
一、主要特點(diǎn)
多功能性:MinerU 包含兩個(gè)主要部分:Magic-PDF和Magic-Doc,分別負(fù)責(zé)PDF文檔提取和網(wǎng)頁(yè)與電子書(shū)提取。
多模態(tài)處理:Magic-PDF能夠處理PDF中的圖像、表格、公式等多種內(nèi)容類型,并保留原文檔的結(jié)構(gòu)和格式。
高質(zhì)量解析:MinerU使用了先進(jìn)的模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,以確保數(shù)據(jù)提取的高準(zhǔn)確度。
廣泛的應(yīng)用場(chǎng)景:適用于學(xué)術(shù)、財(cái)務(wù)、法律等多個(gè)領(lǐng)域,并支持多達(dá)176種語(yǔ)言的準(zhǔn)確識(shí)別。
跨平臺(tái)支持:能夠在Windows、Linux和Mac平臺(tái)上運(yùn)行,并支持CPU和GPU環(huán)境。
二、使用場(chǎng)景
MinerU 適用于需要從復(fù)雜格式的文檔中提取數(shù)據(jù)的場(chǎng)景,尤其適合于AI研究和大模型訓(xùn)練中處理大量非結(jié)構(gòu)化數(shù)據(jù)的需求。
三、技術(shù)細(xì)節(jié)
PDF文檔提?。篗inerU的PDF提取過(guò)程包括PDF文檔分類預(yù)處理、模型解析和管線處理等環(huán)節(jié)。它能夠識(shí)別和處理文本型、圖層型和掃描版的PDF文檔,并通過(guò)一系列深度學(xué)習(xí)模型進(jìn)行版面分析、OCR和公式識(shí)別。
網(wǎng)頁(yè)與電子書(shū)提?。篗agic-Doc能夠從多種類型的網(wǎng)頁(yè)和電子書(shū)中提取信息,支持包括epub、mobi在內(nèi)的多種格式,并能夠處理文章、論壇、音樂(lè)、視頻等內(nèi)容類型。
四、快速安裝與使用
CPU Demo
# 1. 安裝依賴
conda create -n MinerU pythnotallow=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://pypi.tuna.tsinghua.edu.cn/simple
# 2. 下載模型權(quán)重文件
# 根據(jù)官方文檔(https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_en.md)指示操作
# 3. 配置Magic-PDF
cp magic-pdf.template.json ~/magic-pdf.json
# 編輯 ~/magic-pdf.json,設(shè)置正確的模型文件路徑
# 4. 開(kāi)始使用
magic-pdf --help
magic-pdf -p {some_pdf} -o {some_output_dir} -m auto
Docker 快速部署
# 檢查您的設(shè)備是否支持Docker上的CUDA加速。
docker run --rm --gpus=all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi
# 運(yùn)行 docker 部署
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .
docker run --rm -it --gpus=all mineru:latest /bin/bash
magic-pdf --help
更多使用方式,請(qǐng)查閱如下提供地址
總結(jié)
體驗(yàn)鏈接: https://opendatalab.com/OpenSourceTools/Extractor/PDF
開(kāi)源倉(cāng)庫(kù):https://github.com/opendatalab/MinerU/
MinerU開(kāi)源模型(PDF-Extract-Kit): https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit