自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RAG項(xiàng)目必備!文檔解析神器MinerU:2.5萬星標(biāo)!支持GPU加速,輕松應(yīng)對復(fù)雜文檔 原創(chuàng)

發(fā)布于 2025-3-10 08:12
瀏覽
1收藏

我們都知道,對于RAG(檢索增強(qiáng)生成)的項(xiàng)目來說,構(gòu)建知識庫的過程常常包含文檔的解析。文檔的解析效果直接影響到知識庫的質(zhì)量,進(jìn)而影響問答系統(tǒng)的質(zhì)量。因此,一款好的PDF解析工具對于RAG項(xiàng)目的成功至關(guān)重要。

今天,向大家推薦一款由上海人工智能實(shí)驗(yàn)室打造的智能文檔處理工具——MinerU。這款工具剛剛完成了新年大升級,在GitHub上已經(jīng)獲得了超過2.5萬星標(biāo),甚至連谷歌工程師都在安利!

RAG項(xiàng)目必備!文檔解析神器MinerU:2.5萬星標(biāo)!支持GPU加速,輕松應(yīng)對復(fù)雜文檔-AI.x社區(qū)


獲取MinerU

  • MinerU官網(wǎng):https://mineru.net/
  • MinerU代碼地址:https://github.com/opendatalab/MinerU
  • MinerU 線上demo入口:https://mineru.net/OpenSourceTools/Extractor

通過以上鏈接,你可以訪問MinerU的官方網(wǎng)站、獲取源代碼以及嘗試在線演示功能。

產(chǎn)品介紹

支持多種類型轉(zhuǎn)換

MinerU能夠輕松應(yīng)對各種PDF文檔需求,包括考題、PPT、論文、教科書、圖書、雜志、筆記、新聞、研報(bào)等,并支持其他類型的文檔轉(zhuǎn)換為PDF后提取,如圖片、PPT和Word文檔。

支持多語言識別

跨語言識別,全球通用。目前支持中文(簡體和繁體)、英文、俄語、日語、韓語等多種語言。

多元素解析

精確解析多種元素,全面提取信息,包括文本、公式、表格、化學(xué)方程式、圖表等。

技術(shù)介紹

刪除頁眉、頁腳、腳注、頁碼等元素

精準(zhǔn)識別版面元素,刪除頁眉/頁腳/腳注,同時(shí)保留正文內(nèi)容。

識別圖片和表格,轉(zhuǎn)換為多模態(tài)的Markdown

MinerU能夠識別并轉(zhuǎn)換圖片和表格為多模態(tài)的Markdown格式。

解析數(shù)學(xué)公式、超長公式,轉(zhuǎn)換為Markdown格式

無論是簡單的數(shù)學(xué)公式還是復(fù)雜的超長公式,MinerU都能準(zhǔn)確解析并轉(zhuǎn)換為Markdown格式。

保留原文檔的結(jié)構(gòu),包括標(biāo)題、段落、列表等

MinerU能夠保留原文檔的結(jié)構(gòu),確保輸出的內(nèi)容與原文件保持一致。

支持多種輸出格式

MinerU支持多種輸出格式,包括多模態(tài)與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等。

多平臺支持

MinerU兼容Windows、Linux和Mac平臺,支持CPU、GPU、NPU加速。

如何使用

本地運(yùn)行

創(chuàng)建并激活Conda環(huán)境

conda create -n MinerU python=3.10
conda activate MinerU

安裝??magic-pdf??及其依賴

pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

安裝??modelscope??并下載模型

pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py

配置??magic-pdf.json???: 配置文件會自動(dòng)生成在用戶目錄下,文件名為??magic-pdf.json??。你可以根據(jù)需要修改配置文件中的功能開關(guān):

{
    "bucket_info": {
        "bucket-name-1": [
            "ak",
            "sk",
            "endpoint"
        ]
    },
    "models-dir": "{path}/models", # 這里的path默認(rèn)會是模型下載下來的路徑,也可以挪動(dòng)模型,修改路徑
    "layoutreader-model-dir": "{path}/layoutreader",
    "device-mode": "cpu", # 配置服務(wù)運(yùn)行的基礎(chǔ)環(huán)境,如果是cpu環(huán)境就配置cpu,如果是gup cuda,這里就配置為cuda
    "layout-config": {
        "model": "layoutlmv3" // 使用layoutlmv3請修改為“l(fā)ayoutlmv3"
    },
    "formula-config": {
        "mfd_model": "yolo_v8_mfd",
        "mfr_model": "unimernet_small",
        "enable": true // 公式識別功能默認(rèn)是開啟的,如果需要關(guān)閉請修改此處的值為"false"
    },
    "table-config": {
        "model": "rapid_table", // 表格識別默認(rèn)使用"rapid_table"這個(gè)速度最快,可以切換為"tablemaster"和"struct_eqtable"
        "enable": false, // 表格識別功能默認(rèn)是開啟的,如果需要關(guān)閉請修改此處的值為"false"
        "max_time": 400
    },
    "config_version": "1.0.0"
}

使用Docker部署

下載Dockerfile

wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile

構(gòu)建Docker鏡像

docker build -t mineru:latest .

運(yùn)行Docker容器

docker run --rm -it --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"

驗(yàn)證安裝: 在容器內(nèi)運(yùn)行以下命令,驗(yàn)證??magic-pdf??是否安裝成功:

magic-pdf --help

注意事項(xiàng)

  • 模型下載:??download_models.py??腳本會自動(dòng)下載所需的模型文件,確保網(wǎng)絡(luò)連接正常。
  • 配置文件:??magic-pdf.json??文件中的配置項(xiàng)可以根據(jù)實(shí)際需求進(jìn)行調(diào)整,例如關(guān)閉某些功能以節(jié)省資源。
  • Docker部署:如果使用GPU,請確保主機(jī)上已安裝NVIDIA驅(qū)動(dòng)(大于12.1)和CUDA,并且Docker已配置為支持GPU。


本文轉(zhuǎn)載自公眾號AI 博物院 作者:longyunfeigu

原文鏈接:??https://mp.weixin.qq.com/s/PYZFqAcDtrd6Z-tvhOEYqg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-3-10 08:12:24修改
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦