自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具

發(fā)布于 2024-9-18 14:48
瀏覽
0收藏

LLM 輔助 OCR 項(xiàng)目是一個(gè)先進(jìn)的系統(tǒng),旨在顯著提高光學(xué)字符識(shí)別 (OCR) 輸出的質(zhì)量。通過(guò)利用尖端的自然語(yǔ)言處理技術(shù)和大型語(yǔ)言模型 (LLM),將原始 OCR 文本轉(zhuǎn)換為高度準(zhǔn)確、格式良好且可讀的文檔成為可能。本篇文章將介紹一款在github上擁有1.7k star的開源實(shí)現(xiàn)工具LLM-Aided OCR。

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具-AI.x社區(qū)


特征

本項(xiàng)目支持以下功能:

  • PDF 到圖像轉(zhuǎn)換
  • 使用 Tesseract 進(jìn)行 OCR
  • 使用 LLM(本地或基于 API)進(jìn)行高級(jí)錯(cuò)誤更正
  • 智能文本分塊,高效處理
  • Markdown 格式選項(xiàng)
  • 抑制頁(yè)眉和頁(yè)碼(可選)
  • 最終輸出的質(zhì)量評(píng)估
  • 支持本地 LLM和基于云的 API 提供商(OpenAI、Anthropic)
  • 異步處理以提高性能
  • 用于流程跟蹤和調(diào)試的詳細(xì)日志記錄
  • 用于本地 LLM 推理的 GPU 加速

工作原理

LLM 輔助 OCR 項(xiàng)目采用多步驟流程將原始 OCR 輸出轉(zhuǎn)換為高質(zhì)量、可讀的文本:

  1. PDF 轉(zhuǎn)換:使用將輸入的 PDF 轉(zhuǎn)換為圖像??pdf2image??。
  2. OCR:應(yīng)用 Tesseract OCR 從圖像中提取文本。
  3. 文本分塊:將原始 OCR 輸出分成可管理的塊進(jìn)行處理。
  4. 錯(cuò)誤更正:每個(gè)塊都經(jīng)過(guò)基于 LLM 的處理,以糾正 OCR 錯(cuò)誤并提高可讀性。
  5. Markdown 格式(可選):將更正后的文本重新格式化為干凈、一致的 Markdown。
  6. 質(zhì)量評(píng)估:基于 LLM 的評(píng)估將最終輸出質(zhì)量與原始 OCR 文本進(jìn)行比較。

代碼優(yōu)化

  • 并發(fā)處理:使用基于 API 的模型時(shí),會(huì)并發(fā)處理塊以提高速度。
  • 上下文保存:每個(gè)塊與前一個(gè)塊有小的重疊,以維持上下文。
  • 自適應(yīng)token管理:系統(tǒng)根據(jù)輸入大小和模型約束動(dòng)態(tài)調(diào)整用于 LLM 請(qǐng)求的token數(shù)量。

效果展示

原始文檔

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具-AI.x社區(qū)

OCR識(shí)別結(jié)果

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具-AI.x社區(qū)

LLM 校正的 Markdown 輸出

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具-AI.x社區(qū)


項(xiàng)目地址:

https://github.com/Dicklesworthstone/llm_aided_ocr

相比傳統(tǒng)的處理流程,需要使用大量的時(shí)間進(jìn)行格式校對(duì)、格式調(diào)整;用了該工作后,直接一步到位了,輕松很多。代碼全開源,跑起來(lái)吧。


本文轉(zhuǎn)載自公眾號(hào)哎呀AIYA

原文鏈接:??https://mp.weixin.qq.com/s/PzwUBn_scPE20Ap9nQuVLA??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦