自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tt id="ykazx"><option id="ykazx"></option></tt>

<output id="ykazx"><button id="ykazx"></button></output>

<tr id="ykazx"></tr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具

發(fā)布于 2024-9-18 14:48

瀏覽

0收藏

LLM 輔助 OCR 項(xiàng)目是一個(gè)先進(jìn)的系統(tǒng)，旨在顯著提高光學(xué)字符識(shí)別 (OCR) 輸出的質(zhì)量。通過(guò)利用尖端的自然語(yǔ)言處理技術(shù)和大型語(yǔ)言模型 (LLM)，將原始 OCR 文本轉(zhuǎn)換為高度準(zhǔn)確、格式良好且可讀的文檔成為可能。本篇文章將介紹一款在github上擁有1.7k star的開源實(shí)現(xiàn)工具LLM-Aided OCR。

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具-AI.x社區(qū)

特征

本項(xiàng)目支持以下功能：

PDF 到圖像轉(zhuǎn)換
使用 Tesseract 進(jìn)行 OCR
使用 LLM（本地或基于 API）進(jìn)行高級(jí)錯(cuò)誤更正
智能文本分塊，高效處理
Markdown 格式選項(xiàng)
抑制頁(yè)眉和頁(yè)碼（可選）
最終輸出的質(zhì)量評(píng)估
支持本地 LLM和基于云的 API 提供商（OpenAI、Anthropic）
異步處理以提高性能
用于流程跟蹤和調(diào)試的詳細(xì)日志記錄
用于本地 LLM 推理的 GPU 加速

工作原理

LLM 輔助 OCR 項(xiàng)目采用多步驟流程將原始 OCR 輸出轉(zhuǎn)換為高質(zhì)量、可讀的文本：

PDF 轉(zhuǎn)換：使用將輸入的 PDF 轉(zhuǎn)換為圖像??pdf2image??。
OCR：應(yīng)用 Tesseract OCR 從圖像中提取文本。
文本分塊：將原始 OCR 輸出分成可管理的塊進(jìn)行處理。
錯(cuò)誤更正：每個(gè)塊都經(jīng)過(guò)基于 LLM 的處理，以糾正 OCR 錯(cuò)誤并提高可讀性。
Markdown 格式（可選）：將更正后的文本重新格式化為干凈、一致的 Markdown。
質(zhì)量評(píng)估：基于 LLM 的評(píng)估將最終輸出質(zhì)量與原始 OCR 文本進(jìn)行比較。

代碼優(yōu)化

并發(fā)處理：使用基于 API 的模型時(shí)，會(huì)并發(fā)處理塊以提高速度。
上下文保存：每個(gè)塊與前一個(gè)塊有小的重疊，以維持上下文。
自適應(yīng)token管理：系統(tǒng)根據(jù)輸入大小和模型約束動(dòng)態(tài)調(diào)整用于 LLM 請(qǐng)求的token數(shù)量。

效果展示

原始文檔

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具-AI.x社區(qū)

OCR識(shí)別結(jié)果

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具-AI.x社區(qū)

LLM 校正的 Markdown 輸出

顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具-AI.x社區(qū)

項(xiàng)目地址：

https://github.com/Dicklesworthstone/llm_aided_ocr

相比傳統(tǒng)的處理流程，需要使用大量的時(shí)間進(jìn)行格式校對(duì)、格式調(diào)整；用了該工作后，直接一步到位了，輕松很多。代碼全開源，跑起來(lái)吧。

本文轉(zhuǎn)載自公眾號(hào)哎呀AIYA

原文鏈接：??https://mp.weixin.qq.com/s/PzwUBn_scPE20Ap9nQuVLA??

標(biāo)簽

自然語(yǔ)言處理技術(shù)

大型語(yǔ)言模型

光學(xué)字符識(shí)別

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

無(wú)需架構(gòu)變化+復(fù)雜微調(diào)，輕松擴(kuò)展8倍

duhorse ? 3165瀏覽 ? 0回復(fù)
北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源

Crystalcxt ? 2653瀏覽 ? 0回復(fù)
Gptpdf：一個(gè)簡(jiǎn)單巧妙的復(fù)雜Pdf解析工具，提升RAG效果

Syrupup ? 5301瀏覽 ? 0回復(fù)
揭秘YOLO-World：顛覆傳統(tǒng)，開啟實(shí)時(shí)開放詞匯檢測(cè)新時(shí)代

sword_hero ? 4914瀏覽 ? 0回復(fù)
好萊塢級(jí)視頻模型：4種混合模型，顛覆傳統(tǒng)生成方法

Aceryt ? 2321瀏覽 ? 0回復(fù)
利用LlamaIndex和本地PDF文檔，輕松打造知識(shí)圖譜GraphRAG

小虎哦哦 ? 3678瀏覽 ? 0回復(fù)
如何利用RAG+Agent輕松解決企業(yè)復(fù)雜問(wèn)題？

玄姐聊AGI ? 2482瀏覽 ? 0回復(fù)
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 4666瀏覽 ? 0回復(fù)
Ollama，本地運(yùn)行大模型最強(qiáng)工具，輕松上手

小虎哦哦 ? 9138瀏覽 ? 0回復(fù)
Agent遇上4萬(wàn)個(gè)工具？一個(gè)Token搞定！

探索AGI ? 1978瀏覽 ? 0回復(fù)
微軟亞洲研究院2025六大預(yù)測(cè)：AI Agents 將顛覆傳統(tǒng)工作模式

AIGC新知 ? 1869瀏覽 ? 0回復(fù)
顛覆傳統(tǒng)搜索方式！向量相似性與圖數(shù)據(jù)庫(kù)的強(qiáng)強(qiáng)聯(lián)合

Halo咯咯 ? 2112瀏覽 ? 0回復(fù)
剛剛，OpenAI發(fā)布NextGenAI，徹底顛覆傳統(tǒng)教育

Aceryt ? 1725瀏覽 ? 0回復(fù)
支持GPU加速，輕松應(yīng)對(duì)復(fù)雜文檔

AI博物院 ? 4292瀏覽 ? 0回復(fù)
DeepSeek如何顛覆傳統(tǒng)軟件測(cè)試？測(cè)試工程師會(huì)被淘汰嗎？

mb67d4200f74d5e ? 1169瀏覽 ? 0回復(fù)
Cursor 們搞定開發(fā)， 8 款 AI 測(cè)試工具助你打造高效研發(fā)閉環(huán)！

凝固的雨_1 ? 1719瀏覽 ? 0回復(fù)
顛覆傳統(tǒng)渲染：實(shí)時(shí)云渲染技術(shù)的五大核心優(yōu)勢(shì)與產(chǎn)業(yè)變革

AI算力補(bǔ)給站 ? 1225瀏覽 ? 0回復(fù)
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語(yǔ)言處理 ? 848瀏覽 ? 0回復(fù)
AI agent如何顛覆傳統(tǒng)軟件？深入解析軟件進(jìn)化史

Halo咯咯 ? 590瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM-R：基于RAG和層次化Agent落地案例解析 2024-11-15 09:58:18發(fā)布
TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備 2024-11-13 09:10:07發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： RAG高級(jí)優(yōu)化：一文看盡Query的轉(zhuǎn)換之路

下一篇： RAG文本切分LV3：輕松定制Markdown切分

社區(qū)精華內(nèi)容

目錄