自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="lfb14"><i id="lfb14"><video id="lfb14"></video></i></blockquote>

<style id="lfb14"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

如何使用Python中的OCR技術(shù)將圖像中的文本提取為可編輯文件？

作者：你的老師父 2023-09-27 08:51:52

開發(fā) 后端

在Python中，可以使用多種庫和工具來識別圖片中的文本。其中，比較常用的是Tesseract OCR和Pytesseract庫。下面將介紹如何使用Python和Pytesseract庫來識別圖片中的文本，并將其整理成Word、Txt和Markdown格式的文件。

1、安裝和配置Pytesseract庫

Pytesseract是Python的一個OCR庫，它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前，需要先安裝Tesseract OCR引擎和Pytesseract庫。可以使用以下命令在Linux系統(tǒng)中安裝Tesseract OCR和Pytesseract庫：

sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev
pip install pytesseract

在Windows系統(tǒng)中，可以從Tesseract OCR的官方網(wǎng)站（https://github.com/UB-Mannheim/tesseract/wiki）下載安裝包，然后使用以下命令安裝Pytesseract庫：

pip install pytesseract

2、識別圖片中的文本

使用Pytesseract庫識別圖片中的文本非常簡單。首先，需要導(dǎo)入pytesseract模塊和PIL模塊（用于打開和處理圖片）。然后，可以使用pytesseract.image_to_string()函數(shù)來識別圖片中的文本。以下是一個簡單的示例：

import pytesseract
from PIL import Image

# 打開圖片
img = Image.open('example.png')

# 識別圖片中的文本
text = pytesseract.image_to_string(img, lang='eng')

# 打印識別的文本
print(text)

在上面的示例中，pytesseract.image_to_string()函數(shù)接受兩個參數(shù)：要識別的圖片和語言選項。默認(rèn)情況下，Pytesseract使用英語語言模型進(jìn)行識別。如果需要識別其他語言，可以將lang參數(shù)設(shè)置為對應(yīng)的語言代碼。

3、整理識別的文本

在將識別的文本整理成word、txt和markdown格式的文件之前，需要先對識別的文本進(jìn)行處理和清洗，以確保輸出的文件格式正確。以下是一些常用的文本處理和清洗操作：

去除多余的空格和換行符
將文本按照段落進(jìn)行分割
將文本按照句子進(jìn)行分割
刪除無用的字符和標(biāo)點符號
將文本轉(zhuǎn)換為小寫字母（可選）
...

下面是一個示例代碼，將識別的文本整理成txt格式的文件：

import pytesseract
from PIL import Image

# 打開圖片
img = Image.open('example.png')

# 識別圖片中的文本
text = pytesseract.image_to_string(img, lang='eng')

# 去除多余的空格和換行符
text = ' '.join(text.split())
text = text.replace('\n', ' ')

# 將文本按照段落進(jìn)行分割
paragraphs = text.split('\n\n')

# 創(chuàng)建txt文件并寫入文本
with open('example.txt', 'w') as f:
    for p in paragraphs:
        f.write(p + '\n\n')

將識別的文本整理成word、markdown格式的文件也類似，只需要將輸出格式從txt改為對應(yīng)的格式，然后使用相應(yīng)的庫或工具來生成文件即可。

4、完整代碼

下面是一個完整的示例代碼，將識別的文本整理成word、txt格式的文件：

import pytesseract
from PIL import Image
import docx
import os

# 打開圖片
img = Image.open('example.png')

# 識別圖片中的文本
text = pytesseract.image_to_string(img, lang='eng')

# 去除多余的空格和換行符
text = ' '.join(text.split())
text = text.replace('\n', ' ')

# 將文本按照段落進(jìn)行分割
paragraphs = text.split('\n\n')

# 將文本整理成word格式的文件
doc = docx.Document()
for p in paragraphs:
    doc.add_paragraph(p)
doc.save('example.docx')

# 將文本整理成txt格式的文件
with open('example.txt', 'w') as f:
    for p in paragraphs:
        f.write(p + '\n\n')

# 打開生成的文件
os.system('start example.docx')
os.system('start example.txt')

在上面的代碼中，使用了Python的docx庫來生成word格式的文件。在生成文件之后，使用os模塊打開文件。在Windows系統(tǒng)中，可以使用os.system()函數(shù)來打開文件。在其他操作系統(tǒng)中，可能需要使用其他方式來打開文件。

責(zé)任編輯：姜華來源：今日頭條

Python OCR技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營