自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在 Linux 上使用 gImageReader 從圖像和 PDF 中提取文本

系統(tǒng) Linux
gImageReader 是一個(gè) GUI 工具,用于在 Linux 中利用 Tesseract OCR 引擎從圖像和 PDF 文件中提取文本。

gImageReader 是一個(gè) GUI 工具,用于在 Linux 中利用 Tesseract OCR 引擎從圖像和 PDF 文件中提取文本。

gImageReader 是 Tesseract 開源 OCR 引擎的一個(gè)前端。Tesseract 最初是由 HP 公司開發(fā)的,然后在 2006 年開源。

基本上,OCR(光學(xué)字符識(shí)別)引擎可以讓你從圖片或文件(PDF)中掃描文本。默認(rèn)情況下,它可以檢測幾種語言,還支持通過 Unicode 字符掃描。

然而,Tesseract 本身是一個(gè)沒有任何 GUI 的命令行工具。因此,gImageReader 就來解決這點(diǎn),它可以讓任何用戶使用它從圖像和文件中提取文本。

讓我重點(diǎn)介紹一些有關(guān)它的內(nèi)容,同時(shí)說下我在測試期間的使用經(jīng)驗(yàn)。

gImageReader:一個(gè)跨平臺(tái)的 Tesseract OCR 前端

為了簡化事情,gImageReader 在從 PDF 文件或包含任何類型文本的圖像中提取文本時(shí)非常方便。

無論你是需要它來進(jìn)行拼寫檢查還是翻譯,它都應(yīng)該對特定的用戶群體有用。

以列表總結(jié)下功能,這里是你可以用它做的事情:

  • 從磁盤、掃描設(shè)備、剪貼板和截圖中添加 PDF 文檔和圖像
  • 能夠旋轉(zhuǎn)圖像
  • 常用的圖像控制,用于調(diào)整亮度、對比度和分辨率。
  • 直接通過應(yīng)用掃描圖像
  • 能夠一次性處理多個(gè)圖像或文件
  • 手動(dòng)或自動(dòng)識(shí)別區(qū)域定義
  • 識(shí)別純文本或 hOCR 文檔
  • 編輯器顯示識(shí)別的文本
  • 可對對提取的文本進(jìn)行拼寫檢查
  • 從 hOCR 文件轉(zhuǎn)換/導(dǎo)出為 PDF 文件
  • 將提取的文本導(dǎo)出為 .txt 文件
  • 跨平臺(tái)(Windows)

在 Linux 上安裝 gImageReader

注意:你需要安裝 Tesseract 語言包,才能從軟件管理器中的圖像/文件中進(jìn)行檢測。

 

你可以在一些 Linux 發(fā)行版如 Fedora 和 Debian 的默認(rèn)倉庫中找到 gImageReader。

對于 Ubuntu,你需要添加一個(gè) PPA,然后安裝它。要做到這點(diǎn),下面是你需要在終端中輸入的內(nèi)容:

  1. sudo add-apt-repository ppa:sandromani/gimagereader
  2. sudo apt update
  3. sudo apt install gimagereader

你也可以從 openSUSE 的構(gòu)建服務(wù)中找到它,Arch Linux 用戶可在 AUR 中找到。

所有的倉庫和包的鏈接都可以在他們的 GitHub 頁面中找到。

gImageReader 使用經(jīng)驗(yàn)

當(dāng)你需要從圖像中提取文本時(shí),gImageReader 是一個(gè)相當(dāng)有用的工具。當(dāng)你嘗試從 PDF 文件中提取文本時(shí),它的效果非常好。

對于從智能手機(jī)拍攝的圖片中提取,檢測很接近,但有點(diǎn)不準(zhǔn)確。也許當(dāng)你進(jìn)行掃描時(shí),從文件中識(shí)別字符可能會(huì)更好。

所以,你需要親自嘗試一下,看看它是否對你而言工作良好。我在 Linux Mint 20.1(基于 Ubuntu 20.04)上試過。

我只遇到了一個(gè)從設(shè)置中管理語言的問題,我沒有得到一個(gè)快速的解決方案。如果你遇到此問題,那么可能需要對其進(jìn)行故障排除,并進(jìn)一步了解如何解決該問題。

 

除此之外,它工作良好。

試試吧,讓我知道它是如何為你服務(wù)的! 

責(zé)任編輯:龐桂玉 來源: Linux中國
相關(guān)推薦

2021-03-10 10:20:06

Linux文本命令

2023-11-29 11:30:17

PDF語言模型

2023-11-15 13:04:30

Python提取表格

2020-07-08 07:54:03

PythonPDF數(shù)據(jù)

2025-02-17 12:00:00

PythonOpenCV提取圖像

2016-12-01 18:49:39

LinuxISO提取和復(fù)制文件

2021-08-16 11:51:16

微軟Windows 365Azure

2021-05-13 23:54:12

DockerDockerfile鏡像

2022-02-28 09:24:17

KWriteKateLinux

2013-04-01 11:14:56

IT大數(shù)據(jù)網(wǎng)絡(luò)信息化

2022-11-23 10:31:54

2018-02-26 08:14:20

LinuxDocker容器

2023-10-15 14:53:22

Arch LinuxYay

2021-01-08 13:56:50

LinuxJOE文本編輯器

2023-11-06 18:53:23

python視頻

2021-03-16 09:00:00

深度學(xué)習(xí)人工智能傳感器

2022-08-24 15:57:17

圖片輪廓

2016-01-26 11:08:54

2021-09-04 23:45:40

機(jī)器學(xué)習(xí)語言人工智能

2021-07-15 13:25:43

LinuxPDF
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號