在 Linux 上使用 gImageReader 從圖像和 PDF 中提取文本
gImageReader 是一個(gè) GUI 工具,用于在 Linux 中利用 Tesseract OCR 引擎從圖像和 PDF 文件中提取文本。
gImageReader 是 Tesseract 開源 OCR 引擎的一個(gè)前端。Tesseract 最初是由 HP 公司開發(fā)的,然后在 2006 年開源。
基本上,OCR(光學(xué)字符識(shí)別)引擎可以讓你從圖片或文件(PDF)中掃描文本。默認(rèn)情況下,它可以檢測幾種語言,還支持通過 Unicode 字符掃描。
然而,Tesseract 本身是一個(gè)沒有任何 GUI 的命令行工具。因此,gImageReader 就來解決這點(diǎn),它可以讓任何用戶使用它從圖像和文件中提取文本。
讓我重點(diǎn)介紹一些有關(guān)它的內(nèi)容,同時(shí)說下我在測試期間的使用經(jīng)驗(yàn)。
gImageReader:一個(gè)跨平臺(tái)的 Tesseract OCR 前端
為了簡化事情,gImageReader 在從 PDF 文件或包含任何類型文本的圖像中提取文本時(shí)非常方便。
無論你是需要它來進(jìn)行拼寫檢查還是翻譯,它都應(yīng)該對特定的用戶群體有用。
以列表總結(jié)下功能,這里是你可以用它做的事情:
- 從磁盤、掃描設(shè)備、剪貼板和截圖中添加 PDF 文檔和圖像
- 能夠旋轉(zhuǎn)圖像
- 常用的圖像控制,用于調(diào)整亮度、對比度和分辨率。
- 直接通過應(yīng)用掃描圖像
- 能夠一次性處理多個(gè)圖像或文件
- 手動(dòng)或自動(dòng)識(shí)別區(qū)域定義
- 識(shí)別純文本或 hOCR 文檔
- 編輯器顯示識(shí)別的文本
- 可對對提取的文本進(jìn)行拼寫檢查
- 從 hOCR 文件轉(zhuǎn)換/導(dǎo)出為 PDF 文件
- 將提取的文本導(dǎo)出為 .txt 文件
- 跨平臺(tái)(Windows)
在 Linux 上安裝 gImageReader
注意:你需要安裝 Tesseract 語言包,才能從軟件管理器中的圖像/文件中進(jìn)行檢測。
你可以在一些 Linux 發(fā)行版如 Fedora 和 Debian 的默認(rèn)倉庫中找到 gImageReader。
對于 Ubuntu,你需要添加一個(gè) PPA,然后安裝它。要做到這點(diǎn),下面是你需要在終端中輸入的內(nèi)容:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader
你也可以從 openSUSE 的構(gòu)建服務(wù)中找到它,Arch Linux 用戶可在 AUR 中找到。
所有的倉庫和包的鏈接都可以在他們的 GitHub 頁面中找到。
gImageReader 使用經(jīng)驗(yàn)
當(dāng)你需要從圖像中提取文本時(shí),gImageReader 是一個(gè)相當(dāng)有用的工具。當(dāng)你嘗試從 PDF 文件中提取文本時(shí),它的效果非常好。
對于從智能手機(jī)拍攝的圖片中提取,檢測很接近,但有點(diǎn)不準(zhǔn)確。也許當(dāng)你進(jìn)行掃描時(shí),從文件中識(shí)別字符可能會(huì)更好。
所以,你需要親自嘗試一下,看看它是否對你而言工作良好。我在 Linux Mint 20.1(基于 Ubuntu 20.04)上試過。
我只遇到了一個(gè)從設(shè)置中管理語言的問題,我沒有得到一個(gè)快速的解決方案。如果你遇到此問題,那么可能需要對其進(jìn)行故障排除,并進(jìn)一步了解如何解決該問題。
除此之外,它工作良好。
試試吧,讓我知道它是如何為你服務(wù)的!