自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小技巧:如何在Linux上從圖像和PDF中提取文本

系統(tǒng) Linux
gImageReader是一個(gè)GUI工具,可利用tesseract OCR引擎從Linux中的圖像和PDF文件中提取文本。

 gImageReader是Tesseract開源OCR引擎的前端。Tesseract最初是由HP開發(fā)的,然后于2006年開源。

基本上,OCR(Optical Character Recognition光學(xué)字符識(shí)別)引擎使您可以掃描圖片或文件(PDF)中的文本。默認(rèn)情況下,它可以檢測多種語言,并且還支持通過Unicode字符進(jìn)行掃描。

但是,Tesseract本身就是沒有任何GUI的命令行工具。因此,在這里,gImageReader可以幫助任何用戶利用它來從圖像和文件中提取文本。

讓我重點(diǎn)介紹一些有關(guān)它的內(nèi)容,同時(shí)提及我在測試期間的使用經(jīng)驗(yàn)。

gImageReader:Tesseract OCR的跨平臺(tái)前端

為了簡化工作,gImageReader可以方便地從PDF文件或包含任何類型文本的圖像中提取文本。

無論是拼寫檢查還是翻譯都需要它,它對(duì)于特定的用戶組應(yīng)該很有用。

gImageReader功能介紹:

  •  從磁盤,掃描設(shè)備,剪貼板和屏幕截圖添加PDF文檔和圖像
  •  旋轉(zhuǎn)圖像的能力
  •  通用圖像控件可調(diào)節(jié)亮度,對(duì)比度和分辨率
  •  直接通過應(yīng)用程序掃描圖像
  •  能夠一次處理多個(gè)圖像或文件
  •  手動(dòng)或自動(dòng)識(shí)別區(qū)域定義
  •  識(shí)別純文本或hOCR文檔
  •  編輯器顯示識(shí)別的文本
  •  可以拼寫檢查提取的文本
  •  從hOCR文檔轉(zhuǎn)換/導(dǎo)出為PDF文檔
  •  將提取的文本導(dǎo)出為.txt文件
  •  跨平臺(tái)(Windows)

在Linux上安裝gImageReader

注意:您需要顯式安裝Tesseract語言包以從軟件管理器中的圖像/文件中進(jìn)行檢測。

您可以在某些Linux發(fā)行版(例如Fedora和Debian)的默認(rèn)存儲(chǔ)庫中找到gImageReader。

對(duì)于Ubuntu,您需要添加一個(gè)PPA,然后再安裝它。為此,您需要在終端中輸入以下內(nèi)容: 

  1. linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader  
  2. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update 
  3. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y  
  4. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y 

您還可以從其構(gòu)建服務(wù)中為openSUSE找到它,AUR將成為Arch Linux用戶的地方。

到存儲(chǔ)庫和軟件包的所有鏈接都可以在其GitHub頁面中找到。

使用gImageReader的經(jīng)驗(yàn)

gImageReader是一個(gè)非常有用的工具,可以在需要時(shí)從圖像中提取文本。當(dāng)您嘗試使用PDF文件時(shí),它的效果很好。

為了從智能手機(jī)拍攝的照片中提取圖像,檢測很接近,但是有點(diǎn)不準(zhǔn)確。也許當(dāng)您掃描某些內(nèi)容時(shí),從文件中識(shí)別字符可能會(huì)更好。

因此,您必須自己嘗試一下,看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上進(jìn)行了嘗試。

操作步驟

打開 gImageReader

添加pdf

識(shí)別語言選擇 多種語言 ==> 簡體字[chi_sim]+ English[eng]

復(fù)制或保存識(shí)別文本

操作結(jié)果參照下圖:

我只是在管理設(shè)置中的語言時(shí)遇到了一個(gè)問題,但沒有得到快速的解決方案。如果遇到此問題,則可能需要對(duì)其進(jìn)行故障排除,并進(jìn)一步了解如何解決該問題。

除此之外,它工作得很好。

永久鏈接:https://www.linuxmi.com/linux-ocr-gimagereader-pdf.html 

 

責(zé)任編輯:龐桂玉 來源: Linux公社
相關(guān)推薦

2021-03-15 21:50:22

Linux提取文本GUI工具

2023-11-29 11:30:17

PDF語言模型

2023-11-15 13:04:30

Python提取表格

2020-07-08 07:54:03

PythonPDF數(shù)據(jù)

2025-02-17 12:00:00

PythonOpenCV提取圖像

2021-05-13 23:54:12

DockerDockerfile鏡像

2018-03-25 08:44:07

iPhonePDF網(wǎng)頁

2018-01-26 09:02:30

LinuxPDF創(chuàng)建視頻

2014-02-28 10:26:16

Linux文本搜索ack

2023-11-20 22:07:51

PythonPDF

2016-01-26 11:08:54

2021-08-16 11:51:16

微軟Windows 365Azure

2015-08-04 14:04:28

UbuntuPDF文件

2013-04-01 11:14:56

IT大數(shù)據(jù)網(wǎng)絡(luò)信息化

2019-08-14 09:42:06

LinuxElasticsearKibana

2022-11-23 10:31:54

2023-08-28 15:52:10

LinuxPDF

2020-10-30 11:02:16

物聯(lián)網(wǎng)人工智能機(jī)器學(xué)習(xí)

2015-11-24 10:46:06

LinuxNetworkManasystemd-net

2021-12-07 12:00:12

UbuntuLinuxQt 6.2.2
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)