自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="w6wz9"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

小技巧：如何在Linux上從圖像和PDF中提取文本

作者：XXVI.AI 2021-03-10 10:20:06

系統(tǒng) Linux

gImageReader是一個(gè)GUI工具，可利用tesseract OCR引擎從Linux中的圖像和PDF文件中提取文本。

gImageReader是Tesseract開源OCR引擎的前端。Tesseract最初是由HP開發(fā)的，然后于2006年開源。

基本上，OCR（Optical Character Recognition光學(xué)字符識(shí)別）引擎使您可以掃描圖片或文件（PDF）中的文本。默認(rèn)情況下，它可以檢測多種語言，并且還支持通過Unicode字符進(jìn)行掃描。

但是，Tesseract本身就是沒有任何GUI的命令行工具。因此，在這里，gImageReader可以幫助任何用戶利用它來從圖像和文件中提取文本。

讓我重點(diǎn)介紹一些有關(guān)它的內(nèi)容，同時(shí)提及我在測試期間的使用經(jīng)驗(yàn)。

gImageReader：Tesseract OCR的跨平臺(tái)前端

為了簡化工作，gImageReader可以方便地從PDF文件或包含任何類型文本的圖像中提取文本。

無論是拼寫檢查還是翻譯都需要它，它對(duì)于特定的用戶組應(yīng)該很有用。

gImageReader功能介紹:

從磁盤，掃描設(shè)備，剪貼板和屏幕截圖添加PDF文檔和圖像
旋轉(zhuǎn)圖像的能力
通用圖像控件可調(diào)節(jié)亮度，對(duì)比度和分辨率
直接通過應(yīng)用程序掃描圖像
能夠一次處理多個(gè)圖像或文件
手動(dòng)或自動(dòng)識(shí)別區(qū)域定義
識(shí)別純文本或hOCR文檔
編輯器顯示識(shí)別的文本
可以拼寫檢查提取的文本
從hOCR文檔轉(zhuǎn)換/導(dǎo)出為PDF文檔
將提取的文本導(dǎo)出為.txt文件
跨平臺(tái)（Windows）

在Linux上安裝gImageReader

注意：您需要顯式安裝Tesseract語言包以從軟件管理器中的圖像/文件中進(jìn)行檢測。

您可以在某些Linux發(fā)行版（例如Fedora和Debian）的默認(rèn)存儲(chǔ)庫中找到gImageReader。

對(duì)于Ubuntu，您需要添加一個(gè)PPA，然后再安裝它。為此，您需要在終端中輸入以下內(nèi)容：

linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader  
linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update 
linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y  
linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y

您還可以從其構(gòu)建服務(wù)中為openSUSE找到它，AUR將成為Arch Linux用戶的地方。

到存儲(chǔ)庫和軟件包的所有鏈接都可以在其GitHub頁面中找到。

使用gImageReader的經(jīng)驗(yàn)

gImageReader是一個(gè)非常有用的工具，可以在需要時(shí)從圖像中提取文本。當(dāng)您嘗試使用PDF文件時(shí)，它的效果很好。

為了從智能手機(jī)拍攝的照片中提取圖像，檢測很接近，但是有點(diǎn)不準(zhǔn)確。也許當(dāng)您掃描某些內(nèi)容時(shí)，從文件中識(shí)別字符可能會(huì)更好。

因此，您必須自己嘗試一下，看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上進(jìn)行了嘗試。

操作步驟

打開 gImageReader

添加pdf

識(shí)別語言選擇多種語言 ==> 簡體字[chi_sim]+ English[eng]

復(fù)制或保存識(shí)別文本

操作結(jié)果參照下圖：

我只是在管理設(shè)置中的語言時(shí)遇到了一個(gè)問題，但沒有得到快速的解決方案。如果遇到此問題，則可能需要對(duì)其進(jìn)行故障排除，并進(jìn)一步了解如何解決該問題。

除此之外，它工作得很好。

永久鏈接：https://www.linuxmi.com/linux-ocr-gimagereader-pdf.html

責(zé)任編輯：龐桂玉來源： Linux公社

Linux 文本命令

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<sub id="vb8ge"></sub>}

<p id="vb8ge"></p>