自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

探索 Zerox OCR:創(chuàng)新引領(lǐng)光學(xué)字符識(shí)別新境界

發(fā)布于 2024-11-8 15:37
瀏覽
0收藏
在數(shù)字化信息飛速發(fā)展的當(dāng)今時(shí)代,光學(xué)字符識(shí)別(OCR)技術(shù)成為了連接紙質(zhì)與數(shù)字世界的重要橋梁。它能夠?qū)⒏鞣N文檔中的文字快速準(zhǔn)確地轉(zhuǎn)換為可編輯的電子文本,極大地提高了工作效率和信息利用價(jià)值。在眾多 OCR 工具中,Zerox OCR 以其獨(dú)特的特性和優(yōu)勢(shì)脫穎而出,為用戶帶來(lái)了全新的體驗(yàn)和更高的效率。本文將深入探討 Zerox OCR 的相關(guān)內(nèi)容,包括其原理、特點(diǎn)、應(yīng)用場(chǎng)景等。

一、Zerox OCR 的基本原理

Zerox OCR 的核心原理是利用先進(jìn)的技術(shù)手段對(duì)圖像中的文字進(jìn)行識(shí)別和提取。它不完全依賴(lài)傳統(tǒng)的光學(xué)字符識(shí)別技術(shù),而是巧妙地結(jié)合了大型語(yǔ)言模型。在處理過(guò)程中,當(dāng)面對(duì)輸入的文檔,如 PDF、圖片或 DOCX 等格式的文件時(shí),首先會(huì)對(duì)文檔進(jìn)行預(yù)處理。對(duì)于 PDF 文件,會(huì)將其轉(zhuǎn)換為圖像,以便后續(xù)分析每一頁(yè)的內(nèi)容。然后,利用大型語(yǔ)言模型的強(qiáng)大理解能力,對(duì)圖像中的文字進(jìn)行解讀和識(shí)別。這種方式使得 Zerox OCR 能夠更好地處理各種復(fù)雜的文本情況,包括風(fēng)格化程度很高的文本、布局不尋常的文檔以及包含特殊符號(hào)或圖形的文本內(nèi)容等。與傳統(tǒng) OCR 技術(shù)相比,它更注重對(duì)文本語(yǔ)義的理解,從而提高了識(shí)別的準(zhǔn)確性和可靠性。

二、Zerox OCR 的特點(diǎn)與優(yōu)勢(shì)

1. 高效準(zhǔn)確的識(shí)別能力

借助大型語(yǔ)言模型的優(yōu)勢(shì),Zerox OCR 能夠?qū)?fù)雜的文本進(jìn)行精準(zhǔn)識(shí)別。無(wú)論是手寫(xiě)體、藝術(shù)字還是帶有各種干擾因素的文字,它都能準(zhǔn)確地提取其中的信息,大大減少了錯(cuò)誤識(shí)別的概率,為用戶提供高質(zhì)量的識(shí)別結(jié)果。

2. 廣泛的文件格式支持

支持多種常見(jiàn)的文件格式,如 PDF、DOCX、圖片(包括常見(jiàn)的圖片格式如 JPEG、PNG 等)。這使得用戶在不同的場(chǎng)景下都能方便地使用 Zerox OCR,無(wú)需進(jìn)行繁瑣的格式轉(zhuǎn)換,節(jié)省了時(shí)間和精力。

3. 零-shot 學(xué)習(xí)能力

具備強(qiáng)大的零-shot OCR 處理能力,意味著它無(wú)需針對(duì)特定任務(wù)進(jìn)行大量的預(yù)先訓(xùn)練數(shù)據(jù)準(zhǔn)備,就可以直接對(duì)各種文檔進(jìn)行處理。這種靈活性和適應(yīng)性使得 Zerox OCR 能夠快速應(yīng)對(duì)不同類(lèi)型的文檔和任務(wù),為用戶提供了便捷的使用體驗(yàn)。

4. 友好的輸出格式

處理后的文本以 Markdown 格式返回。Markdown 格式簡(jiǎn)潔明了,既保留了文本的基本格式,又便于后續(xù)的編輯和使用。用戶可以輕松地對(duì)輸出的文本進(jìn)行進(jìn)一步的整理、分析和排版,滿足不同的需求。

5. 易于集成

提供了方便的開(kāi)發(fā)接口,特別是對(duì)于開(kāi)發(fā)者來(lái)說(shuō),它提供了 Node.js 和 Python 的 SDK。這使得開(kāi)發(fā)者能夠輕松地將 Zerox OCR 集成到現(xiàn)有的應(yīng)用程序中,擴(kuò)展應(yīng)用的功能,實(shí)現(xiàn)自動(dòng)化的 OCR 處理,提高工作效率和流程的自動(dòng)化程度。

6. 并發(fā)處理與自定義選項(xiàng)

支持并發(fā)處理多個(gè)頁(yè)面,用戶可以根據(jù)自己的需求設(shè)置同時(shí)處理的頁(yè)面數(shù)量,從而加快整體的處理速度。同時(shí),還提供了多種自定義選項(xiàng),例如選擇處理特定頁(yè)面、是否保持格式以及選擇使用的模型等,用戶可以根據(jù)具體的任務(wù)和需求進(jìn)行個(gè)性化的配置,滿足不同場(chǎng)景下的特殊要求。

7. 清理功能

在處理完成后,支持自動(dòng)清理臨時(shí)生成的圖像文件,避免了不必要的文件占用和存儲(chǔ)問(wèn)題,簡(jiǎn)化了用戶的文件管理工作,保持系統(tǒng)的整潔和高效。

三、Zerox OCR 的應(yīng)用場(chǎng)景

1. 文檔數(shù)字化與檔案管理

在圖書(shū)館、檔案館、企業(yè)文檔管理等領(lǐng)域,有大量的紙質(zhì)文檔需要進(jìn)行數(shù)字化處理。Zerox OCR 可以快速將這些紙質(zhì)文件轉(zhuǎn)換為電子文本,方便存儲(chǔ)、檢索和編輯。例如,圖書(shū)館可以將珍貴的古籍文獻(xiàn)進(jìn)行 OCR 處理后,建立數(shù)字化圖書(shū)館,方便讀者查閱和研究;企業(yè)可以將歷史檔案文件數(shù)字化,提高檔案管理的效率和安全性。

2. 數(shù)據(jù)提取與分析

從各種報(bào)表、合同、發(fā)票等文檔中提取關(guān)鍵信息是企業(yè)日常運(yùn)營(yíng)中的重要任務(wù)。Zerox OCR 能夠準(zhǔn)確地識(shí)別和提取這些文檔中的數(shù)據(jù),為數(shù)據(jù)分析和決策提供支持。例如,財(cái)務(wù)部門(mén)可以利用它從財(cái)務(wù)報(bào)表中提取數(shù)據(jù)進(jìn)行分析,銷(xiāo)售部門(mén)可以從銷(xiāo)售合同中提取關(guān)鍵條款進(jìn)行業(yè)務(wù)分析和跟進(jìn)。

3. 內(nèi)容創(chuàng)作與編輯

對(duì)于作者、編輯等從事文字工作的人員,Zerox OCR 可以將手寫(xiě)筆記、圖片中的文字等轉(zhuǎn)換為電子文本,方便進(jìn)行進(jìn)一步的創(chuàng)作和編輯。例如,作家可以將手寫(xiě)的草稿通過(guò) Zerox OCR 轉(zhuǎn)換為電子文檔,然后進(jìn)行修改和完善;編輯可以將掃描的稿件快速轉(zhuǎn)換為可編輯的文本,提高工作效率。

4. 教育領(lǐng)域

在教育領(lǐng)域,教師可以利用 Zerox OCR 將教材、試卷等資料中的文字轉(zhuǎn)換為電子文本,方便制作教學(xué)課件、進(jìn)行在線教學(xué)和作業(yè)批改。學(xué)生也可以使用它將筆記、書(shū)籍中的重點(diǎn)內(nèi)容轉(zhuǎn)換為電子文檔,便于復(fù)習(xí)和整理知識(shí)。

5. 電子商務(wù)與物流

在電子商務(wù)中,商家可以使用 Zerox OCR 處理訂單、發(fā)票等文件,提高訂單處理的效率和準(zhǔn)確性。在物流領(lǐng)域,快遞單號(hào)、地址等信息的識(shí)別和錄入也可以借助 Zerox OCR 實(shí)現(xiàn)自動(dòng)化,減少人工輸入的錯(cuò)誤和工作量。

四、快速開(kāi)始

1、在線體驗(yàn)

在線地址:??https://getomni.ai/ocr-demo??

2、本地使用

1)安裝 py-zerox

pip install py-zerox

2)代碼示例

from pyzerox import zerox
import os
import json
import asyncio


### Model Setup (Use only Vision Models) Refer: https://docs.litellm.ai/docs/providers ###


## placeholder for additional model kwargs which might be required for some models
kwargs = {}


## system prompt to use for the vision model
custom_system_prompt = None


# to override
# custom_system_prompt = "For the below pdf page, do something..something..." ## example


###################### Example for OpenAI ######################
model = "gpt-4o-mini" ## openai model
os.environ["OPENAI_API_KEY"] = "" ## your-api-key




###################### Example for Azure OpenAI ######################
model = "azure/gpt-4o-mini" ## "azure/<your_deployment_name>" -> format <provider>/<model>
os.environ["AZURE_API_KEY"] = "" # "your-azure-api-key"
os.environ["AZURE_API_BASE"] = "" # "https://example-endpoint.openai.azure.com"
os.environ["AZURE_API_VERSION"] = "" # "2023-05-15"




###################### Example for Gemini ######################
model = "gemini/gpt-4o-mini" ## "gemini/<gemini_model>" -> format <provider>/<model>
os.environ['GEMINI_API_KEY'] = "" # your-gemini-api-key




###################### Example for Anthropic ######################
model="claude-3-opus-20240229"
os.environ["ANTHROPIC_API_KEY"] = "" # your-anthropic-api-key


###################### Vertex ai ######################
model = "vertex_ai/gemini-1.5-flash-001" ## "vertex_ai/<model_name>" -> format <provider>/<model>
## GET CREDENTIALS
## RUN ##
# !gcloud auth application-default login - run this to add vertex credentials to your env
## OR ##
file_path = 'path/to/vertex_ai_service_account.json'


# Load the JSON file
with open(file_path, 'r') as file:
    vertex_credentials = json.load(file)


# Convert to JSON string
vertex_credentials_json = json.dumps(vertex_credentials)


vertex_credentials=vertex_credentials_json


## extra args
kwargs = {"vertex_credentials": vertex_credentials}


###################### For other providers refer: https://docs.litellm.ai/docs/providers ######################


# Define main async entrypoint
async def main():
    file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported


    ## process only some pages or all
    select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)


    output_dir = "./output_test" ## directory to save the consolidated markdown file
    result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
                        custom_system_prompt=custom_system_prompt,select_pages=select_pages, kwargs)
    return result




# run the main function:
result = asyncio.run(main())


# print markdown result
print(result)

參數(shù)說(shuō)明:

async def zerox(
    cleanup: bool = True,
    concurrency: int = 10,
    file_path: Optional[str] = "",
    maintain_format: bool = False,
    model: str = "gpt-4o-mini",
    output_dir: Optional[str] = None,
    temp_dir: Optional[str] = None,
    custom_system_prompt: Optional[str] = None,
    select_pages: Optional[Union[int, Iterable[int]]] = None,
    kwargs
) -> ZeroxOutput:
  ...
  • cleanup(bool,可選):處理后是否清理臨時(shí)文件。默認(rèn)為 True。
  • concurrency(int,可選):要運(yùn)行的并發(fā)進(jìn)程數(shù)。默認(rèn)為 10。
  • file_path(Optional[str],可選):要處理的 PDF 文件的路徑。默認(rèn)為空字符串。
  • keep_format(bool, 可選):是否保留上一頁(yè)的格式。默認(rèn)為 False。
  • model(str,可選):用于生成補(bǔ)全的模型。默認(rèn)為“gpt-4o-mini”。請(qǐng)參閱 LiteLLM 提供程序以獲取正確的模型名稱(chēng),因?yàn)樗赡芤蛱峁┏绦蚨悺?/li>
  • output_dir(Optional[str], 可選): 保存 markdown 輸出的目錄。默認(rèn)為 None。
  • temp_dir(str,可選):存儲(chǔ)臨時(shí)文件的目錄,默認(rèn)為系統(tǒng)臨時(shí)目錄中的某個(gè)命名文件夾。如果已經(jīng)存在,則在 zerox 使用它之前將刪除其內(nèi)容。
  • custom_system_prompt(str,可選):模型使用的系統(tǒng)提示,它將覆蓋 zerox 的默認(rèn)系統(tǒng)提示。一般情況下,除非您想要某些特定行為,否則不需要它。設(shè)置后,它將發(fā)出友好警告。默認(rèn)為 None。
  • select_pages(Optional[Union[int, Iterable[int]]],可選):要處理的頁(yè)面,可以是單個(gè)頁(yè)碼或可迭代的頁(yè)碼,默認(rèn)為 None
  • kwargs(字典,可選):傳遞給 litellm.completion 方法的附加關(guān)鍵字參數(shù)。有關(guān)詳細(xì)信息,請(qǐng)參閱 LiteLLM 文檔和完成輸入。

返回

  • ZeroxOutput:包含模型生成的 markdown 內(nèi)容以及一些元數(shù)據(jù)(參見(jiàn)下文)。

五、結(jié)語(yǔ)

Zerox OCR 作為一款創(chuàng)新的光學(xué)字符識(shí)別工具,以其獨(dú)特的原理、豐富的特點(diǎn)和廣泛的應(yīng)用場(chǎng)景,為用戶在數(shù)字化時(shí)代處理文字信息提供了強(qiáng)大的支持。它的出現(xiàn)不僅提高了 OCR 技術(shù)的效率和準(zhǔn)確性,還為各個(gè)行業(yè)的數(shù)字化轉(zhuǎn)型和發(fā)展帶來(lái)了新的機(jī)遇。如果你對(duì) Zerox OCR 感興趣,想要了解更多詳細(xì)信息,可以訪問(wèn)其官方 GitHub 地址:???https://github.com/getomni-ai/zerox??。相信在未來(lái),隨著技術(shù)的不斷進(jìn)步和完善,Zerox OCR 將在更多的領(lǐng)域發(fā)揮重要作用,為我們的生活和工作帶來(lái)更多的便利和創(chuàng)新。

本文轉(zhuǎn)載自??小兵的AI視界??,作者: 小兵 ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦