自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="re6m0"></blockquote>}<style id="re6m0"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

探索 Zerox OCR：創(chuàng)新引領(lǐng)光學(xué)字符識(shí)別新境界

穿越時(shí)空111

發(fā)布于 2024-11-8 15:37

瀏覽

0收藏

在數(shù)字化信息飛速發(fā)展的當(dāng)今時(shí)代，光學(xué)字符識(shí)別（OCR）技術(shù)成為了連接紙質(zhì)與數(shù)字世界的重要橋梁。它能夠?qū)⒏鞣N文檔中的文字快速準(zhǔn)確地轉(zhuǎn)換為可編輯的電子文本，極大地提高了工作效率和信息利用價(jià)值。在眾多 OCR 工具中，Zerox OCR 以其獨(dú)特的特性和優(yōu)勢(shì)脫穎而出，為用戶帶來(lái)了全新的體驗(yàn)和更高的效率。本文將深入探討 Zerox OCR 的相關(guān)內(nèi)容，包括其原理、特點(diǎn)、應(yīng)用場(chǎng)景等。

一、Zerox OCR 的基本原理

Zerox OCR 的核心原理是利用先進(jìn)的技術(shù)手段對(duì)圖像中的文字進(jìn)行識(shí)別和提取。它不完全依賴(lài)傳統(tǒng)的光學(xué)字符識(shí)別技術(shù)，而是巧妙地結(jié)合了大型語(yǔ)言模型。在處理過(guò)程中，當(dāng)面對(duì)輸入的文檔，如 PDF、圖片或 DOCX 等格式的文件時(shí)，首先會(huì)對(duì)文檔進(jìn)行預(yù)處理。對(duì)于 PDF 文件，會(huì)將其轉(zhuǎn)換為圖像，以便后續(xù)分析每一頁(yè)的內(nèi)容。然后，利用大型語(yǔ)言模型的強(qiáng)大理解能力，對(duì)圖像中的文字進(jìn)行解讀和識(shí)別。這種方式使得 Zerox OCR 能夠更好地處理各種復(fù)雜的文本情況，包括風(fēng)格化程度很高的文本、布局不尋常的文檔以及包含特殊符號(hào)或圖形的文本內(nèi)容等。與傳統(tǒng) OCR 技術(shù)相比，它更注重對(duì)文本語(yǔ)義的理解，從而提高了識(shí)別的準(zhǔn)確性和可靠性。

二、Zerox OCR 的特點(diǎn)與優(yōu)勢(shì)

1. 高效準(zhǔn)確的識(shí)別能力

借助大型語(yǔ)言模型的優(yōu)勢(shì)，Zerox OCR 能夠?qū)?fù)雜的文本進(jìn)行精準(zhǔn)識(shí)別。無(wú)論是手寫(xiě)體、藝術(shù)字還是帶有各種干擾因素的文字，它都能準(zhǔn)確地提取其中的信息，大大減少了錯(cuò)誤識(shí)別的概率，為用戶提供高質(zhì)量的識(shí)別結(jié)果。

2. 廣泛的文件格式支持

支持多種常見(jiàn)的文件格式，如 PDF、DOCX、圖片（包括常見(jiàn)的圖片格式如 JPEG、PNG 等）。這使得用戶在不同的場(chǎng)景下都能方便地使用 Zerox OCR，無(wú)需進(jìn)行繁瑣的格式轉(zhuǎn)換，節(jié)省了時(shí)間和精力。

3. 零-shot 學(xué)習(xí)能力

具備強(qiáng)大的零-shot OCR 處理能力，意味著它無(wú)需針對(duì)特定任務(wù)進(jìn)行大量的預(yù)先訓(xùn)練數(shù)據(jù)準(zhǔn)備，就可以直接對(duì)各種文檔進(jìn)行處理。這種靈活性和適應(yīng)性使得 Zerox OCR 能夠快速應(yīng)對(duì)不同類(lèi)型的文檔和任務(wù)，為用戶提供了便捷的使用體驗(yàn)。

4. 友好的輸出格式

處理后的文本以 Markdown 格式返回。Markdown 格式簡(jiǎn)潔明了，既保留了文本的基本格式，又便于后續(xù)的編輯和使用。用戶可以輕松地對(duì)輸出的文本進(jìn)行進(jìn)一步的整理、分析和排版，滿足不同的需求。

5. 易于集成

提供了方便的開(kāi)發(fā)接口，特別是對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，它提供了 Node.js 和 Python 的 SDK。這使得開(kāi)發(fā)者能夠輕松地將 Zerox OCR 集成到現(xiàn)有的應(yīng)用程序中，擴(kuò)展應(yīng)用的功能，實(shí)現(xiàn)自動(dòng)化的 OCR 處理，提高工作效率和流程的自動(dòng)化程度。

6. 并發(fā)處理與自定義選項(xiàng)

支持并發(fā)處理多個(gè)頁(yè)面，用戶可以根據(jù)自己的需求設(shè)置同時(shí)處理的頁(yè)面數(shù)量，從而加快整體的處理速度。同時(shí)，還提供了多種自定義選項(xiàng)，例如選擇處理特定頁(yè)面、是否保持格式以及選擇使用的模型等，用戶可以根據(jù)具體的任務(wù)和需求進(jìn)行個(gè)性化的配置，滿足不同場(chǎng)景下的特殊要求。

7. 清理功能

在處理完成后，支持自動(dòng)清理臨時(shí)生成的圖像文件，避免了不必要的文件占用和存儲(chǔ)問(wèn)題，簡(jiǎn)化了用戶的文件管理工作，保持系統(tǒng)的整潔和高效。

三、Zerox OCR 的應(yīng)用場(chǎng)景

1. 文檔數(shù)字化與檔案管理

在圖書(shū)館、檔案館、企業(yè)文檔管理等領(lǐng)域，有大量的紙質(zhì)文檔需要進(jìn)行數(shù)字化處理。Zerox OCR 可以快速將這些紙質(zhì)文件轉(zhuǎn)換為電子文本，方便存儲(chǔ)、檢索和編輯。例如，圖書(shū)館可以將珍貴的古籍文獻(xiàn)進(jìn)行 OCR 處理后，建立數(shù)字化圖書(shū)館，方便讀者查閱和研究；企業(yè)可以將歷史檔案文件數(shù)字化，提高檔案管理的效率和安全性。

2. 數(shù)據(jù)提取與分析

從各種報(bào)表、合同、發(fā)票等文檔中提取關(guān)鍵信息是企業(yè)日常運(yùn)營(yíng)中的重要任務(wù)。Zerox OCR 能夠準(zhǔn)確地識(shí)別和提取這些文檔中的數(shù)據(jù)，為數(shù)據(jù)分析和決策提供支持。例如，財(cái)務(wù)部門(mén)可以利用它從財(cái)務(wù)報(bào)表中提取數(shù)據(jù)進(jìn)行分析，銷(xiāo)售部門(mén)可以從銷(xiāo)售合同中提取關(guān)鍵條款進(jìn)行業(yè)務(wù)分析和跟進(jìn)。

3. 內(nèi)容創(chuàng)作與編輯

對(duì)于作者、編輯等從事文字工作的人員，Zerox OCR 可以將手寫(xiě)筆記、圖片中的文字等轉(zhuǎn)換為電子文本，方便進(jìn)行進(jìn)一步的創(chuàng)作和編輯。例如，作家可以將手寫(xiě)的草稿通過(guò) Zerox OCR 轉(zhuǎn)換為電子文檔，然后進(jìn)行修改和完善；編輯可以將掃描的稿件快速轉(zhuǎn)換為可編輯的文本，提高工作效率。

4. 教育領(lǐng)域

在教育領(lǐng)域，教師可以利用 Zerox OCR 將教材、試卷等資料中的文字轉(zhuǎn)換為電子文本，方便制作教學(xué)課件、進(jìn)行在線教學(xué)和作業(yè)批改。學(xué)生也可以使用它將筆記、書(shū)籍中的重點(diǎn)內(nèi)容轉(zhuǎn)換為電子文檔，便于復(fù)習(xí)和整理知識(shí)。

5. 電子商務(wù)與物流

在電子商務(wù)中，商家可以使用 Zerox OCR 處理訂單、發(fā)票等文件，提高訂單處理的效率和準(zhǔn)確性。在物流領(lǐng)域，快遞單號(hào)、地址等信息的識(shí)別和錄入也可以借助 Zerox OCR 實(shí)現(xiàn)自動(dòng)化，減少人工輸入的錯(cuò)誤和工作量。

四、快速開(kāi)始

1、在線體驗(yàn)

在線地址：??https://getomni.ai/ocr-demo??

2、本地使用

1）安裝 py-zerox

pip install py-zerox

2）代碼示例

from pyzerox import zerox
import os
import json
import asyncio


### Model Setup (Use only Vision Models) Refer: https://docs.litellm.ai/docs/providers ###


## placeholder for additional model kwargs which might be required for some models
kwargs = {}


## system prompt to use for the vision model
custom_system_prompt = None


# to override
# custom_system_prompt = "For the below pdf page, do something..something..." ## example


###################### Example for OpenAI ######################
model = "gpt-4o-mini" ## openai model
os.environ["OPENAI_API_KEY"] = "" ## your-api-key




###################### Example for Azure OpenAI ######################
model = "azure/gpt-4o-mini" ## "azure/<your_deployment_name>" -> format <provider>/<model>
os.environ["AZURE_API_KEY"] = "" # "your-azure-api-key"
os.environ["AZURE_API_BASE"] = "" # "https://example-endpoint.openai.azure.com"
os.environ["AZURE_API_VERSION"] = "" # "2023-05-15"




###################### Example for Gemini ######################
model = "gemini/gpt-4o-mini" ## "gemini/<gemini_model>" -> format <provider>/<model>
os.environ['GEMINI_API_KEY'] = "" # your-gemini-api-key




###################### Example for Anthropic ######################
model="claude-3-opus-20240229"
os.environ["ANTHROPIC_API_KEY"] = "" # your-anthropic-api-key


###################### Vertex ai ######################
model = "vertex_ai/gemini-1.5-flash-001" ## "vertex_ai/<model_name>" -> format <provider>/<model>
## GET CREDENTIALS
## RUN ##
# !gcloud auth application-default login - run this to add vertex credentials to your env
## OR ##
file_path = 'path/to/vertex_ai_service_account.json'


# Load the JSON file
with open(file_path, 'r') as file:
    vertex_credentials = json.load(file)


# Convert to JSON string
vertex_credentials_json = json.dumps(vertex_credentials)


vertex_credentials=vertex_credentials_json


## extra args
kwargs = {"vertex_credentials": vertex_credentials}


###################### For other providers refer: https://docs.litellm.ai/docs/providers ######################


# Define main async entrypoint
async def main():
    file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported


    ## process only some pages or all
    select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)


    output_dir = "./output_test" ## directory to save the consolidated markdown file
    result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
                        custom_system_prompt=custom_system_prompt,select_pages=select_pages, kwargs)
    return result




# run the main function:
result = asyncio.run(main())


# print markdown result
print(result)

參數(shù)說(shuō)明：

async def zerox(
    cleanup: bool = True,
    concurrency: int = 10,
    file_path: Optional[str] = "",
    maintain_format: bool = False,
    model: str = "gpt-4o-mini",
    output_dir: Optional[str] = None,
    temp_dir: Optional[str] = None,
    custom_system_prompt: Optional[str] = None,
    select_pages: Optional[Union[int, Iterable[int]]] = None,
    kwargs
) -> ZeroxOutput:
  ...

cleanup（bool，可選）：處理后是否清理臨時(shí)文件。默認(rèn)為 True。
concurrency（int，可選）：要運(yùn)行的并發(fā)進(jìn)程數(shù)。默認(rèn)為 10。
file_path（Optional[str]，可選）：要處理的 PDF 文件的路徑。默認(rèn)為空字符串。
keep_format(bool, 可選)：是否保留上一頁(yè)的格式。默認(rèn)為 False。
model(str，可選)：用于生成補(bǔ)全的模型。默認(rèn)為“gpt-4o-mini”。請(qǐng)參閱 LiteLLM 提供程序以獲取正確的模型名稱(chēng)，因?yàn)樗赡芤蛱峁┏绦蚨悺?/li>
output_dir(Optional[str], 可選): 保存 markdown 輸出的目錄。默認(rèn)為 None。
temp_dir(str，可選)：存儲(chǔ)臨時(shí)文件的目錄，默認(rèn)為系統(tǒng)臨時(shí)目錄中的某個(gè)命名文件夾。如果已經(jīng)存在，則在 zerox 使用它之前將刪除其內(nèi)容。
custom_system_prompt(str，可選)：模型使用的系統(tǒng)提示，它將覆蓋 zerox 的默認(rèn)系統(tǒng)提示。一般情況下，除非您想要某些特定行為，否則不需要它。設(shè)置后，它將發(fā)出友好警告。默認(rèn)為 None。
select_pages(Optional[Union[int, Iterable[int]]]，可選)：要處理的頁(yè)面，可以是單個(gè)頁(yè)碼或可迭代的頁(yè)碼，默認(rèn)為 None
kwargs（字典，可選）：傳遞給 litellm.completion 方法的附加關(guān)鍵字參數(shù)。有關(guān)詳細(xì)信息，請(qǐng)參閱 LiteLLM 文檔和完成輸入。

返回

ZeroxOutput：包含模型生成的 markdown 內(nèi)容以及一些元數(shù)據(jù)（參見(jiàn)下文）。

五、結(jié)語(yǔ)

Zerox OCR 作為一款創(chuàng)新的光學(xué)字符識(shí)別工具，以其獨(dú)特的原理、豐富的特點(diǎn)和廣泛的應(yīng)用場(chǎng)景，為用戶在數(shù)字化時(shí)代處理文字信息提供了強(qiáng)大的支持。它的出現(xiàn)不僅提高了 OCR 技術(shù)的效率和準(zhǔn)確性，還為各個(gè)行業(yè)的數(shù)字化轉(zhuǎn)型和發(fā)展帶來(lái)了新的機(jī)遇。如果你對(duì) Zerox OCR 感興趣，想要了解更多詳細(xì)信息，可以訪問(wèn)其官方 GitHub 地址：???https://github.com/getomni-ai/zerox??。相信在未來(lái)，隨著技術(shù)的不斷進(jìn)步和完善，Zerox OCR 將在更多的領(lǐng)域發(fā)揮重要作用，為我們的生活和工作帶來(lái)更多的便利和創(chuàng)新。

本文轉(zhuǎn)載自??小兵的AI視界??，作者：小兵 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

深入探索個(gè)性化推薦新境界：AI通過(guò)語(yǔ)言理解你的喜好，效率提升131%

AI論文解讀 ? 3066瀏覽 ? 0回復(fù)
OCR小模型仍有機(jī)會(huì)！華科等提出VIMTS：零樣本視頻端到端識(shí)別新SOTA

duhorse ? 2702瀏覽 ? 0回復(fù)
【創(chuàng)新一夏學(xué)習(xí)季】熱浪升溫，創(chuàng)新一夏，釋放開(kāi)發(fā)潛能

AI.x社區(qū)官方賬號(hào) ? 52.8w瀏覽 ? 39回復(fù)
亞馬遜 RAG 新突破：REAPER 技術(shù)開(kāi)啟大型智能對(duì)話助手新境界

大語(yǔ)言模型論文跟蹤 ? 2556瀏覽 ? 0回復(fù)
阿里巴巴提出CODEXGRAPH：打破大模型與代碼庫(kù)的壁壘，引領(lǐng)軟件工程新革命

AI論文解讀 ? 3362瀏覽 ? 0回復(fù)
超越文本，GPT-4在虹膜生物識(shí)別的創(chuàng)新應(yīng)用

Aceryt ? 2067瀏覽 ? 0回復(fù)
LoRA技術(shù)引領(lǐng)大型語(yǔ)言模型新革命

AI論文解讀 ? 2862瀏覽 ? 0回復(fù)
mPLUG-DocOwl2:新模型無(wú)需OCR，多頁(yè)文檔理解邁入新紀(jì)元

AI論文解讀 ? 3043瀏覽 ? 0回復(fù)
【活動(dòng)結(jié)果公布】AIGC創(chuàng)新先鋒者征文大賽懸賞召集?

AI.x社區(qū)官方賬號(hào) ? 6202瀏覽 ? 0回復(fù)
自然（Nature）科學(xué)數(shù)據(jù)子刊：用于對(duì)話情境中情緒識(shí)別的 EEG-音頻-視頻數(shù)據(jù)集的創(chuàng)新應(yīng)用

xuxiangda ? 5032瀏覽 ? 0回復(fù)
微軟新綜述：大模型RAG系統(tǒng)的4層境界！

探索AGI ? 3023瀏覽 ? 0回復(fù)
《深入解讀學(xué)術(shù)論文：探索創(chuàng)新與價(jià)值》

智能交互引擎 ? 1957瀏覽 ? 0回復(fù)
VideoLLaMB：創(chuàng)新開(kāi)源框架，引領(lǐng)多模態(tài)長(zhǎng)視頻理解

穿越時(shí)空111 ? 2227瀏覽 ? 0回復(fù)
亞馬遜、微軟、谷歌DeepMind 聯(lián)合團(tuán)隊(duì)的杰作，POLYMATH 引領(lǐng)MLLMs多模態(tài)推理新基準(zhǔn)

xuxiangda ? 2256瀏覽 ? 0回復(fù)
AI內(nèi)容創(chuàng)作：機(jī)遇與挑戰(zhàn)并存，SynthID技術(shù)引領(lǐng)透明新的發(fā)展方向

Halo咯咯 ? 1760瀏覽 ? 0回復(fù)
一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄

大模型自然語(yǔ)言處理 ? 2183瀏覽 ? 0回復(fù)
文本文字識(shí)別、公式識(shí)別、表格文字識(shí)別核心算法及思路及實(shí)踐-DBNet、CRNN、TrOCR

大模型自然語(yǔ)言處理 ? 2467瀏覽 ? 0回復(fù)
時(shí)間序列模型的演變：人工智能引領(lǐng)新的預(yù)測(cè)時(shí)代

51CTO內(nèi)容精選 ? 2357瀏覽 ? 0回復(fù)
公式識(shí)別：利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識(shí)別能力

大模型自然語(yǔ)言處理 ? 888瀏覽 ? 0回復(fù)

穿越時(shí)空111

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 7天前發(fā)布
實(shí)時(shí)回放+全鏈路監(jiān)控！AgentOps如何讓AI代理告別“人工智障”？ 2025-04-10 07:01:08發(fā)布

熱門(mén)推薦

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Emu3：開(kāi)啟多模態(tài)人工智能新紀(jì)元 —— 視頻、圖像、文本三合一模型

下一篇： GPT - SoVITS 如何憑借零樣本、少樣本及多語(yǔ)言功能解鎖語(yǔ)音合成新高度？

社區(qū)精華內(nèi)容

目錄

<bdo id="acxu3"></bdo>

^{<thead id="acxu3"></thead>}

<bdo id="acxu3"><ruby id="acxu3"></ruby></bdo>