沉寂很久的Mistral AI推出號(hào)稱世界最強(qiáng)OCR
歐洲AI明星公司Mistral AI 今日發(fā)布 Mistral OCR,一款號(hào)稱“世界最佳文檔理解 API”的全新產(chǎn)品。
Mistral OCR 是一款光學(xué)字符識(shí)別(OCR)API,但它遠(yuǎn)不止于簡(jiǎn)單的文字識(shí)別。與其他模型不同,Mistral OCR 能夠全面理解文檔的每一個(gè)元素,包括媒體、文本、表格、公式等,并展現(xiàn)出前所未有的準(zhǔn)確性和認(rèn)知能力。它支持圖像和 PDF 作為輸入,并能從中提取出有序的、交錯(cuò)的文本和圖像內(nèi)容。
這種強(qiáng)大的理解能力使得 Mistral OCR 成為與 RAG(檢索增強(qiáng)生成)系統(tǒng)結(jié)合使用的理想模型,尤其擅長(zhǎng)處理多模態(tài)文檔,例如幻燈片或復(fù)雜的 PDF 文件。
亮點(diǎn)
Mistral OCR 具備以下六大亮點(diǎn)功能:
1. 頂尖的復(fù)雜文檔理解能力: Mistral OCR 擅長(zhǎng)理解復(fù)雜的文檔元素,包括交錯(cuò)的圖像、數(shù)學(xué)表達(dá)式、表格以及 LaTeX 等高級(jí)排版格式。這使得模型能夠更深入地理解富文檔,例如包含圖表、圖形、公式和圖像的科學(xué)論文。
2. 原生多語(yǔ)言和多模態(tài)支持: Mistral OCR 天生具備多語(yǔ)言和多模態(tài)處理能力,能夠處理多種語(yǔ)言和不同類型的內(nèi)容。
3. 頂級(jí)的基準(zhǔn)測(cè)試表現(xiàn): Mistral OCR 在多項(xiàng)基準(zhǔn)測(cè)試中都取得了領(lǐng)先地位,展現(xiàn)了其卓越的性能。
4. 同類產(chǎn)品中最快速度: Mistral OCR 的輕量化設(shè)計(jì)使其速度遠(yuǎn)超同類模型,單節(jié)點(diǎn)每分鐘可處理高達(dá) 2000 頁(yè)的文檔。快速的處理能力確保了即使在高吞吐量環(huán)境下也能持續(xù)學(xué)習(xí)和改進(jìn)。
5. “文檔即提示”的結(jié)構(gòu)化輸出: Mistral OCR 創(chuàng)新性地引入了“文檔即提示”的概念,用戶可以使用文檔作為提示,實(shí)現(xiàn)更強(qiáng)大、更精確的指令。它允許用戶從文檔中提取特定信息,并將其格式化為 JSON 等結(jié)構(gòu)化輸出。用戶可以將這些結(jié)構(gòu)化輸出串聯(lián)到下游函數(shù)調(diào)用和構(gòu)建代理中。
6. 選擇性提供自托管部署: 對(duì)于有嚴(yán)格數(shù)據(jù)隱私要求的組織,Mistral OCR 提供自托管選項(xiàng)。這確保了敏感或機(jī)密信息在您自身的基礎(chǔ)設(shè)施內(nèi)保持安全,符合監(jiān)管和安全標(biāo)準(zhǔn)。
Mistral OCR 與其他主流 OCR 產(chǎn)品的性能對(duì)比,包括 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o。在總體準(zhǔn)確率、數(shù)學(xué)公式識(shí)別、多語(yǔ)言處理等方面,Mistral OCR 均表現(xiàn)出色,尤其在 Mistral OCR 2503 版本中,各項(xiàng)指標(biāo)都達(dá)到了新的高度。
體驗(yàn) Mistral OCR
Mistral OCR 的功能可以在https://chat.mistral.ai/chat上免費(fèi)試用。想要體驗(yàn) API 的用戶,可以訪問(wèn)http://console.mistral.ai/