自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="9a33n"><li id="9a33n"></li></cite>

<sub id="9a33n"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

千頁只需7塊錢，Mistral發(fā)布世界最強文件掃描API，實測仍有缺陷

作者：機器之心 2025-03-10 07:20:00

人工智能新聞

Mistral OCR 稱得上一種理想的模型，可以與以多模式文檔（如幻燈片或復(fù)雜 PDF）作為輸入的 RAG 系統(tǒng)結(jié)合使用。

法國大模型獨角獸 Mistral AI 進軍 OCR（光學(xué)字符識別）領(lǐng)域了。

一出手就是號稱「世界上最好的 OCR 模型」！

新產(chǎn)品 Mistral OCR 是一種光學(xué)字符識別 API，它為文檔理解樹立了新標(biāo)準(zhǔn)。與其他模型不同，Mistral OCR 能夠以前所未有的準(zhǔn)確度和認(rèn)知能力理解文檔的每個元素（媒體、文本、表格、公式）。它以圖像和 PDF 作為輸入，并從有序交錯的文本和圖像中提取內(nèi)容。

因此，Mistral OCR 稱得上一種理想的模型，可以與以多模式文檔（如幻燈片或復(fù)雜 PDF）作為輸入的 RAG 系統(tǒng)結(jié)合使用。

從現(xiàn)在開始，Mistral OCR 功能可以在 Le Chat 上免費試用。Mistral AI 已經(jīng)將它作為 le Chat 上數(shù)百萬用戶的默認(rèn)文檔理解模型，并以 1000 頁 / 美元的價格發(fā)布了 API「mistral-ocr-latest」。目前，該 API 已經(jīng)在開發(fā)者套件 la Plateforme 上提供，并將很快提供給 Mistral AI 的云和推理合作伙伴，同時可以有選擇地本地部署。

對復(fù)雜文檔實現(xiàn) SOTA 理解

Mistral OCR 擅長理解復(fù)雜的文檔元素，包括交錯圖像、數(shù)學(xué)表達(dá)式、表格和高級布局（如 LaTeX 格式）。該模型可以更深入地理解豐富的文檔，尤其是包含圖表、圖形、公式和數(shù)字的科學(xué)論文。

比如 Alphafold 3 的 OCR 識別效果，從給定 PDF 中將文本、圖像提取到 markdown 文檔。

下面將 PDF 和對應(yīng)的 OCR 輸出結(jié)果進行了并排比較。

比如數(shù)學(xué)公式：

數(shù)學(xué)_副本.jpg

比如阿拉伯文字：

阿拉伯文字_副本.jpg

基準(zhǔn)測試成績?nèi)轿坏谝?/span>

Mistral OCR 在嚴(yán)格的基準(zhǔn)測試中始終優(yōu)于其他領(lǐng)先的 OCR 模型，其在文檔分析的多個方面都表現(xiàn)出色。Mistral AI 從文本文檔中提取嵌入圖像和文本，不過進行比較的其他 LLM 不具備此功能。

因此，為了公平比較，Mistral AI 在包含各種發(fā)表論文的內(nèi)部「僅文本」測試集以及網(wǎng)絡(luò) PDF 上進行了性能測試。

支持原生多語言

自成立以來，Mistral AI 一直渴望用自己的模型服務(wù)全世界，因此努力在產(chǎn)品中實現(xiàn)多語言功能。

Mistral OCR 將這一目標(biāo)提升到了一個新水平，能夠解析、理解和轉(zhuǎn)錄各大洲的數(shù)千種腳本、字體和語言。對于需要處理來自不同語言背景的文檔的全球組織以及服務(wù)小眾市場的超本地化企業(yè)而言，這種通用性至關(guān)重要。

在「Fuzzy Match in Generation」（生成模糊匹配）指標(biāo)比較中，Mistral OCR 獲得了第一。

在各種語言的比較中，Mistral OCR 同樣超越了 Azure OCR 和 Google Doc AI。

同類產(chǎn)品中速度最快

Mistral OCR 比同類產(chǎn)品中的大多數(shù)都更輕量，速度也明顯快于它們，并且在單個節(jié)點上每分鐘可以處理 2000 多頁。這一快速處理文檔的能力確保即使在高吞吐量環(huán)境中也能持續(xù)學(xué)習(xí)和改進。

文檔即提示、結(jié)構(gòu)化輸出

Mistral OCR 還引入了使用文檔作為提示的功能，從而實現(xiàn)了更強大、更精確的指令遵循。此功能允許用戶從文檔中提取特定信息并將其格式化為結(jié)構(gòu)化輸出，例如 JSON。用戶還可以將提取的輸出鏈接到下游函數(shù)調(diào)用和構(gòu)建智能體中。

自行托管

最后，對于具有嚴(yán)格數(shù)據(jù)隱私要求的組織，Mistral OCR 提供了自行托管選項。這可確保敏感或機密信息在組織內(nèi)部的基礎(chǔ)設(shè)施內(nèi)保持安全，從而符合監(jiān)管和安全標(biāo)準(zhǔn)。

實測：Mistral OCR 很好，但也有局限

面對 Mistral AI 號稱的「全球最好 OCR 模型」，Pulse AI 團隊進行了一番測試，結(jié)論是：確實很好，但尚未完全為企業(yè)使用做好準(zhǔn)備。

Mistral OCR 絕對超越了一些前沿 LLM，但在真實商業(yè)文檔中出現(xiàn)了一些限制。

圖源：https://x.com/ritvikpandey21/status/1897800421357588546

對于財務(wù)文檔：Mistral OCR 難以處理復(fù)雜的表格，出現(xiàn)了 17% 的列錯位、±1.5% 的精度偏差以及丟失了表示負(fù)值的關(guān)鍵括號。

對于法律文檔：復(fù)選框檢測基本不存在，部分層次結(jié)構(gòu)丟失，多行表格單元格合并或切斷。

正如 Mistral AI 博客中所說，他們正在收集用戶的反饋，并希望未來幾周 Mistral OCR 繼續(xù)變得更好。

博客地址：https://mistral.ai/fr/news/mistral-ocr

責(zé)任編輯：張燕妮來源：機器之心

模型 AI 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="8nz3c"></sub>

<style id="8nz3c"></style>