千頁只需7塊錢,Mistral發(fā)布世界最強文件掃描API,實測仍有缺陷
法國大模型獨角獸 Mistral AI 進軍 OCR(光學(xué)字符識別)領(lǐng)域了。
一出手就是號稱「世界上最好的 OCR 模型」!
新產(chǎn)品 Mistral OCR 是一種光學(xué)字符識別 API,它為文檔理解樹立了新標(biāo)準(zhǔn)。與其他模型不同,Mistral OCR 能夠以前所未有的準(zhǔn)確度和認(rèn)知能力理解文檔的每個元素(媒體、文本、表格、公式)。它以圖像和 PDF 作為輸入,并從有序交錯的文本和圖像中提取內(nèi)容。
因此,Mistral OCR 稱得上一種理想的模型,可以與以多模式文檔(如幻燈片或復(fù)雜 PDF)作為輸入的 RAG 系統(tǒng)結(jié)合使用。
從現(xiàn)在開始,Mistral OCR 功能可以在 Le Chat 上免費試用。Mistral AI 已經(jīng)將它作為 le Chat 上數(shù)百萬用戶的默認(rèn)文檔理解模型,并以 1000 頁 / 美元的價格發(fā)布了 API「mistral-ocr-latest」。目前,該 API 已經(jīng)在開發(fā)者套件 la Plateforme 上提供,并將很快提供給 Mistral AI 的云和推理合作伙伴,同時可以有選擇地本地部署。
對復(fù)雜文檔實現(xiàn) SOTA 理解
Mistral OCR 擅長理解復(fù)雜的文檔元素,包括交錯圖像、數(shù)學(xué)表達(dá)式、表格和高級布局(如 LaTeX 格式)。該模型可以更深入地理解豐富的文檔,尤其是包含圖表、圖形、公式和數(shù)字的科學(xué)論文。
比如 Alphafold 3 的 OCR 識別效果,從給定 PDF 中將文本、圖像提取到 markdown 文檔。
下面將 PDF 和對應(yīng)的 OCR 輸出結(jié)果進行了并排比較。
比如數(shù)學(xué)公式:
數(shù)學(xué)_副本.jpg
比如阿拉伯文字:
阿拉伯文字_副本.jpg
基準(zhǔn)測試成績?nèi)轿坏谝?/span>
Mistral OCR 在嚴(yán)格的基準(zhǔn)測試中始終優(yōu)于其他領(lǐng)先的 OCR 模型,其在文檔分析的多個方面都表現(xiàn)出色。Mistral AI 從文本文檔中提取嵌入圖像和文本,不過進行比較的其他 LLM 不具備此功能。
因此,為了公平比較,Mistral AI 在包含各種發(fā)表論文的內(nèi)部「僅文本」測試集以及網(wǎng)絡(luò) PDF 上進行了性能測試。
支持原生多語言
自成立以來,Mistral AI 一直渴望用自己的模型服務(wù)全世界,因此努力在產(chǎn)品中實現(xiàn)多語言功能。
Mistral OCR 將這一目標(biāo)提升到了一個新水平,能夠解析、理解和轉(zhuǎn)錄各大洲的數(shù)千種腳本、字體和語言。對于需要處理來自不同語言背景的文檔的全球組織以及服務(wù)小眾市場的超本地化企業(yè)而言,這種通用性至關(guān)重要。
在「Fuzzy Match in Generation」(生成模糊匹配)指標(biāo)比較中,Mistral OCR 獲得了第一。
在各種語言的比較中,Mistral OCR 同樣超越了 Azure OCR 和 Google Doc AI。
同類產(chǎn)品中速度最快
Mistral OCR 比同類產(chǎn)品中的大多數(shù)都更輕量,速度也明顯快于它們,并且在單個節(jié)點上每分鐘可以處理 2000 多頁。這一快速處理文檔的能力確保即使在高吞吐量環(huán)境中也能持續(xù)學(xué)習(xí)和改進。
文檔即提示、結(jié)構(gòu)化輸出
Mistral OCR 還引入了使用文檔作為提示的功能,從而實現(xiàn)了更強大、更精確的指令遵循。此功能允許用戶從文檔中提取特定信息并將其格式化為結(jié)構(gòu)化輸出,例如 JSON。用戶還可以將提取的輸出鏈接到下游函數(shù)調(diào)用和構(gòu)建智能體中。
自行托管
最后,對于具有嚴(yán)格數(shù)據(jù)隱私要求的組織,Mistral OCR 提供了自行托管選項。這可確保敏感或機密信息在組織內(nèi)部的基礎(chǔ)設(shè)施內(nèi)保持安全,從而符合監(jiān)管和安全標(biāo)準(zhǔn)。
實測:Mistral OCR 很好,但也有局限
面對 Mistral AI 號稱的「全球最好 OCR 模型」,Pulse AI 團隊進行了一番測試,結(jié)論是:確實很好,但尚未完全為企業(yè)使用做好準(zhǔn)備。
Mistral OCR 絕對超越了一些前沿 LLM,但在真實商業(yè)文檔中出現(xiàn)了一些限制。
圖源:https://x.com/ritvikpandey21/status/1897800421357588546
對于財務(wù)文檔:Mistral OCR 難以處理復(fù)雜的表格,出現(xiàn)了 17% 的列錯位、±1.5% 的精度偏差以及丟失了表示負(fù)值的關(guān)鍵括號。
對于法律文檔:復(fù)選框檢測基本不存在,部分層次結(jié)構(gòu)丟失,多行表格單元格合并或切斷。
正如 Mistral AI 博客中所說,他們正在收集用戶的反饋,并希望未來幾周 Mistral OCR 繼續(xù)變得更好。
博客地址:https://mistral.ai/fr/news/mistral-ocr