自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR!可免費(fèi)試用! 原創(chuàng)

發(fā)布于 2025-3-10 18:50
瀏覽
0收藏

編輯 | 言征

全球約90%的組織數(shù)據(jù)以文檔形式存儲(chǔ),但大模型對(duì)于文檔的理解能力還有一塊拼圖有待完整:多模態(tài)文檔的理解性能還做得不夠。

今天凌晨,低調(diào)了許久的歐洲AI公司 Mistral 冷不防推出了一款新作——Mistral OCR。

Mistral OCR是一款專供OCR的API,它為復(fù)雜文檔理解設(shè)定了新的標(biāo)準(zhǔn)。與其他模型不同,Mistral OCR能夠以前所未有的準(zhǔn)確性和認(rèn)知能力理解文檔中的每個(gè)元素——媒體、文本、表格和公式。它接受圖像和PDF作為輸入,并提取有序的交錯(cuò)文本和圖像內(nèi)容。

因此,Mistral OCR是與檢索增強(qiáng)生成(RAG)系統(tǒng)結(jié)合使用的理想模型,能夠處理多模態(tài)文檔(如幻燈片或復(fù)雜的PDF文件)。

Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR!可免費(fèi)試用!-AI.x社區(qū)圖片

復(fù)雜文檔理解的最新技術(shù)

Mistral OCR在理解復(fù)雜文檔元素方面表現(xiàn)出色,包括交錯(cuò)的圖像、數(shù)學(xué)表達(dá)式、表格以及高級(jí)布局(如LaTeX格式)。該模型能夠深入理解豐富的文檔,例如包含圖表、圖形、公式和插圖的科學(xué)論文。

下面展示了PDF文件及其相應(yīng)OCR輸出的并排對(duì)比。將鼠標(biāo)懸停在滑塊上以切換輸入和輸出。

Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR!可免費(fèi)試用!-AI.x社區(qū)右側(cè)是Mistral OCR識(shí)別結(jié)果

Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR!可免費(fèi)試用!-AI.x社區(qū)圖片

頂級(jí)基準(zhǔn)測(cè)試表現(xiàn)

在嚴(yán)格的基準(zhǔn)測(cè)試中,Mistral OCR始終優(yōu)于其他領(lǐng)先的OCR模型。其在文檔分析的多個(gè)方面的卓越準(zhǔn)確性如下所示。該公司從文檔中提取嵌入的圖像和文本,而下面比較的其他大型語(yǔ)言模型(LLM)不具備此功能。為了公平比較,研究人員在內(nèi)部的“僅文本”測(cè)試集上評(píng)估它們,該測(cè)試集包含各種出版論文和網(wǎng)絡(luò)上的PDF文件;如下所示:

Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR!可免費(fèi)試用!-AI.x社區(qū)圖片

原生多語(yǔ)言

自Mistral成立以來(lái),一直致力于通過(guò)公司的模型服務(wù)全球,并努力在其產(chǎn)品中實(shí)現(xiàn)多語(yǔ)言能力。Mistral OCR將這一能力提升到了新的水平,能夠解析、理解和轉(zhuǎn)錄全球各大洲的數(shù)千種文字、字體和語(yǔ)言。這種多功能性對(duì)于處理來(lái)自不同語(yǔ)言背景的文檔的全球組織以及服務(wù)于特定市場(chǎng)的本地企業(yè)都至關(guān)重要。

模型生成中的模糊匹配測(cè)試如下:

Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR!可免費(fèi)試用!-AI.x社區(qū)圖片

按語(yǔ)言劃分的基準(zhǔn)測(cè)試:

Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR!可免費(fèi)試用!-AI.x社區(qū)圖片

同類中速度最快

Mistral OCR比同類中的大多數(shù)模型更輕量,其處理速度顯著快于同類產(chǎn)品,單節(jié)點(diǎn)每分鐘可處理多達(dá)2000頁(yè)??焖偬幚砦臋n的能力確保了即使在高吞吐量環(huán)境中也能持續(xù)學(xué)習(xí)和改進(jìn)。

文檔即提示,結(jié)構(gòu)化輸出

Mistral OCR還引入了將文檔用作提示的使用方式,從而實(shí)現(xiàn)更強(qiáng)大、更精確的指令。這一功能使用戶能夠從文檔中提取特定信息,并將其格式化為結(jié)構(gòu)化輸出(如JSON)。用戶可以將提取的輸出鏈接到下游功能調(diào)用中,并構(gòu)建智能代理。

按需提供自托管選項(xiàng)

對(duì)于數(shù)據(jù)隱私要求嚴(yán)格的組織,Mistral OCR提供自托管選項(xiàng)。這確保了敏感或機(jī)密信息保留在您自己的基礎(chǔ)設(shè)施內(nèi),符合監(jiān)管和安全標(biāo)準(zhǔn)。

如果想本地部署和探索,可以聯(lián)系官網(wǎng)https://mistral.ai/。

應(yīng)用場(chǎng)景

Mistral的測(cè)試用戶們正在通過(guò)這款工具將龐大的文檔庫(kù)轉(zhuǎn)化為行動(dòng)和解決方案,提升其組織的知識(shí)水平。該技術(shù)在以下關(guān)鍵應(yīng)用場(chǎng)景中產(chǎn)生了顯著影響:

?  數(shù)字化科學(xué)研究:領(lǐng)先的科研機(jī)構(gòu)正在嘗試使用Mistral OCR將科學(xué)論文和期刊轉(zhuǎn)化為AI就緒格式,使其能夠被下游智能引擎訪問(wèn)。這顯著加快了協(xié)作速度,并加速了科學(xué)工作流程。

?  保護(hù)歷史和文化遺產(chǎn):作為文化遺產(chǎn)的守護(hù)者,組織和非營(yíng)利機(jī)構(gòu)正在使用Mistral OCR對(duì)歷史文件和文物進(jìn)行數(shù)字化,確保其得以保存,并使其能夠被更廣泛的受眾訪問(wèn)。

?  優(yōu)化客戶服務(wù):客戶服務(wù)部門(mén)正在探索使用Mistral OCR將文檔和手冊(cè)轉(zhuǎn)化為索引化的知識(shí),減少響應(yīng)時(shí)間,提升客戶滿意度。

?  使設(shè)計(jì)、教育、法律等領(lǐng)域的文獻(xiàn)AI就緒:Mistral OCR還幫助公司把技術(shù)文獻(xiàn)、工程圖紙、講課筆記、演示文稿

Mistral發(fā)布最強(qiáng)多模態(tài)文檔理解模型Mistral OCR!可免費(fèi)試用!-AI.x社區(qū)圖片

第一批試用的網(wǎng)友已經(jīng)對(duì)Mistral OCR 做了基準(zhǔn)測(cè)試,在375個(gè)LLM評(píng)判標(biāo)準(zhǔn)中,Mistral獲得了可以比肩Marker的高分4.32分。

其實(shí),大模型在多模態(tài)文檔理解中常見(jiàn)的兩個(gè)問(wèn)題:一、幻覺(jué),二、文本丟失。

Mistral現(xiàn)在可以說(shuō)把幻覺(jué)降到了更低,但網(wǎng)友反饋依舊存在幻覺(jué)的情況。當(dāng)然,Mistral 也并非完美。

免費(fèi)體驗(yàn),API定價(jià)親民

據(jù)官方發(fā)布的消息,Mistral OCR已經(jīng)被該公司作為L(zhǎng)e Chat平臺(tái)上數(shù)百萬(wàn)用戶文檔理解的默認(rèn)模型,并推出名為mistral-ocr-latest的API,定價(jià)為每1000頁(yè)1美元(批量推理時(shí)每美元可處理的頁(yè)數(shù)大約翻倍)。

同時(shí),該模型的API也已在其開(kāi)發(fā)者平臺(tái)la Plateforme上線,并即將推出到Mistral的云服務(wù)和推理合作伙伴,以及本地部署環(huán)境中。

如果想要體驗(yàn),大家可以在 Mistral 的 Chat 官網(wǎng)上免費(fèi)試用 Mistral OCR 的功能。如果想嘗試 API,可以前往他們 console 網(wǎng)址。

體驗(yàn)鏈接:??https://chat.mistral.ai/chat/??

API體驗(yàn)地址:??http://console.mistral.ai/??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄