編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
全球約90%的組織數(shù)據(jù)以文檔形式存儲,但大模型對于文檔的理解能力還有一塊拼圖有待完整:多模態(tài)文檔的理解性能還做得不夠。
今天凌晨,低調(diào)了許久的歐洲AI公司 Mistral 冷不防推出了一款新作——Mistral OCR。
Mistral OCR是一款專供OCR的API,它為復(fù)雜文檔理解設(shè)定了新的標(biāo)準(zhǔn)。與其他模型不同,Mistral OCR能夠以前所未有的準(zhǔn)確性和認(rèn)知能力理解文檔中的每個元素——媒體、文本、表格和公式。它接受圖像和PDF作為輸入,并提取有序的交錯文本和圖像內(nèi)容。
因此,Mistral OCR是與檢索增強(qiáng)生成(RAG)系統(tǒng)結(jié)合使用的理想模型,能夠處理多模態(tài)文檔(如幻燈片或復(fù)雜的PDF文件)。
圖片
復(fù)雜文檔理解的最新技術(shù)
Mistral OCR在理解復(fù)雜文檔元素方面表現(xiàn)出色,包括交錯的圖像、數(shù)學(xué)表達(dá)式、表格以及高級布局(如LaTeX格式)。該模型能夠深入理解豐富的文檔,例如包含圖表、圖形、公式和插圖的科學(xué)論文。
下面展示了PDF文件及其相應(yīng)OCR輸出的并排對比。將鼠標(biāo)懸停在滑塊上以切換輸入和輸出。
右側(cè)是Mistral OCR識別結(jié)果
圖片
頂級基準(zhǔn)測試表現(xiàn)
在嚴(yán)格的基準(zhǔn)測試中,Mistral OCR始終優(yōu)于其他領(lǐng)先的OCR模型。其在文檔分析的多個方面的卓越準(zhǔn)確性如下所示。該公司從文檔中提取嵌入的圖像和文本,而下面比較的其他大型語言模型(LLM)不具備此功能。為了公平比較,研究人員在內(nèi)部的“僅文本”測試集上評估它們,該測試集包含各種出版論文和網(wǎng)絡(luò)上的PDF文件;如下所示:
圖片
原生多語言
自Mistral成立以來,一直致力于通過公司的模型服務(wù)全球,并努力在其產(chǎn)品中實(shí)現(xiàn)多語言能力。Mistral OCR將這一能力提升到了新的水平,能夠解析、理解和轉(zhuǎn)錄全球各大洲的數(shù)千種文字、字體和語言。這種多功能性對于處理來自不同語言背景的文檔的全球組織以及服務(wù)于特定市場的本地企業(yè)都至關(guān)重要。
模型生成中的模糊匹配測試如下:
圖片
按語言劃分的基準(zhǔn)測試:
圖片
同類中速度最快
Mistral OCR比同類中的大多數(shù)模型更輕量,其處理速度顯著快于同類產(chǎn)品,單節(jié)點(diǎn)每分鐘可處理多達(dá)2000頁??焖偬幚砦臋n的能力確保了即使在高吞吐量環(huán)境中也能持續(xù)學(xué)習(xí)和改進(jìn)。
文檔即提示,結(jié)構(gòu)化輸出
Mistral OCR還引入了將文檔用作提示的使用方式,從而實(shí)現(xiàn)更強(qiáng)大、更精確的指令。這一功能使用戶能夠從文檔中提取特定信息,并將其格式化為結(jié)構(gòu)化輸出(如JSON)。用戶可以將提取的輸出鏈接到下游功能調(diào)用中,并構(gòu)建智能代理。
按需提供自托管選項(xiàng)
對于數(shù)據(jù)隱私要求嚴(yán)格的組織,Mistral OCR提供自托管選項(xiàng)。這確保了敏感或機(jī)密信息保留在您自己的基礎(chǔ)設(shè)施內(nèi),符合監(jiān)管和安全標(biāo)準(zhǔn)。
如果想本地部署和探索,可以聯(lián)系官網(wǎng)https://mistral.ai/。
應(yīng)用場景
Mistral的測試用戶們正在通過這款工具將龐大的文檔庫轉(zhuǎn)化為行動和解決方案,提升其組織的知識水平。該技術(shù)在以下關(guān)鍵應(yīng)用場景中產(chǎn)生了顯著影響:
? 數(shù)字化科學(xué)研究:領(lǐng)先的科研機(jī)構(gòu)正在嘗試使用Mistral OCR將科學(xué)論文和期刊轉(zhuǎn)化為AI就緒格式,使其能夠被下游智能引擎訪問。這顯著加快了協(xié)作速度,并加速了科學(xué)工作流程。
? 保護(hù)歷史和文化遺產(chǎn):作為文化遺產(chǎn)的守護(hù)者,組織和非營利機(jī)構(gòu)正在使用Mistral OCR對歷史文件和文物進(jìn)行數(shù)字化,確保其得以保存,并使其能夠被更廣泛的受眾訪問。
? 優(yōu)化客戶服務(wù):客戶服務(wù)部門正在探索使用Mistral OCR將文檔和手冊轉(zhuǎn)化為索引化的知識,減少響應(yīng)時間,提升客戶滿意度。
? 使設(shè)計(jì)、教育、法律等領(lǐng)域的文獻(xiàn)AI就緒:Mistral OCR還幫助公司把技術(shù)文獻(xiàn)、工程圖紙、講課筆記、演示文稿
圖片
第一批試用的網(wǎng)友已經(jīng)對Mistral OCR 做了基準(zhǔn)測試,在375個LLM評判標(biāo)準(zhǔn)中,Mistral獲得了可以比肩Marker的高分4.32分。
其實(shí),大模型在多模態(tài)文檔理解中常見的兩個問題:一、幻覺,二、文本丟失。
Mistral現(xiàn)在可以說把幻覺降到了更低,但網(wǎng)友反饋依舊存在幻覺的情況。當(dāng)然,Mistral 也并非完美。
免費(fèi)體驗(yàn),API定價親民
據(jù)官方發(fā)布的消息,Mistral OCR已經(jīng)被該公司作為Le Chat平臺上數(shù)百萬用戶文檔理解的默認(rèn)模型,并推出名為mistral-ocr-latest的API,定價為每1000頁1美元(批量推理時每美元可處理的頁數(shù)大約翻倍)。
同時,該模型的API也已在其開發(fā)者平臺la Plateforme上線,并即將推出到Mistral的云服務(wù)和推理合作伙伴,以及本地部署環(huán)境中。
如果想要體驗(yàn),大家可以在 Mistral 的 Chat 官網(wǎng)上免費(fèi)試用 Mistral OCR 的功能。如果想嘗試 API,可以前往他們 console 網(wǎng)址。
體驗(yàn)鏈接:https://chat.mistral.ai/chat/
API體驗(yàn)地址:http://console.mistral.ai/