自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

千頁只需7塊錢,Mistral發(fā)布世界最強文件掃描API,實測仍有缺陷

人工智能 新聞
Mistral OCR 稱得上一種理想的模型,可以與以多模式文檔(如幻燈片或復(fù)雜 PDF)作為輸入的 RAG 系統(tǒng)結(jié)合使用。

法國大模型獨角獸 Mistral AI 進軍 OCR(光學(xué)字符識別)領(lǐng)域了。

一出手就是號稱「世界上最好的 OCR 模型」!

image.png

新產(chǎn)品 Mistral OCR 是一種光學(xué)字符識別 API,它為文檔理解樹立了新標(biāo)準(zhǔn)。與其他模型不同,Mistral OCR 能夠以前所未有的準(zhǔn)確度和認(rèn)知能力理解文檔的每個元素(媒體、文本、表格、公式)。它以圖像和 PDF 作為輸入,并從有序交錯的文本和圖像中提取內(nèi)容。

因此,Mistral OCR 稱得上一種理想的模型,可以與以多模式文檔(如幻燈片或復(fù)雜 PDF)作為輸入的 RAG 系統(tǒng)結(jié)合使用。

從現(xiàn)在開始,Mistral OCR 功能可以在 Le Chat 上免費試用。Mistral AI 已經(jīng)將它作為 le Chat 上數(shù)百萬用戶的默認(rèn)文檔理解模型,并以 1000 頁 / 美元的價格發(fā)布了 API「mistral-ocr-latest」。目前,該 API 已經(jīng)在開發(fā)者套件 la Plateforme 上提供,并將很快提供給 Mistral AI 的云和推理合作伙伴,同時可以有選擇地本地部署。

對復(fù)雜文檔實現(xiàn) SOTA 理解

Mistral OCR 擅長理解復(fù)雜的文檔元素,包括交錯圖像、數(shù)學(xué)表達(dá)式、表格和高級布局(如 LaTeX 格式)。該模型可以更深入地理解豐富的文檔,尤其是包含圖表、圖形、公式和數(shù)字的科學(xué)論文。

比如 Alphafold 3 的 OCR 識別效果,從給定 PDF 中將文本、圖像提取到 markdown 文檔。

下面將 PDF 和對應(yīng)的 OCR 輸出結(jié)果進行了并排比較。

比如數(shù)學(xué)公式:

數(shù)學(xué)_副本.jpg數(shù)學(xué)_副本.jpg

比如阿拉伯文字:

阿拉伯文字_副本.jpg阿拉伯文字_副本.jpg

基準(zhǔn)測試成績?nèi)轿坏谝?/span>

Mistral OCR 在嚴(yán)格的基準(zhǔn)測試中始終優(yōu)于其他領(lǐng)先的 OCR 模型,其在文檔分析的多個方面都表現(xiàn)出色。Mistral AI 從文本文檔中提取嵌入圖像和文本,不過進行比較的其他 LLM 不具備此功能。

因此,為了公平比較,Mistral AI 在包含各種發(fā)表論文的內(nèi)部「僅文本」測試集以及網(wǎng)絡(luò) PDF 上進行了性能測試。

支持原生多語言

自成立以來,Mistral AI 一直渴望用自己的模型服務(wù)全世界,因此努力在產(chǎn)品中實現(xiàn)多語言功能。

Mistral OCR 將這一目標(biāo)提升到了一個新水平,能夠解析、理解和轉(zhuǎn)錄各大洲的數(shù)千種腳本、字體和語言。對于需要處理來自不同語言背景的文檔的全球組織以及服務(wù)小眾市場的超本地化企業(yè)而言,這種通用性至關(guān)重要。

在「Fuzzy Match in Generation」(生成模糊匹配)指標(biāo)比較中,Mistral OCR 獲得了第一。

在各種語言的比較中,Mistral OCR 同樣超越了 Azure OCR 和 Google Doc AI。

同類產(chǎn)品中速度最快

Mistral OCR 比同類產(chǎn)品中的大多數(shù)都更輕量,速度也明顯快于它們,并且在單個節(jié)點上每分鐘可以處理 2000 多頁。這一快速處理文檔的能力確保即使在高吞吐量環(huán)境中也能持續(xù)學(xué)習(xí)和改進。

文檔即提示、結(jié)構(gòu)化輸出

Mistral OCR 還引入了使用文檔作為提示的功能,從而實現(xiàn)了更強大、更精確的指令遵循。此功能允許用戶從文檔中提取特定信息并將其格式化為結(jié)構(gòu)化輸出,例如 JSON。用戶還可以將提取的輸出鏈接到下游函數(shù)調(diào)用和構(gòu)建智能體中。

自行托管

最后,對于具有嚴(yán)格數(shù)據(jù)隱私要求的組織,Mistral OCR 提供了自行托管選項。這可確保敏感或機密信息在組織內(nèi)部的基礎(chǔ)設(shè)施內(nèi)保持安全,從而符合監(jiān)管和安全標(biāo)準(zhǔn)。

實測:Mistral OCR 很好,但也有局限

面對 Mistral AI 號稱的「全球最好 OCR 模型」,Pulse AI 團隊進行了一番測試,結(jié)論是:確實很好,但尚未完全為企業(yè)使用做好準(zhǔn)備。

Mistral OCR 絕對超越了一些前沿 LLM,但在真實商業(yè)文檔中出現(xiàn)了一些限制。

圖源:https://x.com/ritvikpandey21/status/1897800421357588546

對于財務(wù)文檔:Mistral OCR 難以處理復(fù)雜的表格,出現(xiàn)了 17% 的列錯位、±1.5% 的精度偏差以及丟失了表示負(fù)值的關(guān)鍵括號。

對于法律文檔:復(fù)選框檢測基本不存在,部分層次結(jié)構(gòu)丟失,多行表格單元格合并或切斷。

正如 Mistral AI 博客中所說,他們正在收集用戶的反饋,并希望未來幾周 Mistral OCR 繼續(xù)變得更好。

博客地址:https://mistral.ai/fr/news/mistral-ocr


責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-09-13 22:25:52

手機缺陷技術(shù)

2025-03-10 18:50:57

2025-03-07 10:23:03

2024-05-21 11:35:48

阿里云通義千問

2023-03-02 15:46:13

2015-10-21 14:53:24

微信賺錢用戶

2010-09-08 09:17:24

VMworld 201

2017-08-15 16:45:14

鍵盤薄膜鍵盤機械鍵盤

2018-09-13 13:54:41

2014-12-28 09:05:28

2021-03-25 12:32:14

樹莓派Linux代碼

2016-04-25 15:38:27

老司機VR看片

2015-03-30 00:56:48

2019-12-25 14:15:02

開發(fā)技能代碼

2020-07-08 09:27:01

公司短信平臺

2022-12-16 15:11:39

AI模型

2021-04-19 11:30:20

激活碼Window 10微軟

2020-11-03 10:45:53

人工智能AIAI偏差

2010-07-20 10:14:22

蘋果天線門

2020-07-31 13:07:35

內(nèi)存 8GB4槽
點贊
收藏

51CTO技術(shù)棧公眾號