自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OCR終結了?曠視提出支持文檔級OCR的多模態(tài)大模型,支持中英文,已開源!

人工智能
研究團隊注意到原本可能需要幾千tokens 的頁面內容,通過文檔圖片輸入,信息被Vary壓縮在了256個圖像tokens中,這也為進一步的頁面分析和總結提供了更多的想象空間。

想將一份文檔圖片轉換成Markdown格式?

以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟——

這一次,只需一句話命令,多模態(tài)大模型Vary直接端到端輸出結果:

圖片圖片

無論是中英文的大段文字:

圖片圖片

還是包含了公式的文檔圖片:

圖片圖片

又或是手機頁面截圖:

圖片圖片

甚至可以將圖片中的表格轉換成latex格式:

圖片圖片

當然,作為多模大模型,通用能力的保持也是必須的:

圖片圖片

Vary表現(xiàn)出了很大的潛力和極高的上限,OCR可以不再需要冗長的pipline,直接端到端輸出,且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。

通過大模型極強的語言先驗,這種架構還可以避免OCR中的易錯字,比如“杠桿”和“杜桿”等, 對于模糊文檔,也有望在語言先驗的幫助下實現(xiàn)更強的OCR效果。

項目一出,引發(fā)了不少網友的關注,有網友看后直呼“kill the game!”

圖片圖片

那么這樣的效果,是如何做到的呢?

受大模型啟發(fā)打造

目前的多模態(tài)大模型幾乎都是用CLIP作為Vision Encoder或者說視覺詞表。確實,在400M圖像文本對訓練的CLIP有很強的視覺文本對齊能力,可以覆蓋多數(shù)日常任務下的圖像編碼。

但是對于密集和細粒度感知任務,比如文檔級別的OCR、Chart理解,特別是在非英文場景,CLIP表現(xiàn)出了明顯的編碼低效和out-of-vocabulary問題。

純NLP大模型(如LLaMA)從英文過渡到中文(對大模型來說是“外語”)時,因為原始詞表編碼中文效率低,必須要擴大text詞表才能實現(xiàn)較好的效果。

正是這一特點給研究團隊帶來了啟發(fā)。

現(xiàn)在基于CLIP視覺詞表的多模態(tài)大模型,面臨著同樣的問題,遇到“foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片token化。

而Vary就是這一問題的一種解決方案,它可以在不重建原有詞表前提下,高效擴充視覺詞表。

圖片圖片

不同于現(xiàn)有方法直接用現(xiàn)成的CLIP詞表,Vary分兩個階段:

第一階段先用一個很小的decoder-only網絡用自回歸方式幫助產生一個強大的新視覺詞表;

然后在第二階段融合新詞表和CLIP詞表,從而高效地訓練LVLM擁有新feature。

Vary的訓練方法和模型結構如下圖:

圖片圖片

通過在公開數(shù)據集以及渲染生成的文檔圖表等數(shù)據上訓練,Vary極大增強了細粒度的視覺感知能力。

在保持vanilla多模態(tài)能力的同時,激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,研究團隊注意到原本可能需要幾千tokens 的頁面內容,通過文檔圖片輸入,信息被Vary壓縮在了256個圖像tokens中,這也為進一步的頁面分析和總結提供了更多的想象空間。

目前,Vary的代碼和模型均已開源,還給出了供大家試玩的網頁demo。

感興趣的小伙伴可以去試試了~

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-03-20 13:18:46

模型多模態(tài)體系

2020-07-16 13:00:18

人工智能機器學習技術

2020-07-20 09:49:56

開源技術 趨勢

2024-09-10 12:11:18

2024-12-12 00:25:09

2020-06-08 11:16:06

百度

2025-01-06 10:00:00

模型視覺生成

2025-03-10 18:50:57

2024-04-02 09:17:50

AI數(shù)據開源

2021-10-15 15:26:10

AI 數(shù)據人工智能

2025-02-27 01:00:00

大模型OLMOCRrag

2025-03-11 10:00:00

圖片模型數(shù)據

2025-01-08 08:21:16

2024-10-21 13:20:00

視頻數(shù)據集

2023-09-02 12:49:01

2023-05-17 15:22:45

識別開源工具

2023-08-09 10:08:00

模型AI

2023-12-04 13:23:00

數(shù)據訓練

2015-08-18 15:19:51

2024-05-15 17:30:51

開源模型
點贊
收藏

51CTO技術棧公眾號