OCR終結了?曠視提出支持文檔級OCR的多模態(tài)大模型,支持中英文,已開源!
想將一份文檔圖片轉換成Markdown格式?
以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟——
這一次,只需一句話命令,多模態(tài)大模型Vary直接端到端輸出結果:
圖片
無論是中英文的大段文字:
圖片
還是包含了公式的文檔圖片:
圖片
又或是手機頁面截圖:
圖片
甚至可以將圖片中的表格轉換成latex格式:
圖片
當然,作為多模大模型,通用能力的保持也是必須的:
圖片
Vary表現(xiàn)出了很大的潛力和極高的上限,OCR可以不再需要冗長的pipline,直接端到端輸出,且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。
通過大模型極強的語言先驗,這種架構還可以避免OCR中的易錯字,比如“杠桿”和“杜桿”等, 對于模糊文檔,也有望在語言先驗的幫助下實現(xiàn)更強的OCR效果。
項目一出,引發(fā)了不少網友的關注,有網友看后直呼“kill the game!”
圖片
那么這樣的效果,是如何做到的呢?
受大模型啟發(fā)打造
目前的多模態(tài)大模型幾乎都是用CLIP作為Vision Encoder或者說視覺詞表。確實,在400M圖像文本對訓練的CLIP有很強的視覺文本對齊能力,可以覆蓋多數(shù)日常任務下的圖像編碼。
但是對于密集和細粒度感知任務,比如文檔級別的OCR、Chart理解,特別是在非英文場景,CLIP表現(xiàn)出了明顯的編碼低效和out-of-vocabulary問題。
純NLP大模型(如LLaMA)從英文過渡到中文(對大模型來說是“外語”)時,因為原始詞表編碼中文效率低,必須要擴大text詞表才能實現(xiàn)較好的效果。
正是這一特點給研究團隊帶來了啟發(fā)。
現(xiàn)在基于CLIP視覺詞表的多模態(tài)大模型,面臨著同樣的問題,遇到“foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片token化。
而Vary就是這一問題的一種解決方案,它可以在不重建原有詞表前提下,高效擴充視覺詞表。
圖片
不同于現(xiàn)有方法直接用現(xiàn)成的CLIP詞表,Vary分兩個階段:
第一階段先用一個很小的decoder-only網絡用自回歸方式幫助產生一個強大的新視覺詞表;
然后在第二階段融合新詞表和CLIP詞表,從而高效地訓練LVLM擁有新feature。
Vary的訓練方法和模型結構如下圖:
圖片
通過在公開數(shù)據集以及渲染生成的文檔圖表等數(shù)據上訓練,Vary極大增強了細粒度的視覺感知能力。
在保持vanilla多模態(tài)能力的同時,激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。
另外,研究團隊注意到原本可能需要幾千tokens 的頁面內容,通過文檔圖片輸入,信息被Vary壓縮在了256個圖像tokens中,這也為進一步的頁面分析和總結提供了更多的想象空間。
目前,Vary的代碼和模型均已開源,還給出了供大家試玩的網頁demo。
感興趣的小伙伴可以去試試了~