文檔字越多，模型越興奮！KOSMOS-2.5：閱讀「文本密集圖像」的多模態(tài)大語言模型

作者：新智元 2023-09-28 07:24:13

KOSMOS-2.5在少樣本學習和零樣本學習的場景中展現(xiàn)了有前景的能力，使其成為處理文本豐富圖像的實際應用的多功能工具。

當前一個顯著的趨勢是致力于構(gòu)建更大更復雜的模型，它們擁有數(shù)百/數(shù)千億個參數(shù)，能夠生成令人印象深刻的語言輸出。

然而，現(xiàn)有的大型語言模型主要集中在文本信息上，無法理解視覺信息。

因此多模態(tài)大型語言模型（MLLMs）領域的進展旨在解決這一限制，MLLMs將視覺和文本信息融合到一個基于Transformer的單一模型中，使該模型能夠根據(jù)這兩種模態(tài)學習和生成內(nèi)容。

MLLMs在各種實際應用中顯示出潛力，包括自然圖像理解和文本圖像理解。這些模型利用語言建模作為處理多模態(tài)問題的通用接口，使其能夠根據(jù)文本和視覺輸入處理和生成響應。

不過，現(xiàn)有的MLLMs主要關(guān)注分辨率較低的自然圖像，對于文本密集圖像的MLLM研究還不多見，因此充分利用大規(guī)模多模態(tài)預訓練來處理文本圖像是MLLM研究的一個重要的研究方向。

通過將文本圖像納入訓練過程并開發(fā)基于文本和視覺信息的模型，我們可以開辟涉及高分辨率文本密集圖像的多模態(tài)應用的新可能性。

圖片

論文地址：https://arxiv.org/abs/2309.11419

KOSMOS-2.5是一個基于文本密集圖像的多模態(tài)大型語言模型，它是在KOSMOS-2的基礎上發(fā)展而來的，突出了對于文本密集圖像的多模態(tài)閱讀和理解能力（Multimodal Literate Model）。

該模型的提出突顯了其在理解文本密集型圖像方面的卓越性能，彌合了視覺和文本之間的差距。

與此同時，它也標志著該任務范式的演變，從以前的編碼器-解碼器（encoder-decoder）架構(gòu)轉(zhuǎn)變?yōu)榧兘獯a器（decoder only）架構(gòu)。

KOSMOS-2.5的目標是在文本豐富的圖像中實現(xiàn)無縫的視覺和文本數(shù)據(jù)處理，以便理解圖像內(nèi)容并生成結(jié)構(gòu)化文本描述。

圖1：KOSMOS-2.5概覽圖

如圖1所示，KOSMOS-2.5是一個多模態(tài)模型，旨在使用統(tǒng)一的框架處理兩個緊密相關(guān)的任務。

第一個任務涉及生成具有空間感知的文本塊，即同時生成文本塊的內(nèi)容與坐標框；

第二個任務涉及以Markdown格式生成結(jié)構(gòu)化的文本輸出，同時捕捉各種樣式和結(jié)構(gòu)。

圖2：KOSMOS-2.5架構(gòu)圖

如圖2所示，兩個任務利用共享的Transformer架構(gòu)與任務特定的提示。

KOSMOS-2.5將基于ViT（Vision Transformer）的視覺編碼器與基于Transformer架構(gòu)的解碼器相結(jié)合，通過一個重采樣模塊連接起來。

圖3：預訓練數(shù)據(jù)集

如圖3所示，為了訓練這個模型，作者準備一個龐大的共324.4M的數(shù)據(jù)集進行預訓練。

圖4：帶有邊界框的文本行的訓練樣本示例

圖5：Markdown格式的訓練樣本示例

該數(shù)據(jù)集包含各種類型的文本密集圖像，其中包括帶有邊界框的文本行和純文本的Markdown格式，圖4和圖5為訓練樣本示例可視化。

這種多任務的訓練方法增強了KOSMOS-2.5在整體上的多模態(tài)能力。

[圖6] 端到端的文檔級文本識別實驗

圖7：從圖像中生成Markdown格式文本實驗

如圖6和圖7所示，KOSMOS-2.5在兩個任務上進行評估：端到端的文檔級文本識別和從圖像中生成Markdown格式文本。

實驗結(jié)果展示了KOSMOS-2.5在理解文本密集的圖像任務方面的出色表現(xiàn)。

圖8：KOSMOS-2.5的輸入和輸出樣例展示

此外，KOSMOS-2.5在少樣本學習和零樣本學習的場景中展現(xiàn)了有前景的能力，使其成為處理文本豐富圖像的實際應用的多功能工具。

作者指出，指令微調(diào)是一個很有前景的方法，可以實現(xiàn)模型更廣泛的應用能力。

在更廣泛的研究領域中，一個重要的方向在于進一步發(fā)展模型參數(shù)的擴展能力。

隨著任務范圍的不斷擴大和復雜性的不斷提高，擴展模型以處理更大量的數(shù)據(jù)對于文字密集的多模態(tài)模型的發(fā)展至關(guān)重要。

最終目標是開發(fā)出一種能有效解釋視覺和文本數(shù)據(jù)的模型，并在更多文本密集型多模態(tài)任務中順利推廣。

參考資料：

https://arxiv.org/abs/2309.11419

責任編輯：武曉燕來源：新智元

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡