OCR-Omni來了，字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024

作者：量子位 2024-10-21 11:05:00

TextHarmony 作為 OCR 領(lǐng)域的多功能多模態(tài)生成模型，成功統(tǒng)一了視覺文本理解和生成任務(wù)。

多模態(tài)生成新突破，字節(jié)&華師團隊打造TextHarmony，在單一模型架構(gòu)中實現(xiàn)模態(tài)生成的統(tǒng)一，并入選NeurIPS 2024。

過去,視覺文字領(lǐng)域的大模型研究聚焦于單模態(tài)生成，雖然在個別任務(wù)上實現(xiàn)了模型的統(tǒng)一，但很難在OCR領(lǐng)域的多數(shù)任務(wù)上做到全面整合。

例如，Monkey等視覺語言模型（VLM）擅長文字檢測、識別和視覺問答（VQA）等文本模態(tài)生成任務(wù)，卻無法勝任文字圖像的生成、抹除和編輯等圖像模態(tài)生成任務(wù)。反之，以 AnyText 為代表的基于擴散模型的圖像生成模型則專注于圖像創(chuàng)建。因此，OCR領(lǐng)域亟需一個能夠統(tǒng)一多模態(tài)生成的大模型。

為解決這一難題，字節(jié)跳動與華東師范大學(xué)的聯(lián)合研究團隊提出了創(chuàng)新性的多模態(tài)生成模型TextHarmony，不僅精通視覺文本的感知、理解和生成，還在單一模型架構(gòu)中實現(xiàn)了視覺與語言模態(tài)生成的和諧統(tǒng)一。

目前論文已經(jīng)上傳arXiv，代碼也即將開源，鏈接可在文末領(lǐng)取。

TextHarmony: 核心貢獻

TextHarmony的核心優(yōu)勢在于其成功整合了視覺文本的理解和生成能力。傳統(tǒng)研究中，這兩類任務(wù)通常由獨立模型處理。TextHarmony 通過融合這兩大類生成模型，實現(xiàn)了視覺文字理解和生成的同步進行，從而統(tǒng)籌了 OCR 領(lǐng)域的多數(shù)任務(wù)。

研究表明，視覺理解和生成之間存在顯著差異，直接整合可能導(dǎo)致嚴重的模態(tài)不一致問題。具體而言，多模態(tài)生成模型在文本生成（視覺感知、理解）和圖像生成方面，相較于專門的單模態(tài)模型，性能出現(xiàn)明顯退化。

數(shù)據(jù)顯示，多模態(tài)生成模型在文本生成任務(wù)上較單模態(tài)模型效果降低 5%，圖像生成任務(wù)上最高降低8%。而 TextHarmony 成功緩解了這一問題，其在兩類任務(wù)上的表現(xiàn)均接近單模態(tài)專家模型水平。

技術(shù)創(chuàng)新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的組合架構(gòu)：

ViT 負責(zé)圖像到視覺 token 序列的轉(zhuǎn)換。
MLLM 處理視覺 token 和文本 token 的交叉序列，輸出兩類 token：
文本 token 經(jīng)文本解碼器轉(zhuǎn)化為文本輸出。
視覺 token 與文本 token 結(jié)合，作為 Diffusion Model 的條件指引，生成目標圖像。

這種結(jié)構(gòu)實現(xiàn)了多模態(tài)內(nèi)容的全面理解與生成。

Slide-LoRA：解決方案

為克服訓(xùn)練過程中的模態(tài)不一致問題，研究者提出了 Slide-LoRA 技術(shù)。該方法通過動態(tài)整合模態(tài)特定和模態(tài)無關(guān)的 LoRA（Low-Rank Adaptation）專家，在單一模型中實現(xiàn)了圖像和文本生成空間的部分解耦。

Slide-LoRA 包含一個動態(tài)門控網(wǎng)絡(luò)和三個低秩分解模塊：

模態(tài)特定 LoRA 專家聚焦于特定模態(tài)（視覺或語言）的生成任務(wù)。
模態(tài)無關(guān) LoRA 專家處理跨模態(tài)的通用特征。
動態(tài)門控網(wǎng)絡(luò)根據(jù)輸入特征，靈活調(diào)度不同專家的參與度。

DetailedTextCaps-100K: 高質(zhì)量數(shù)據(jù)集

為提升視覺文本生成性能，研究團隊開發(fā)了 DetailedTextCaps-100K 數(shù)據(jù)集。該集利用閉源 MLLM（Gemini Pro）生成詳盡的圖像描述，為模型提供了更豐富、更聚焦于視覺和文本元素的訓(xùn)練資源。

訓(xùn)練策略

TextHarmony 采用兩階段訓(xùn)練方法：

首階段利用 MARIO-LAION 和 DocStruct4M 等圖文對預(yù)訓(xùn)練對齊模塊和圖像解碼器，構(gòu)建基礎(chǔ)的文本生成與圖像生成能力。
次階段運用視覺文本的生成、編輯、理解、感知四類數(shù)據(jù)進行統(tǒng)一微調(diào)。此階段開放 ViT、對齊模塊、圖像解碼器和 Slide-LoRA 的參數(shù)更新，以獲得統(tǒng)一的多模態(tài)理解與生成能力。

實驗評估

研究者對 TextHarmony 在視覺文本場景下進行了全面評估，涵蓋理解、感知、生成與編輯四個維度：

視覺文本理解：TextHarmony 顯著優(yōu)于多模態(tài)生成模型，性能接近 Monkey 等專業(yè)文字理解模型。

視覺文本感知：在OCR定位任務(wù)上，TextHarmony超過了TGDoc、DocOwl1.5等知名模型。

視覺文本編輯與生成：TextHarmony 大幅領(lǐng)先于現(xiàn)有多模態(tài)生成模型，且與 TextDiffuser2 等專業(yè)模型相當(dāng)。

文字生成效果對比

文字編輯效果對比

文字圖像感知與理解可視化

總結(jié)與展望

TextHarmony 作為 OCR 領(lǐng)域的多功能多模態(tài)生成模型，成功統(tǒng)一了視覺文本理解和生成任務(wù)。通過創(chuàng)新的 Slide-LoRA 技術(shù)，它有效解決了多模態(tài)生成中的模態(tài)不一致問題，在單一模型中實現(xiàn)了視覺與語言模態(tài)的和諧統(tǒng)一。TextHarmony 在視覺文字感知、理解、生成和編輯方面展現(xiàn)出卓越性能，為復(fù)雜的視覺文本交互任務(wù)開辟了新的可能性。

這項研究不僅推動了 OCR 技術(shù)的進步，也為人工智能在理解和創(chuàng)造方面的發(fā)展提供了重要參考。未來，TextHarmony 有望在自動文檔處理、智能內(nèi)容創(chuàng)作、教育輔助等多個領(lǐng)域發(fā)揮重要作用，進一步推動人工智能的應(yīng)用。

論文鏈接: https://arxiv.org/abs/2407.16364
代碼開源: https://github.com/bytedance/TextHarmony（即將開源）

責(zé)任編輯：張燕妮來源：量子位

模型視覺生成

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OCR-Omni來了，字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024