自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OCR-Omni來了,字節(jié)&華師統(tǒng)一多模態(tài)文字理解與生成 | NeurIPS2024

人工智能 新聞
TextHarmony 作為 OCR 領(lǐng)域的多功能多模態(tài)生成模型,成功統(tǒng)一了視覺文本理解和生成任務(wù)。

多模態(tài)生成新突破,字節(jié)&華師團隊打造TextHarmony,在單一模型架構(gòu)中實現(xiàn)模態(tài)生成的統(tǒng)一,并入選NeurIPS 2024。

過去,視覺文字領(lǐng)域的大模型研究聚焦于單模態(tài)生成,雖然在個別任務(wù)上實現(xiàn)了模型的統(tǒng)一,但很難在OCR領(lǐng)域的多數(shù)任務(wù)上做到全面整合。

例如,Monkey等視覺語言模型(VLM)擅長文字檢測、識別和視覺問答(VQA)等文本模態(tài)生成任務(wù),卻無法勝任文字圖像的生成、抹除和編輯等圖像模態(tài)生成任務(wù)。反之,以 AnyText 為代表的基于擴散模型的圖像生成模型則專注于圖像創(chuàng)建。因此,OCR領(lǐng)域亟需一個能夠統(tǒng)一多模態(tài)生成的大模型。

圖片

為解決這一難題,字節(jié)跳動與華東師范大學(xué)的聯(lián)合研究團隊提出了創(chuàng)新性的多模態(tài)生成模型TextHarmony,不僅精通視覺文本的感知、理解和生成,還在單一模型架構(gòu)中實現(xiàn)了視覺與語言模態(tài)生成的和諧統(tǒng)一。

目前論文已經(jīng)上傳arXiv,代碼也即將開源,鏈接可在文末領(lǐng)取。

圖片

TextHarmony: 核心貢獻

TextHarmony的核心優(yōu)勢在于其成功整合了視覺文本的理解和生成能力。傳統(tǒng)研究中,這兩類任務(wù)通常由獨立模型處理。TextHarmony 通過融合這兩大類生成模型,實現(xiàn)了視覺文字理解和生成的同步進行,從而統(tǒng)籌了 OCR 領(lǐng)域的多數(shù)任務(wù)。

研究表明,視覺理解和生成之間存在顯著差異,直接整合可能導(dǎo)致嚴重的模態(tài)不一致問題。具體而言,多模態(tài)生成模型在文本生成(視覺感知、理解)和圖像生成方面,相較于專門的單模態(tài)模型,性能出現(xiàn)明顯退化。

圖片

數(shù)據(jù)顯示,多模態(tài)生成模型在文本生成任務(wù)上較單模態(tài)模型效果降低 5%,圖像生成任務(wù)上最高降低8%。而 TextHarmony 成功緩解了這一問題,其在兩類任務(wù)上的表現(xiàn)均接近單模態(tài)專家模型水平。

技術(shù)創(chuàng)新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的組合架構(gòu):

  • ViT 負責(zé)圖像到視覺 token 序列的轉(zhuǎn)換。
  • MLLM 處理視覺 token 和文本 token 的交叉序列,輸出兩類 token:
  • 文本 token 經(jīng)文本解碼器轉(zhuǎn)化為文本輸出。
  • 視覺 token 與文本 token 結(jié)合,作為 Diffusion Model 的條件指引,生成目標圖像。

這種結(jié)構(gòu)實現(xiàn)了多模態(tài)內(nèi)容的全面理解與生成。

Slide-LoRA:解決方案

為克服訓(xùn)練過程中的模態(tài)不一致問題,研究者提出了 Slide-LoRA 技術(shù)。該方法通過動態(tài)整合模態(tài)特定和模態(tài)無關(guān)的 LoRA(Low-Rank Adaptation)專家,在單一模型中實現(xiàn)了圖像和文本生成空間的部分解耦。

Slide-LoRA 包含一個動態(tài)門控網(wǎng)絡(luò)和三個低秩分解模塊:

  • 模態(tài)特定 LoRA 專家聚焦于特定模態(tài)(視覺或語言)的生成任務(wù)。
  • 模態(tài)無關(guān) LoRA 專家處理跨模態(tài)的通用特征。
  • 動態(tài)門控網(wǎng)絡(luò)根據(jù)輸入特征,靈活調(diào)度不同專家的參與度。

圖片

DetailedTextCaps-100K: 高質(zhì)量數(shù)據(jù)集

為提升視覺文本生成性能,研究團隊開發(fā)了 DetailedTextCaps-100K 數(shù)據(jù)集。該集利用閉源 MLLM(Gemini Pro)生成詳盡的圖像描述,為模型提供了更豐富、更聚焦于視覺和文本元素的訓(xùn)練資源。

圖片

訓(xùn)練策略

TextHarmony 采用兩階段訓(xùn)練方法:

  1. 首階段利用 MARIO-LAION 和 DocStruct4M 等圖文對預(yù)訓(xùn)練對齊模塊和圖像解碼器,構(gòu)建基礎(chǔ)的文本生成與圖像生成能力。
  2. 次階段運用視覺文本的生成、編輯、理解、感知四類數(shù)據(jù)進行統(tǒng)一微調(diào)。此階段開放 ViT、對齊模塊、圖像解碼器和 Slide-LoRA 的參數(shù)更新,以獲得統(tǒng)一的多模態(tài)理解與生成能力。

實驗評估

研究者對 TextHarmony 在視覺文本場景下進行了全面評估,涵蓋理解、感知、生成與編輯四個維度:

視覺文本理解:TextHarmony 顯著優(yōu)于多模態(tài)生成模型,性能接近 Monkey 等專業(yè)文字理解模型。

圖片

視覺文本感知:在OCR定位任務(wù)上,TextHarmony超過了TGDoc、DocOwl1.5等知名模型。

圖片

視覺文本編輯與生成:TextHarmony 大幅領(lǐng)先于現(xiàn)有多模態(tài)生成模型,且與 TextDiffuser2 等專業(yè)模型相當(dāng)。

圖片

文字生成效果對比

圖片

文字編輯效果對比

圖片

文字圖像感知與理解可視化

圖片

總結(jié)與展望

TextHarmony 作為 OCR 領(lǐng)域的多功能多模態(tài)生成模型,成功統(tǒng)一了視覺文本理解和生成任務(wù)。通過創(chuàng)新的 Slide-LoRA 技術(shù),它有效解決了多模態(tài)生成中的模態(tài)不一致問題,在單一模型中實現(xiàn)了視覺與語言模態(tài)的和諧統(tǒng)一。TextHarmony 在視覺文字感知、理解、生成和編輯方面展現(xiàn)出卓越性能,為復(fù)雜的視覺文本交互任務(wù)開辟了新的可能性。

這項研究不僅推動了 OCR 技術(shù)的進步,也為人工智能在理解和創(chuàng)造方面的發(fā)展提供了重要參考。未來,TextHarmony 有望在自動文檔處理、智能內(nèi)容創(chuàng)作、教育輔助等多個領(lǐng)域發(fā)揮重要作用,進一步推動人工智能的應(yīng)用。

論文鏈接: https://arxiv.org/abs/2407.16364
代碼開源: https://github.com/bytedance/TextHarmony(即將開源)

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-06 10:00:00

模型視覺生成

2025-03-04 09:50:00

2024-12-18 09:34:13

2023-06-06 14:09:32

模型開源

2024-10-22 13:33:48

2025-04-14 00:20:00

2024-12-31 14:00:00

模型訓(xùn)練數(shù)據(jù)

2025-04-10 09:15:00

模型AI數(shù)據(jù)

2024-12-11 15:00:00

2023-07-17 11:02:36

模型開源

2024-03-25 12:40:19

訓(xùn)練模型

2025-03-13 10:18:42

2025-02-12 10:20:00

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語言

2025-04-25 09:10:00

2024-11-18 11:20:00

視頻大模型

2024-12-04 13:30:00

2021-12-06 08:03:24

AI訓(xùn)練架構(gòu)

2024-12-05 10:00:31

點贊
收藏

51CTO技術(shù)棧公眾號