自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<address id="l1zoz"><sub id="l1zoz"></sub></address>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OCR-Omni來了！字節(jié)&華師提出統(tǒng)一的多模態(tài)生成模型TextHarmony

作者：AIGC Studio 2025-01-06 10:00:00

人工智能新聞

TextHarmony是一種多功能多模態(tài)生成模型，擅長協(xié)調(diào)視覺文本理解和生成的不同任務(wù)。利用所提出的 Slide-LoRA 機制，TextHarmony 在單一模型實例中同步視覺和語言模態(tài)的生成過程，有效地解決了不同模態(tài)之間固有的不一致問題。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

在人工智能領(lǐng)域，賦予機器類人的圖像文字感知、理解、編輯和生成能力一直是研究熱點。目前，視覺文字領(lǐng)域的大模型研究主要聚焦于單模態(tài)生成任務(wù)。盡管這些模型在某些任務(wù)上實現(xiàn)了統(tǒng)一，但在 OCR 領(lǐng)域的多數(shù)任務(wù)上仍難以達成全面整合。

字節(jié)&華師提出統(tǒng)一的多模態(tài)生成模型TextHarmony：能夠熟練地理解和生成視覺文本

圖 (a) 說明了不同類型的圖像文本生成模型：視覺文本理解模型只能生成文本，視覺文本生成模型只能生成圖像，而 TextHarmony 可以生成文本和圖像。圖 (b) 說明了 TextHarmony 在為各種以文本為中心的任務(wù)生成不同模態(tài)方面的多功能性。

相關(guān)鏈接

論文鏈接: https://arxiv.org/abs/2407.16364

代碼開源: https://github.com/bytedance/TextHarmony

論文閱讀

摘要

在這項工作中，我們提出了 TextHarmony，這是一種統(tǒng)一且通用的多模態(tài)生成模型，能夠熟練地理解和生成視覺文本。由于視覺和語言模態(tài)之間固有的不一致，同時生成圖像和文本通常會導(dǎo)致性能下降。

為了克服這一挑戰(zhàn)，現(xiàn)有方法依靠特定模態(tài)的數(shù)據(jù)進行監(jiān)督微調(diào)，這需要不同的模型實例。我們提出了 Slide-LoRA，它動態(tài)地聚合了特定模態(tài)和模態(tài)無關(guān)的 LoRA 專家，部分解耦了多模態(tài)生成空間。Slide-LoRA 在單一模型實例中協(xié)調(diào)視覺和語言的生成，從而促進了更統(tǒng)一的生成過程。此外，我們開發(fā)了一個高質(zhì)量的圖像標題數(shù)據(jù)集 DetailedTextCaps-100K，并與復(fù)雜的閉源 MLLM 合成，以進一步增強視覺文本生成能力。在各種基準上進行的全面實驗證明了所提出方法的有效性。

在 Slide-LoRA 的支持下，TextHarmony 僅增加了 2% 的參數(shù)，就實現(xiàn)了與特定模態(tài)微調(diào)結(jié)果相當(dāng)?shù)男阅?，并且在視覺文本理解任務(wù)中平均提高了 2.5%，在視覺文本生成任務(wù)中平均提高了 4.0%。我們的工作描述了在視覺文本領(lǐng)域內(nèi)采用集成方法進行多模態(tài)生成的可行性，為后續(xù)研究奠定了基礎(chǔ)。

方法

TextHarmony 的管道。TextHarmony 通過連接視覺編碼器、LLM 和圖像解碼器來生成文本和視覺內(nèi)容。提出的 Slide-LoRA 模塊通過部分分離參數(shù)空間來緩解多模式生成中的不一致問題。

實驗

可視化文本生成結(jié)果。

可視化文本編輯結(jié)果。

DetailedTextCaps-100K 的更多示例。

TextHarmony 視覺文本理解和感知能力的可視化。

結(jié)論

TextHarmony是一種多功能多模態(tài)生成模型，擅長協(xié)調(diào)視覺文本理解和生成的不同任務(wù)。利用所提出的 Slide-LoRA 機制，TextHarmony 在單一模型實例中同步視覺和語言模態(tài)的生成過程，有效地解決了不同模態(tài)之間固有的不一致問題。該模型架構(gòu)擅長執(zhí)行涉及處理和生成圖像、蒙版、文本和布局的任務(wù)，特別是在光學(xué)字符識別 (OCR) 和文檔分析領(lǐng)域。TextHarmony 的成就預(yù)示著在視覺文本領(lǐng)域內(nèi)綜合多模態(tài)生成模型的巨大潛力。TextHarmony 的適應(yīng)性表明，類似性質(zhì)的模型可以有效地應(yīng)用于各種應(yīng)用程序，為依賴視覺文本理解和生成復(fù)雜相互作用的行業(yè)帶來革命性的前景。

責(zé)任編輯：張燕妮來源： AIGC Studio

模型視覺生成

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="7kza3"><rt id="7kza3"></rt></sub>

^{<blockquote id="7kza3"></blockquote>}