中文、日文、韓文等多種語言精準(zhǔn)生成!Liblib重磅開源RepText:打破AI圖文生成語言壁壘
文章地址:https://arxiv.org/abs/2504.19724
項(xiàng)目鏈接:https://reptext.github.io/
Git鏈接:https://github.com/Shakker-Labs/RepText
亮點(diǎn)直擊
- RepText,一個(gè)用于可控多語言視覺文本渲染的有效框架。
- 創(chuàng)新性地引入了字形隱空間變量復(fù)制技術(shù),以提高排版準(zhǔn)確性并實(shí)現(xiàn)顏色控制。此外,采用區(qū)域掩碼來保證良好的視覺保真度,避免背景干擾。
- 定性實(shí)驗(yàn)表明,本方法優(yōu)于現(xiàn)有開源方案,并與原生多語言閉源模型取得了可比的結(jié)果。
總結(jié)速覽
解決的問題
- 現(xiàn)有文本生成圖像模型在視覺文字渲染上的不足。當(dāng)前主流文本生成圖像模型(如 Stable Diffusion、DiT-based 模型)在生成精確的視覺文字(尤其是非拉丁字母)時(shí)表現(xiàn)不佳。主要原因是文本編碼器無法有效處理多語言輸入,或訓(xùn)練數(shù)據(jù)中多語言分布存在偏差。
- 替換文本編碼器(如采用多語言大語言模型)并從頭訓(xùn)練模型,但資源消耗高。
- 引入輔助模塊(如 ControlNet)控制文字渲染,但大多基于舊版 UNet 架構(gòu)(如 SD1.5/SDXL),生成質(zhì)量受限,且無法適配最新的 DiT-based 模型(如 SD3.5、FLUX)。
- 現(xiàn)有方法缺乏對字體、位置、顏色的靈活控制,且多語言支持不足。
提出的方案
- 提出RepText,通過字形復(fù)制(glyph replication)而非語義理解,實(shí)現(xiàn)多語言視覺文字的精確渲染。
- 基于 ControlNet 的文本復(fù)制框架,采用類似 ControlNet 的結(jié)構(gòu),以canny 邊緣圖 + 文字位置圖作為條件輸入,指導(dǎo)模型復(fù)制字形。不依賴額外文本/圖像編碼器,避免多語言理解問題。
- 字形隱空間變量初始化(Glyph Latent Replication)。在推理時(shí),直接用帶噪聲的文字字形隱空間變量初始化生成過程(而非隨機(jī)噪聲),提升文字準(zhǔn)確性。
- 區(qū)域掩碼控制(Region Masking)。限制特征注入僅作用于文字區(qū)域,避免背景失真。
- 文本感知損失(Text Perceptual Loss)。結(jié)合擴(kuò)散損失,進(jìn)一步優(yōu)化文字渲染的清晰度。
應(yīng)用的技術(shù)
- 基礎(chǔ)模型:適配最新的DiT-based 模型(如 SD3.5、FLUX),而非傳統(tǒng)的 UNet 架構(gòu)。
- 條件控制: Canny 邊緣檢測(字形結(jié)構(gòu)) 、位置圖(文字布局)
- 優(yōu)化技術(shù): 字形隱空間變量初始化、區(qū)域掩碼約束、多模態(tài)損失函數(shù)(擴(kuò)散損失 + 文本感知損失)
達(dá)到的效果
- 多語言支持:無需理解語義,直接復(fù)制字形,支持任意語言(包括非拉丁字母)。
- 高精度渲染:文字準(zhǔn)確性優(yōu)于開源方案(如 GlyphControl、AnyText)。媲美閉源多語言模型(如 Seedream 3.0、GPT4o)。
- 靈活控制:用戶可自定義文字內(nèi)容、字體、位置、顏色。
- 兼容性與質(zhì)量:適配最新 DiT-based 模型,生成質(zhì)量優(yōu)于基于 SD1.5/SDXL 的方案。背景區(qū)域不受干擾,保持整體圖像和諧。
方法
動機(jī)
本文從一個(gè)簡單的哲學(xué)觀點(diǎn)出發(fā):理解文本是否是渲染文本(尤其是筆畫簡單的文本)的必要且充分條件。本文提供幾個(gè)示例來說明這一點(diǎn)。首先,回想人類兒童如何學(xué)習(xí)寫字。大多數(shù)孩子最初通過涂鴉和繪畫開始書寫,并不真正理解所寫內(nèi)容,只是模仿周圍已有的文字,隨后才開始認(rèn)字,識字能力與書寫技能同步發(fā)展。另一個(gè)例子是字帖,它包含手寫范例和供學(xué)習(xí)者模仿的空白區(qū)域。對于某些復(fù)雜的藝術(shù)字體(特別是非拉丁文字如中國書法),模仿字形甚至可能早于識別文字。簡而言之,盡管識別和理解文本無疑對書寫有幫助,但本文認(rèn)為書寫也可以從模仿或復(fù)制開始,這一原則同樣適用于生成模型中的視覺文本渲染。
基于這一樸素假設(shè),本文使用預(yù)訓(xùn)練的ControlNet-Union(在自然圖像上通過canny邊緣訓(xùn)練)作為文本渲染的初步工具。如附錄圖6所示,該方法已能展現(xiàn)一定程度的復(fù)制能力,盡管存在明顯的文字準(zhǔn)確性問題和圖像質(zhì)量下降。這促使本文在其基礎(chǔ)上開發(fā)一種方法,能夠利用現(xiàn)有的單語言文本編碼器復(fù)制多語言、多字體文本。
RepText
框架。如圖2所示,RepText是一個(gè)類ControlNet框架,主要受GlyphControl和JoyTypes啟發(fā)。為了融入細(xì)粒度字形信息并實(shí)現(xiàn)多語言渲染,本文沒有像GlyphControl那樣直接使用渲染的字形圖像(依賴文本編碼器理解詞語語義),而是采用更強(qiáng)的文本提示——從圖像提取的canny邊緣。此外,為了提供位置信息,本文還使用輔助位置圖像輔助文本渲染。canny和位置圖像分別經(jīng)過VAE編碼器處理,并在通道維度拼接后輸入ControlNet分支。需要渲染的文本內(nèi)容不會手動添加到提示詞中。
文本感知損失表示為
推理策略。在推理階段,本文引入了如圖3所示的若干關(guān)鍵技術(shù)來穩(wěn)定并提升文本渲染性能:
基于字形隱空間變量的復(fù)制。受字帖啟發(fā),本文采用無噪字形隱空間變量而非隨機(jī)高斯噪聲進(jìn)行初始化(即復(fù)制機(jī)制),在去噪步驟初期提供字形引導(dǎo)信息。僅復(fù)制無噪字形隱空間變量的文本區(qū)域并粘貼回隨機(jī)噪聲中。本文發(fā)現(xiàn)這一簡單步驟對提升渲染文本準(zhǔn)確性具有重要作用。得益于該設(shè)計(jì),RepText進(jìn)一步支持用戶指定文本顏色,而無需通過可學(xué)習(xí)層隱式編碼顏色信息。
在實(shí)現(xiàn)過程中,本文發(fā)現(xiàn)直接復(fù)制粘貼會導(dǎo)致圖像質(zhì)量顯著下降(因無噪?yún)^(qū)域不符合高斯噪聲分布)。因此引入權(quán)重系數(shù)控制字形隱空間變量的影響程度。初始化隱空間變量定義如下:
文本區(qū)域的區(qū)域掩碼。傳統(tǒng) ControlNet 通常使用全局提示作為條件(例如 canny 和深度圖是基于整張圖像計(jì)算的),而在本文的場景中,條件圖像是稀疏的,僅文本區(qū)域有效。因此,為避免去噪過程中對非文本區(qū)域的干擾,本文額外使用區(qū)域掩碼截?cái)?ControlNet 的輸出。區(qū)域掩碼為二值圖像,文本框標(biāo)注的文本區(qū)域設(shè)為 1。
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
在廣泛使用的開源文本生成圖像模型 FLUX-dev上實(shí)現(xiàn)了本文的方法。文本 ControlNet 分支包含 6 個(gè)雙塊和 0 個(gè)單塊(遵循 ControlNet-Union-Pro-2.0 ),并基于 FLUX-dev 初始化。使用 Anytext-3M 作為預(yù)訓(xùn)練數(shù)據(jù)集(所有圖像尺寸為 512x512)。訓(xùn)練分辨率設(shè)為 512,采用 AdamW 優(yōu)化器,學(xué)習(xí)率為 2e-5,批量大小為 256。OCR 損失縮放因子設(shè)為 0.05,文本丟棄率為 0.3。此外,收集了包含 10K 張圖像的高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào),這些圖像均為自然場景(如路牌、商店招牌等)而非合成圖像。微調(diào)時(shí)啟用多比例訓(xùn)練桶(buckets),學(xué)習(xí)率降至 5e-6,OCR 損失縮放因子增至 0.10,文本丟棄率提升至 0.4。
定性結(jié)果
針對多場景進(jìn)行了定性評估,包括多語言(尤其是非拉丁文字)、多字體、多顏色和多行文本。多語言生成結(jié)果如圖4所示,其他結(jié)果詳見附錄圖7、圖8和圖9(為節(jié)省篇幅)。得益于字形復(fù)制機(jī)制,RepText能生成準(zhǔn)確且可控的文本內(nèi)容。更多生成樣本見附錄圖10和圖11。
與現(xiàn)有方法的對比
基線方法:為全面對比,本文比較了具備單語言/多語言文本渲染能力的開源與閉源模型。開源模型均使用官方代碼推理(特殊說明除外),閉源模型使用其產(chǎn)品或API推理。
單語言對比:
- 開源模型:Stable Diffusion 3.5 large、FLUX-dev、HiDream-I1-Dev
- 閉源模型:FLUX 1.1 Pro Ultra、Ideogram 3.0 、Reve Image (Halfmoon)、Recraft V3
- 可控文本渲染方法:TextDiffuser、TextDiffuser2、GlyphControl (本文在FLUX-dev上復(fù)現(xiàn))
- Recraft V3 使用其基于TextDiffuser2的"Frame"功能進(jìn)行可控渲染(結(jié)果見附錄圖12)
對于拉丁文本,由于基礎(chǔ)模型本身具備優(yōu)秀理解能力,RepText主要作為位置引導(dǎo)和字體指定工具。實(shí)驗(yàn)未采用在提示詞中顯式添加待渲染文本(英文)的策略。
多語言對比:
- 開源模型:Kolors 1.0 、Cogview4
- 閉源模型:Kolors 1.5 、Gemini Flash 2.0、Wan2.1 Pro、GPT-4o、Seedream 3.0、Kolors 2.0注:Hunyuan-DiT雖采用mT5文本編碼器,但不支持多語言文本渲染(結(jié)果見附錄圖13)。
對比結(jié)論:
- 相比開源方法:在文本準(zhǔn)確性和圖像質(zhì)量上具有顯著優(yōu)勢
- 相比采用多語言文本編碼器的閉源模型:具備更好的可控性
- 局限性:必須承認(rèn),由于GPT-4o、Seedream 3.0、Kolors 2.0等最先進(jìn)模型具備原生多語言理解能力,其在文本內(nèi)容渲染靈活性上優(yōu)于本方法。
與現(xiàn)有工作的兼容性
為展示本方法的兼容性和有效性,為RepText配備了常用的插件模型,包括風(fēng)格LoRA、其他ControlNet和IP-Adapter。
LoRA:本文使用了HuggingFace上的三個(gè)開源LoRA。具體選擇了提供膠片質(zhì)感的FilmPortrait1、創(chuàng)作毛線藝術(shù)的FLUX.1-dev-LoRA-MiaoKa-Yarn-World2以及簡筆畫風(fēng)格的FLUX.1-dev-LoRA-Children-Simple-Sketch3。如圖5所示,本文的工作完全兼容社區(qū)LoRA的風(fēng)格化處理。
其他ControlNet:使用ControlNet-Union-Pro-2.0和ControlNet-Inpainting來實(shí)現(xiàn)空間控制和文本編輯。結(jié)果如附錄圖14所示。
IP-Adapter:以FLUX.1-dev-IP-Adapter為例。如附錄圖15所示,本文方法可以與IP-Adapter一起使用。
消融研究
ControlNet條件的選擇:進(jìn)行了實(shí)驗(yàn)來分析不同ControlNet條件的影響。在僅使用位置條件的情況下,它只提供位置引導(dǎo);在僅使用Canny條件的情況下,可以渲染相應(yīng)的文本,但準(zhǔn)確性和和諧性有限;而在聯(lián)合使用Canny和位置條件時(shí),可以準(zhǔn)確地渲染和諧的文本。結(jié)果見附錄圖16。
字形隱空間變量復(fù)制的效果:如附錄圖17(左)所示,從字形隱空間變量初始化可以無損提高排版準(zhǔn)確性。此外,如附錄圖17(右)所示,它允許用戶指定顏色,而無需依賴額外的顏色編碼器。
區(qū)域掩碼的效果:與其他ControlNet通常使用全局密集控制信號不同,文本是局部稀疏控制。發(fā)現(xiàn),在推理階段引入?yún)^(qū)域掩碼有助于提高非文本背景的質(zhì)量,如附錄圖18所示。
局限性與未來工作
典型失敗案例:盡管RepText展示了良好的文本渲染能力和兼容性,但由于其自身缺乏對文本的理解,仍然存在一些局限性。本文討論以下幾種常見的失敗情況:
與場景不協(xié)調(diào):盡管訓(xùn)練數(shù)據(jù)集中包含大量自然場景(如路標(biāo))的文本數(shù)據(jù),但文本編碼器(T5-XXL)本身并不理解需要渲染的文本內(nèi)容(即使將文本內(nèi)容添加到提示詞中),特別是非拉丁文本,因此有時(shí)文本會像簽名或水印一樣生硬地粘貼在生成的圖像上,導(dǎo)致與場景不協(xié)調(diào),如附錄圖19(a)所示。
文本精度有限:對于藏文等筆畫復(fù)雜的文本或小字體,即使使用本文的框架,渲染精度仍然較差,如附錄圖19(b)所示。其中一個(gè)原因是控制條件不夠精確,而且當(dāng)前VAE的壓縮率也會導(dǎo)致小字符的渲染效果不佳。
渲染額外文本. 發(fā)現(xiàn)即使使用區(qū)域掩碼,一些額外的文本仍會出現(xiàn)在非渲染文本區(qū)域,如附錄圖19(c)所示,這些文本通常是無意義、不可識別或重復(fù)的。
文本多樣性有限。 受限于文本編碼器,本文必須使用額外的條件,無法通過提示詞靈活控制文本屬性,包括其位置、顏色、材質(zhì)等。
不支持精確的顏色控制。 雖然從字形隱空間變量初始化可以實(shí)現(xiàn)粗略的顏色控制,但無法嚴(yán)格渲染細(xì)粒度的顏色,這限制了其在實(shí)際場景中的應(yīng)用。
缺乏扭曲與透視效果。 由于文本內(nèi)容完全由正視角字形控制,受限于前端渲染機(jī)制,難以靈活生成帶有變形和透視效果的文本,也無法生成具有扭曲風(fēng)格的藝術(shù)字。
未來工作方向。如前述章節(jié)所述,承認(rèn)最靈活有效的文本渲染方式是讓模型理解每個(gè)詞語的具體含義——即采用多語言文本編碼器或MLLM(多模態(tài)大語言模型),從而實(shí)現(xiàn)自然場景或海報(bào)場景的文本渲染。核心問題在于:除了替換文本編碼器并從頭訓(xùn)練之外,是否存在一種低成本方案(使用更少的訓(xùn)練參數(shù)和數(shù)據(jù)),能在不損害原有生成能力的前提下,使現(xiàn)有文本生成圖像模型具備多語言文本識別與渲染能力?例如MetaQuery研究表明,當(dāng)MLLM主干和Diffusion主干均保持凍結(jié)、僅訓(xùn)練輕量級連接器時(shí),MLLM的理解與推理能力可增強(qiáng)圖像生成——類似方法或可應(yīng)用于視覺文本渲染領(lǐng)域。
結(jié)論
本研究受書法字帖啟發(fā),提出了一種簡單高效的框架RepText,用于可控多語言視覺文本渲染。該方法使預(yù)訓(xùn)練的單語言文本生成圖像模型具備生成多語言、多字體、多色彩可讀文本的能力。
具體而言:
- 無需額外圖像/文本編碼器理解語義,通過結(jié)合canny邊緣與位置圖像的ControlNet實(shí)現(xiàn)字形復(fù)制;
- 創(chuàng)新性引入字形隱空間變量復(fù)制技術(shù)提升文本精度并支持色彩控制;
- 采用區(qū)域掩碼方案確保生成質(zhì)量不受文本信息干擾。
實(shí)驗(yàn)表明,本方法優(yōu)于現(xiàn)有開源方案,并與原生多語言閉源模型效果相當(dāng)。后續(xù)將探索如何高效賦予單語言模型多語言理解能力,從而進(jìn)一步提升文本渲染的靈活性與準(zhǔn)確性。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
