深度解析Recraft V3:突破文本渲染限制,「文生圖」黑馬是怎樣煉成的?
在當(dāng)前的圖像生成技術(shù)中,文本渲染的能力已逐漸成為衡量其先進(jìn)性的重要標(biāo)準(zhǔn)。不論是學(xué)術(shù)界的最新研究還是市場上的先進(jìn)產(chǎn)品,都在競相展示其處理復(fù)雜文本的能力,這不僅標(biāo)志著技術(shù)的進(jìn)步,更是成為一種創(chuàng)新的分水嶺。
實(shí)際上,字圖生成技術(shù)在多個(gè)領(lǐng)域內(nèi)顯示出顯著的實(shí)用性,例如在設(shè)計(jì)海報(bào)、書籍封面、廣告和LOGO等方面,已成為不可或缺的工具。
此外,隨著社交媒體和數(shù)字營銷的興起,能夠快速生成視覺吸引力強(qiáng)的圖像變得尤為重要。這些圖像往往需要結(jié)合富有創(chuàng)意的文本,以更好地與目標(biāo)觀眾溝通,從而在短時(shí)間內(nèi)吸引用戶注意力,提高品牌識(shí)別度。
圖1 現(xiàn)有文生圖方法的生成結(jié)果。Prompt: a cat holds a paper saying text rendering is important
在圖1中,我們可以直觀地看到文生圖模型技術(shù)的飛速進(jìn)步。然而,盡管技術(shù)日益成熟,部分方法在處理復(fù)雜文本時(shí)仍顯示出一些局限性。
例如,生成的圖像有時(shí)會(huì)遺漏prompt中的關(guān)鍵詞,這可能會(huì)影響最終圖像的可用性。而像Ideogram和Recraft V3這樣的產(chǎn)品在文本渲染方面表現(xiàn)出色。
它們能夠更精確地捕捉和呈現(xiàn)文本中的細(xì)節(jié)和語境,從而生成與輸入文本高度匹配的圖像。
值得一提的是,Recraft V3作為文生圖領(lǐng)域的黑馬,已經(jīng)在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO評(píng)分獲得了第一名(圖2)。Recraft的新模型展示出的質(zhì)量超過了Midjourney、OpenAI以及其他所有主要圖像生成公司的模型。
圖2 在文生圖排行榜上,Recraft V3排名第一
最近,Recraft團(tuán)隊(duì)在其官方網(wǎng)站上分享了其在文本渲染技術(shù)方面的一些實(shí)現(xiàn)細(xì)節(jié)。接下來的部分,我將詳細(xì)分析這些技術(shù)細(xì)節(jié),探討Recraft如何實(shí)現(xiàn)其出色的文本到圖像渲染效果。
圖3 早期Recraft 20B模型的文本渲染能力不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws
Recraft團(tuán)隊(duì)首先嘗試使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成圖像,結(jié)果發(fā)現(xiàn)文本渲染效果不佳(圖3)。基于此Recraft團(tuán)隊(duì)總結(jié)分析了幾個(gè)關(guān)鍵點(diǎn):
1. 訓(xùn)練數(shù)據(jù)的限制:文本到圖像的生成模型主要是在包含圖像及其對(duì)應(yīng)簡要描述的數(shù)據(jù)集上進(jìn)行優(yōu)化的。這些描述通常只涵蓋圖像的大致內(nèi)容,而不提供具體細(xì)節(jié),尤其是圖像中的文字內(nèi)容。因此,當(dāng)需要生成包含具體文字的圖像時(shí),模型因?yàn)槿狈υ敿?xì)的條件或例子而表現(xiàn)不佳。
2. 文本錯(cuò)誤的易識(shí)別性:人類的大腦對(duì)于處理和識(shí)別文本非常擅長,因此在圖像生成中的任何文本錯(cuò)誤都很容易被我們發(fā)現(xiàn)。
為了解決圖像生成模型在處理圖像中的文本問題,Recraft團(tuán)隊(duì)采用了一種方法,使用文本布局圖作為更詳細(xì)的輸入條件。此策略的靈感來源于TextDiffuser-2論文(圖4),該論文提供了有效處理文本表征技術(shù)。
圖4 Recraft團(tuán)隊(duì)采用TextDiffuser-2技術(shù)構(gòu)造兩階段文本渲染框架
論文鏈接:https://arxiv.org/pdf/2311.16465
在搜集數(shù)據(jù)的過程中,Recraft團(tuán)隊(duì)借鑒了TextDiffuser-2的方法,采用了兩階段生成框架:首先生成文本布局,然后基于這些布局生成圖像。
盡管文本布局可以通過使用OCR技術(shù)從現(xiàn)有的字圖圖像中檢測獲得,Recraft團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的開源OCR工具難以生成完美的OCR結(jié)果,這主要是由于數(shù)據(jù)分布的差異。
因此,Recraft團(tuán)隊(duì)參考了《Bridging the Gap Between End-to-End and Two-Step Text Spotting》論文(圖5),開發(fā)了一種新的文本檢測和識(shí)別方法。
圖5 Recraft團(tuán)隊(duì)采用此論文提取文本layout
論文鏈接:https://arxiv.org/abs/2404.04624
最終,Recraft團(tuán)隊(duì)基于大語言模型訓(xùn)練了兩個(gè)「雙向」的模型:一個(gè)模型基于OCR結(jié)果生成caption,另一個(gè)模型則可以根據(jù)用戶的prompt生成模型想象的OCR caption,從而完成文本布局的生成。這樣的方法有效地提升了生成圖像的質(zhì)量和文本的準(zhǔn)確性。
圖6 Recraft團(tuán)隊(duì)使用OCR模型提取圖像的文本layout,采用大語言模型得到caption,并訓(xùn)練另外一個(gè)大語言模型由prompt得到layout用于圖像生成
在構(gòu)建文本信息的過程中,Recraft團(tuán)隊(duì)采用了TextDiffuser-2的表征方式,每一行文本首先記錄了文本的內(nèi)容,隨后通過坐標(biāo)來指明文本的具體區(qū)域。
與TextDiffuser-2不同,Recraft團(tuán)隊(duì)使用了三個(gè)坐標(biāo)點(diǎn)來表示文本(圖7),使得模型能夠支持渲染傾斜的文本。
此外,Recraft團(tuán)隊(duì)最終選擇了類似ControlNet的架構(gòu)來渲染白底黑字的圖像,用作模型生成的輔助條件。這種方法增加了文本渲染的可控性,允許用戶自定義想要渲染的文本區(qū)域。這與僅使用prompt作為條件的flux和ideogram方法形成了對(duì)比,提供了更高的靈活性和控制度。
圖7 Recraft團(tuán)隊(duì)采用TextDiffuser-2的表征方式得到文本layout,并將其渲染為圖片作為condition進(jìn)行圖像生成
由于Recraft團(tuán)隊(duì)開放了測試接口,我對(duì)模型進(jìn)行了一些測試,效果十分驚艷
圖8 prompt: a cat holds a paper saying abcdefghijklmnopqrstuvwxyz
圖9 prompt: a graphic design with monkey music festival poster
圖10 prompt: a girl in the left holds the paper saying hello and a boy in the right holds the paper saying world
圖11 prompt: On a rainy night, the lightning in the sky formed the shape of "hello."
然而Recraft依然存在一些問題,例如模型盡管能支持中文prompt,但對(duì)于中文渲染不是特別好:
圖12 prompt: 下雨的夜晚,天空中的閃電構(gòu)成了“天空”兩個(gè)字
另外Recraft也很難渲染未明確指定的文本:
圖13 prompt: a man stands in front of a huge newspaper??梢园l(fā)現(xiàn)小字部分的筆畫是扭曲的。
圖14 prompt: keyboard。鍵盤上的文本是錯(cuò)亂的。
圖15 prompt: ruler??潭仁清e(cuò)亂的。
總之,文本渲染在文本生成圖像領(lǐng)域扮演了至關(guān)重要的角色,它不僅關(guān)系到圖像的視覺呈現(xiàn),還影響到文本信息的準(zhǔn)確傳達(dá)和語義理解。盡管近年來技術(shù)有了顯著的進(jìn)步,但文本渲染依然面臨諸多挑戰(zhàn),需要進(jìn)一步的研究和改進(jìn)。
參考資料:
https://www.recraft.ai/blog/how-to-create-sota-image-generation-with-text-recrafts-ml-team-insights
Chen J, Huang Y, Lv T, et al. Textdiffuser: Diffusion models as text painters. NeurIPS 2023.
Chen J, Huang Y, Lv T, et al. Textdiffuser-2: Unleashing the power of language models for text rendering. ECCV 2024. Huang M, Li H, Liu Y, et al.
Bridging the Gap Between End-to-End and Two-Step Text Spotting. CVPR 2024.