自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度解析Recraft V3:突破文本渲染限制,「文生圖」黑馬是怎樣煉成的?

人工智能
Recraft團(tuán)隊(duì)通過結(jié)合TextDiffuser-2技術(shù)和自訓(xùn)練的大型語言模型,提升了文本到圖像渲染的質(zhì)量和準(zhǔn)確性,不過現(xiàn)有模型在處理復(fù)雜語言如中文和未明確指定的文本時(shí),仍存在渲染不準(zhǔn)確的問題。

在當(dāng)前的圖像生成技術(shù)中,文本渲染的能力已逐漸成為衡量其先進(jìn)性的重要標(biāo)準(zhǔn)。不論是學(xué)術(shù)界的最新研究還是市場上的先進(jìn)產(chǎn)品,都在競相展示其處理復(fù)雜文本的能力,這不僅標(biāo)志著技術(shù)的進(jìn)步,更是成為一種創(chuàng)新的分水嶺。

實(shí)際上,字圖生成技術(shù)在多個(gè)領(lǐng)域內(nèi)顯示出顯著的實(shí)用性,例如在設(shè)計(jì)海報(bào)、書籍封面、廣告和LOGO等方面,已成為不可或缺的工具。

圖片

此外,隨著社交媒體和數(shù)字營銷的興起,能夠快速生成視覺吸引力強(qiáng)的圖像變得尤為重要。這些圖像往往需要結(jié)合富有創(chuàng)意的文本,以更好地與目標(biāo)觀眾溝通,從而在短時(shí)間內(nèi)吸引用戶注意力,提高品牌識(shí)別度。

圖片

圖1 現(xiàn)有文生圖方法的生成結(jié)果。Prompt: a cat holds a paper saying text rendering is important

在圖1中,我們可以直觀地看到文生圖模型技術(shù)的飛速進(jìn)步。然而,盡管技術(shù)日益成熟,部分方法在處理復(fù)雜文本時(shí)仍顯示出一些局限性。

例如,生成的圖像有時(shí)會(huì)遺漏prompt中的關(guān)鍵詞,這可能會(huì)影響最終圖像的可用性。而像Ideogram和Recraft V3這樣的產(chǎn)品在文本渲染方面表現(xiàn)出色。

它們能夠更精確地捕捉和呈現(xiàn)文本中的細(xì)節(jié)和語境,從而生成與輸入文本高度匹配的圖像。

值得一提的是,Recraft V3作為文生圖領(lǐng)域的黑馬,已經(jīng)在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO評(píng)分獲得了第一名(圖2)。Recraft的新模型展示出的質(zhì)量超過了Midjourney、OpenAI以及其他所有主要圖像生成公司的模型。

圖片

圖2 在文生圖排行榜上,Recraft V3排名第一

最近,Recraft團(tuán)隊(duì)在其官方網(wǎng)站上分享了其在文本渲染技術(shù)方面的一些實(shí)現(xiàn)細(xì)節(jié)。接下來的部分,我將詳細(xì)分析這些技術(shù)細(xì)節(jié),探討Recraft如何實(shí)現(xiàn)其出色的文本到圖像渲染效果。

圖片

圖3 早期Recraft 20B模型的文本渲染能力不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws

Recraft團(tuán)隊(duì)首先嘗試使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成圖像,結(jié)果發(fā)現(xiàn)文本渲染效果不佳(圖3)。基于此Recraft團(tuán)隊(duì)總結(jié)分析了幾個(gè)關(guān)鍵點(diǎn):

1. 訓(xùn)練數(shù)據(jù)的限制:文本到圖像的生成模型主要是在包含圖像及其對(duì)應(yīng)簡要描述的數(shù)據(jù)集上進(jìn)行優(yōu)化的。這些描述通常只涵蓋圖像的大致內(nèi)容,而不提供具體細(xì)節(jié),尤其是圖像中的文字內(nèi)容。因此,當(dāng)需要生成包含具體文字的圖像時(shí),模型因?yàn)槿狈υ敿?xì)的條件或例子而表現(xiàn)不佳。

2. 文本錯(cuò)誤的易識(shí)別性:人類的大腦對(duì)于處理和識(shí)別文本非常擅長,因此在圖像生成中的任何文本錯(cuò)誤都很容易被我們發(fā)現(xiàn)。

為了解決圖像生成模型在處理圖像中的文本問題,Recraft團(tuán)隊(duì)采用了一種方法,使用文本布局圖作為更詳細(xì)的輸入條件。此策略的靈感來源于TextDiffuser-2論文(圖4),該論文提供了有效處理文本表征技術(shù)。

圖片

圖4 Recraft團(tuán)隊(duì)采用TextDiffuser-2技術(shù)構(gòu)造兩階段文本渲染框架

論文鏈接:https://arxiv.org/pdf/2311.16465

在搜集數(shù)據(jù)的過程中,Recraft團(tuán)隊(duì)借鑒了TextDiffuser-2的方法,采用了兩階段生成框架:首先生成文本布局,然后基于這些布局生成圖像。

盡管文本布局可以通過使用OCR技術(shù)從現(xiàn)有的字圖圖像中檢測獲得,Recraft團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的開源OCR工具難以生成完美的OCR結(jié)果,這主要是由于數(shù)據(jù)分布的差異。

因此,Recraft團(tuán)隊(duì)參考了《Bridging the Gap Between End-to-End and Two-Step Text Spotting》論文(圖5),開發(fā)了一種新的文本檢測和識(shí)別方法。

圖片

圖5 Recraft團(tuán)隊(duì)采用此論文提取文本layout

論文鏈接:https://arxiv.org/abs/2404.04624

最終,Recraft團(tuán)隊(duì)基于大語言模型訓(xùn)練了兩個(gè)「雙向」的模型:一個(gè)模型基于OCR結(jié)果生成caption,另一個(gè)模型則可以根據(jù)用戶的prompt生成模型想象的OCR caption,從而完成文本布局的生成。這樣的方法有效地提升了生成圖像的質(zhì)量和文本的準(zhǔn)確性。

圖片

圖片

圖6 Recraft團(tuán)隊(duì)使用OCR模型提取圖像的文本layout,采用大語言模型得到caption,并訓(xùn)練另外一個(gè)大語言模型由prompt得到layout用于圖像生成

在構(gòu)建文本信息的過程中,Recraft團(tuán)隊(duì)采用了TextDiffuser-2的表征方式,每一行文本首先記錄了文本的內(nèi)容,隨后通過坐標(biāo)來指明文本的具體區(qū)域。

與TextDiffuser-2不同,Recraft團(tuán)隊(duì)使用了三個(gè)坐標(biāo)點(diǎn)來表示文本(圖7),使得模型能夠支持渲染傾斜的文本。

此外,Recraft團(tuán)隊(duì)最終選擇了類似ControlNet的架構(gòu)來渲染白底黑字的圖像,用作模型生成的輔助條件。這種方法增加了文本渲染的可控性,允許用戶自定義想要渲染的文本區(qū)域。這與僅使用prompt作為條件的flux和ideogram方法形成了對(duì)比,提供了更高的靈活性和控制度。

圖片

圖片

圖7 Recraft團(tuán)隊(duì)采用TextDiffuser-2的表征方式得到文本layout,并將其渲染為圖片作為condition進(jìn)行圖像生成

由于Recraft團(tuán)隊(duì)開放了測試接口,我對(duì)模型進(jìn)行了一些測試,效果十分驚艷

圖片

圖8 prompt: a cat holds a paper saying abcdefghijklmnopqrstuvwxyz

圖片

圖9 prompt: a graphic design with monkey music festival poster

圖片

圖10 prompt: a girl in the left holds the paper saying hello and a boy in the right holds the paper saying world

圖片

圖11 prompt: On a rainy night, the lightning in the sky formed the shape of "hello."

然而Recraft依然存在一些問題,例如模型盡管能支持中文prompt,但對(duì)于中文渲染不是特別好:

圖片

圖12 prompt: 下雨的夜晚,天空中的閃電構(gòu)成了“天空”兩個(gè)字

另外Recraft也很難渲染未明確指定的文本:

圖片

圖13 prompt: a man stands in front of a huge newspaper??梢园l(fā)現(xiàn)小字部分的筆畫是扭曲的。

圖片

圖14 prompt: keyboard。鍵盤上的文本是錯(cuò)亂的。

圖片

圖15 prompt: ruler??潭仁清e(cuò)亂的。

總之,文本渲染在文本生成圖像領(lǐng)域扮演了至關(guān)重要的角色,它不僅關(guān)系到圖像的視覺呈現(xiàn),還影響到文本信息的準(zhǔn)確傳達(dá)和語義理解。盡管近年來技術(shù)有了顯著的進(jìn)步,但文本渲染依然面臨諸多挑戰(zhàn),需要進(jìn)一步的研究和改進(jìn)。

參考資料:

https://www.recraft.ai/blog/how-to-create-sota-image-generation-with-text-recrafts-ml-team-insights

Chen J, Huang Y, Lv T, et al. Textdiffuser: Diffusion models as text painters. NeurIPS 2023. 

Chen J, Huang Y, Lv T, et al. Textdiffuser-2: Unleashing the power of language models for text rendering. ECCV 2024. Huang M, Li H, Liu Y, et al. 

Bridging the Gap Between End-to-End and Two-Step Text Spotting. CVPR 2024.

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2015-08-13 10:38:30

2010-03-24 15:40:39

網(wǎng)管運(yùn)維管理摩卡軟件

2011-11-25 09:48:04

天線無線

2013-08-19 16:17:48

CIO

2024-03-28 08:13:51

GPTsOpenAI人工智能

2015-11-10 09:09:23

代碼程序員成長

2015-09-06 09:09:13

2014-06-20 10:34:42

開源

2024-10-07 13:29:26

2010-12-28 10:40:50

admin

2021-02-08 23:52:17

CISO安全主管首席信息安全官

2018-02-26 18:54:37

2012-05-28 16:30:27

Web

2024-12-30 09:25:00

數(shù)據(jù)訓(xùn)練摩擦

2012-11-15 12:01:39

iPhone 5

2015-08-27 15:06:42

全能渠道華為

2012-08-29 09:58:34

JavaScriptJavaScript模

2024-12-30 20:32:36

2021-06-29 08:45:55

邏輯變量法函數(shù)

2009-02-23 13:05:32

程序員學(xué)習(xí)方法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)