自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="shds1"></sup>

^{<sub id="shds1"></sub>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

深度解析Recraft V3：突破文本渲染限制，「文生圖」黑馬是怎樣煉成的？

作者：新智元 2024-11-14 13:19:27

Recraft團(tuán)隊(duì)通過結(jié)合TextDiffuser-2技術(shù)和自訓(xùn)練的大型語言模型，提升了文本到圖像渲染的質(zhì)量和準(zhǔn)確性，不過現(xiàn)有模型在處理復(fù)雜語言如中文和未明確指定的文本時(shí)，仍存在渲染不準(zhǔn)確的問題。

在當(dāng)前的圖像生成技術(shù)中，文本渲染的能力已逐漸成為衡量其先進(jìn)性的重要標(biāo)準(zhǔn)。不論是學(xué)術(shù)界的最新研究還是市場上的先進(jìn)產(chǎn)品，都在競相展示其處理復(fù)雜文本的能力，這不僅標(biāo)志著技術(shù)的進(jìn)步，更是成為一種創(chuàng)新的分水嶺。

實(shí)際上，字圖生成技術(shù)在多個(gè)領(lǐng)域內(nèi)顯示出顯著的實(shí)用性，例如在設(shè)計(jì)海報(bào)、書籍封面、廣告和LOGO等方面，已成為不可或缺的工具。

此外，隨著社交媒體和數(shù)字營銷的興起，能夠快速生成視覺吸引力強(qiáng)的圖像變得尤為重要。這些圖像往往需要結(jié)合富有創(chuàng)意的文本，以更好地與目標(biāo)觀眾溝通，從而在短時(shí)間內(nèi)吸引用戶注意力，提高品牌識(shí)別度。

圖1 現(xiàn)有文生圖方法的生成結(jié)果。Prompt: a cat holds a paper saying text rendering is important

在圖1中，我們可以直觀地看到文生圖模型技術(shù)的飛速進(jìn)步。然而，盡管技術(shù)日益成熟，部分方法在處理復(fù)雜文本時(shí)仍顯示出一些局限性。

例如，生成的圖像有時(shí)會(huì)遺漏prompt中的關(guān)鍵詞，這可能會(huì)影響最終圖像的可用性。而像Ideogram和Recraft V3這樣的產(chǎn)品在文本渲染方面表現(xiàn)出色。

它們能夠更精確地捕捉和呈現(xiàn)文本中的細(xì)節(jié)和語境，從而生成與輸入文本高度匹配的圖像。

值得一提的是，Recraft V3作為文生圖領(lǐng)域的黑馬，已經(jīng)在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO評(píng)分獲得了第一名（圖2）。Recraft的新模型展示出的質(zhì)量超過了Midjourney、OpenAI以及其他所有主要圖像生成公司的模型。

圖2 在文生圖排行榜上，Recraft V3排名第一

最近，Recraft團(tuán)隊(duì)在其官方網(wǎng)站上分享了其在文本渲染技術(shù)方面的一些實(shí)現(xiàn)細(xì)節(jié)。接下來的部分，我將詳細(xì)分析這些技術(shù)細(xì)節(jié)，探討Recraft如何實(shí)現(xiàn)其出色的文本到圖像渲染效果。

圖3 早期Recraft 20B模型的文本渲染能力不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws

Recraft團(tuán)隊(duì)首先嘗試使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成圖像，結(jié)果發(fā)現(xiàn)文本渲染效果不佳（圖3）。基于此Recraft團(tuán)隊(duì)總結(jié)分析了幾個(gè)關(guān)鍵點(diǎn)：

1. 訓(xùn)練數(shù)據(jù)的限制：文本到圖像的生成模型主要是在包含圖像及其對(duì)應(yīng)簡要描述的數(shù)據(jù)集上進(jìn)行優(yōu)化的。這些描述通常只涵蓋圖像的大致內(nèi)容，而不提供具體細(xì)節(jié)，尤其是圖像中的文字內(nèi)容。因此，當(dāng)需要生成包含具體文字的圖像時(shí)，模型因?yàn)槿狈υ敿?xì)的條件或例子而表現(xiàn)不佳。

2. 文本錯(cuò)誤的易識(shí)別性：人類的大腦對(duì)于處理和識(shí)別文本非常擅長，因此在圖像生成中的任何文本錯(cuò)誤都很容易被我們發(fā)現(xiàn)。

為了解決圖像生成模型在處理圖像中的文本問題，Recraft團(tuán)隊(duì)采用了一種方法，使用文本布局圖作為更詳細(xì)的輸入條件。此策略的靈感來源于TextDiffuser-2論文（圖4），該論文提供了有效處理文本表征技術(shù)。

圖4 Recraft團(tuán)隊(duì)采用TextDiffuser-2技術(shù)構(gòu)造兩階段文本渲染框架

論文鏈接：https://arxiv.org/pdf/2311.16465

在搜集數(shù)據(jù)的過程中，Recraft團(tuán)隊(duì)借鑒了TextDiffuser-2的方法，采用了兩階段生成框架：首先生成文本布局，然后基于這些布局生成圖像。

盡管文本布局可以通過使用OCR技術(shù)從現(xiàn)有的字圖圖像中檢測獲得，Recraft團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的開源OCR工具難以生成完美的OCR結(jié)果，這主要是由于數(shù)據(jù)分布的差異。

因此，Recraft團(tuán)隊(duì)參考了《Bridging the Gap Between End-to-End and Two-Step Text Spotting》論文（圖5），開發(fā)了一種新的文本檢測和識(shí)別方法。

圖5 Recraft團(tuán)隊(duì)采用此論文提取文本layout

論文鏈接：https://arxiv.org/abs/2404.04624

最終，Recraft團(tuán)隊(duì)基于大語言模型訓(xùn)練了兩個(gè)「雙向」的模型：一個(gè)模型基于OCR結(jié)果生成caption，另一個(gè)模型則可以根據(jù)用戶的prompt生成模型想象的OCR caption，從而完成文本布局的生成。這樣的方法有效地提升了生成圖像的質(zhì)量和文本的準(zhǔn)確性。

圖6 Recraft團(tuán)隊(duì)使用OCR模型提取圖像的文本layout，采用大語言模型得到caption，并訓(xùn)練另外一個(gè)大語言模型由prompt得到layout用于圖像生成

在構(gòu)建文本信息的過程中，Recraft團(tuán)隊(duì)采用了TextDiffuser-2的表征方式，每一行文本首先記錄了文本的內(nèi)容，隨后通過坐標(biāo)來指明文本的具體區(qū)域。

與TextDiffuser-2不同，Recraft團(tuán)隊(duì)使用了三個(gè)坐標(biāo)點(diǎn)來表示文本（圖7），使得模型能夠支持渲染傾斜的文本。

此外，Recraft團(tuán)隊(duì)最終選擇了類似ControlNet的架構(gòu)來渲染白底黑字的圖像，用作模型生成的輔助條件。這種方法增加了文本渲染的可控性，允許用戶自定義想要渲染的文本區(qū)域。這與僅使用prompt作為條件的flux和ideogram方法形成了對(duì)比，提供了更高的靈活性和控制度。

圖7 Recraft團(tuán)隊(duì)采用TextDiffuser-2的表征方式得到文本layout，并將其渲染為圖片作為condition進(jìn)行圖像生成

由于Recraft團(tuán)隊(duì)開放了測試接口，我對(duì)模型進(jìn)行了一些測試，效果十分驚艷

圖8 prompt: a cat holds a paper saying abcdefghijklmnopqrstuvwxyz

圖9 prompt: a graphic design with monkey music festival poster

圖10 prompt: a girl in the left holds the paper saying hello and a boy in the right holds the paper saying world

圖11 prompt: On a rainy night, the lightning in the sky formed the shape of "hello."

然而Recraft依然存在一些問題，例如模型盡管能支持中文prompt，但對(duì)于中文渲染不是特別好：

圖12 prompt: 下雨的夜晚，天空中的閃電構(gòu)成了“天空”兩個(gè)字

另外Recraft也很難渲染未明確指定的文本：

圖13 prompt: a man stands in front of a huge newspaper?？梢园l(fā)現(xiàn)小字部分的筆畫是扭曲的。

圖14 prompt: keyboard。鍵盤上的文本是錯(cuò)亂的。

圖15 prompt: ruler?？潭仁清e(cuò)亂的。

總之，文本渲染在文本生成圖像領(lǐng)域扮演了至關(guān)重要的角色，它不僅關(guān)系到圖像的視覺呈現(xiàn)，還影響到文本信息的準(zhǔn)確傳達(dá)和語義理解。盡管近年來技術(shù)有了顯著的進(jìn)步，但文本渲染依然面臨諸多挑戰(zhàn)，需要進(jìn)一步的研究和改進(jìn)。

參考資料：

https://www.recraft.ai/blog/how-to-create-sota-image-generation-with-text-recrafts-ml-team-insights

Chen J, Huang Y, Lv T, et al. Textdiffuser: Diffusion models as text painters. NeurIPS 2023.

Chen J, Huang Y, Lv T, et al. Textdiffuser-2: Unleashing the power of language models for text rendering. ECCV 2024. Huang M, Li H, Liu Y, et al.

Bridging the Gap Between End-to-End and Two-Step Text Spotting. CVPR 2024.

責(zé)任編輯：武曉燕來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="9l6xo"><option id="9l6xo"></option></nobr>