自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擴(kuò)散模型生成帶漢字圖像,一鍵輸出表情包:OPPO等提出GlyphDraw

人工智能 新聞
為了讓 AI 生成的圖像里帶有真正的文字,人們想盡了辦法。

近來(lái),文本生成圖像領(lǐng)域取得了很多意想不到的突破,很多模型都可以實(shí)現(xiàn)基于文本指令創(chuàng)建高質(zhì)量和多樣化圖像的功能。雖然生成的圖像已經(jīng)很逼真,但當(dāng)前模型往往善于生成風(fēng)景、物體等實(shí)物圖像,但很難生成帶有高度連貫細(xì)節(jié)的圖像,例如帶有漢字等復(fù)雜字形文本的圖像。

為了解決這個(gè)問(wèn)題,來(lái)自 OPPO 等機(jī)構(gòu)的研究者們提出了一個(gè)通用學(xué)習(xí)框架 GlyphDraw,旨在讓模型能夠生成嵌入連貫文本的圖像,這是圖像合成領(lǐng)域首個(gè)解決漢字生成問(wèn)題的工作。

圖片

  • 論文地址:https://arxiv.org/abs/2303.17870
  • 項(xiàng)目主頁(yè):https://1073521013.github.io/glyph-draw.github.io/

我們先來(lái)看一下生成效果,例如為展覽館生成警示標(biāo)語(yǔ):

圖片

生成廣告牌:

圖片

為圖片配上簡(jiǎn)要的文本說(shuō)明,文字樣式也可多樣化:

圖片

還有,最有趣也最實(shí)用的例子是生成表情包:

圖片

雖然結(jié)果存在一些瑕疵,但是整體生成效果已經(jīng)很好了??傮w來(lái)說(shuō),該研究的主要貢獻(xiàn)包括:


  • 該研究提出了首個(gè)漢字圖像生成框架 GlyphDraw,其中利用一些輔助信息,包括漢字字形和位置在整個(gè)生成過(guò)程中提供細(xì)粒度指導(dǎo),從而使?jié)h字圖像高質(zhì)量無(wú)縫嵌入到圖像中;
  • 該研究提出了一種有效的訓(xùn)練策略,限制了預(yù)訓(xùn)練模型中可訓(xùn)練參數(shù)的數(shù)量,以防止過(guò)擬合和災(zāi)難性遺忘(catastrophic forgetting),有效地保持了模型強(qiáng)大的開(kāi)放域生成性能,同時(shí)實(shí)現(xiàn)了準(zhǔn)確的漢字圖像生成。
  • 該研究介紹了訓(xùn)練數(shù)據(jù)集的構(gòu)建過(guò)程,并提出了一個(gè)新的基準(zhǔn)來(lái)使用 OCR 模型評(píng)估漢字圖像生成質(zhì)量。其中,GlyphDraw 獲得了 75% 的生成準(zhǔn)確率,明顯優(yōu)于以前的圖像合成方法。

圖片

模型介紹

該研究首先設(shè)計(jì)了復(fù)雜的圖像 - 文本數(shù)據(jù)集構(gòu)建策略,然后基于開(kāi)源圖像合成算法 Stable Diffusion 提出了通用學(xué)習(xí)框架 GlyphDraw,如下圖 2 所示。

圖片

Stable Diffusion 的整體訓(xùn)練目標(biāo)可以表示為如下公式:

圖片

GlyphDraw 基于 Stable Diffusion 中的交叉注意力機(jī)制,原始輸入潛在向量 z_t 被圖像潛在向量的 z_t、文本掩碼 l_m 和字形圖像 l_g 的級(jí)聯(lián)替代。

圖片

此外,通過(guò)使用特定領(lǐng)域的融合模塊,條件 C 配備了混合字形和文本特征。文本掩碼和字形信息的引入,讓整個(gè)訓(xùn)練過(guò)程實(shí)現(xiàn)了細(xì)粒度的擴(kuò)散控制,是提高模型性能的關(guān)鍵組成部分,最終得以生成帶有漢字文本的圖像。

具體來(lái)說(shuō),文本信息的像素表征,特別是象形漢字這種復(fù)雜的文本形式,與自然物體有明顯的不同。例如,中文詞語(yǔ)「天空(sky)」是由二維結(jié)構(gòu)的多個(gè)筆畫組成,而其對(duì)應(yīng)的自然圖像是「點(diǎn)綴著白云的藍(lán)天」。相比之下,漢字有非常細(xì)粒度的特性,甚至是微小的移動(dòng)或變形都會(huì)導(dǎo)致不正確的文本渲染,從而無(wú)法實(shí)現(xiàn)圖像生成。

在自然圖像背景中嵌入字符還需要考慮一個(gè)關(guān)鍵問(wèn)題,那就是在避免影響相鄰自然圖像像素的同時(shí),還要精確地控制文本像素的生成。為了在自然圖像上呈現(xiàn)完美的漢字,作者精心設(shè)計(jì)了兩個(gè)集成到擴(kuò)散合成模型中的關(guān)鍵組件,即位置控制和字形控制。

與其他模型的全局條件輸入不同,字符生成需要更多地關(guān)注圖像的特定局部區(qū)域,因?yàn)樽址袼氐臐撛谔卣鞣植寂c自然圖像像素的潛在特征分布有很大差異。為了防止模型學(xué)習(xí)崩潰,該研究創(chuàng)新性地提出了細(xì)粒度位置區(qū)域控制來(lái)解耦不同區(qū)域之間的分布。

除了位置控制,另一個(gè)重要的問(wèn)題是漢字筆畫合成的精細(xì)控制??紤]到漢字的復(fù)雜性和多樣性,在沒(méi)有任何明確先驗(yàn)知識(shí)的情況下,僅僅只是從大量的圖像 - 文本數(shù)據(jù)集中學(xué)習(xí)是極其困難的。為了準(zhǔn)確地生成漢字,該研究將顯式字形圖像作為額外的條件信息納入模型擴(kuò)散過(guò)程。

圖片

實(shí)驗(yàn)及結(jié)果

由于此前沒(méi)有專門用于漢字圖像生成的數(shù)據(jù)集,該研究首先構(gòu)建了一個(gè)用于定性和定量評(píng)估的基準(zhǔn)數(shù)據(jù)集 ChineseDrawText,然后在 ChineseDrawText 上測(cè)試比較了幾種方法的生成準(zhǔn)確率(由 OCR 識(shí)別模型評(píng)估)。

圖片

該研究提出的 GlyphDraw 模型通過(guò)有效地使用輔助字形和位置信息達(dá)到了 75% 的平均準(zhǔn)確率,從而證明了該模型出色的字符圖像生成能力。幾種方法的可視化比較結(jié)果如下圖所示:

圖片

此外,GlyphDraw 還可以通過(guò)限制訓(xùn)練參數(shù)來(lái)保持開(kāi)放域圖像合成性能,在 MS-COCO FID-10k 上一般圖像合成的 FID 僅下降了 2.3。

圖片

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究細(xì)節(jié)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-10-29 13:30:00

2024-12-30 07:11:00

大型視覺(jué)語(yǔ)言模型VLMs人工智能

2024-04-08 14:07:51

Animagine開(kāi)源

2025-04-28 09:35:00

2024-10-30 14:10:00

圖像生成模型

2024-10-29 14:40:00

圖像生成模型

2024-11-25 14:30:00

2025-02-18 09:27:20

2025-01-13 09:17:41

2024-07-04 10:13:18

2023-10-11 12:32:26

模型訓(xùn)練

2024-01-16 17:17:30

模型訓(xùn)練

2011-01-27 10:40:08

2024-03-07 12:31:29

AI技術(shù)

2019-10-11 11:00:53

Nginx神器前端

2022-08-02 14:27:01

HDF驅(qū)動(dòng)框架驅(qū)動(dòng)開(kāi)發(fā)

2024-03-15 14:34:12

Oracle數(shù)據(jù)庫(kù)一鍵巡檢

2024-04-08 13:59:03

大模型Replicate

2015-02-09 15:25:52

換膚
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)