清華、北大與微軟推出Glyph-ByT5-v2:渲染高視覺美感文本,海報驚艷,媲美DALL-E3!
微軟亞洲研究院、清華大學(xué)、北京大學(xué)、利物浦大學(xué)聯(lián)合推出功能強大的定制多語言文本編碼器Glyph-ByT5-v2和功能強大的美觀圖形生成模型Glyph-SDXL-v2,它們可以支持 10 種不同語言的準(zhǔn)確拼寫??紤]到最新的DALLE-3 和Ideogram仍然難以完成多語言視覺文本渲染任務(wù),該工作是一項重大進步。
Glyph-ByT5-v2+Glyph-SDXL-v2效果展示
Glyph-ByT5-v2+Glyph-SDXL-v2方法進行多語言視覺文本渲染的結(jié)果。分別在第1行、第2行、第3行、第4行和第5行展示了法語、西班牙語、中文、日語和韓語的視覺文本結(jié)果。
?
競品:DALL·E3和Ideogram 1.0生成的多語言結(jié)果的可視化展示,效果不佳
應(yīng)用步驟感知偏好優(yōu)化(SPO)后訓(xùn)練的效果。按順序展示的圖像由以下幾行生成:第一行是Glyph-SDXL生成的圖像,第二行是Glyph-SDXL Albedo生成的圖像,最后一行是Glyph-SDXL Albedo加上SPO生成的圖像。
Glyph-ByT5-v2+Glyph-SDXL-v2如何使用:
- 頁面布局設(shè)計
- ?每一塊布局box的Prompt、Color、Font填充
Glyph-ByT5-v2+Glyph-SDXL-v2 demo體驗:
??https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2??
https://glyph-byt5-v2.github.io
https://arxiv.org/abs/2406.10208
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Render
本文轉(zhuǎn)載自PaperAgent
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報

回復(fù)
相關(guān)推薦