海報(bào)生成如此簡單!OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2
文章鏈接:https://arxiv.org/pdf/2407.02252
github鏈接(待開源):https://github.com/OPPO-Mente-Lab/GlyphDraw2
海報(bào)在營銷和廣告中起著至關(guān)重要的作用,通過增強(qiáng)視覺傳播和品牌知名度,對(duì)工業(yè)設(shè)計(jì)有著顯著貢獻(xiàn)。隨著可控文本到圖像擴(kuò)散模型的最新進(jìn)展,更簡潔的研究現(xiàn)在集中在合成圖像中的文本渲染上。盡管文本渲染的準(zhǔn)確性有所提高,端到端的海報(bào)生成領(lǐng)域仍然探索不足。這項(xiàng)復(fù)雜的任務(wù)涉及在文本渲染準(zhǔn)確性和自動(dòng)布局之間取得平衡,以生成具有可變縱橫比的高分辨率圖像。
為了解決這一挑戰(zhàn),本文提出了一種采用三重交叉注意力機(jī)制的端到端文本渲染框架,該機(jī)制根植于對(duì)齊學(xué)習(xí),旨在在詳細(xì)的上下文背景中創(chuàng)建精確的海報(bào)文本。此外,引入了一個(gè)分辨率超過1024像素的高分辨率數(shù)據(jù)集。本文的方法利用了SDXL架構(gòu)。大量實(shí)驗(yàn)驗(yàn)證了該方法生成具有復(fù)雜和上下文豐富背景的海報(bào)圖像的能力。
本文貢獻(xiàn)如下:
- 通過微調(diào)大語言模型(LLMs)用于布局規(guī)劃,提出了一種端到端的海報(bào)生成解決方案?;趯?duì)齊學(xué)習(xí)和三重交叉注意力的字形生成框架可以在保持海報(bào)視覺豐富背景的同時(shí),將文本準(zhǔn)確地放置在適當(dāng)?shù)奈恢谩?/li>
- 引入了一個(gè)更高分辨率的數(shù)據(jù)集,包括中英文字形的圖文對(duì),以及高質(zhì)量的海報(bào)數(shù)據(jù)。
- 定量和定性實(shí)驗(yàn)結(jié)果都表明,本文提出的架構(gòu)在生成海報(bào)方面表現(xiàn)出色。
方法
模型概述
整個(gè)框架分為四部分,如下圖3所示。第一個(gè)部分是融合文本編碼器(Fusion Text Encoder, FTE)與字形embedding,其工作方式相對(duì)傳統(tǒng)。其主要目標(biāo)是從SD的文本編碼器的角度整合兩種模態(tài)的特征,從而確保生成圖像中兩種模態(tài)的緊密結(jié)合。本文的框架中的第二個(gè)也是更為關(guān)鍵的部分是引入三重交叉注意力(Triples of Cross-Attention, TCA)。這個(gè)階段,在SD解碼器部分引入了兩個(gè)不同的交叉注意力層。第一個(gè)新的交叉注意力層促進(jìn)了字形特征與圖像中的隱藏變量之間的交互。這是基于早期的工作如IP-Adapter,增強(qiáng)了字形渲染的準(zhǔn)確性。同時(shí),第二個(gè)新的交叉注意力層則使ControlNet特征與圖像中的隱藏變量之間進(jìn)行交互。通過與ControlNet信息交互,該層自適應(yīng)地學(xué)習(xí)內(nèi)在數(shù)據(jù),例如字形的合適布局。在第三部分中,添加了輔助對(duì)齊損失(Auxiliary Alignment Loss, AAL)的學(xué)習(xí),以增強(qiáng)整體布局并豐富海報(bào)的背景信息。最后,在推理階段,采用了微調(diào)LLM策略,自動(dòng)分析用戶描述并生成相應(yīng)的字形和條件框架的坐標(biāo)位置。這旨在滿足端到端的海報(bào)生成需求。
融合文本編碼器
該方法借鑒了早期工作的思想,如Blip-Diffusion、Subject-Diffusion、AnyText,并且通常被用作一種全局條件控制策略。首先,將輸入的字形條件渲染為字形圖像,然后傳輸?shù)絇P-OCR以提取相應(yīng)的字形特征。按照與AnyText相同的邏輯,字形特征在與相應(yīng)位置的標(biāo)題融合時(shí),將通過線性層進(jìn)行特征對(duì)齊,這確保了即插即用的功能模塊化,而無需對(duì)文本編碼器進(jìn)行微調(diào)。
三重交叉注意力
海報(bào)生成如此簡單!OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2-AI.x社區(qū)
海報(bào)生成如此簡單!OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2-AI.x社區(qū)
海報(bào)生成如此簡單!OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2-AI.x社區(qū)
結(jié)合每個(gè)塊現(xiàn)有的交叉注意力層,最終TCA輸出是三層的總和如下:
海報(bào)生成如此簡單!OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2-AI.x社區(qū)
輔助對(duì)齊損失
考慮到本文海報(bào)生成的應(yīng)用背景,除了字形生成的準(zhǔn)確性和背景的和諧性,還需要關(guān)注圖像背景本身的豐富性。本文方法不可避免地引入了額外的條件注入,包括ControlNet特征的添加以及TCA策略,這導(dǎo)致了解碼器組件數(shù)量的增加。這些條件的根本目的是確保生成圖像的可控性。然而,許多文章表明,可控性通常伴隨著可編輯性或文本一致性的犧牲。因此,在方法中引入了輔助對(duì)齊損失(AAL)。對(duì)齊模型采用SDXL作為其骨干,類似于ControlNet使用復(fù)制的SD編碼器。然而,在本文的方法中復(fù)制了SD解碼器,并在復(fù)制解碼器的每個(gè)塊的交叉注意力輸出與TCA原始交叉注意力層的輸出之間應(yīng)用AAL。這一方法的主要目標(biāo)是最小化為學(xué)習(xí)字形而添加的模塊對(duì)整體布局和圖像質(zhì)量的影響。因此,語義一致性AAL損失L'可以公式化如下:
海報(bào)生成如此簡單!OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2-AI.x社區(qū)
使用微調(diào)的大語言模型進(jìn)行推理
為了確保端到端的海報(bào)生成,亟需解決的最后一個(gè)問題是消除人工干預(yù),即預(yù)定義圖像布局的過程。完全依賴用戶的標(biāo)題描述,并引入大語言模型(LLM)來解決這個(gè)問題。此外,為了方便調(diào)用,構(gòu)建了自己的指令數(shù)據(jù),并對(duì)開源語言模型進(jìn)行了微調(diào)。
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
海報(bào)生成如此簡單!OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2-AI.x社區(qū)
第二個(gè)組件是一個(gè)基于大語言模型(LLM)的布局生成模型。專門為此任務(wù)使用了Baichuan2,訓(xùn)練數(shù)據(jù)集只包含海報(bào)數(shù)據(jù)。由于任務(wù)涉及預(yù)測(cè)兩個(gè)位置坐標(biāo),這對(duì)語言模型構(gòu)成了重大挑戰(zhàn)。為提高預(yù)測(cè)準(zhǔn)確性,對(duì)坐標(biāo)點(diǎn)進(jìn)行了歸一化,并僅專注于使用左上角和右下角點(diǎn)。此外,為了保持端到端生成過程的穩(wěn)定性,在遇到LLM不準(zhǔn)確的預(yù)測(cè)時(shí),采用了一種基于規(guī)則的隨機(jī)布局生成方法。這包括將隨機(jī)策略整合到布局生成過程中。這些隨機(jī)策略的實(shí)施比例約為5%,以在生成的布局中達(dá)到穩(wěn)定性和多樣性之間的平衡。布局生成的LLM模型在64個(gè)A100 GPU上訓(xùn)練了3萬步,每個(gè)GPU的批量大小為10。
評(píng)估
評(píng)估集可以分為兩部分,用于評(píng)估模型的性能。
第一部分是AnyText-Benchmark,其中包含來自LAION和Wukong的一千幅英文圖像和中文圖像。然而,發(fā)現(xiàn)AnyText-Benchmark中用于測(cè)試中文生成能力的1000幅圖像與英文數(shù)據(jù)混合,因此移除了這部分?jǐn)?shù)據(jù),留下了915幅作為評(píng)估的基準(zhǔn)。遵循AnyText的方法,從兩個(gè)方面評(píng)估文本渲染質(zhì)量:
- 位置詞精度(PWAcc)計(jì)算特定位置生成的單詞的準(zhǔn)確性。只有當(dāng)預(yù)測(cè)的文本與基準(zhǔn)完全匹配時(shí)才被認(rèn)為是正確的。
- 標(biāo)準(zhǔn)化編輯距離(NED)是衡量兩個(gè)字符串之間相似性的指標(biāo)。它通常用于文本比較。該方法通常涉及首先使用動(dòng)態(tài)規(guī)劃算法計(jì)算兩個(gè)字符串之間的Levenshtein距離,然后將其除以字符串的最大長度進(jìn)行歸一化。
值得注意的是,在AnyText-Benchmark中,大多數(shù)英文評(píng)估集每個(gè)bbox只包含一個(gè)英文單詞,導(dǎo)致在評(píng)估英文句子時(shí)缺乏精度。因此,有必要構(gòu)建更復(fù)雜的評(píng)估集。
評(píng)估集的第二部分包括兩個(gè)子集:Complex-Benchmark和Poster-Benchmark。構(gòu)建的子集共形成了四個(gè)評(píng)估子集,包括雙語中英文評(píng)估。Complex-Benchmark包括100個(gè)提示。在中文提示中,待渲染的字符是隨機(jī)組合和排列的,而英文提示則包含具有連續(xù)重復(fù)字母的較長單詞。該評(píng)估集的主要目標(biāo)是評(píng)估文本渲染的準(zhǔn)確性。此外,Poster Evaluation Set包括描述海報(bào)生成的120個(gè)提示。其目的是評(píng)估端到端海報(bào)生成的布局準(zhǔn)確性、魯棒性和整體美學(xué)質(zhì)量。對(duì)于這些評(píng)估集,采用了三個(gè)評(píng)估指標(biāo)來評(píng)估海報(bào)生成的準(zhǔn)確性和質(zhì)量:
- 準(zhǔn)確率(Acc)計(jì)算與需要渲染的總字符數(shù)相比,生成文本中正確生成字符的比例。
- ClipScore衡量生成的圖像與提供的文本提示或描述的對(duì)齊程度。
- HPSv2評(píng)估生成的圖像是否符合人類偏好,并作為評(píng)估圖像質(zhì)量偏好的指標(biāo)。
比較中,評(píng)估了各種方法,不僅包括AnyText,還包括使用了ControlNet和StableDiffusion3(SD3)的方法。由于SD3不支持中文文本的渲染,在后續(xù)分析中省略了對(duì)中文指標(biāo)的計(jì)算。此外,由于NED計(jì)算通常依賴于基于文本bbox位置的anchor,也排除了SD3的NED計(jì)算。
實(shí)驗(yàn)結(jié)果
接下來對(duì)本文呢的方法與文本渲染和海報(bào)生成領(lǐng)域最先進(jìn)方法的全面定量和定性結(jié)果的分析比較。
AnyText-Benchmark的比較結(jié)果。使用AnyText-Benchmark來評(píng)估模型在獨(dú)立渲染中文和英文文本方面的熟練程度。為了專門評(píng)估模型的中文文本生成能力,從中文評(píng)估集中排除了所有英文文本,包括只包含單個(gè)英文文本的樣本。這導(dǎo)致剩余915個(gè)樣本用于實(shí)驗(yàn)評(píng)估。英文評(píng)估集保持不變。此外,采用的評(píng)估指標(biāo)與AnyText中使用的指標(biāo)相一致,包括詞精度和NED。
為了確保公平評(píng)估,所有方法均使用了DDIM采樣器,采樣步長為50,CFG比例為9,并固定隨機(jī)種子為100。每個(gè)提示生成一張圖像,具有相同的正負(fù)線索。
定量比較結(jié)果如下表1所示。從結(jié)果可以明顯看出,本文的模型在渲染中文和英文文本方面的準(zhǔn)確性顯著高于AnyText。然而,在ClipScore指標(biāo)上略低于GlyphDraw2。這里的Acc指標(biāo)是基于前面提到的PWAcc規(guī)則計(jì)算的。
Complex-Benchmark的比較結(jié)果。為了全面評(píng)估模型的文本渲染能力,設(shè)計(jì)了一個(gè)更復(fù)雜的評(píng)估集。具體來說,對(duì)于中文語言,從2000個(gè)常用漢字中隨機(jī)組合字符作為待渲染的文本,生成了一組100個(gè)提示。行數(shù)和每行字符數(shù)也是隨機(jī)確定的,確保了生成具有完整隨機(jī)感的提示。設(shè)計(jì)的100個(gè)提示包括了一些具有復(fù)雜筆畫和結(jié)構(gòu)的漢字,例如“薯(potato)”,“寨(stockade)”,“聚(gather)”。雖然評(píng)估樣本數(shù)量有限,但它們涵蓋了各種常見的漢字,包括一些在訓(xùn)練數(shù)據(jù)集中很少出現(xiàn)的復(fù)雜結(jié)構(gòu)字符。因此,這些提示提供了一個(gè)全面評(píng)估模型中文字符生成能力的穩(wěn)健手段。對(duì)于英文文本,選擇了具有連續(xù)重復(fù)字母和一些較長單詞來進(jìn)行渲染。這些單詞容易出錯(cuò),因此它們是評(píng)估英文單詞渲染能力的有力指標(biāo)。與AnyText-Benchmark不同的是,提供了可以渲染短語和句子而不僅僅是單詞的bbox。這種方法不可避免地增加了渲染的難度。
在評(píng)估指標(biāo)方面,選擇了準(zhǔn)確率來衡量生成文本的精度,ClipScore來評(píng)估圖像與文本提示之間的對(duì)齊情況,以及HPSv2來捕捉人類對(duì)生成圖像的偏好。除了評(píng)估文本渲染能力外,驗(yàn)證端到端生成的整體性能也至關(guān)重要。為了進(jìn)行更全面的比較分析,本文的研究實(shí)驗(yàn)重點(diǎn)放在兩個(gè)關(guān)鍵方面:隨機(jī)生成的bbox和LLM預(yù)測(cè)的bbox的利用。這種方法允許更深入地評(píng)估和比較端到端文本生成功能。
在上面表格1中進(jìn)行的實(shí)驗(yàn)中,所有方法在圖像生成過程中都使用了預(yù)定義的規(guī)則和隨機(jī)初始化的文本提示坐標(biāo)。根據(jù)定量比較結(jié)果顯示,本文的模型在文本生成準(zhǔn)確性方面優(yōu)于AnyText。除了在隨機(jī)分配bbox坐標(biāo)時(shí)稍低的中文ClipScore和HPSv2之外,該方法在所有其他指標(biāo)上都優(yōu)于AnyText。在復(fù)雜的英文句子級(jí)評(píng)估集中,AnyText的文本渲染準(zhǔn)確性相當(dāng)?shù)?。雖然GlyphDraw2的準(zhǔn)確性也不高,但它明顯超過了AnyText。
實(shí)驗(yàn)的第二部分涉及使用經(jīng)過微調(diào)的LLM生成文本bbox的位置,然后根據(jù)這些bbox位置生成圖像文本。根據(jù)上面表格1中的結(jié)果,LLM預(yù)測(cè)的bbox坐標(biāo)導(dǎo)致文本渲染準(zhǔn)確性降低,因?yàn)殡S機(jī)規(guī)則生成的bbox坐標(biāo)傾向于包含更大的區(qū)域,與LLM預(yù)測(cè)的情況相比,性能更高。然而,與AnyText相比,該模型仍然表現(xiàn)出相對(duì)較高的準(zhǔn)確性。
Poster-Benchmark的比較結(jié)果。為了評(píng)估本文海報(bào)生成模型的端到端能力,專門設(shè)計(jì)了一個(gè)用于海報(bào)評(píng)估的專用數(shù)據(jù)集,包括各種海報(bào)生成提示形式。這個(gè)全面的數(shù)據(jù)集包含了120個(gè)描述英文和中文海報(bào)的提示,能夠生成包括橫向、縱向和方形格式在內(nèi)的各種分辨率的圖像。在圖像生成過程中,本文的模型利用LLM預(yù)測(cè)文本描述框的位置,實(shí)現(xiàn)了無需用戶指定文本放置即可實(shí)現(xiàn)無縫端到端的海報(bào)生成。與AnyText-Benchmark不同,后者只允許在文本提示中輸入英文單詞,該模型可以容納完整的英文句子,從而方便呈現(xiàn)所需的文本。
海報(bào)生成的定量結(jié)果如前面表1所示,同樣,結(jié)果顯示本文的模型在端到端海報(bào)生成場景中文本渲染方面達(dá)到了最高的準(zhǔn)確性。然而,這里的ClipScore稍低。
LLM布局預(yù)測(cè)實(shí)驗(yàn)。首先,根據(jù)難度級(jí)別構(gòu)建了四個(gè)任務(wù)。
- 輸入:描述包含待渲染字形的圖像及圖像大小的標(biāo)題;輸出:待渲染字形和相應(yīng)文本框的四個(gè)坐標(biāo)點(diǎn),多個(gè)相似元組對(duì)應(yīng)多個(gè)位置。
- 輸入:描述包含待渲染字形的圖像的標(biāo)題;輸出:待渲染字形和相應(yīng)文本框的四個(gè)標(biāo)準(zhǔn)化坐標(biāo)點(diǎn),多個(gè)相似元組對(duì)應(yīng)多個(gè)位置。
- 輸入:描述包含待渲染字形和圖像大小的標(biāo)題;輸出:待渲染字形和相應(yīng)文本框的兩個(gè)坐標(biāo)點(diǎn)(左上角和右下角),多個(gè)相似元組對(duì)應(yīng)多個(gè)位置。
- 輸入:描述包含待渲染字形的圖像的標(biāo)題;輸出:待渲染字形和相應(yīng)文本框的兩個(gè)標(biāo)準(zhǔn)化坐標(biāo)點(diǎn)(左上角和右下角),多個(gè)相似元組對(duì)應(yīng)多個(gè)位置。
第一和第二個(gè)任務(wù)需要預(yù)測(cè)四個(gè)位置坐標(biāo),這是最具挑戰(zhàn)性但也是最符合需求的。標(biāo)準(zhǔn)化降低了任務(wù)的難度,但在一定程度上犧牲了多樣性,因?yàn)樗鼫p少了解決范圍。最后兩個(gè)任務(wù)降低了微調(diào)的難度,但同樣犧牲了預(yù)測(cè)坐標(biāo)的多樣性,使得文本框坐標(biāo)限制為矩形。
隨機(jī)測(cè)試了1000個(gè)提示,以預(yù)測(cè)格式的正確性為基礎(chǔ)計(jì)算準(zhǔn)確率。盡管正確預(yù)測(cè)的格式不一定意味著真實(shí)渲染位置是正確的,但這種錯(cuò)誤相對(duì)較小。
在比較中,選擇了三個(gè)模型,分別是Qwen1.5、Baichuan2和Llama2。其中,對(duì)Qwen1.5嘗試了三種模型大小,而其他兩個(gè)模型各測(cè)試了兩種模型大小。實(shí)驗(yàn)結(jié)果如下圖5所示,模型名稱中的數(shù)字后綴代表任務(wù)模式ID。實(shí)驗(yàn)首先發(fā)現(xiàn),模型參數(shù)體積越大,微調(diào)效果越好。輸出標(biāo)準(zhǔn)化的結(jié)果具有更高的準(zhǔn)確率。最終,選擇了Baichuan2-13B模型,采用第三個(gè)任務(wù)模式。
下圖4展示了在自定義的評(píng)估集上對(duì)LLM進(jìn)行微調(diào)后的結(jié)果。主要優(yōu)勢(shì)體現(xiàn)在三個(gè)方面。首先,在海報(bào)標(biāo)題方面,模型傾向于預(yù)測(cè)一個(gè)相對(duì)較大面積的文本框。其次,相鄰文本框中內(nèi)容的連貫性提供了語境意義,使模型能夠?qū)W習(xí)渲染字形所需的語義信息。最后,文本框的大小傾向于與其包含的字符或單詞數(shù)量成比例。
消融實(shí)驗(yàn)
由于進(jìn)行了大量的消融實(shí)驗(yàn)并希望降低訓(xùn)練成本,統(tǒng)一將每個(gè)實(shí)驗(yàn)的第一訓(xùn)練階段設(shè)置為20,000步,第二階段設(shè)置為10,000步,并在中文評(píng)估數(shù)據(jù)集上進(jìn)行。消融研究涉及四個(gè)主要方面的考察,即: 1)TCA及其特定模塊的影響;
2)AAL的影響;
3)文本編碼器融合的影響;
4)ControlNet條件輸入的影響。
TCA的有效性。TCA添加了兩個(gè)CA層,分別對(duì)每個(gè)添加的CA層進(jìn)行了消融研究。其中,CAG代表消除CA交互的消融,其中包括作為K、V的字形特征。如下表2所示,移除這一層會(huì)導(dǎo)致準(zhǔn)確性略微下降,但ClipScore和偏好分?jǐn)?shù)有所提升。這表明,雖然CAG提高了文本渲染的準(zhǔn)確性,但犧牲了一定的文本語義對(duì)齊能力。
CAC代表消除自適應(yīng)CA交互過程,該過程從ControlNet編碼器中提取特征。在這里,兩個(gè)指標(biāo)都會(huì)略微下降,表明自適應(yīng)特征交互確實(shí)可以增強(qiáng)文本渲染的準(zhǔn)確性和文本語義對(duì)齊能力,同時(shí)也增強(qiáng)了偏好分?jǐn)?shù)。
TCA的消融是整個(gè)TCA塊的消融。類似于CAC,準(zhǔn)確性和偏好分?jǐn)?shù)都會(huì)下降,進(jìn)一步說明TCA模塊對(duì)文本渲染準(zhǔn)確性和圖像偏好分?jǐn)?shù)具有積極影響。
AAL的有效性。如上表2所示,這種策略確實(shí)在一定程度上增強(qiáng)了語義對(duì)齊能力和圖像質(zhì)量,但也犧牲了一些文本渲染的準(zhǔn)確性。然而,總體影響仍然是正面的。
FTE的有效性。FTE的主要目的是確保字體與背景的協(xié)調(diào)一致。上表2中可以觀察到,所有指標(biāo)都受到了一定影響。FTE整合了字體特征信息,增強(qiáng)了文本渲染的準(zhǔn)確性。然而,圖像模態(tài)的融合可能會(huì)削弱文本語義的對(duì)齊,導(dǎo)致ClipScore略微下降。最后,圖像兼容性的增強(qiáng)對(duì)偏好分?jǐn)?shù)具有積極影響。
ControlNet條件輸入的有效性。ControlNet的條件輸入(CC)主要影響字形的準(zhǔn)確性,減少了對(duì)圖像描述性標(biāo)題對(duì)文本渲染的影響,并在一定程度上提高了字形的準(zhǔn)確性。
結(jié)論與限制
到目前為止,手動(dòng)標(biāo)注的深度成本和有限可用性對(duì)字形生成模型的實(shí)際部署提出了重大挑戰(zhàn)。在本研究中,首先收集了包含中英文字形的高分辨率圖像,隨后構(gòu)建了一個(gè)自動(dòng)篩選流程以構(gòu)建大規(guī)模數(shù)據(jù)集。接著,建立了一個(gè)綜合框架,將文本和字形語義融合在一起,利用各種層次的信息優(yōu)化文本渲染的準(zhǔn)確性和背景的豐富性。從實(shí)驗(yàn)中得出的經(jīng)驗(yàn)分析表明,本文的方法在各種評(píng)估集上超越了現(xiàn)有模型,顯示出作為增強(qiáng)端到端海報(bào)生成能力基礎(chǔ)的潛力。
局限性 盡管本文的方法可以生成自由分辨率的端到端海報(bào),但目前仍然存在一些問題。首先,對(duì)于LLM預(yù)測(cè)的字形bbox,在復(fù)雜情景下(例如用戶輸入的沒有引號(hào)的段落文本作為bbox提示),預(yù)測(cè)準(zhǔn)確性較低。其次,在背景生成的豐富性與文本渲染的準(zhǔn)確性之間進(jìn)行平衡仍然相對(duì)困難。在目前的方法中,優(yōu)先考慮字形的準(zhǔn)確性,因此背景的視覺吸引力可能較弱。此外,對(duì)于小字形或段落文本的生成準(zhǔn)確性仍然需要改進(jìn)。未來,可能會(huì)在文本編碼器方面探索一些解決方案來解決這些問題。
本文轉(zhuǎn)自 AI生成未來 ,作者:Jian Ma等
