不做文盲畫家！谷歌魔改「文本編碼器」：一個小操作讓圖像生成模型學(xué)會「拼寫」

作者：新智元 2023-01-04 13:36:11

圖像生成模型終于學(xué)會了拼寫單詞，秘訣竟是字符特征？

過去的一年里，隨著DALL-E 2，Stable Diffusion等圖像生成模型的發(fā)布，text-to-image模型生成的圖像在分辨率、質(zhì)量、文本忠實度等方面都得到了飛躍性提升，極大促進(jìn)了下游應(yīng)用場景的開發(fā)，人人都成了AI畫家。

但相關(guān)研究表明，目前的生成模型技術(shù)仍然存在一個重大缺陷：無法在圖像中呈現(xiàn)出可靠的視覺文本。

有研究結(jié)果表明，DALL-E 2在圖片中生成連貫文本字符上非常不穩(wěn)定，而最新發(fā)布的Stable Diffusion模型則是直接將「無法呈現(xiàn)可讀的文本」列為已知的限制。

字符拼寫錯誤：(1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

最近Google Research發(fā)布了一篇新論文，試圖了解并提高圖像生成模型渲染高質(zhì)量視覺文本的能力。

論文鏈接：https://arxiv.org/abs/2212.10562

研究人員認(rèn)為當(dāng)下的text-to-image生成模型模型存在文本渲染缺陷的主要原因是缺乏字符級的輸入特征。

為了量化該輸入特征在模型生成中的影響，文章中設(shè)計了一系列控制實驗對是否包含文本輸入特征的文本編碼器（character-aware和character-blind）進(jìn)行對比。

研究人員發(fā)現(xiàn)，在純文本領(lǐng)域，character-aware模型在一個新的拼寫任務(wù)（WikiSpell）上獲得了很大的性能收益。

將該經(jīng)驗遷移到視覺領(lǐng)域后，研究人員訓(xùn)練了一套圖像生成模型。實驗結(jié)果表明character-aware模型在一系列新的文本渲染任務(wù)（DrawText基準(zhǔn)）中比character-blind更勝一籌。

并且character-aware模型在視覺拼寫方面達(dá)到了更高的技術(shù)水平，盡管訓(xùn)練的樣例數(shù)量少得多，其在不常見的單詞上的準(zhǔn)確率仍然比競爭模型高出30多個百分點。

Character-Aware模型

語言模型可分為直接訪問構(gòu)成其文本輸入字符的character-aware模型和無法訪問的character-blind模型。

許多早期的神經(jīng)語言模型直接在字符上進(jìn)行操作，而不使用多字符的token作為標(biāo)記。

后來的模型逐漸轉(zhuǎn)向基于詞匯表的tokenization，其中一些模型如ELMo仍然保留了character-aware，但其他模型如BERT則放棄了字符特征以支持更有效的預(yù)訓(xùn)練。

目前，大多數(shù)廣泛使用的語言模型是character-blind的，依靠數(shù)據(jù)驅(qū)動的子詞（subword）分割算法，如字節(jié)對編碼（BPE）來生成子詞pieces作為詞匯表。

雖然這些方法對于不常見的序列可以退回到字符級表示，但它們在設(shè)計上仍然會將常見的字符序列壓縮成不可分割的單元。

這篇論文的主要目的是試圖了解并提高圖像生成模型渲染高質(zhì)量視覺文本的能力。

為此，研究人員首先孤立地研究了當(dāng)下文本編碼器的拼寫能力，從實驗結(jié)果可以發(fā)現(xiàn)，盡管character-blind文本編碼器很受歡迎，但它們沒有收到關(guān)于其輸入的字符級構(gòu)成的直接信號，導(dǎo)致其拼寫能力有限。

研究人員還測試了不同規(guī)模、架構(gòu)、輸入表示、語言和調(diào)整方法的文本編碼器的拼寫能力。

這篇論文首次記錄了character-blind模型通過網(wǎng)絡(luò)預(yù)訓(xùn)練誘導(dǎo)出強(qiáng)大的拼寫知識（準(zhǔn)確率>99%）的神奇能力，但實驗結(jié)果表明這項能力在英語之外的語言中并沒有得到很好的泛化，而且只有在超過100B參數(shù)的規(guī)模下才能實現(xiàn)，所以對于大多數(shù)應(yīng)用場景是不可行的。

另一方面，character-aware的文本編碼器能夠在更小的尺度上實現(xiàn)強(qiáng)大的拼寫能力。

在將這些發(fā)現(xiàn)應(yīng)用于圖像生成場景時，研究人員訓(xùn)練了一系列character-aware的文本到圖像的模型，并證明它們在現(xiàn)有的和新的文本渲染的評估中明顯優(yōu)于字符盲目的模型。

但對于純字符級模型來說，雖然文本渲染的性能提升了，但對于不涉及視覺文本的prompt，圖像-文本對齊度則會下降。

為了緩解這一問題，研究人員建議將字符級和token級的輸入表征結(jié)合起來，從而可以實現(xiàn)最佳的性能。

WikiSpell基準(zhǔn)

由于文本到圖像的生成模型依賴于文本編碼器來產(chǎn)生用于解碼的表征，研究人員首先從Wiktionary中采樣一些單詞創(chuàng)建了WikiSpell基準(zhǔn)，然后基于此數(shù)據(jù)集在一個純文本的拼寫評估任務(wù)來探索文本編碼器的能力。

對于WikiSpell中的每個樣例，模型的輸入是一個單詞，預(yù)期的輸出是它的具體拼寫（通過在每個Unicode字符之間插入空格來生成）。

由于該文章僅對研究一個詞的頻率和模型的拼寫能力之間的關(guān)系感興趣，所以研究人員根據(jù)單詞在mC4語料庫中出現(xiàn)的頻率，將Wiktionary中的詞分成五個互不重疊的桶：最頻繁的前1%的詞，最頻繁的1-10%的詞，10-20%的詞，20-30%的詞，以及最低的50%的詞（包括在語料庫中從未出現(xiàn)過的詞）。

然后從每個桶中均勻地抽取1000個詞來創(chuàng)建一個測試集（以及一個類似的開發(fā)集）。

最后通過結(jié)合兩部分建立了一個由10,000個詞組成的訓(xùn)練集：5,000個從最底層的50%桶（最不常見的詞）中統(tǒng)一取樣，另外5,000個根據(jù)它們在mC4中的頻率按比例取樣（從而使這一半的訓(xùn)練集偏向頻繁的詞）。

研究人員將任何被選入開發(fā)集或測試集的詞排除在訓(xùn)練集之外，因此評估結(jié)果總是針對被排除的詞。

除了英語外，研究人員還對其他六種語言（阿拉伯語、漢語、芬蘭語、韓語、俄語、泰語）進(jìn)行評估，選擇這些語言是為了涵蓋影響模型學(xué)習(xí)拼寫能力的各種特性，對每一種語言的評估都重復(fù)上述數(shù)據(jù)集構(gòu)建過程。

文本生成實驗

研究人員使用WikiSpell基準(zhǔn)來評估多種預(yù)訓(xùn)練的純文本模型在不同規(guī)模上的表現(xiàn)，包括T5（一個在英語數(shù)據(jù)上預(yù)訓(xùn)練的character-blind編碼解碼器模型）；mT5（與T5類似，但在超過100種語言上預(yù)訓(xùn)練）；ByT5（mT5的character-aware版本，直接在UTF-8字節(jié)序列上操作）；以及PaLM（一個規(guī)模更大的解碼模型，主要是在英語上預(yù)訓(xùn)練的）。

在純英語和多語言的實驗結(jié)果中，可以發(fā)現(xiàn)character-blind模型T5和mT5在包含Top-1%最頻繁詞匯的桶上的表現(xiàn)要差很多。

這個結(jié)果似乎是反直覺的，因為模型通常在數(shù)據(jù)中頻繁出現(xiàn)的例子上表現(xiàn)最好，但是由于subword詞匯的訓(xùn)練方式，頻繁出現(xiàn)的詞通常被表示為一個單一的原子標(biāo)記（或少量的標(biāo)記），事實上也是如此：在英語前1%的桶中，87%的詞被T5的詞匯表示為一個子詞標(biāo)記。

因此，較低的拼寫準(zhǔn)確性分?jǐn)?shù)表明，T5的編碼器沒有保留足夠的關(guān)于其詞匯中subword的拼寫信息。

其次，對于character-blind模型，規(guī)模是影響拼寫能力的一個重要因素。T5和mT5都隨著規(guī)模的增加而逐漸變好，但即使在XXL規(guī)模下，這些模型也沒有表現(xiàn)出特別強(qiáng)的拼寫能力。

只有當(dāng)character-blind模型達(dá)到PaLM的規(guī)模時，才開始看到近乎完美的拼寫能力：540B參數(shù)的PaLM模型在英語的所有頻率桶中都達(dá)到了>99%的準(zhǔn)確率，盡管它在提示中只看到20個例子（而T5顯示的是1000個微調(diào)例子）。