自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM

發(fā)布于 2024-9-11 10:31
瀏覽
0收藏

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2409.04004
git鏈接:https://github.com/dailenson/One-DM

亮點(diǎn)直擊

  • 提出一種創(chuàng)新的擴(kuò)散模型,用于生成風(fēng)格化的手寫文本。這一模型的顯著特點(diǎn)是只需一個(gè)參考樣本作為風(fēng)格輸入,便能模仿該樣本的書寫風(fēng)格,生成任意內(nèi)容的手寫文本。這種方法的簡(jiǎn)化使得風(fēng)格化手寫文本的生成更加高效和便捷。
  • 引入了參考樣本中的高頻成分,以增強(qiáng)手寫風(fēng)格的提取。通過采用這種風(fēng)格增強(qiáng)模塊,能夠更精確地捕捉書寫風(fēng)格的細(xì)微模式,同時(shí)有效減少背景噪聲的干擾。這種創(chuàng)新顯著提升了生成文本的風(fēng)格還原度和清晰度。
  • 在英語、中文和日語等多種語言的手寫數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,盡管該方法只使用一個(gè)風(fēng)格參考樣本,但其生成效果卻超過了以往需要多達(dá)15倍樣本的傳統(tǒng)方法。這一成果表明,該研究在風(fēng)格化手寫文本生成領(lǐng)域具有顯著的突破性進(jìn)展。

總結(jié)速覽

解決的問題:

  • 現(xiàn)有手寫文本生成方法通常需要超過十個(gè)樣本作為風(fēng)格參考。
  • 實(shí)際應(yīng)用中,用戶偏好只用一個(gè)樣本的生成模型以提高便利性和效率。
  • 單樣本生成方法面臨捕捉細(xì)節(jié)和處理背景噪聲的挑戰(zhàn),特別是在字符邊緣的高頻信息提取上困難重重。

提出的方案:

  • 提出了“單樣本擴(kuò)散模仿器”(One-DM)來生成手寫文本,并能模仿任何書法風(fēng)格。
  • 開發(fā)了一種風(fēng)格增強(qiáng)模塊,利用樣本中的高頻信息(如字符傾斜和字母連接)來提升風(fēng)格提取效果。
  • 將風(fēng)格特征與文本內(nèi)容融合,作為擴(kuò)散模型生成手寫文本的引導(dǎo)條件。

應(yīng)用的技術(shù):

  • 風(fēng)格增強(qiáng)模塊提取并增強(qiáng)樣本中的高頻信息,以捕捉細(xì)膩的風(fēng)格細(xì)節(jié)。
  • 通過將風(fēng)格特征和文本內(nèi)容合并,指導(dǎo)擴(kuò)散模型生成高質(zhì)量的手寫文本圖像。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

達(dá)到的效果:

  • 實(shí)驗(yàn)表明,One-DM方法能夠在僅使用一個(gè)樣本的情況下,成功生成多種語言的手寫文本。
  • 相比需要超過十個(gè)樣本的方法,One-DM在生成效果上表現(xiàn)更優(yōu)。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

方法

整體方案:
思路集中在利用風(fēng)格參考圖像中的高頻信息來增強(qiáng)風(fēng)格模式的提取。一種簡(jiǎn)單的實(shí)現(xiàn)方式是使用普通的transformer編碼器來從風(fēng)格圖像及其對(duì)應(yīng)的高頻圖像中提取風(fēng)格特征。然而,這種簡(jiǎn)單方法面臨兩個(gè)主要問題:


  • 缺乏有效的監(jiān)督目標(biāo),使得從高頻圖像中準(zhǔn)確學(xué)習(xí)作者的風(fēng)格模式變得具有挑戰(zhàn)性;
  • 從原始圖像中捕獲的風(fēng)格特征仍然保留了不需要的噪聲背景,這可能對(duì)后續(xù)的圖像生成性能產(chǎn)生負(fù)面影響。


為了解決上述問題,作者開發(fā)了一種更有效的方法,如下圖3所示。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

該方法包括風(fēng)格增強(qiáng)模塊、內(nèi)容編碼器、風(fēng)格-內(nèi)容融合模塊和條件擴(kuò)散模塊。具體流程如下:

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

風(fēng)格增強(qiáng)模塊

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

風(fēng)格-內(nèi)容融合模塊

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

具體來說,第一個(gè)交叉注意力模塊將文本內(nèi)容 E 作為查詢,來識(shí)別風(fēng)格參考中的最相關(guān)風(fēng)格信息,從而推斷每個(gè)字符對(duì)應(yīng)的風(fēng)格屬性。例如,如果文本內(nèi)容是 'a',它會(huì)優(yōu)先搜索風(fēng)格參考中類似于 'a'、'b'、'd'、'g' 的字符風(fēng)格特征,因?yàn)檫@些字符具有相似的循環(huán)結(jié)構(gòu),暗示它們的風(fēng)格屬性更為可比。這個(gè)過程(圖3中的交叉注意力)表示為:

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

通過簡(jiǎn)單地將 O 和 E 相加來獲得內(nèi)容和風(fēng)格引導(dǎo)之間的初步融合嵌入。然后,將合并后的中間向量作為自注意力機(jī)制中的查詢、鍵和值,以促進(jìn)信息的全面交互。最后,融合后的嵌入 g  作為擴(kuò)散過程的條件。第二個(gè)多頭注意力(圖3中的自注意力)定義為:

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

條件擴(kuò)散模型

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

實(shí)驗(yàn)

結(jié)果

風(fēng)格化手寫文本生成:首先,評(píng)估了 One-DM 在生成風(fēng)格化手寫文本圖像方面的表現(xiàn),旨在在生成的圖像中復(fù)制風(fēng)格和內(nèi)容。按照 [5, 27, 46] 的方法,首先計(jì)算了生成樣本和真實(shí)樣本之間的 FID,對(duì)于每個(gè)作者分別計(jì)算,最后取平均。與之前的工作 [5, 27, 46] 一致,在 IAM 數(shù)據(jù)集上的實(shí)驗(yàn)分為四種不同的場(chǎng)景:IV-S、IV-U、OOV-S、OOV-U。在這四種場(chǎng)景中,OOV-U 是最具挑戰(zhàn)性的情況,因?yàn)槟繕?biāo)風(fēng)格和詞語在訓(xùn)練過程中完全未見過。對(duì)于 CVL 數(shù)據(jù)集,直接報(bào)告了所有方法在測(cè)試集上的結(jié)果。

下表1中報(bào)告了 IAM 數(shù)據(jù)集上的定量結(jié)果。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

可以觀察到,One-DM 在所有設(shè)置中都優(yōu)于所有競(jìng)爭(zhēng)對(duì)手。特別是,它在所有場(chǎng)景中都顯著超越了一次性方法。令人印象深刻的是,在 IV-S 和 OOV-S 設(shè)置中,One-DM 相比于使用 15 倍更多參考樣本進(jìn)行風(fēng)格指導(dǎo)的少量樣本方法(如 GANwriting、HWT、VATr)也具有明顯優(yōu)勢(shì)。即使在最具挑戰(zhàn)性的 OOV-U 場(chǎng)景中,One-DM 也大幅領(lǐng)先于第二好的方法 VATr(102.75 對(duì) 108.76),展示了One-DM 在風(fēng)格化手寫文本生成中的卓越性能。類似地,本文的方法在 CVL 數(shù)據(jù)集上也優(yōu)于 HWT 和 VATr,達(dá)到了最低的 FID 分?jǐn)?shù),如表4所示。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

下圖4中提供了定性結(jié)果,以直觀地解釋One-DM的優(yōu)勢(shì)。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

GANwriting 難以捕捉參考樣本的風(fēng)格模式,如字符傾斜,并且偶爾會(huì)產(chǎn)生不清晰的字符形狀。HiGAN+ 更一致地生成了內(nèi)容正確的字符,但生成詞語中的字符間距缺乏真實(shí)性。

WordStylist 通常生成帶有明顯背景噪聲的圖像。HWT 和 VATr 在內(nèi)容準(zhǔn)確性和風(fēng)格模仿方面可以生成令人滿意的手寫詞語;然而,它們的缺點(diǎn)是傾向于生成更平滑的字符外觀。與 HWT 和 VATr 相比,合成的樣本在字符墨水顏色和筆畫厚度上更為真實(shí)。然而, One-DM 生成的一些樣本在墨水顏色上明顯不同。下圖5 中展示了本文方法與少量樣本方法之間的更多定性比較。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

風(fēng)格無關(guān)手寫文本生成:進(jìn)一步評(píng)估了One-DM 在生成現(xiàn)實(shí)的手寫文本圖像時(shí)是否能夠忽略風(fēng)格模仿。為此計(jì)算了 IAM 測(cè)試集上的 FID 和 GS,條件與 ScrabbleGAN [13] 相同(FID: 20.72, GS: 2.56×10?2),能夠生成具有隨機(jī)樣式的手寫文本。具體而言,每種方法生成 25k 個(gè)隨機(jī)樣本以計(jì)算與 25k 個(gè)測(cè)試集樣本的 FID,以及 5k 個(gè)隨機(jī)樣本進(jìn)行 GS 計(jì)算,與 5k 個(gè)測(cè)試集樣本進(jìn)行比較。如前面表1所示,One-DM 在 FID 和 GS 指標(biāo)上都取得了最佳結(jié)果,進(jìn)一步展示了其生成更高質(zhì)量手寫文本圖像的能力。

分析

一系列消融實(shí)驗(yàn)以分析One-DM。更多分析內(nèi)容包括在不同風(fēng)格背景下的泛化評(píng)估、通過 OCR 性能進(jìn)行的生成質(zhì)量評(píng)估、失敗案例分析以及不同設(shè)計(jì)(如高頻濾波器、風(fēng)格-內(nèi)容融合機(jī)制和風(fēng)格輸入樣本長(zhǎng)度)的效果。

拉普拉斯分支和門控機(jī)制的定量評(píng)估

在 IAM 數(shù)據(jù)集上進(jìn)行了各種消融實(shí)驗(yàn),以評(píng)估方法中不同組件的效果。定量結(jié)果見下表2。發(fā)現(xiàn):(1) 同時(shí)引入拉普拉斯分支和門控機(jī)制提高了生成手寫文本圖像的質(zhì)量,分別使 FID 提高了 3.92 和 2.71。(2) 將拉普拉斯分支與門控機(jī)制結(jié)合使用進(jìn)一步提升了生成性能。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

拉普拉斯分支和門控機(jī)制的定性評(píng)估

為了進(jìn)一步分析One-DM 中的各個(gè)模塊,進(jìn)行了視覺消融實(shí)驗(yàn)。如上表2所示,可以觀察到,首先,添加門控機(jī)制后,背景噪聲可以得到一定程度的抑制,結(jié)果是字符背景相對(duì)干凈。然后,單獨(dú)添加拉普拉斯分支幫助模型學(xué)習(xí)連筆連接和其他風(fēng)格模式。最后,本文的方法整合了拉普拉斯分支和門控機(jī)制,能夠生成最高質(zhì)量的手寫文本圖像。

拉普拉斯分支的討論

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

關(guān)于從單個(gè)參考樣本中學(xué)習(xí)風(fēng)格的討論

對(duì) One-DM 僅憑一個(gè)參考樣本就能超越少量樣本方法的生成性能感到相當(dāng)驚訝。提供了潛在原因的分析如下。首先,One-DM 學(xué)習(xí)了一個(gè)有意義的風(fēng)格潛在空間,其中可以基于已見風(fēng)格生成新的風(fēng)格(參見下圖6)。然后,通過我們的風(fēng)格增強(qiáng)模塊,One-DM 有效地從單個(gè)示例中提取風(fēng)格特征,并將其映射到特征空間中接近示例寫作者的位置,從而生成高質(zhì)量的風(fēng)格化手寫文本圖像。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

與最先進(jìn)工業(yè)方法的比較

為了突出本文方法的優(yōu)勢(shì),將 One-DM 與領(lǐng)先的工業(yè)圖像生成方法進(jìn)行比較,這些方法在極大的數(shù)據(jù)集上進(jìn)行訓(xùn)練(包括大量以文本為中心的圖像),包括兩種顯著的文本到圖像生成方法:DALL-E3和 Stable Diffusion (SD),以及兩種流行的風(fēng)格遷移方法:Artbreeder 和 IP-Adapter(IP-A.),在 IAM 數(shù)據(jù)集上進(jìn)行比較。


如下圖7(a) 所示,本文的方法在風(fēng)格模仿和內(nèi)容保留方面優(yōu)于工業(yè)方法。IP-A. 的表現(xiàn)最差,常常生成失真圖像。Artbreeder 能夠復(fù)制風(fēng)格樣本中的筆觸顏色,但在內(nèi)容保留方面表現(xiàn)不佳。DALL-E3 和 SD 能夠生成內(nèi)容準(zhǔn)確的字符,但通常在風(fēng)格細(xì)節(jié)上與參考不匹配,如字符間距和筆觸寬度,其中 SD 常常生成額外的背景。此外,還比較了 Fzshouji,一個(gè)專為中文手寫生成設(shè)計(jì)的先進(jìn)工業(yè)方法。如圖7(b) 所示,本文的方法在復(fù)制字符細(xì)節(jié)和墨水顏色方面優(yōu)于 Fzshouji。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

應(yīng)用到其他語言

本節(jié)評(píng)估了One-DM 是否可以用于生成除英語以外的其他語言。進(jìn)一步在中文(即 ICDAR2013 競(jìng)賽數(shù)據(jù)庫(kù))和日文(即 UP_Kuchibue 數(shù)據(jù)庫(kù))數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。使用 FID 評(píng)估每個(gè)作者生成樣本的質(zhì)量,然后取平均。


對(duì)于中文手寫字符生成任務(wù),如下表5所示,發(fā)現(xiàn)One-DM 顯著優(yōu)于第二好的方法,F(xiàn)ID 低了 7.37。從下圖8(a) 中可以觀察到,One-DM 生成的字符在幾何形狀和字符傾斜度上與目標(biāo)圖像非常匹配。相比之下,HWT 和 VATr 生成的手寫文字存在明顯的偽影,如模糊和結(jié)構(gòu)塌陷。GANwriting 經(jīng)常遺漏筆畫。WordStylist 有時(shí)難以準(zhǔn)確模仿風(fēng)格模式,并傾向于生成帶有錯(cuò)誤部首的字符。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

上面表5 和圖8(b) 進(jìn)一步驗(yàn)證了 One-DM 在日文手寫生成中的有效性。同樣達(dá)到了最低的 FID 分?jǐn)?shù),生成的日文樣本在內(nèi)容保留和風(fēng)格模仿方面都表現(xiàn)出色。


進(jìn)一步探討了為什么只需一個(gè)樣本的基于擴(kuò)散的方法(如One-DM 和 WordStylist)在生成中文和日文字符方面明顯優(yōu)于少量樣本的基于 GAN 的方法(如 GANwriting、HWT 和 VATr)。GAN 基礎(chǔ)方法在中文和日文字符上的較低性能可能源于其原始卷積架構(gòu)在處理復(fù)雜幾何的中文和日文字符時(shí)遇到困難,正如 [60] 所指出的那樣。相比之下,One-DM 將中文和日文字符的生成過程分解為更簡(jiǎn)單的步驟。例如,如下表6 所示,在擴(kuò)散生成過程的早期階段,模型首先嘗試生成一個(gè)粗略的中文手寫字符。然后,在條件指導(dǎo)下繼續(xù)細(xì)化書寫風(fēng)格(如字符形狀和筆畫顏色),直到合成出令人滿意的手寫文字。

突破性進(jìn)展!只需單張參考圖,完美仿寫各種手寫內(nèi)容!華南理工等開源One-DM-AI.x社區(qū)

總結(jié)展望

本文介紹了一種新穎的 One-DM 方法用于手寫文本生成,只需一個(gè)風(fēng)格參考即可生成逼真的手寫文本圖像。通過結(jié)合風(fēng)格參考中的高頻成分來增強(qiáng)風(fēng)格提取。對(duì)于具有明顯風(fēng)格模式的高頻成分,采用拉普拉斯對(duì)比學(xué)習(xí)來捕捉更具判別性的風(fēng)格特征。此外,門控機(jī)制提高了參考信息的傳遞效果,減少了背景噪聲。One-DM 在多種語言腳本的生成中優(yōu)于少樣本方法。未來計(jì)劃探索 One-DM 在字體生成和矢量字體創(chuàng)建任務(wù)中的潛力。


本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/QRZlAdCb0Iy5bObruMK2UA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦