自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

會(huì)模仿筆跡的AI,為你創(chuàng)造專屬字體

人工智能 新聞
來自華南理工大學(xué)、新加坡國立大學(xué)、香港理工大學(xué)以及琶洲實(shí)驗(yàn)室的研究者們聯(lián)合提出一種有趣的手寫文字生成方法,僅需提供少量的參考樣本即可臨摹用戶的書寫風(fēng)格,進(jìn)而生成符合該風(fēng)格的任意文字。

筆跡模仿 AI 的研究背景

俗話說,見字如面,字如其人。相比呆板的打印字體,手寫體更能體現(xiàn)書寫者的個(gè)人特點(diǎn)。相信很多人都曾設(shè)想過,擁有一套屬于自己的手寫字體,用在社交軟件中,更好的展示自己的個(gè)人風(fēng)格。

然而,不同于英文字母,漢字?jǐn)?shù)量是極其龐大的,想要?jiǎng)?chuàng)造一套自己的專屬字體代價(jià)十分高昂。例如,最新發(fā)布的國標(biāo)GB18030-2022中文字符集包含8萬多個(gè)漢字。有報(bào)道稱,某視頻網(wǎng)站博主花了18個(gè)小時(shí)寫完了7000多個(gè)漢字,中間耗費(fèi)了足足13支筆,手都寫麻了!

上述問題引發(fā)了論文作者的思考,能否設(shè)計(jì)一個(gè)文字自動(dòng)生成模型,幫助解決專屬字體創(chuàng)造代價(jià)高的問題呢?為了解決這一問題,研究者設(shè)想提出一個(gè)會(huì)筆跡模仿的 AI,僅需用戶提供少量的手寫樣本(大約 10 幾張),就能提取筆跡中蘊(yùn)含的書寫風(fēng)格(例如字符的大小、傾斜程度、橫寬比、筆畫的長短和曲率等),并且臨摹該風(fēng)格去合成更多的文字,從而為用戶高效合成一套完整的手寫字體。

圖片

進(jìn)一步地,論文作者從應(yīng)用價(jià)值和用戶體驗(yàn)兩個(gè)角度出發(fā),對該模型的輸入和輸出模態(tài)做了如下思考:1. 考慮到序列模態(tài)的在線字體 (online handwritings) 比圖像模態(tài)的離線文字 (offline handwritings) 包含更豐富的信息(軌跡點(diǎn)的詳細(xì)位置和書寫順序,如下圖所示),將模型的輸出模態(tài)設(shè)置為在線文字會(huì)有更廣泛的應(yīng)用前景,例如可以應(yīng)用到機(jī)器人寫字和書法教育上。2. 在日常生活中,相比通過平板和觸摸筆等采集設(shè)備獲取在線文字,人們利用手機(jī)拍照獲取離線文字更加方便。因此,將生成模型的輸入模態(tài)設(shè)為離線文字,用戶使用起來會(huì)更加方便!

圖片

總結(jié)起來,本文的研究目標(biāo)是提出一個(gè)風(fēng)格化的在線手寫文字生成模型 (stylized online handwriting generation method)。該模型既能臨摹用戶提供的離線文字中所蘊(yùn)含的書寫風(fēng)格,又能根據(jù)用戶需要在線生成內(nèi)容可控的手寫筆跡。

圖片

  • 論文地址:https://arxiv.org/abs/2303.14736
  • 代碼開源:https://github.com/dailenson/SDT

主要挑戰(zhàn)

為了實(shí)現(xiàn)上述目標(biāo),研究者們分析了兩個(gè)關(guān)鍵問題:1. 由于用戶只能提供少量的字符樣本,能否僅從這些少量的參考樣本中學(xué)習(xí)用戶獨(dú)特的書寫風(fēng)格呢?換句話說,根據(jù)少量的參考樣本臨摹用戶的書寫風(fēng)格是否可行?2. 本文的研究目標(biāo)不僅需要滿足生成的文字風(fēng)格可控,還需要內(nèi)容也可控。因此,在學(xué)習(xí)到用戶的書寫風(fēng)格后,如何將該風(fēng)格與文字內(nèi)容高效的結(jié)合,從而生成滿足用戶期望的手寫筆跡?接下來讓我們看看這篇 CVPR 2023 提出的 SDT(style disentangled Transformer)方法是怎樣解決這兩個(gè)問題的吧。

解決方案

研究動(dòng)機(jī) 研究者發(fā)現(xiàn),個(gè)人筆跡中通常存在兩種書寫風(fēng)格:1. 相同書寫者的筆跡存在著一種整體上的風(fēng)格共性,各個(gè)字符呈現(xiàn)出相似的傾斜程度和寬高比,且不同書寫者的風(fēng)格共性各不相同。由于這種特性可以用于區(qū)分出不同的書寫者,研究者們稱其為書寫者風(fēng)格。2. 除了整體上的風(fēng)格共性,來自同一書寫者的不同字符間存在著細(xì)節(jié)上的風(fēng)格不一致。例如,對于 “黑” 和 “杰” 兩個(gè)字符,二者在字符結(jié)構(gòu)上具有相同的四點(diǎn)水部首,但該部首在不同的字符中存在微弱的書寫差異,體現(xiàn)在筆畫書寫的長短、位置和曲率上。研究者們將這種字形上的細(xì)微的風(fēng)格模式稱為字形風(fēng)格。受啟發(fā)于上述觀察,SDT 旨在從個(gè)人筆跡中解耦出書寫者和字形風(fēng)格,期望提升對用戶筆跡的風(fēng)格模仿能力。

圖片

在學(xué)習(xí)到風(fēng)格信息后,不同于以往的手寫文字生成方法簡單的將風(fēng)格和內(nèi)容特征進(jìn)行簡單的拼接,SDT 將內(nèi)容特征作為查詢向量,自適應(yīng)的捕獲風(fēng)格信息,從而實(shí)現(xiàn)風(fēng)格和內(nèi)容的高效融合,生成符合用戶預(yù)期的手寫筆跡。

圖片

方法框架 SDT 的整體框架如下圖所示,包含雙分支風(fēng)格編碼器、內(nèi)容編碼器和 transformer 解碼器三部分。首先,本文提出兩個(gè)互補(bǔ)的對比學(xué)習(xí)目標(biāo)來引導(dǎo)風(fēng)格編碼器的書寫者分支和字形分支分別學(xué)習(xí)對應(yīng)的風(fēng)格提取。然后,SDT 利用 transformer 的注意力機(jī)制 (multi-head attention) 對風(fēng)格特征和內(nèi)容編碼器提取到的內(nèi)容特征進(jìn)行動(dòng)態(tài)融合,漸進(jìn)式的合成在線手寫文字。


圖片

(a) 書寫者風(fēng)格對比學(xué)習(xí) SDT 提出面向書寫者風(fēng)格提取的有監(jiān)督對比學(xué)習(xí)目標(biāo)(WriterNCE),將屬于相同書寫者的字符樣本聚集在一起,推遠(yuǎn)屬于不同書寫者的手寫樣本,顯示地引導(dǎo)書寫者分支關(guān)注個(gè)人筆跡中的風(fēng)格共性。

(b) 字形風(fēng)格對比學(xué)習(xí) 為了學(xué)習(xí)更加細(xì)節(jié)的字形風(fēng)格,SDT 提出無監(jiān)督的對比學(xué)習(xí)目標(biāo) (GlyphNCE),用于最大化相同字符不同視角間的互信息,鼓勵(lì)字形分支專注學(xué)習(xí)字符中的細(xì)節(jié)模式。具體如下圖所示,首先對同一張手寫字符做兩次獨(dú)立的采樣,獲取一對含有筆畫細(xì)節(jié)信息的正樣本

圖片

圖片

,然后從其他字符中采樣得到負(fù)樣本

圖片

。每次采樣時(shí),隨機(jī)選擇少量樣本塊作為包含原始樣本細(xì)節(jié)的新視角。樣本塊的采樣服從均勻分布,避免字符的某些區(qū)域被過度采樣。為了更好的引導(dǎo)字形分支,采樣過程直接作用于字形分支輸出的特征序列上。

圖片

(c) 風(fēng)格和內(nèi)容信息的融合策略 獲取了兩種風(fēng)格特征后,如何將其與內(nèi)容編碼器學(xué)習(xí)到的內(nèi)容編碼進(jìn)行高效融合呢?為了解決這一問題,在任意的解碼時(shí)刻 t,SDT 將內(nèi)容特征視作初始點(diǎn),然后結(jié)合 q 和 t 時(shí)刻之前輸出的軌跡點(diǎn)

圖片

形成新的內(nèi)容上下文

圖片

。接著,內(nèi)容上下文被視為 query 向量,風(fēng)格信息作為 key & value 向量。在交叉注意力機(jī)制的融合下,內(nèi)容上下文與兩種風(fēng)格信息依次完成動(dòng)態(tài)聚合。

實(shí)驗(yàn)

定量評價(jià) SDT 在中文、日文、印度文和英文數(shù)據(jù)集上都取得了最優(yōu)異的性能,尤其是在風(fēng)格分?jǐn)?shù)指標(biāo)上,相比之前的 SOTA 方法,SDT 取得了較大突破。

圖片


圖片

定性評價(jià) 在中文生成方面,相比以前的方法,SDT 生成的手寫字符既能避免字符的崩壞又能很好的臨摹用戶的書寫風(fēng)格。得益于字形風(fēng)格學(xué)習(xí),SDT 在字符的筆畫細(xì)節(jié)生成方面也能做的很好。

圖片

在其他語言上 SDT 也表現(xiàn)良好。尤其在印度文生成方面,現(xiàn)有主流方法很容易生成崩潰的字符,而我們的 SDT 依舊能夠維持字符內(nèi)容的正確性。

圖片

不同模塊對算法性能的影響 如下表所示,本文提出的各個(gè)模塊具有協(xié)同作用,有效提升了對用戶筆跡的臨摹性能。具體來說,書寫者風(fēng)格的加入提升了 SDT 對字符整體風(fēng)格的模仿,例如字符的傾斜程度和長寬比等,而字形風(fēng)格的加入改善了生成字符的筆畫細(xì)節(jié)。相比已有方法簡單的融合策略,在各項(xiàng)指標(biāo)上 SDT 的自適應(yīng)動(dòng)態(tài)融合策略全面增強(qiáng)了字符的生成性能。

圖片

圖片

兩種風(fēng)格的可視化分析 對兩種風(fēng)格特征進(jìn)行傅里葉變換得到如下的頻譜圖,從圖中觀察到,書寫者風(fēng)格包含更多的低頻成分,而字形風(fēng)格主要關(guān)注高頻成分。事實(shí)上,低頻成分包含目標(biāo)的整體輪廓,高頻成分則更加關(guān)注物體的細(xì)節(jié)。這一發(fā)現(xiàn)進(jìn)一步驗(yàn)證和解釋了解耦書寫風(fēng)格的有效性。

圖片

展望

大家可以通過筆跡 AI 創(chuàng)造自己的專屬字體,在社交平臺(tái)上更好的表達(dá)自我!

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-18 10:40:00

AI生成

2021-07-28 09:09:15

AI 數(shù)據(jù)人工智能

2021-03-05 15:09:59

人工智能人臉識別安全

2019-05-07 15:49:27

AI人工智能藝術(shù)

2021-09-26 09:09:20

開源APP程序員

2017-10-13 15:59:47

2021-06-15 10:07:13

AI 數(shù)據(jù)人工智能

2016-07-07 10:33:53

思科DNA視頻

2023-08-10 11:49:24

AI項(xiàng)目模型

2025-02-12 11:59:15

DeepSeekAI語言模型

2020-03-09 10:10:02

AI 數(shù)據(jù)人工智能

2024-06-07 09:13:23

2023-11-18 09:52:32

AI模型

2022-05-31 10:21:41

人工智能AI

2009-04-14 11:02:00

企業(yè)安全防火墻VPN

2020-12-11 12:35:00

人工智能科技機(jī)器

2021-12-10 07:47:31

MySQL設(shè)置數(shù)據(jù)庫

2018-08-06 14:29:07

甲骨文性能安全性
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號