ECCV 2024 | 一眼臨?。浩骋谎劬湍苣7鹿P跡的AI
來自華南理工大學、新加坡國立大學、昆侖萬維以及琶洲實驗室的研究者們提出一種新的風格化手寫文字生成方法,僅需提供單張參考樣本即可臨摹用戶的書寫風格,支持英文,中文和日文三種文字的臨摹。
一眼臨摹 AI 的研究背景
手寫體自動臨摹是一項有趣的 AI 生成式任務(wù),用戶只需將少量書寫樣本輸入到筆跡模仿 AI 中,就能獲得一套符合自己書寫風格的電子字體。該字體可以用于社交和辦公軟件中,幫助用戶更好的表達個性和傳遞情感,兼顧了傳統(tǒng)手寫的人情味和數(shù)字化時代的高效表達。
在去年早些時候,機器之心也報道過一個CVPR’23筆跡模仿的工作,名為Disentangling Writer and Character Styles for Handwriting Generation。彼時的筆跡模仿 AI 還需要提供 15 張樣本作為風格參考,用戶使用起來覺得略顯繁瑣。在實際應(yīng)用中,用戶更傾向于只需單張樣本作為輸入的筆跡模仿 AI,因為其更加高效,便捷以及節(jié)約時間。
在這篇發(fā)表在 ECCV 2024 上的新工作中,研究者們設(shè)計了一種能夠一眼臨摹的手寫文字生成方法。該方法僅需單張樣本作為風格輸入,為用戶帶來更好的使用體驗。在具體介紹該工作之前,我們可以思考一個問題:目前大火的文生圖方法和風格遷移方法是在海量的數(shù)據(jù)上進行訓練的,擁有強大的泛化能力,能否可以直接實現(xiàn)一眼臨?。看鸢甘欠穸ǖ?。研究者們挑選了 DALL-E3, Stable Diffusion , Artbreeder , IP-Adapter 等工業(yè)方法進行測試,實驗顯示現(xiàn)有工業(yè)方法在手寫文字的風格臨摹 (墨跡顏色,傾斜程度,字母間的連筆和間隔等) 上離目標還有較大距離,暫時還無法做到一眼臨摹。
為了實現(xiàn)一眼臨摹,研究者們提出一個風格化的手寫文字生成模型 (stylized handwritten text generation method),該模型能夠從單張手寫樣本中臨摹出用戶的書寫風格,進而合成任意書寫內(nèi)容的手寫筆跡。目前論文的代碼和數(shù)據(jù)已經(jīng)開源,歡迎感興趣的小伙伴們上手試玩!
- 論文地址:https://arxiv.org/abs/2409.04004
- 代碼開源:https://github.com/dailenson/One-DM
關(guān)鍵問題
圍繞上述目標,研究者們分析了兩個關(guān)鍵問題:1. 用戶只能提供單張書寫樣本,如何從單張參考樣本中準確學習用戶獨特的書寫風格呢?換句話說,一眼臨摹的要求過于苛刻,僅僅使用單張樣本能否臨摹出令人滿意的用戶筆跡?2. 實際應(yīng)用中,用戶書寫的紙張可能沒那么干凈,提供的樣本中存在多樣的噪聲背景,如何在臨摹風格的過程中避免這些噪聲的干擾?接下來讓我們看看這篇 ECCV2024 提出的 One-DM(One-Shot Diffusion Mimicker)是如何解決上述問題的吧。
技術(shù)方案
研究動機 研究者發(fā)現(xiàn),由于單張樣本圖像中存在背景干擾,書寫風格模式并不清晰,很難直接從原始的樣本圖像中提取出準確的書寫風格。為了解決上述問題,研究者對樣本進行高低頻分離,發(fā)現(xiàn)書寫樣本的高頻成分中具有清晰的文字輪廓,蘊含著顯著的書寫風格模式,包含文字的傾斜,字母間距和連筆模式等。受啟發(fā)于上述觀察,One-DM 旨在引入個人筆跡的高頻成分來增強用戶書寫風格的提取。
然而,這聽起來簡單,實際操作卻不容易。這里有兩個尚未解決的難題:(1) 盡管高頻成分中存在更清晰的風格模式,如何準確引導 One-DM 從高頻圖像中提取出風格特征而不是其他的特征呢?(2) 由于高頻成分中缺乏筆跡顏色,仍然需要從原始樣本中提取風格模式作為補充,這導致最終提取出的風格特征依然保留了樣本的背景噪聲,從而對后續(xù)的文字合成過程產(chǎn)生不利影響。為了解決這些難題,One-DM 提出了兩個解決策略:(a)拉普拉斯風格增強模塊,(b)自適應(yīng)過濾噪聲的門控機制。
方法框架 One-DM 的整體框架如下圖所示,包含高頻風格編碼器、空域風格編碼器、內(nèi)容編碼器、風格 - 內(nèi)容融合模塊和擴散生成模塊。首先,One-DM 利用高通濾波器從原始風格參考圖像中提取高頻成分,其次將高頻和原始圖像并行輸入到高頻和空域風格編碼器中,分別獲得高頻和空域風格特征。然后,利用門控機制來自適應(yīng)過濾空域風格特征中的背景噪聲。接著將內(nèi)容編碼器提取的內(nèi)容特征,高頻風格特征和過濾后的空域風格特征送入風格 - 內(nèi)容融合模塊中獲得合并后的條件輸入。最后,利用該條件輸入引導擴散模型合成滿足期望風格和目標內(nèi)容的手寫文字。
(a) 拉普拉斯風格增強模塊 One-DM 提出拉普拉斯風格增強模塊來從單張書寫樣本中高效提取用戶的書寫風格。首先利用拉普拉斯算子獲取原始樣本的高頻成分。相比其他算子,例如:傅里葉算子,索貝爾算子和小波算子,拉普拉斯算子的優(yōu)勢在于能夠提取更加清晰的字符風格模式。隨后,在拉普拉斯對比學習損失函數(shù)(LapNCE)的引導下,高頻風格編碼器從高頻成分中提取出判別性強的風格模式,用于促進手寫文本合成的真實性和多樣性。LapNCE 和高頻成分是不可分割的整體,與其他直接作用于圖像上的對比學習損失函數(shù)不同,LapNCE 只有作用在高頻成分上才能準確引導風格的提取。
(b) 自適應(yīng)門控機制 為了過濾空域風格特征中存在的噪聲信息,One-DM 提出自適應(yīng)門控機制。門控機制中存在多個可學習的門控單元,其數(shù)量與空域風格特征
的長度相同。門控單元W的值會隨著
的改變而自適應(yīng)變化,每個門控單元
決定了對應(yīng)位置
的通過率,使得
較大的位置通過率越高。該機制能夠從
獲取有意義的風格信息
,同時抑制多余的背景噪聲,其中
。
(c) 風格 - 內(nèi)容的融合摸塊 獲取了高頻和空域風格特征后,如何將風格信息和內(nèi)容編碼器提取出的內(nèi)容信息注入到擴散模型中,引導后續(xù)的文字生成過程呢?One-DM 提出先將內(nèi)容信息和風格信息融合后再進行注入擴散模型,而不是分開注入。具體來說,所提出的風格 - 內(nèi)容融合模塊包含兩個 attention 機制。首先,內(nèi)容信息E作為 query 向量,合并后的風格信息作為 key & value 向量,在交叉注意力機制中,E動態(tài)查詢風格信息中與自身最相關(guān)的風格特征。然后,將查詢出的風格特征和內(nèi)容信息合并,送入自注意力機制中完成進一步的信息融合。
實驗評估
定量評價 One-DM 在多個英文、中文和日文數(shù)據(jù)集上都取得了最優(yōu)異的臨摹性能。尤其強調(diào)的是,僅需一張參考樣本的 One-DM 超過了之前依賴十幾張參考樣本的 SOTA 方法 (HWT 和 VATr)。
定性評價 在英文文本生成任務(wù)上,相比以前的 SOTA 方法,One-DM 生成的結(jié)果可以更好的臨摹出參考樣本的墨跡、字符間隔和筆畫粗細等風格特征。
在其他語言上 One-DM 也表現(xiàn)良好。從下圖中可以看出,Diffusion-based (One-DM 和 WordStylist) 的方法在生成中文和日文等字符結(jié)構(gòu)復雜的文本時,顯著優(yōu)于 GAN-based (GANwriting,HWT 和 VATr) 方法。而相比同為 Diffusion-based 的 WordStylist,One-DM 在字符細節(jié)上更勝一籌。
與工業(yè)方法對比,One-DM 也有較大優(yōu)勢。在英文文本合成任務(wù)上,One-DM 的文本內(nèi)容準確度和風格臨摹上都顯著優(yōu)于現(xiàn)有的主流工業(yè)方法。其中,DALL-E3 跟 Stable Diffusion 表現(xiàn)稍好,可以合成正確的文本內(nèi)容,但是在風格臨摹上效果不佳,并且 Stable Diffusion 容易生成多余的背景。而中文文本合成任務(wù)上,One-DM 在字符的墨跡和字符細節(jié)上與目標風格更接近。
消融實驗
核心模塊對算法性能的影響 如下表所示,本文提出的拉普拉斯風格增強模塊和門控機制具有協(xié)同作用,有效提升了對用戶筆跡的臨摹性能。此外,實驗也證明了拉普拉斯算子比其他算子提取的風格模式更加清晰,有助于提升文字合成性能。
拉普拉斯風格增強模塊的分析 實驗驗證了高頻成分和拉普拉斯對比學習 (LapNCE) 是不可分割的整體:單獨使用會導致 One-DM 性能顯著下降,聯(lián)合使用二者才能最大程度上提升性能。原因在于,沒有 LapNCE 的引導,One-DM 很難從高頻成分中準確提取風格模式。另一方面,由于原圖中的風格模式并不清晰,直接將 LapNCE 應(yīng)用在原圖上也很難提取到理想的風格模式。
一眼臨摹的深入分析 為什么僅需單張樣本的 One-DM 可以超越需要 10 幾張樣本的 SOTA 方法呢?本文給出了潛在的分析:首先,One-DM 學習到了有意義的風格特征空間,可以根據(jù)訓練過程中見過的風格靈活創(chuàng)造新的書寫風格而不是機械的記憶訓練集中的已有風格,如下圖所示。然后,借助拉普拉斯風格增強模塊,One-DM 可以從用戶提供的參考樣本中準確提取出書寫風格特征,并將其映射到特征空間中與用戶相近的位置,從而產(chǎn)生高質(zhì)量的風格化手寫文本圖像。
One-DM 在中文和日文實驗上的深入分析 為什么 One-DM 在中文和日文實驗上遠超 GAN-based 的方法?本文對此做了進一步探究。作者認為,GAN-based 方法在較低性能可能源于其基礎(chǔ)卷積架構(gòu)難以處理這些字符的復雜幾何結(jié)構(gòu)。相比之下,One-DM 作為 Diffusion-based 方法,將中文和日文等復雜字符的生成過程分解為更簡單的步驟。如上圖所示,在擴散生成過程的早期階段,One-DM 首先嘗試生成一個粗略的中文手寫字符。然后,在條件輸入的引導下,模型繼續(xù)細化書寫風格(例如字符形狀和筆畫顏色),直到合成出令人滿意的手寫體。
總結(jié)與展望
One-DM 從用戶的實際體驗出發(fā),提出了一眼臨摹的筆跡臨摹 AI。相比之前的類似工作,One-DM 僅需單張樣本作為風格輸入,使用起來更加高效、便捷和節(jié)約時間,并且在性能上也優(yōu)于以往依賴 10 幾張風格樣本的 SOTA 工作。希望在未來,人人都可以在互聯(lián)網(wǎng)上使用自己的專屬字體,能夠同時享受傳統(tǒng)手寫體帶來的人情味與 AI 時代帶來的高效便捷。