自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer

發(fā)布于 2024-4-8 10:21
瀏覽
0收藏


可縮放矢量圖形(Scalable Vector Graphics,SVG)是用于描述二維圖型和圖型應(yīng)用程序的基本元素;與傳統(tǒng)的像素圖形不同,SVG 使用數(shù)學(xué)描述來定義圖形,因此可以在任何大小下無損地縮放而不失真。這使得 SVG 成為網(wǎng)站設(shè)計領(lǐng)域的理想選擇,特別是在需要適應(yīng)不同分辨率和設(shè)備的情況下。但是創(chuàng)作者手工設(shè)計 SVG 是高成本并具有挑戰(zhàn)的。 


最近,隨著 CLIP 和生成式模型的快速發(fā)展,文本引導(dǎo)的矢量圖合成(Text-to-SVG)在抽象像素風(fēng)格 [1,2] 和矢量手繪草圖 [3,4] 等領(lǐng)域都取得了不錯的進展。通過可微分渲染器 [5] 驅(qū)動矢量路徑基元自動合成對應(yīng)的矢量圖形,成為一個熱門的研究方向。相比于人類設(shè)計師,Text-to-SVG 方法可以快速并大量的創(chuàng)建矢量內(nèi)容,用于擴充矢量資產(chǎn)。 


然而,現(xiàn)有的 Text-to-SVG 方法還存在兩個限制:1.生成的矢量圖缺少編輯性;2. 難以生成高質(zhì)量和多樣性的結(jié)果。為了解決這些限制,作者提出了一種新的文本引導(dǎo)矢量圖形合成方法:SVGDreamer。


CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)


論文題目:

SVGDreamer: Text Guided SVG Generation with Diffusion Model

論文地址:

??https://arxiv.org/abs/2312.16476??

代碼地址:

??https://github.com/ximinng/SVGDreamer??

項目地址:

??https://ximinng.github.io/SVGDreamer-project/??


CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

實現(xiàn)思路


CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

▲ 圖1:SVGDreamer流程圖


SVGDreamer 由兩部分構(gòu)成:語義驅(qū)動的圖像矢量化(Semantic-driven Image Vectorization,SIVE)和基于矢量例子的分?jǐn)?shù)蒸餾(Vectorized Particle-based Score Distillation,VPSD)構(gòu)成。


其中 SIVE 根據(jù)文本提示矢量化圖像,VPSD 則通過分?jǐn)?shù)蒸餾從預(yù)訓(xùn)練的擴散模型中合成高質(zhì)量、多樣化并具有審美吸引力的矢量圖。


1.1 語義驅(qū)動的圖像矢量化 (SIVE)


SIVE 根據(jù)文本提示合成語義層次解耦的矢量圖。它包括兩個部分:

  1. 矢量基元初始化(Primitive Initialization)
  2. 基于語義級優(yōu)化(Semantic-aware Optimization)


如圖 1 上半部分所示,文本提示中不同的詞語對應(yīng)不同的注意力圖,這使得作者可以借助注意力圖初始化矢量圖控制點(control points)。具體來說,作者對注意力圖進行歸一化,將它視為一個概率分布圖,根據(jù)概率加權(quán)采樣畫布上的點作為貝塞爾曲線的控制點。


然后,作者將初始化階段獲得的注意力圖轉(zhuǎn)換為可重復(fù)使用的掩碼,大于等于閾值的部分設(shè)為 1,代表目標(biāo)區(qū)域,小于閾值為 0。作者利用掩碼定義 SIVE 損失函數(shù)從而精確地優(yōu)化不同的對象。

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

SIVE 確保了控制點保持在各自的語義對象區(qū)域中,從而實現(xiàn)不同對象的解構(gòu),最終結(jié)果如圖 1 右上部分所示。


1.2 基于矢量粒子的分?jǐn)?shù)蒸餾 (VPSD)


之前基于擴散模型的 SVG 生成工作 [2,4],已經(jīng)探索了使用分?jǐn)?shù)蒸餾采樣(SDS)優(yōu)化 SVG 參數(shù)的方式,但這種優(yōu)化方式往往會帶來顏色過飽和、優(yōu)化得到的 SVG 過于平滑的結(jié)果。


受變分分?jǐn)?shù)蒸餾采樣的啟發(fā),作者提出了基于向量化粒子的分?jǐn)?shù)蒸餾采樣(Vectorized Particle-based Score Distillation,VPSD)損失來解決以上問題。相對于 SDS,這種采樣方式將 SVG 建模為控制點和色彩的一個分布,VPSD 通過優(yōu)化這個分布來實現(xiàn)對 SVG 參數(shù)的優(yōu)化:

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

由于直接優(yōu)化另一個模型 

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

的成本過大,所以引入 Lora 來減少被優(yōu)化的參數(shù)量:

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

最后,為了改善合成矢量圖的美觀評價,作者引入了一種獎勵反饋學(xué)習(xí)方法(ReFL),將采樣得到的樣本輸入到使用預(yù)訓(xùn)練的 Reward 模型中,共同進行對 LoRA 參數(shù)的優(yōu)化:

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

最后完整的目標(biāo)函數(shù)即為上述三個函數(shù)的加權(quán)組合:

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

通過反向傳播更新 SVG 路徑參數(shù),經(jīng)過循環(huán)迭代完成優(yōu)化,得到最終結(jié)果。

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

實驗結(jié)果

2.1 定性結(jié)果

下圖展示了 SVGDreamer 生成的 6 種風(fēng)格類型的 SVG 結(jié)果,包括肖像圖風(fēng)格(Iconography)、像素風(fēng)格(Pixel-Art)、水墨(Ink and Wash)、多邊形(Low-poly)、手繪(Sketch)和線條繪畫(Painting)風(fēng)格等。不同顏色的后綴表示不同的 SVG 風(fēng)格類型,這些風(fēng)格類型也并不需要在 Prompt 中給出,只需要通過控制矢量圖基元實現(xiàn)。


CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

▲ 圖2. SVGDreamer結(jié)果可視化


SVGDreamer 能夠根據(jù)文本提示合成語義層次解耦的矢量圖,這使得其可以被用于創(chuàng)建大量矢量數(shù)據(jù)資產(chǎn),同時這些矢量元素可以被自由地組合,如下圖所示:


CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

▲ 圖3:SVGDreamer合成的矢量資產(chǎn)示意圖

?

2.2 應(yīng)用展示

?

除此之外,作者展示了 SVGDreamer 的應(yīng)用:制作矢量海報。通過將制定字形轉(zhuǎn)為矢量表示,并且與生成的矢量圖結(jié)合,即可得到美觀的矢量海報。與基于擴散模型的生成式位圖海報相比,矢量海報的文字與內(nèi)容部分同樣具有良好的編輯性,并且不會產(chǎn)生錯誤的文字:


CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

▲ 圖4:SVGDreamer制作的矢量海報與位圖海報合成方法的比較

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

總結(jié)

在這項工作中,作者介紹了 SVGDreamer,一個用于文本引導(dǎo)矢量圖形合成的創(chuàng)新模型。


SVGDreamer 結(jié)合了兩個關(guān)鍵的技術(shù)設(shè)計: 語義驅(qū)動的圖像矢量化 (SIVE) 和基于矢量粒子的分?jǐn)?shù)蒸餾 (VPSD),這使得模型能夠生成具有高可編輯性、卓越的視覺質(zhì)量和顯著的多樣性的矢量圖形。


由于SVGDreamer能夠生成具有可編輯性的復(fù)雜矢量圖形,因此,SVGDreamer 有望顯著推進文本到 SVG 模型在設(shè)計領(lǐng)域的應(yīng)用。它已經(jīng)被證實可以用來創(chuàng)建矢量圖形資產(chǎn)庫,設(shè)計師可以根據(jù)不同的需求,很容易地將庫中的元素重新排列組合,用于創(chuàng)建獨特的矢量海報或 Logo,以及其他矢量藝術(shù)形式。


CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)

矢量圖可微渲染庫PyTorch-SVGRender介紹

CVPR 2024 | 北航聯(lián)合港大發(fā)布全新文本引導(dǎo)矢量圖形合成方法SVGDreamer-AI.x社區(qū)


項目地址:

??https://qianyu-lab.github.io/PyTorch-SVGRender-project/??


代碼地址:

??https://github.com/QianYu-Lab/PyTorch-SVGRender??


文檔地址:

??https://pytorch-svgrender.readthedocs.io/en/latest/index.html??


Pytorch-SVGRender 是作者團隊在 2023.12 發(fā)布的一個用于 SVG 生成的可微分渲染方法的 Python 庫,使研究人員和開發(fā)者們可以通過一個統(tǒng)一的、簡化的接口來訪問不同的 SVG 生成技術(shù)。


Pytorch-SVGRender 包含兩大功能:位圖到 SVG 的渲染(Img-to-SVG),以及文本到 SVG(Text-to-SVG)的渲染。并且整合了與這些功能有關(guān)的研究成果,例如 DiffVG、LIVE、CLIPasso、CLIPDraw、VectorFusion、Word-As-Image、DiffSketcher 和 SVGDreamer 等。


Pytorch-SVGRender 的設(shè)計理念是基于模塊化和可擴展性的原則,讓用戶能夠無縫集成最新的 SVG 創(chuàng)作技術(shù)。通過提供一套清晰的、統(tǒng)一的 API,該庫允許開發(fā)者輕松地調(diào)用底層繪圖算法,無需深入了解其底層原理。此外,庫中的每一種方法的相關(guān)參數(shù)都經(jīng)過精心優(yōu)化,以確保生成的 SVG 文件在性能和質(zhì)量上都能滿足高標(biāo)準(zhǔn)的要求。


最后,Pytorch-SVGRender 還提供了豐富的文檔和示例代碼,幫助用戶快速入門上手。作者希望這個庫可以提高 SVG 研究人員和開發(fā)者的工作效率,為未來 SVG 相關(guān)技術(shù)的創(chuàng)新與實踐提供幫助。


本文轉(zhuǎn)自 PaperWeekly ,作者:周海濤


原文鏈接:??https://mp.weixin.qq.com/s/6aMQdWc_DG04iop4JhJ4eg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦