中科大提出新視頻流制作動畫解決方案RAIN,可實現真人表情移植和動漫實時動畫
中科大提出了一種新的視頻流制作動畫解決方案RAIN,能夠使用單個RTX 4090 GPU 實時低延遲地為無限視頻流制作動畫。RAIN 的核心思想是有效地計算不同噪聲水平和長時間間隔的幀標記注意力,同時對比以前基于流的方法多得多的幀標記進行去噪。這種設計允許 RAIN 生成具有更短延遲和更快速度的視頻幀,同時保持對擴展視頻流的遠程注意力,從而增強連續(xù)性和一致性。
下面展示跨領域人臉變形生成結果。實現了動漫人物的實時動畫。真人表情可以成功移植到動漫人物上,且生成穩(wěn)定、一致、無限長。
RAIN可以在客戶級設備上制作實時動畫。
相關鏈接
- 論文:http://arxiv.org/abs/2412.19489v1
- 主頁:https://pscgylotti.github.io/pages/RAIN
論文介紹
RAIN:無限視頻流的實時動畫
實時動畫因增強在線參與度而廣受歡迎,但使用擴散模型實現高質量、實時和穩(wěn)定的動畫仍然具有挑戰(zhàn)性,尤其是在消費級 GPU 上?,F有方法難以有效地生成長而一致的視頻流,通常受到延遲問題和長時間內視覺質量下降的限制。
在本文中,我們介紹了 RAIN,這是一種管道解決方案,能夠使用單個 RTX 4090 GPU 實時低延遲地為無限視頻流制作動畫。RAIN 的核心思想是有效地計算不同噪聲水平和長時間間隔的幀標記注意力,同時對比以前基于流的方法多得多的幀標記進行去噪。這種設計允許 RAIN 生成具有更短延遲和更快速度的視頻幀,同時保持對擴展視頻流的遠程注意力,從而增強連續(xù)性和一致性。因此,使用 RAIN 在短短幾個時期內進行微調的穩(wěn)定擴散模型可以實時、低延遲地生成視頻流,而不會在質量或一致性方面做出太大妥協,最長可達無限長。盡管 RAIN 擁有先進的功能,但它僅引入了一些額外的 1D 注意力模塊,因此額外負擔很小。在基準數據集中進行的實驗和生成的超長視頻表明,RAIN 可以實時為角色制作動畫,并且質量、準確性和一致性遠高于競爭對手,同時延遲更低。所有代碼和模型都將公開發(fā)布。
框架
RAIN采用流水線式設計,用于流式視頻推理。潛在狀態(tài)由階梯式噪聲水平的幀填充。每次對一組幀進行去噪處理。因此RAIN支持生成無限長的視頻。
為了加速,RAIN采用了多種加速方法。我們對 UNet 模型進行 LCM Distillation,并采用TAESDV作為 VAE 解碼器。在 TensorRT 加速下,RAIN在單個 RTX 4090 上以 18 fps 的速度運行,延遲約為 1.5 秒,分辨率為 512x512,使用 DWPose 作為特征提取器。
全身動畫
來自 UBC-Fashion 數據集的測試示例,該模型僅在訓練數據集中的 500 個視頻片段上進行訓練。
跨域人臉變形
臉部變形示例,真實臉部的表情和頭部位置被映射到動漫臉部中。
未來
RAIN提供了一種使用 AI 渲染實時動畫的可能方式。期待未來可以將 AI 與 CG 結合起來渲染游戲、直播和虛擬現實。可以充分利用 AI 的泛化能力來渲染無數新場景和對象,并提供一種更具互動性的方式來參與合成的世界。