自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型

發(fā)布于 2024-10-11 11:33
瀏覽
0收藏

快手、北京大學和北京郵電大學的研究人員聯合開源了超高清視頻模型——Pyramid-Flow。


Pyramid-Flow僅通過文本就能生成最多10秒、1280x768分辨率和24幀視頻,在光影效果、運動動作一致性、視頻質量、文本語義還原、色彩搭配等方面非常優(yōu)秀,生成的視頻很棒。


值得一提的是,Pyramid-Flow使用A100 GPU在開源數據集上僅訓練了20,700小時,其能耗和生成效率比市面上同類開源視頻模型好很多,對于沒有大量算力的中小企業(yè)和個人開發(fā)者來說幫助很大。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

開源地址:https://github.com/jy0205/Pyramid-Flow

huggingface:https://huggingface.co/rain1011/pyramid-flow-sd3

在線demo:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

Pyramid-Flow案例展示

以下是Pyramid-Flow生成的視頻展示,整體非常驚艷有今天Sora那種感覺了。

一名女子的側面照片,煙花在她身后的遠處放了起來。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)


美麗的東京在雪中熙熙攘攘。鏡頭穿過繁忙的街道,跟隨著幾位享受美麗雪景并在附近店鋪購物的人們。


比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

一艘船沿著塞納河悠閑地航行,背景是埃菲爾鐵塔,黑白色彩。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

海嘯穿過保加利亞的一條小巷,動態(tài)效果。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

雞肉和青椒烤肉串的極端特寫鏡頭在燒烤架上用火焰烤。淺焦點、輕煙、色彩鮮艷。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

無人機拍攝的海浪拍打大蘇爾加雷角海灘崎嶇懸崖的景象。蔚藍的海水激起白浪,夕陽的金色光芒照亮了巖石海岸。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

Pyramid-Flow創(chuàng)新方法——金字塔流匹配

目前,文生視頻領域有一個非常難的技術挑戰(zhàn),就是如何有效地處理和生成高維度的視頻數據。這些數據不僅包含大量的空間信息,還涉及復雜的時間動態(tài),而Pyramid-Flow使用了一種創(chuàng)新方法——金字塔流匹配。


金字塔流匹配算法的核心思想是將傳統的單一分辨率生成過程轉變?yōu)橐粋€多階段的金字塔結構。視頻的生成不是一次性在全分辨率下完成,而是在不同的分辨率層次上逐步進行。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

在金字塔流匹配算法中,視頻生成過程被分解為多個階段,每個階段對應一個特定的分辨率。這些階段從低分辨率開始,逐漸升級到高分辨率。在低分辨率階段,算法首先生成一個粗糙的視頻草圖,然后逐步增加細節(jié),直到在最高分辨率階段生成最終的視頻


這種分階段的方法極大減少了AI算力,因為它避免了在生成過程的早期階段就處理大量的高分辨率數據,同時提高了生成流程的靈活性,可在不同的階段對視頻的不同方面進行精細控制。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

每個金字塔階段的生成過程被建模為一個從噪聲到數據的連續(xù)流。這個流通過插值的方式來生成視頻數據,在每個階段的開始時從一個像素化的、噪聲較多的潛在表示開始,逐步演化為一個清晰、干凈的潛在表示。


這種流的設計允許不同階段之間的連續(xù)性和一致性。在從一個階段過渡到下一個階段時,算法會重新引入噪聲,以確保概率路徑的連續(xù)性。而重新噪聲化的過程是通過一個校正高斯噪聲來實現的,有助于維持不同金字塔階段之間的連續(xù)性。

比肩Sora!快手、北大開源,超高清10秒、24幀視頻模型-AI.x社區(qū)

此外,金字塔流匹配算法還引入了一個自回歸的視頻生成框架,通過時間金字塔來壓縮全分辨率的歷史信息。使得視頻的每一幀都是基于之前生成的歷史幀來預測的。這不僅提高了訓練效率,因為它減少了訓練過程中需要處理的數據量,而且還提高了生成視頻的質量和一致性。


為了進一步優(yōu)化性能,研究人員還使用了一種塊狀因果注意力機制。這種機制確保了在生成過程中,每一幀只能關注它之前的幀,而不能關注它之后的幀。有助于保持視頻生成的連貫性和邏輯性,因為避免了在未來的幀中引入不相關或不一致的信息。


本文轉自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū) 


原文鏈接:??https://mp.weixin.qq.com/s/DTf4jeXosAWV2x-I_RIUvg??

1
收藏
回復
舉報
回復
相關推薦