自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI新風口?首個高質量「文生視頻」模型Zeroscope引發(fā)開源大戰(zhàn):最低8G顯存可跑

人工智能 新聞
首個高質量文本轉視頻開源模型Zeroscope,僅需8G顯存就能用!

文生圖模型Stable Diffusion開源后,將「AI藝術」徹底平民化,只需一張消費級顯卡即可制作出非常精美的圖片。

而文本轉視頻領域,目前質量較高的只有Runway前不久推出的商用Gen-2模型,開源界還沒有一個能打的模型。

最近,Huggingface上有作者發(fā)布了一個文生視頻模型Zeroscope_v2,基于17億參數(shù)量的ModelScope-text-to-video-synthesis模型進行二次開發(fā)。

圖片圖片

模型鏈接:https://huggingface.co/cerspense/zeroscope_v2_576w

相比于原版本,Zeroscope生成的視頻沒有水印,并且流暢度和分辨率都得到了提升,適配16:9的寬高比。

開發(fā)者cerspense表示,他的目標就是和Gen-2進行開源較量,即提高模型質量的同時,還能免費供大眾使用。

Zeroscope_v2包括兩個版本,其中Zeroscope_v2 567w可以快速生成576x320像素分辨率、幀率為30幀/秒的視頻,可用于視頻概念的快速驗證,只需要約7.9GB的顯存即可運行。

Zeroscope_v2 XL可以生成1024x576分辨率的高清視頻,大約需要15.3GB的顯存。

Zeroscope還可以與音樂生成工具MusicGen一起使用,快速制作一個純原創(chuàng)短視頻。

Zeroscope模型的訓練用到了9923個視頻片段(clip)以及29769個標注幀,每個片段包括24幀。偏移噪聲包括視頻幀內對象的隨機移位、幀定時(frame timings)的輕微變化或微小失真。

訓練期間引入噪聲可以增強模型對數(shù)據(jù)分布的理解,從而可以生成更多樣化的逼真視頻,并更有效地解釋文本描述中的變化。

使用方法

使用stable diffusion webui

在Huggingface上下載zs2_XL目錄下的權重文件,然后放到stable-diffusion-webui\models\ModelScope\t2v目錄下即可。

在生成視頻時,推薦的降噪強度值為0.66到0.85

使用Colab

圖片

筆記鏈接:https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing

先點擊Step 1下的運行按鈕,等待安裝,大約需要3分鐘;

圖片圖片

當按鈕旁邊出現(xiàn)綠色復選標記時,繼續(xù)執(zhí)行下一步。

圖片圖片

點擊想要安裝模型附近的運行按鈕,為了能夠在Colab中快速獲得3秒左右的剪輯視頻,更推薦使用低分辨率的ZeroScope模型(576或448)。

圖片圖片

如果相運行更高分辨率模型(Potat 1或ZeroScope XL),運行也會更費時間,需要做出權衡。

再次等待復選標記出現(xiàn),繼續(xù)執(zhí)行下一步。

選擇在Step2中安裝并希望使用的模型型號,對于更高分辨率的模型,推薦下面的配置參數(shù),不需要太長的生成時間。

圖片圖片

然后為目標視頻效果輸入提示詞,也可以輸入否定提示(negative prompts),再按下運行按鈕。 

等待一會后,生成的視頻就會被放置在outputs目錄下。

圖片圖片

「文生視頻」開源競賽

目前來說,文生視頻領域仍處于起步階段,即便是最好的工具也只能生成幾秒鐘的視頻,并且通常存在較大的視覺缺陷。

但其實文生圖模型最初也面臨著類似的問題,但僅僅幾個月后就實現(xiàn)了照片級真實感。

不過與文生圖模型不同的是,視頻領域在訓練和生成期間所需要的資源都要更比圖像更多。

雖然谷歌已經研發(fā)出了Phenaki和Imagen Video模型,可以生成高分辨率、更長、邏輯連貫的視頻片段,但公眾無法使用到這兩個模型;Meta的Make-a-Video模型也同樣沒有發(fā)布。

目前可用的工具仍然只有Runway的商用模型Gen-2,此次Zeroscope的發(fā)布也標志著文生視頻領域第一個高質量開源模型的出現(xiàn)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-07-04 08:35:52

MetaGPT開源

2012-05-02 14:01:49

RIMBlack Berry

2024-02-19 07:58:01

OpenAI模型GPT

2021-04-23 10:16:18

5G4G技術

2023-08-28 13:06:47

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數(shù)程序

2021-03-05 09:56:43

5G網絡5G 套餐

2024-08-26 15:20:45

2017-07-13 12:46:23

互聯(lián)網教育AI

2021-08-08 14:26:24

SQL數(shù)據(jù)庫開發(fā)

2023-11-20 12:49:01

2011-02-16 11:18:15

思科無線網絡視頻

2011-12-18 20:45:31

惠普掃描儀

2012-09-13 10:44:18

Python代碼

2011-03-04 10:11:09

JavascriptAPI
點贊
收藏

51CTO技術棧公眾號