自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="eeikl"><rt id="eeikl"></rt></sub>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

全球首發(fā)，國(guó)產(chǎn)開(kāi)源「文本-視頻生成」模型！免費(fèi)在線體驗(yàn)，一鍵實(shí)現(xiàn)視頻生成自由

作者：新智元 2023-04-03 10:04:44

開(kāi)源新聞

AIGC進(jìn)軍視頻生成！

去年4月，OpenAI發(fā)布的DALL-E 2用更高的分辨率、更真實(shí)的圖像生成以及更準(zhǔn)確地理解自然描述，橫掃整個(gè)AIGC領(lǐng)域。

不過(guò)圖像生成真正進(jìn)入全民化還要數(shù)Stable Diffusion的開(kāi)源，僅在消費(fèi)級(jí)的GPU上即可運(yùn)行，用戶可以在自己的數(shù)據(jù)集上進(jìn)行微調(diào)，也不用忍受各大繪畫網(wǎng)站為了「安全」設(shè)立的各種過(guò)濾詞表，真正實(shí)現(xiàn)了「繪畫自由」。

而在視頻生成領(lǐng)域，目前各家大廠還是只敢拿demo出來(lái)演示，普通用戶還無(wú)法使用。

最近阿里達(dá)摩院在ModelScope上首發(fā)開(kāi)源了「基于文本的視頻生成」的模型參數(shù)，一起實(shí)現(xiàn)「視頻自由」！

模型鏈接：?https://modelscope.cn/models/damo/text-to-video-synthesis/files?

體驗(yàn)鏈接：?https://huggingface.co/spaces/damo-vilab/modelscope-text-to-video-synthesis?

只需要輸入文本，即可返回符合文本描述的視頻，并且該模型能夠適用于「開(kāi)放領(lǐng)域」的視頻生成，能夠基于文本描述進(jìn)行推理，不過(guò)目前只支持英文輸入。

比如說(shuō)輸入經(jīng)典的「an astronaut riding a horse」，直接讓宇航員動(dòng)起來(lái)！

或者輸入「a panda eating bamboo on a rock」，可以得到下面的視頻。

也可以根據(jù)huggingface上提供的接口自行輸入prompt，比如輸入「a dog eating a cake」，就可以得到2秒鐘的視頻，不過(guò)由于計(jì)算資源不足，可能需要排隊(duì)等待一會(huì)。

國(guó)內(nèi)首發(fā)「文本-視頻生成」

文本到視頻生成擴(kuò)散模型由「文本特征提取」、「文本特征到視頻隱空間擴(kuò)散模型」、「視頻隱空間到視頻視覺(jué)空間」三個(gè)子網(wǎng)絡(luò)組成，整體模型參數(shù)約17億。

多階段文本到視頻生成擴(kuò)散模型采用Unet3D結(jié)構(gòu)，通過(guò)從純高斯噪聲視頻中迭代去噪的過(guò)程，實(shí)現(xiàn)視頻生成的功能。

在實(shí)現(xiàn)上參考的相關(guān)論文主要有兩篇。

高分辨率圖像合成與潛擴(kuò)散模型?

通過(guò)將圖像形成過(guò)程分解為自動(dòng)編碼器去噪的順序應(yīng)用，擴(kuò)散模型實(shí)現(xiàn)了對(duì)圖像數(shù)據(jù)和其他數(shù)據(jù)的最新合成結(jié)果，并且擴(kuò)散模型的公式能夠接受一個(gè)引導(dǎo)機(jī)制來(lái)控制圖像生成過(guò)程，而不需要重新訓(xùn)練。

不過(guò)由于這些模型通常直接在像素空間中運(yùn)行，因此對(duì)強(qiáng)大的擴(kuò)散模型進(jìn)行優(yōu)化通常需要耗費(fèi)數(shù)百 GPU 天的時(shí)間，并且由于順序評(píng)估而導(dǎo)致推理成本高昂。

論文鏈接：?https://arxiv.org/pdf/2112.10752.pdf?

為了能夠在有限的計(jì)算資源上進(jìn)行擴(kuò)散模型訓(xùn)練，同時(shí)保持其質(zhì)量和靈活性，研究人員將其應(yīng)用于強(qiáng)大的預(yù)訓(xùn)練自動(dòng)編碼器的潛空間。

與以往的工作相比，在這種表征上的訓(xùn)練擴(kuò)散模型可以在降低復(fù)雜度和保持細(xì)節(jié)之間達(dá)到接近最佳的點(diǎn)，大大提高了視覺(jué)保真度。

通過(guò)在模型結(jié)構(gòu)中引入交叉注意層，可以將擴(kuò)散模型轉(zhuǎn)化為功能強(qiáng)大且靈活的生成器，用于一般條件輸入(如文本或邊界框) ，并使得以卷積方式進(jìn)行高分辨率合成成為可能。

文中提出的潛擴(kuò)散模型(LDM)在圖像修復(fù)和各種任務(wù)(包括無(wú)條件圖像生成、語(yǔ)義場(chǎng)景合成和超分辨率)的高度競(jìng)爭(zhēng)性性能方面取得了新的進(jìn)展，同時(shí)與基于像素的潛在擴(kuò)散模型相比，顯著降低了計(jì)算需求。

VideoFusion：用于高質(zhì)量視頻生成的分解擴(kuò)散模型

擴(kuò)散概率模型（DPM）通過(guò)逐漸向數(shù)據(jù)點(diǎn)添加噪聲來(lái)構(gòu)造正向擴(kuò)散過(guò)程，并學(xué)習(xí)反向去噪過(guò)程以生成新樣本，已被證明能夠處理復(fù)雜的數(shù)據(jù)分布。

盡管最近在圖像合成方面取得了成功，但是由于視頻的數(shù)據(jù)空間維度更高，將DPM應(yīng)用于視頻生成仍然具有挑戰(zhàn)性。

以往的方法通常采用標(biāo)準(zhǔn)的擴(kuò)散過(guò)程，即用獨(dú)立的噪聲破壞同一視頻片段中的幀，忽略了內(nèi)容冗余和時(shí)間相關(guān)性。

論文鏈接：?https://arxiv.org/pdf/2303.08320v2.pdf?

這篇論文提出了一種分解擴(kuò)散過(guò)程，通過(guò)將每幀噪聲分解為一個(gè)在所有幀之間共享的基本噪聲和一個(gè)沿著時(shí)間軸變化的殘余噪聲；去噪pipeline采用兩個(gè)聯(lián)合學(xué)習(xí)的網(wǎng)絡(luò)來(lái)相應(yīng)地匹配噪聲分解。

在不同數(shù)據(jù)集上的實(shí)驗(yàn)證實(shí)了文中的方法VideoFusion，在高質(zhì)量視頻生成方面優(yōu)于基于GAN和基于擴(kuò)散的替代方法。

實(shí)驗(yàn)中進(jìn)一步表明，分解公式可以受益于預(yù)先訓(xùn)練的圖像擴(kuò)散模型和良好的支持文本條件下的視頻生成。

使用方法

在ModelScope框架下，通過(guò)調(diào)用簡(jiǎn)單的Pipeline即可使用當(dāng)前模型，其中，輸入需為字典格式，合法鍵值為'text'，內(nèi)容為一小段文本。

該模型暫僅支持在GPU上進(jìn)行推理，模型需要硬件配置大約是 16GB 內(nèi)存和 16GB GPU顯存。

輸入具體代碼示例如下。

運(yùn)行環(huán)境 (Python Package)

GIT_LFS_SKIP_SMUDGE=1 git clone  https://github.com/modelscope/modelscope  && cd modelscope && pip install -e .
pip install open_clip_torch

代碼范例 (Demo Code)

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

查看結(jié)果 (View Results)

上述代碼會(huì)展示輸出視頻的保存路徑，目前編碼格式采用VLC播放器可以正常播放。

模型的限制與偏見(jiàn)

模型基于Webvid等公開(kāi)數(shù)據(jù)集進(jìn)行訓(xùn)練，生成結(jié)果可能會(huì)存在與訓(xùn)練數(shù)據(jù)分布相關(guān)的偏差。
該模型無(wú)法實(shí)現(xiàn)完美的影視級(jí)生成。
該模型無(wú)法生成清晰的文本。
該模型主要是用英文語(yǔ)料訓(xùn)練的，暫不支持其他語(yǔ)言。
該模型在復(fù)雜的組合性生成任務(wù)上表現(xiàn)有待提升。

訓(xùn)練數(shù)據(jù)

訓(xùn)練數(shù)據(jù)包括 LAION5B、 ImageNet、 Webvid 等公共數(shù)據(jù)集。圖像和視頻濾波是經(jīng)過(guò)美學(xué)評(píng)分、水印評(píng)分和重復(fù)數(shù)據(jù)刪除等預(yù)訓(xùn)練后進(jìn)行的。

責(zé)任編輯：張燕妮來(lái)源：新智元

開(kāi)源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="u1dgz"></style>

^{<sub id="u1dgz"><i id="u1dgz"></i></sub>}

<legend id="u1dgz"><track id="u1dgz"></track></legend>