自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="ylyie"><acronym id="ylyie"></acronym></ruby>

<pre id="ylyie"><option id="ylyie"><kbd id="ylyie"></kbd></option></pre>

<sub id="ylyie"><style id="ylyie"></style></sub>

<sub id="ylyie"><p id="ylyie"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

騰訊出手了！開源最大AI視頻模型，130億參數(shù)，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6

原創(chuàng) 精選

作者：伊風 2024-12-04 13:34:22

為了應(yīng)對用戶提供的提示在語言風格和長度上的差異，團隊對 Hunyuan-Large 模型進行了微調(diào)，作為我們的提示重寫模型，將原始用戶提示轉(zhuǎn)換為模型偏好的提示。

編輯 | 伊風

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

AI視頻領(lǐng)域持續(xù)不斷有新玩家入局！

12月3日，騰訊出手了，不僅在元寶APP里上線AI視頻功能，還直接開源了混元視頻模型！

圖片

（打開元寶APP，若沒有找到入口的話，可以檢查是否更新到了最新版本，目前可能會有排隊時間。）

騰訊一來就干了票大的：直接開源了AI視頻里最大的模型——130 億參數(shù)！

開源地址：https://github.com/Tencent/HunyuanVideo

混元團隊對HunyuanVideo的性能也很有信心，“其視頻生成性能可與領(lǐng)先的閉源模型媲美，甚至在某些方面更勝一籌”。

這源于背后能打的戰(zhàn)績，混元一挑5個閉源模型，排位第一?。ㄗⅲ篏EN-3來自Runway 公司；Luma 1.6來自 Luma AI，CNTop系列來自系列騰訊旗下的映技派）

圖片

AI視頻生成的文本對齊、動作質(zhì)量和視覺質(zhì)量沒有統(tǒng)一的“題庫”，需要人的判斷。

我們先來看看騰訊自己的demo。

然后小編又用Sora經(jīng)典的Prompt測試了一下，大家來看看效果如何：

電影預(yù)告片，講述了一位30歲的太空人的冒險故事。他戴著一頂紅色羊毛針織摩托車頭盔，背景是藍天和鹽堿沙漠。影片采用電影化風格，使用35毫米膠片拍攝，色彩鮮艷。

一段超真實的特寫視頻，展示了兩艘海盜船在一杯咖啡中激烈交戰(zhàn)，咖啡的液面如同海洋，船只在其中航行，波濤洶涌，炮火四射。

看完了視頻生成效果，我們來看看HunyuanVideo的4個技術(shù)層面的特點！

1.統(tǒng)一圖像和視頻生成架構(gòu)

HunyuanVideo 采用的也是 Transformer 設(shè)計，使用了全注意力機制來實現(xiàn)統(tǒng)一的圖像和視頻生成。

具體而言，混元采用了“從雙流到單流”的混合模型設(shè)計進行視頻生成。在雙流階段，視頻和文本標記通過多個 Transformer 塊獨立處理，使每種模態(tài)能夠?qū)W習其適當?shù)恼{(diào)制機制，而不相互干擾。在單流階段，我們將視頻和文本標記連接起來，并將它們輸入到后續(xù)的 Transformer 塊，以有效地融合多模態(tài)信息。

這一設(shè)計捕捉了視覺和語義信息之間的復(fù)雜交互，增強了整體模型性能。

2.MLLM 文本編碼器

不同于文本到視頻模型通常使用預(yù)訓(xùn)練的 CLIP 和 T5-XXL 作為文本編碼器（其中 CLIP 使用 Transformer 編碼器，而 T5 使用編碼器-解碼器結(jié)構(gòu)。）

混元采用了預(yù)訓(xùn)練的多模態(tài)大型語言模型（MLLM）。

根據(jù)他們的技術(shù)報告，采用解碼器-only 結(jié)構(gòu)作為文本編碼器，有以下優(yōu)點：

(i) 與 T5 相比，經(jīng)過視覺指令微調(diào)后的 MLLM 在特征空間中具有更好的圖像-文本對齊性，從而緩解了擴散模型中指令跟隨的難度；(ii) 與 CLIP 相比，MLLM 在圖像細節(jié)描述和復(fù)雜推理上表現(xiàn)出了更強的能力；(iii) MLLM 可以通過跟隨系統(tǒng)指令來作為零樣本學(xué)習者，幫助文本特征更好地關(guān)注關(guān)鍵信息。此外，MLLM 基于因果注意力，而 T5-XXL 使用的是雙向注意力，后者為擴散模型提供了更好的文本指導(dǎo)。因此，我們引入了額外的雙向標記細化器來增強文本特征。

3.3D VAE

HunyuanVideo 使用 CausalConv3D 訓(xùn)練 3D VAE，將像素空間的視頻和圖像壓縮到緊湊的潛在空間中。

HunyuanVideo設(shè)置了視頻長度、空間和通道的壓縮比分別為 4、8 和 16。這可以顯著減少后續(xù)擴散 Transformer 模型所需的標記數(shù)量，使我們能夠以原始分辨率和幀率訓(xùn)練視頻。

4.提示重寫

為了應(yīng)對用戶提供的提示在語言風格和長度上的差異，團隊對 Hunyuan-Large 模型進行了微調(diào)，作為我們的提示重寫模型，將原始用戶提示轉(zhuǎn)換為模型偏好的提示。

混元提供了兩種重寫模式：普通模式和大師模式，可以通過不同的提示進行調(diào)用。普通模式旨在增強視頻生成模型對用戶意圖的理解，促進更準確地解釋用戶提供的指令。大師模式則增強了構(gòu)圖、照明和鏡頭運動等方面的描述，更傾向于生成具有更高視覺質(zhì)量的視頻。然而，這種側(cè)重點有時可能導(dǎo)致某些語義細節(jié)的喪失。

想了解更多AIGC的內(nèi)容，請訪問：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責任編輯：武曉燕來源： 51CTO技術(shù)棧

AI 視頻模型語言

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="8j69u"><track id="8j69u"></track></legend>

<sub id="8j69u"></sub>

<blockquote id="8j69u"><p id="8j69u"></p></blockquote>

<blockquote id="8j69u"><p id="8j69u"></p></blockquote>

<p id="8j69u"></p>