自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="yuwbu"><p id="yuwbu"></p></blockquote>

<s id="yuwbu"><li id="yuwbu"></li></s>

<sub id="yuwbu"></sub>

^{<blockquote id="yuwbu"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

騰訊出手了！開源最大AI視頻模型，130億參數(shù)，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6 原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-12-4 13:34

瀏覽

0收藏

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

AI視頻領(lǐng)域持續(xù)不斷有新玩家入局！

12月3日，騰訊出手了，不僅在元寶APP里上線AI視頻功能，還直接開源了混元視頻模型！

騰訊出手了！開源最大AI視頻模型，130億參數(shù)，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區(qū) 圖片

（打開元寶APP，若沒有找到入口的話，可以檢查是否更新到了最新版本，目前可能會有排隊(duì)時(shí)間。）

騰訊一來就干了票大的：直接開源了AI視頻里最大的模型——130 億參數(shù)！

開源地址：https://github.com/Tencent/HunyuanVideo

混元團(tuán)隊(duì)對HunyuanVideo的性能也很有信心，“其視頻生成性能可與領(lǐng)先的閉源模型媲美，甚至在某些方面更勝一籌”。

這源于背后能打的戰(zhàn)績，混元一挑5個(gè)閉源模型，排位第一！（注：GEN-3來自Runway 公司；Luma 1.6來自 Luma AI，CNTop系列來自系列騰訊旗下的映技派）

騰訊出手了！開源最大AI視頻模型，130億參數(shù)，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區(qū) 圖片

AI視頻生成的文本對齊、動(dòng)作質(zhì)量和視覺質(zhì)量沒有統(tǒng)一的“題庫”，需要人的判斷。

我們先來看看騰訊自己的demo。

騰訊出手了！開源最大AI視頻模型，130億參數(shù)，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區(qū)

然后小編又用Sora經(jīng)典的Prompt測試了一下，大家來看看效果如何：

騰訊出手了！開源最大AI視頻模型，130億參數(shù)，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區(qū)

電影預(yù)告片，講述了一位30歲的太空人的冒險(xiǎn)故事。他戴著一頂紅色羊毛針織摩托車頭盔，背景是藍(lán)天和鹽堿沙漠。影片采用電影化風(fēng)格，使用35毫米膠片拍攝，色彩鮮艷。

騰訊出手了！開源最大AI視頻模型，130億參數(shù)，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6-AI.x社區(qū)

一段超真實(shí)的特寫視頻，展示了兩艘海盜船在一杯咖啡中激烈交戰(zhàn)，咖啡的液面如同海洋，船只在其中航行，波濤洶涌，炮火四射。

看完了視頻生成效果，我們來看看HunyuanVideo的4個(gè)技術(shù)層面的特點(diǎn)！

1.統(tǒng)一圖像和視頻生成架構(gòu)

HunyuanVideo 采用的也是 Transformer 設(shè)計(jì)，使用了全注意力機(jī)制來實(shí)現(xiàn)統(tǒng)一的圖像和視頻生成。

具體而言，混元采用了“從雙流到單流”的混合模型設(shè)計(jì)進(jìn)行視頻生成。在雙流階段，視頻和文本標(biāo)記通過多個(gè) Transformer 塊獨(dú)立處理，使每種模態(tài)能夠?qū)W習(xí)其適當(dāng)?shù)恼{(diào)制機(jī)制，而不相互干擾。在單流階段，我們將視頻和文本標(biāo)記連接起來，并將它們輸入到后續(xù)的 Transformer 塊，以有效地融合多模態(tài)信息。

這一設(shè)計(jì)捕捉了視覺和語義信息之間的復(fù)雜交互，增強(qiáng)了整體模型性能。

2.MLLM 文本編碼器

不同于文本到視頻模型通常使用預(yù)訓(xùn)練的 CLIP 和 T5-XXL 作為文本編碼器（其中 CLIP 使用 Transformer 編碼器，而 T5 使用編碼器-解碼器結(jié)構(gòu)。）

混元采用了預(yù)訓(xùn)練的多模態(tài)大型語言模型（MLLM）。

根據(jù)他們的技術(shù)報(bào)告，采用解碼器-only 結(jié)構(gòu)作為文本編碼器，有以下優(yōu)點(diǎn)：

(i) 與 T5 相比，經(jīng)過視覺指令微調(diào)后的 MLLM 在特征空間中具有更好的圖像-文本對齊性，從而緩解了擴(kuò)散模型中指令跟隨的難度；(ii) 與 CLIP 相比，MLLM 在圖像細(xì)節(jié)描述和復(fù)雜推理上表現(xiàn)出了更強(qiáng)的能力；(iii) MLLM 可以通過跟隨系統(tǒng)指令來作為零樣本學(xué)習(xí)者，幫助文本特征更好地關(guān)注關(guān)鍵信息。此外，MLLM 基于因果注意力，而 T5-XXL 使用的是雙向注意力，后者為擴(kuò)散模型提供了更好的文本指導(dǎo)。因此，我們引入了額外的雙向標(biāo)記細(xì)化器來增強(qiáng)文本特征。

3.3D VAE

HunyuanVideo 使用 CausalConv3D 訓(xùn)練 3D VAE，將像素空間的視頻和圖像壓縮到緊湊的潛在空間中。

HunyuanVideo設(shè)置了視頻長度、空間和通道的壓縮比分別為 4、8 和 16。這可以顯著減少后續(xù)擴(kuò)散 Transformer 模型所需的標(biāo)記數(shù)量，使我們能夠以原始分辨率和幀率訓(xùn)練視頻。

4.提示重寫

為了應(yīng)對用戶提供的提示在語言風(fēng)格和長度上的差異，團(tuán)隊(duì)對 Hunyuan-Large 模型進(jìn)行了微調(diào)，作為我們的提示重寫模型，將原始用戶提示轉(zhuǎn)換為模型偏好的提示。

混元提供了兩種重寫模式：普通模式和大師模式，可以通過不同的提示進(jìn)行調(diào)用。普通模式旨在增強(qiáng)視頻生成模型對用戶意圖的理解，促進(jìn)更準(zhǔn)確地解釋用戶提供的指令。大師模式則增強(qiáng)了構(gòu)圖、照明和鏡頭運(yùn)動(dòng)等方面的描述，更傾向于生成具有更高視覺質(zhì)量的視頻。然而，這種側(cè)重點(diǎn)有時(shí)可能導(dǎo)致某些語義細(xì)節(jié)的喪失。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：伊風(fēng)

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

2萬億訓(xùn)練數(shù)據(jù)，120億參數(shù)！開源大模型Stable LM 2-12B

Aceryt ? 3561瀏覽 ? 0回復(fù)
70億LLaMA媲美5400億PaLM！MIT驚人研究用「博弈論」改進(jìn)大模型｜ICLR 2024

duhorse ? 2228瀏覽 ? 0回復(fù)
AI 視頻戰(zhàn)火：從 Sora 到快手可靈和 Luma 的新時(shí)代

wsp_ping ? 3414瀏覽 ? 0回復(fù)
太逼真了！Gen-3 Alpha重磅發(fā)布，Sora最強(qiáng)競爭對手！

Aceryt ? 2767瀏覽 ? 0回復(fù)
拳打開源SOTA腳踢商業(yè)閉源的LI-DiT是怎樣煉成的？

angel ? 3049瀏覽 ? 0回復(fù)
Llama3.1系列模型正式開源，最大405B，閉源模型的統(tǒng)治時(shí)代將迎來結(jié)束？

NLP工作站 ? 2218瀏覽 ? 0回復(fù)
專用于法律的兩個(gè)開源大模型，最高1410億參數(shù)

Aceryt ? 2708瀏覽 ? 0回復(fù)
文生視頻模型Runway、Luma同時(shí)開放API

Aceryt ? 2383瀏覽 ? 0回復(fù)
英偉達(dá)出手即王炸！重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術(shù)棧 ? 1879瀏覽 ? 0回復(fù)
開源閉源爭論不休，淺談大模型開源和閉源

NLP工作站 ? 2032瀏覽 ? 0回復(fù)
騰訊放大招，超Meta！史上參數(shù)最大，開源專家混合模型

Aceryt ? 1810瀏覽 ? 0回復(fù)
超GPT-4o，1240億參數(shù)！最強(qiáng)開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2045瀏覽 ? 0回復(fù)
騰訊發(fā)布全新混元大模型Hunyuan-Large：全球最大開源Transformer模型，助力AI發(fā)展新高度

Halo咯咯 ? 2297瀏覽 ? 0回復(fù)
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架

Halo咯咯 ? 2517瀏覽 ? 0回復(fù)
阿里開源QwQ-32B，性能與Deepseek R1持平。一個(gè)擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2129瀏覽 ? 0回復(fù)
【AI 界大地震】AMD 開源 30 億參數(shù)大模型 Instella：性能碾壓同類，訓(xùn)練成本暴跌 80%？

Halo咯咯 ? 1240瀏覽 ? 0回復(fù)
AMD開源30億小參數(shù)模型，媲美Qwen-2.5

Aceryt ? 1219瀏覽 ? 0回復(fù)
Open Deep Search：開源推理智能體實(shí)現(xiàn)深度搜索，打破閉源壟斷

十一月雨_55 ? 1117瀏覽 ? 0回復(fù)
剛剛，Qwen3強(qiáng)勢登頂，成開源新王！國內(nèi)首個(gè)混合推理模型，235B擊敗R1、o1!源神火力全開

51CTO技術(shù)棧 ? 290瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

中國開源大模型新成員：小米推理大模型首秀！ 17分鐘前發(fā)布
剛剛！一場直播讓宇樹成功正名！直播G1長跑操場40圈，6萬人點(diǎn)贊！真實(shí)跑步水平曝光：2m/s接近天工！ 5h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴(kuò)展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：馬斯克告OpenAI再加碼：已請求禁令，阻止向營利公司轉(zhuǎn)型！若成功，OpenAI融資66億或變負(fù)債

下一篇：刷屏了！Genie 2開啟文生游戲時(shí)代，可交互的世界模型震撼登場！背后團(tuán)隊(duì)曝光；12天直播能否截胡老對手

社區(qū)精華內(nèi)容

目錄

<sub id="bnwsd"></sub>

<cite id="bnwsd"></cite>