自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了

發(fā)布于 2024-6-11 12:13

瀏覽

0收藏

當(dāng)前大家常見的視頻生成是醬嬸兒的：

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

多數(shù)情況下只能讓一個(gè)人動(dòng)起來。

而現(xiàn)在，如果提供了一張人物合照，所有人都能同時(shí)“舞起來了”。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

如此看來，從單人到多人，視頻生成已經(jīng)進(jìn)入了Next Neval ~

如上成果出自騰訊混元團(tuán)隊(duì)聯(lián)合中山大學(xué)、香港科技大學(xué)推出的全新圖生視頻模型：Follow-Your-Pose-v2。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

與之前的模型相比，“Follow-Your-Pose-v2”主要有4大新亮點(diǎn)：

在推理耗時(shí)更少的情況下，支持多人視頻動(dòng)作生成
模型具備較強(qiáng)的泛化能力，不論年齡、服裝、人種、背景雜亂程度、動(dòng)作復(fù)雜程度如何，都能生成高質(zhì)量視頻
日常生活照（含抓拍）/視頻均可用于模型訓(xùn)練及生成，無需費(fèi)力尋找高質(zhì)量圖片/視頻
面對單張圖片上多個(gè)人物的軀體相互遮擋問題，能生成具有正確前后關(guān)系的遮擋畫面，保證多人“合舞”順利完成

為了評估多角色生成效果，團(tuán)隊(duì)提出了一個(gè)包含約4000幀（約20個(gè)多角色視頻）的新基準(zhǔn)——Multi-Character。

實(shí)驗(yàn)結(jié)果顯示，模型在2個(gè)公共數(shù)據(jù)集（TikTok和TED演講）和7個(gè)指標(biāo)上的性能均優(yōu)于最新技術(shù)35%以上。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

下面，一起來看看它具體是如何做到的吧。

怎么做到的？

目前，F(xiàn)ollow-Your-Pose-v2已經(jīng)能很好地完成“單人動(dòng)起來”這項(xiàng)任務(wù)（生成視頻長度可達(dá)10秒）。

它的出現(xiàn)主要用來解決“更復(fù)雜場景”可能遇到的視頻生成問題：

多個(gè)角色動(dòng)畫
多角色身體遮擋、背景畸變等一致性問題
傳統(tǒng)方法下的訓(xùn)練數(shù)據(jù)集要求高（不易獲取且成本高）

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

首先，在動(dòng)作驅(qū)動(dòng)圖片生成視頻的任務(wù)中，一般的方法往往需要精心篩選高質(zhì)量（具有穩(wěn)定背景和時(shí)間一致性)訓(xùn)練數(shù)據(jù)，成本高的同時(shí)還限制了訓(xùn)練集的規(guī)模，從而導(dǎo)致模型在泛化能力的提升上有瓶頸。

對此，團(tuán)隊(duì)提出了一個(gè)可以在互聯(lián)網(wǎng)上容易獲得的嘈雜開源視頻上進(jìn)行訓(xùn)練的框架Follow-Your-Pose v2。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

該框架中特有的“光流指導(dǎo)器”（Optical Flow Guider）引入了背景光流信息，賦予了模型在大量有噪聲的低質(zhì)量數(shù)據(jù)上訓(xùn)練收斂的能力。

具體而言，光流指導(dǎo)器負(fù)責(zé)分析并預(yù)測幀間的像素級(jí)運(yùn)動(dòng)，為模型提供背景穩(wěn)定性。通過這種方式，即使在存在相機(jī)抖動(dòng)或不穩(wěn)定背景的情況下，也能生成穩(wěn)定的背景動(dòng)畫。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

這也意味著，“Follow-Your-Pose-v2”能夠讓使用者基于任意一張人物圖片和一段動(dòng)作視頻生成高質(zhì)量視頻，不再需要費(fèi)力尋找滿足高要求的圖片和視頻，這些照片可以是自己和家人朋友的生活照，也可以是偶像的一張簡單抓拍。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

其次，模型對于圖片上蘊(yùn)含的空間信息的理解能力有限，具體表現(xiàn)在前景和后景的區(qū)分不清晰，導(dǎo)致生成視頻背景的畸變和人物動(dòng)作的不準(zhǔn)確。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

對此，F(xiàn)ollow-Your-Pose-v2框架通過整合多條件引導(dǎo)器（Multi-condition Guiders），有效解決了現(xiàn)有方法在復(fù)雜場景下的不足，如多角色動(dòng)畫和身體遮擋問題。

該框架中特有的“推理圖指導(dǎo)器”（Reference Pose Guider）引入了圖片中的人物空間信息，賦予模型更強(qiáng)的動(dòng)作跟隨能力。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

另外，模型特有的“深度圖指導(dǎo)器”（Depth Guider）引入了多人物的深度圖信息，增強(qiáng)了模型對于多角色的空間位置關(guān)系的理解和生成能力。在面對單張圖片上多個(gè)人物的軀體相互遮擋問題時(shí)，“Follow-Your-Pose-v2”能生成出具有正確的前后關(guān)系的遮擋畫面，保證多人“合舞”順利完成。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

總之，新框架通過整合多種條件引導(dǎo)器，提高了模型對嘈雜數(shù)據(jù)的魯棒性，使其能夠直接在未經(jīng)篩選的大量視頻上進(jìn)行訓(xùn)練。

在訓(xùn)練過程中，團(tuán)隊(duì)收集了4000個(gè)來自TikTok、YouTube和其他網(wǎng)站的公共視頻，總計(jì)200萬幀。

為了評估效果，團(tuán)隊(duì)將“Follow-Your-Pose-v2”與多個(gè)現(xiàn)有的最先進(jìn)方法進(jìn)行了比較，包括基于GAN的方法（如MRAA和TPSMM）和基于VLDM的方法（如DreamPose、DisCo、MagicAnimate和AnimateAnyone）。

并且團(tuán)隊(duì)先在TikTok和TED演講這2個(gè)公共數(shù)據(jù)集上進(jìn)行了測試。

在TikTok數(shù)據(jù)集中，模型在姿勢跟蹤和視覺質(zhì)量方面獲得了更好的性能。比如它能夠生成真實(shí)情況中不存在的手部細(xì)節(jié)，以及它是能夠準(zhǔn)確生成反向舉起手臂的姿勢的唯一方法。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

在TED演講數(shù)據(jù)集中，模型在除PSNR（衡量圖像的峰值信噪比）之外的六個(gè)評估指標(biāo)上都實(shí)現(xiàn)了SOTA性能。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

此外，由于缺乏多角色視頻生成的基準(zhǔn)，團(tuán)隊(duì)從社交媒體收集了20個(gè)多角色舞蹈視頻，總計(jì)3917幀，命名為Multi-Character。該數(shù)據(jù)集作為評估模型生成多角色姿態(tài)可控視頻能力的基準(zhǔn)。

可以看到，在Multi-Character Bench數(shù)據(jù)集上，“Follow-Your-Pose-v2”在所有評估指標(biāo)上都顯著優(yōu)于其他方法，證明了其在處理多角色動(dòng)畫方面的優(yōu)勢。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

最后，為了評估各個(gè)組件對整體性能的貢獻(xiàn)，團(tuán)隊(duì)進(jìn)行了消融研究，移除了光流、深度圖和推理圖指導(dǎo)器，分別評估它們對模型性能的影響。

研究表明，光流指導(dǎo)器對模型性能的提升最為顯著，其次是深度圖引導(dǎo)器和推理圖引導(dǎo)器。這些組件的移除都會(huì)導(dǎo)致性能下降，證明了它們在生成穩(wěn)定和高質(zhì)量動(dòng)畫中的重要性。

庫里杜蘭特“合舞”科目三，騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

One More Thing

當(dāng)下，圖像到視頻生成的技術(shù)在電影內(nèi)容制作、增強(qiáng)現(xiàn)實(shí)、游戲制作以及廣告等多個(gè)行業(yè)的AIGC應(yīng)用上有著廣泛前景，是2024年最熱門的AI技術(shù)之一。

參與了“Follow-Your-Pose-v2”研究的騰訊混元團(tuán)隊(duì)，也在6月6日公布了其文生圖開源大模型（混元DiT）的加速庫，號(hào)稱大幅提升推理效率，生圖時(shí)間縮短75%。

官方表示，混元DiT模型的使用門檻也大幅降低，用戶可以基于ComfyUI的圖形化界面使用騰訊混元文生圖模型能力，并在Hugging Face的官方模型庫中用三行代碼調(diào)用模型（無需下載原始代碼庫）。

目前本文介紹的相關(guān)技術(shù)論文已上傳公共社區(qū)，感興趣的家人們可以進(jìn)一步了解。

論文：??https://arxiv.org/abs/2406.03035???
抱抱臉混元DiT：???https://huggingface.co/Tencent-Hunyuan/HunyuanDiT?cnotallow=7b93f8f875055859b0712c994d253b9f??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/z8wKg0jOJ7tgjPMUV3N0-g??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

科目三蹦迪多種舞姿停不下來，可精準(zhǔn)控制動(dòng)作

pangguiyu ? 2212瀏覽 ? 0回復(fù)
騰訊混元大模型在研發(fā)安全漏洞修復(fù)的實(shí)踐

381972426 ? 3151瀏覽 ? 0回復(fù)
什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展

pangguiyu ? 6340瀏覽 ? 0回復(fù)
港大開源圖基礎(chǔ)大模型OpenGraph: 強(qiáng)泛化能力，前向傳播預(yù)測全新數(shù)據(jù)

Crystalcxt ? 2531瀏覽 ? 0回復(fù)
人物照片+文字 = 定制化視頻，騰訊光子開源ID-Animator

輕薄滴假象 ? 2996瀏覽 ? 0回復(fù)
GPT-4o熱潮來襲：探索圖生文本的奧秘（多模態(tài)大模型系列之一）

魚蟲子 ? 6235瀏覽 ? 0回復(fù)
多模態(tài)CoT思維鏈架構(gòu)來了，現(xiàn)已開源｜來自廈大&騰訊優(yōu)圖

Crystalcxt ? 3008瀏覽 ? 0回復(fù)
你的文生圖模型可以秘密接收多模態(tài)提示了！南洋理工&騰訊最新提出EMMA

angel ? 2666瀏覽 ? 0回復(fù)
快手開源圖生視頻模型LivePortrait，等待生成時(shí)間僅需10秒，棄擴(kuò)散改用隱式關(guān)鍵點(diǎn)框架技術(shù)，網(wǎng)友：強(qiáng)得可怕

51CTO技術(shù)棧 ? 5521瀏覽 ? 0回復(fù)
國內(nèi)大模型文心一言、通義千問、豆包、混元大模型、訊飛星火、Kimichat、智譜清言，到底該用哪個(gè)？

wsp_ping ? 1.5w瀏覽 ? 0回復(fù)
蜘蛛俠妖嬈起舞，下一代ControlNet來了！賈佳亞團(tuán)隊(duì)推出，即插即用，還能控制視頻生成

Crystalcxt ? 1880瀏覽 ? 0回復(fù)
前谷歌大佬祭出AI生圖2.0，全網(wǎng)驚艷實(shí)測

duhorse ? 1943瀏覽 ? 0回復(fù)
騰訊&新加坡國立發(fā)布IFAdapter：即插即用，提升文生圖模型實(shí)例特征和位置生成準(zhǔn)確性

angel ? 2534瀏覽 ? 0回復(fù)
騰訊發(fā)布全新混元大模型Hunyuan-Large：全球最大開源Transformer模型，助力AI發(fā)展新高度

Halo咯咯 ? 2309瀏覽 ? 0回復(fù)
視覺模型進(jìn)入MoE時(shí)代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！

51CTO技術(shù)棧 ? 4764瀏覽 ? 0回復(fù)
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架

Halo咯咯 ? 2534瀏覽 ? 0回復(fù)
混元T1正式版推出，公開對壘DeepSeek：速度快幻覺少!

51CTO技術(shù)棧 ? 1122瀏覽 ? 0回復(fù)
從 GPT-4O 生圖看自回歸模型與擴(kuò)散模型的博弈：誰才是圖像生成的未來？

智駐未來 ? 1279瀏覽 ? 0回復(fù)
實(shí)測AI大模型：騰訊混元T1 vs DeepSeek 哪家強(qiáng)？

云中江樹 ? 888瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： 5秒完成3D生成，真香合成數(shù)據(jù)集已開源，上交港中文新框架超越Instant3D

下一篇：蘋果一夜重塑iPhone！GPT-4o加持Siri，AI深入所有APP，庫克：開啟蘋果AI下一章

社區(qū)精華內(nèi)容

目錄

<blockquote id="mxkat"></blockquote>

^{<blockquote id="mxkat"></blockquote>}