自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了

發(fā)布于 2024-6-11 12:13
瀏覽
0收藏

當(dāng)前大家常見的視頻生成是醬嬸兒的:

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

多數(shù)情況下只能讓一個(gè)人動(dòng)起來。


而現(xiàn)在,如果提供了一張人物合照,所有人都能同時(shí)“舞起來了”。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

如此看來,從單人到多人,視頻生成已經(jīng)進(jìn)入了Next Neval ~


如上成果出自騰訊混元團(tuán)隊(duì)聯(lián)合中山大學(xué)、香港科技大學(xué)推出的全新圖生視頻模型:Follow-Your-Pose-v2

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

與之前的模型相比,“Follow-Your-Pose-v2”主要有4大新亮點(diǎn):

  • 推理耗時(shí)更少的情況下,支持多人視頻動(dòng)作生成
  • 模型具備較強(qiáng)的泛化能力,不論年齡、服裝、人種、背景雜亂程度、動(dòng)作復(fù)雜程度如何,都能生成高質(zhì)量視頻
  • 日常生活照(含抓拍)/視頻均可用于模型訓(xùn)練及生成,無需費(fèi)力尋找高質(zhì)量圖片/視頻
  • 面對單張圖片上多個(gè)人物的軀體相互遮擋問題,能生成具有正確前后關(guān)系的遮擋畫面,保證多人“合舞”順利完成


為了評估多角色生成效果,團(tuán)隊(duì)提出了一個(gè)包含約4000幀(約20個(gè)多角色視頻)的新基準(zhǔn)——Multi-Character。


實(shí)驗(yàn)結(jié)果顯示,模型在2個(gè)公共數(shù)據(jù)集(TikTok和TED演講)和7個(gè)指標(biāo)上的性能均優(yōu)于最新技術(shù)35%以上。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

下面,一起來看看它具體是如何做到的吧。

怎么做到的?

目前,F(xiàn)ollow-Your-Pose-v2已經(jīng)能很好地完成“單人動(dòng)起來”這項(xiàng)任務(wù)(生成視頻長度可達(dá)10秒)。


它的出現(xiàn)主要用來解決“更復(fù)雜場景”可能遇到的視頻生成問題:

  • 多個(gè)角色動(dòng)畫
  • 多角色身體遮擋、背景畸變等一致性問題
  • 傳統(tǒng)方法下的訓(xùn)練數(shù)據(jù)集要求高(不易獲取且成本高)

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

首先,在動(dòng)作驅(qū)動(dòng)圖片生成視頻的任務(wù)中,一般的方法往往需要精心篩選高質(zhì)量(具有穩(wěn)定背景和時(shí)間一致性)訓(xùn)練數(shù)據(jù),成本高的同時(shí)還限制了訓(xùn)練集的規(guī)模,從而導(dǎo)致模型在泛化能力的提升上有瓶頸。


對此,團(tuán)隊(duì)提出了一個(gè)可以在互聯(lián)網(wǎng)上容易獲得的嘈雜開源視頻上進(jìn)行訓(xùn)練的框架Follow-Your-Pose v2。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

該框架中特有的“光流指導(dǎo)器”(Optical Flow Guider)引入了背景光流信息,賦予了模型在大量有噪聲的低質(zhì)量數(shù)據(jù)上訓(xùn)練收斂的能力。


具體而言,光流指導(dǎo)器負(fù)責(zé)分析并預(yù)測幀間的像素級(jí)運(yùn)動(dòng),為模型提供背景穩(wěn)定性。通過這種方式,即使在存在相機(jī)抖動(dòng)或不穩(wěn)定背景的情況下,也能生成穩(wěn)定的背景動(dòng)畫。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

這也意味著,“Follow-Your-Pose-v2”能夠讓使用者基于任意一張人物圖片和一段動(dòng)作視頻生成高質(zhì)量視頻,不再需要費(fèi)力尋找滿足高要求的圖片和視頻,這些照片可以是自己和家人朋友的生活照,也可以是偶像的一張簡單抓拍

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

其次,模型對于圖片上蘊(yùn)含的空間信息的理解能力有限,具體表現(xiàn)在前景和后景的區(qū)分不清晰,導(dǎo)致生成視頻背景的畸變人物動(dòng)作的不準(zhǔn)確。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

對此,F(xiàn)ollow-Your-Pose-v2框架通過整合多條件引導(dǎo)器(Multi-condition Guiders),有效解決了現(xiàn)有方法在復(fù)雜場景下的不足,如多角色動(dòng)畫和身體遮擋問題。


該框架中特有的“推理圖指導(dǎo)器”(Reference Pose Guider)引入了圖片中的人物空間信息,賦予模型更強(qiáng)的動(dòng)作跟隨能力。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

另外,模型特有的“深度圖指導(dǎo)器”(Depth Guider)引入了多人物的深度圖信息,增強(qiáng)了模型對于多角色的空間位置關(guān)系的理解和生成能力。在面對單張圖片上多個(gè)人物的軀體相互遮擋問題時(shí),“Follow-Your-Pose-v2”能生成出具有正確的前后關(guān)系的遮擋畫面,保證多人“合舞”順利完成。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

總之,新框架通過整合多種條件引導(dǎo)器,提高了模型對嘈雜數(shù)據(jù)的魯棒性,使其能夠直接在未經(jīng)篩選的大量視頻上進(jìn)行訓(xùn)練。


在訓(xùn)練過程中,團(tuán)隊(duì)收集了4000個(gè)來自TikTok、YouTube和其他網(wǎng)站的公共視頻,總計(jì)200萬幀。


為了評估效果,團(tuán)隊(duì)將“Follow-Your-Pose-v2”與多個(gè)現(xiàn)有的最先進(jìn)方法進(jìn)行了比較,包括基于GAN的方法(如MRAA和TPSMM)和基于VLDM的方法(如DreamPose、DisCo、MagicAnimate和AnimateAnyone)。


并且團(tuán)隊(duì)先在TikTok和TED演講這2個(gè)公共數(shù)據(jù)集上進(jìn)行了測試。


在TikTok數(shù)據(jù)集中,模型在姿勢跟蹤和視覺質(zhì)量方面獲得了更好的性能。比如它能夠生成真實(shí)情況中不存在的手部細(xì)節(jié),以及它是能夠準(zhǔn)確生成反向舉起手臂的姿勢的唯一方法。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

在TED演講數(shù)據(jù)集中,模型在除PSNR(衡量圖像的峰值信噪比)之外的六個(gè)評估指標(biāo)上都實(shí)現(xiàn)了SOTA性能。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

此外,由于缺乏多角色視頻生成的基準(zhǔn),團(tuán)隊(duì)從社交媒體收集了20個(gè)多角色舞蹈視頻,總計(jì)3917幀,命名為Multi-Character。該數(shù)據(jù)集作為評估模型生成多角色姿態(tài)可控視頻能力的基準(zhǔn)。


可以看到,在Multi-Character Bench數(shù)據(jù)集上,“Follow-Your-Pose-v2”在所有評估指標(biāo)上都顯著優(yōu)于其他方法,證明了其在處理多角色動(dòng)畫方面的優(yōu)勢。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

最后,為了評估各個(gè)組件對整體性能的貢獻(xiàn),團(tuán)隊(duì)進(jìn)行了消融研究,移除了光流、深度圖和推理圖指導(dǎo)器,分別評估它們對模型性能的影響。


研究表明,光流指導(dǎo)器對模型性能的提升最為顯著,其次是深度圖引導(dǎo)器推理圖引導(dǎo)器。這些組件的移除都會(huì)導(dǎo)致性能下降,證明了它們在生成穩(wěn)定和高質(zhì)量動(dòng)畫中的重要性。

庫里杜蘭特“合舞”科目三,騰訊混元團(tuán)隊(duì)全新圖生視頻模型來了-AI.x社區(qū)

One More Thing

當(dāng)下,圖像到視頻生成的技術(shù)在電影內(nèi)容制作、增強(qiáng)現(xiàn)實(shí)、游戲制作以及廣告等多個(gè)行業(yè)的AIGC應(yīng)用上有著廣泛前景,是2024年最熱門的AI技術(shù)之一。


參與了“Follow-Your-Pose-v2”研究的騰訊混元團(tuán)隊(duì),也在6月6日公布了其文生圖開源大模型(混元DiT)的加速庫,號(hào)稱大幅提升推理效率,生圖時(shí)間縮短75%。


官方表示,混元DiT模型的使用門檻也大幅降低,用戶可以基于ComfyUI的圖形化界面使用騰訊混元文生圖模型能力,并在Hugging Face的官方模型庫中用三行代碼調(diào)用模型(無需下載原始代碼庫)。


目前本文介紹的相關(guān)技術(shù)論文已上傳公共社區(qū),感興趣的家人們可以進(jìn)一步了解。

論文:??https://arxiv.org/abs/2406.03035???
抱抱臉混元DiT:???https://huggingface.co/Tencent-Hunyuan/HunyuanDiT?cnotallow=7b93f8f875055859b0712c994d253b9f??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/z8wKg0jOJ7tgjPMUV3N0-g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦