自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊圖生視頻全面開(kāi)源,更懂物理規(guī)律,一手實(shí)測(cè)來(lái)了

人工智能 新聞
在各位玩家狂卷生成效果的途中,一些老大難問(wèn)題逐漸“露面”,并成為檢驗(yàn)和驅(qū)動(dòng)視頻AI進(jìn)化的法寶。

就在剛剛,騰訊版Sora補(bǔ)齊了又一重要拼圖——圖生視頻。

而且還是熟悉的配方,和去年12月發(fā)布的文生視頻模型HunyuanVideo一樣,發(fā)布即開(kāi)源。

圖片

那么,此次上新的「圖生視頻」到底有多強(qiáng)呢?

有網(wǎng)友直接用它制作了一部電影:

可以看到,新功能在畫(huà)質(zhì)、物體一致性等方面有了很大提升。

目前該功能已上線騰訊混元AI視頻,人人都可免費(fèi)體驗(yàn)(有次數(shù)限制)。

圖片

話不多說(shuō),量子位一手實(shí)測(cè)走起~

實(shí)測(cè)騰訊混元「圖生視頻」

有一說(shuō)一,圖生視頻這項(xiàng)功能本身在視頻AI領(lǐng)域已不新奇,但難的是生成效果好。

而在各位玩家狂卷生成效果的途中,一些老大難問(wèn)題逐漸“露面”,并成為檢驗(yàn)和驅(qū)動(dòng)視頻AI進(jìn)化的法寶。

所以,為了直觀展示騰訊版Sora的「圖生視頻」能力,我們直接從這些難題入手。

難題1:是否符合現(xiàn)實(shí)物理規(guī)律

眾所周知,從視頻AI誕生至今,生成符合現(xiàn)實(shí)物理規(guī)律的視頻堪稱行業(yè)難題。

一不小心就各種手腳滿天飛,讓人直呼恐怖:

所以這第一關(guān),我們直接來(lái)個(gè)大招——讓騰訊混元視頻AI還原運(yùn)動(dòng)員跳水。

而且為了整活兒,選取的原圖就有“炸魚(yú)”的傾向了(doge):

(右側(cè)為AI生成的原圖和提示詞,選取2K視頻)

圖片

最終效果be like:

首先,為了保證畫(huà)質(zhì),我們一開(kāi)始就特意選了「2K視頻」(默認(rèn)為高品質(zhì)),并選擇更通用的混元圖生1.0(另一個(gè)針對(duì)人像優(yōu)化)

圖片

從結(jié)果可以看到,整體畫(huà)面還是比較高清的,隨手一截都有點(diǎn)像體育頻道報(bào)道。

質(zhì)量上,相比早期的“手腳亂飛”也明顯有很大進(jìn)步,一眼看去沒(méi)有明顯錯(cuò)誤。

然鵝,如果要拿放大鏡來(lái)看,一些細(xì)節(jié)還是經(jīng)不起推敲。

比如運(yùn)動(dòng)員左手的大小比例在下面這個(gè)瞬間有點(diǎn)問(wèn)題,手掌明顯過(guò)寬;另外手勢(shì)在變換的過(guò)程中,摳圖感明顯,能從這里看出視頻由AI生成。

所以,要想實(shí)現(xiàn)100%還原真實(shí)物理規(guī)律,大噶還得加油啊~

BTW,雖然生成的視頻目前只有5秒,但不難想見(jiàn)這位小哥落水時(shí)即將炸魚(yú)了。

難題2:能否“無(wú)中生有”

Okk,難題繼續(xù)。

為了考驗(yàn)視頻生成AI的可控性,我們來(lái)看這樣一張?jiān)瓐D:(草原上沒(méi)有一只動(dòng)物)

圖片

輸入prompt,“圖中出現(xiàn)了一匹馬”,最終結(jié)果如下:

可以看到,視頻中確實(shí)出現(xiàn)了一匹白色駿馬在草原上慢慢行走。

除此之外,我們繼續(xù)搬出大家心心念念的一個(gè)功能來(lái)挑戰(zhàn)——在畫(huà)面中生成文字(中文或英文)。

個(gè)人多次實(shí)測(cè)后發(fā)現(xiàn),目前暫時(shí)無(wú)法在視頻中憑空生成文字(大家有成功案例可以在評(píng)論區(qū)補(bǔ)充)。

不過(guò)也有一種間接方法能夠?qū)崿F(xiàn):先在圖片中生成文字(可以用騰訊豆包AI的畫(huà)圖功能),再將圖片轉(zhuǎn)換成動(dòng)態(tài)視頻。

圖片

嗯,也是給量子位打上了賽博廣告(doge)~

所以,在讓視頻“無(wú)中生有”這方面,除了添加文字不可控,其他元素已經(jīng)可以輕松拿捏了。

難題3:能否準(zhǔn)確遵循指令

接下來(lái),圖片搭配文字提示詞,也能用來(lái)考察視頻生成AI是否理解用戶意圖了。

騰訊混元視頻AI,在上傳圖片后,可以通過(guò)正面(想要哪些畫(huà)面)和反面(不想要哪些)提示詞來(lái)設(shè)計(jì)整個(gè)畫(huà)面。

圖片

這里我們又拿騰訊混元視頻的“獨(dú)家藝能”來(lái)測(cè)試。早在文字生成視頻的功能發(fā)布后,他們就主推了在畫(huà)面主角保持不變的情況下自動(dòng)切鏡頭的這項(xiàng)功能,當(dāng)時(shí)號(hào)稱這是業(yè)界大部分模型所不具備的能力。

所以,我們這次的prompt如下:

一位外國(guó)美女穿著漢服,頭發(fā)飄揚(yáng),背景是長(zhǎng)城,然后鏡頭切換到正面特寫(xiě)。

圖片

最終生成結(jié)果如下:

乍看之下,鏡頭從側(cè)臉切換到正臉銜接挺自然,連發(fā)絲都始終在空中飄揚(yáng)。

但是一摳細(xì)節(jié),后來(lái)的黃色發(fā)夾有點(diǎn)突兀了,所以在整體一致性上仍有完善空間。

難題4:能否保證連貫一致性

當(dāng)然,光是準(zhǔn)確還原指令還不夠,更重要的是要讓所有元素自然鋪開(kāi)。

換句話說(shuō),還要考察圖片轉(zhuǎn)化成視頻后的動(dòng)作、場(chǎng)景過(guò)渡是否自然流暢,有無(wú)明顯的卡頓、跳躍或不連貫的情況。

嗯,依舊上難度——鏡子題材下的運(yùn)動(dòng)一致性考驗(yàn)。

穿著白床單的幽靈面對(duì)著鏡子。鏡子中可以看到幽靈的倒影。幽靈位于布滿灰塵的閣樓中,閣樓里有老舊的橫梁和被布料遮蓋的家具。閣樓的場(chǎng)景映照在鏡子中。幽靈在鏡子前跳舞。電影氛圍,電影打光。

圖片

最終效果如下:

一般來(lái)說(shuō),鏡子題材可以用來(lái)考驗(yàn)?zāi)P蛯?duì)光影的理解,以及鏡子內(nèi)外主體運(yùn)動(dòng)是否能保持一致。

而上面這個(gè)生成效果著實(shí)驚艷,當(dāng)身披白床單的幽靈“手舞足蹈”時(shí),鏡子里的動(dòng)作非常一致,而且連地上的光影變換也非常符合物理規(guī)律。

整體看起來(lái)相當(dāng)絲滑~

Okk,幾個(gè)堪稱最難的測(cè)試到此告一段落。實(shí)測(cè)下來(lái),騰訊混元的「圖生視頻」新功能在這些最難挑戰(zhàn)上有了很大進(jìn)步,但離100%符合物理規(guī)律和完全一致性仍有一段距離。

最后附上來(lái)自官方的寫(xiě)prompt小tips:

用法1:提示詞 = 主體+動(dòng)作 (相對(duì)簡(jiǎn)短的表述效果更優(yōu))

主體:視頻的主要表現(xiàn)對(duì)象要與與輸入圖片一致,可以為人、動(dòng)物、植物、物品等,簡(jiǎn)單描述即可,比如一個(gè)女孩、一個(gè)熊貓等。

動(dòng)作:對(duì)主體動(dòng)作或狀態(tài)的描述,用詞建議簡(jiǎn)單且清晰具體,最好有動(dòng)態(tài)感,比如戴眼鏡->用手戴上眼鏡,喝水->用手舉起杯子喝水。

用法2:提示詞 = 主體+動(dòng)作 +運(yùn)鏡方式

運(yùn)鏡方式:鏡頭的運(yùn)動(dòng)方式,比如靜止鏡頭、鏡頭平移向右,鏡頭縮放等。

網(wǎng)友瘋狂試玩ing

與此同時(shí),網(wǎng)友們的第一波鮮測(cè)也出爐了:

感興趣的童鞋可以玩起來(lái)了~

在線免費(fèi)體驗(yàn):
https://video.hunyuan.tencent.com/Github:
https://github.com/Tencent/HunyuanVideo-I2V
Huggingface:
https://huggingface.co/tencent/HunyuanVideo-I2V

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-26 09:44:14

2025-04-24 09:27:00

2024-02-02 21:51:19

數(shù)據(jù)訓(xùn)練

2025-02-14 09:12:00

2025-04-30 14:12:36

Qwen3AgentMCP

2023-08-24 21:49:54

人工智能高端算法工程師

2025-03-31 08:46:00

圖像AI生成

2010-09-09 15:21:17

丁磊

2024-08-21 13:09:53

2025-03-07 14:32:59

AI模型訓(xùn)練

2019-10-24 15:23:04

SQL優(yōu)化數(shù)據(jù)庫(kù)

2019-12-16 14:04:48

MySQL數(shù)據(jù)庫(kù)SQL

2020-05-22 08:24:21

SQLMySQL數(shù)據(jù)庫(kù)

2023-11-10 16:08:23

SQL數(shù)據(jù)庫(kù)

2024-06-06 14:27:21

2025-04-08 09:15:00

AI論文實(shí)測(cè)

2015-07-06 14:47:03

騰訊云高IOCDB

2023-09-03 18:44:50

AI運(yùn)營(yíng)商

2011-06-24 14:48:08

英特爾網(wǎng)卡

2013-04-17 10:30:07

GlassGoogle
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)