自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

通信巨頭入局視頻生成,直接霸榜權(quán)威評測:人物跨越多場景依然一致

人工智能 新聞
這個(gè)突然殺出來的模型,就是中國電信人工智能研究院(TeleAI)剛剛發(fā)布的視頻大模型(VBench上的代號為TeleAI-VAST)。

視頻生成模型評測權(quán)威榜單VBench,突遭“屠榜”。

這個(gè)突然殺出來的模型,就是中國電信人工智能研究院(TeleAI)剛剛發(fā)布的視頻大模型(VBench上的代號為TeleAI-VAST)

圖片

而且16項(xiàng)子指標(biāo)有9項(xiàng)都是第一,大幅領(lǐng)先第二名。

其中更是有5項(xiàng)得分超過99%,并在物體分類和人體動(dòng)作兩項(xiàng)拿了滿分100%。

圖片

來看一段樣片:

這段短片中,四位女主角為尋找寶石,分別踏上了各自的冒險(xiǎn)之旅。

圖片

具體細(xì)節(jié)不展開太多,但關(guān)鍵之處在于,每個(gè)人物在各自的分鏡中,形象都和開頭的合影保持了一致。

圖片

要知道對于視頻生成來說,保持單個(gè)人物的前后一致就已經(jīng)不是一件容易的事,TeleAI視頻生成大模型卻一下處理了四個(gè)。

人物動(dòng)作精準(zhǔn)控制,還有音畫同步

除了開頭三分鐘的宣傳片,TeleAI展示了另外幾段作品。

第一段視頻中,女主角先后出現(xiàn)在公交車、馬路、酒吧吧臺和座位四個(gè)不同的場景。

在這四個(gè)場景中,人物的外貌、發(fā)型、衣著全都保持了一致,畫面整體的色調(diào)風(fēng)格也很統(tǒng)一。

這說明,TeleAI視頻生成大模型已經(jīng)實(shí)現(xiàn)了不同的場景變化下主體的時(shí)空一致性。

圖片

接下來的這段畫面里,兩只猴王展開了一場近距離對戰(zhàn),期間的人物動(dòng)作、鏡頭跟隨,都已經(jīng)呈現(xiàn)出了電影級的水準(zhǔn)。

如果細(xì)節(jié)再繼續(xù)打磨優(yōu)化,拿來拍電影指日可待。

圖片

人物特征、時(shí)空一致性和動(dòng)作精準(zhǔn)性都有了,還能再做些什么呢?

目前的視頻生成模型大多生成的都是默片,這次TeleAI把聲音也加進(jìn)來了。

先看視頻:

從視頻中可以看到,TeleAI視頻生成大模型生成的聲音,不是單純地來上一段音樂那么簡單。

仔細(xì)聽會發(fā)現(xiàn),艦船的鳴笛聲、飛機(jī)起飛的轟鳴聲、潛水艇的水聲,以及最后火箭沖出水面的聲音,都與畫面中看到的內(nèi)容做到了同步。

也就是說,TeleAI視頻生成大模型作品中體現(xiàn)的一致性,已經(jīng)跨越模態(tài)了。

獨(dú)創(chuàng)兩階段生成架構(gòu)

不僅效果和成績優(yōu)秀,TeleAI視頻生成大模型的技術(shù)架構(gòu)也十分獨(dú)特。

它沒有采用傳統(tǒng)的路徑,而是全自研了一個(gè)“二階段視頻生成技術(shù)”——VAST(Video As Storyboard from Text)。

TeleAI團(tuán)隊(duì)沒有選擇一步到位,而是將視頻的生成分解成了兩個(gè)過程

在第一階段,采用多模態(tài)大型模型根據(jù)文本輸入生成中間素材,包括姿勢、分割圖和深度信息。

TeleAI團(tuán)隊(duì)把這些中間表示稱作“故事板”,是模型能夠體現(xiàn)場景語義和結(jié)構(gòu)本質(zhì)的關(guān)鍵。

第二階段,才是真正的視頻生成。

利用基于DiT架構(gòu)的擴(kuò)散模型,TeleAI以這些表示為條件,結(jié)合目標(biāo)對象的文本描述和外觀信息,生成最終的視頻。

這種分段式的方式,使得生成視頻時(shí)能夠精確控制主體的位置、運(yùn)動(dòng)和視覺外觀。

而且,TeleAI視頻生成大模型不僅能在模型上分“階段”,還可以把視頻按場景分成“片段”。

當(dāng)創(chuàng)作者想要生成一段長視頻時(shí),視頻生成工具可以先設(shè)計(jì)具體的分鏡頭,開頭3分鐘的視頻就是用這種方法創(chuàng)作出來的。

針對每一個(gè)分鏡,生成具有一致性的生成中間素材,這些中間素材不僅作用于模型內(nèi)部,對創(chuàng)作者也是可見的,甚至還能進(jìn)行調(diào)整修改。

因?yàn)閷ζ芜M(jìn)行了劃分,所以,只要在每個(gè)片段中都能保持人物一致性,可以生成的視頻長度將是無限長。

中國電信介紹,本次發(fā)布的視頻生成大模型將于明年開啟公測,可以期待一波新鮮的AI大片了。

各種模態(tài)全都有,還要做智能體

此次亮相的視頻生成大模型,是TeleAI整個(gè)大模型布局中的一個(gè)環(huán)節(jié)。

此前,TeleAI已經(jīng)自主了研發(fā)覆蓋語義、語音、視覺、多模態(tài)的“星辰”大模型能力體系。

星辰大模型在央企中唯一開源,還完成首個(gè)全國產(chǎn)化萬卡萬參大模型訓(xùn)練,并打造業(yè)界首個(gè)支持40種方言自由混說的語音識別大模型。

基礎(chǔ)模型之外,TeleAI還面向工業(yè)、教育等領(lǐng)域推出50多個(gè)場景大模型,并構(gòu)建了“星?!睌?shù)據(jù)智能中臺,形成了9萬億Tokens高質(zhì)量數(shù)據(jù)集。

在使用方式上也另辟蹊徑,甚至推出了發(fā)短信和大模型對話的功能。

圖片

除了模態(tài)、場景、數(shù)據(jù)和使用方式,TeleAI也全新推出了大模型智能體平臺,與視頻生成大模型一同登上TeleAI開發(fā)者大會。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-03 08:32:00

模型AI訓(xùn)練

2025-04-28 09:28:14

2024-09-10 11:21:30

2024-01-22 08:59:00

AI

2023-02-13 18:23:13

2018-05-07 11:26:01

2024-11-26 17:56:38

2024-03-27 12:46:53

AI訓(xùn)練

2023-07-04 15:58:11

ChatGPT人工智能

2023-04-03 10:04:44

開源模型

2025-03-20 09:20:00

2021-04-22 15:25:29

AI 數(shù)據(jù)人工智能

2024-05-06 12:21:00

AI模型

2013-12-18 16:41:53

金山云云計(jì)算

2025-01-17 09:00:00

2025-03-27 09:24:16

2014-06-05 14:45:39

2025-01-22 10:30:00

圖像生成模型AI

2024-10-08 09:25:00

3D模型生成

2024-10-28 07:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號