當(dāng)前最強(qiáng)國(guó)產(chǎn)Sora!清華團(tuán)隊(duì)突破16秒長(zhǎng)視頻,懂多鏡頭語(yǔ)言,會(huì)模擬物理規(guī)律
你說(shuō)箱子里要裝滿鉆石,于是箱子被鉆石填滿,比實(shí)拍還要耀眼。這樣的技能,哪個(gè)劇組不喜歡?
這是前段時(shí)間 Adobe 旗下的視頻剪輯軟件 Premiere Pro 所呈現(xiàn)的「魔法」。該軟件通過(guò)引入 Sora、Runway、Pika 等 AI 視頻工具,實(shí)現(xiàn)在視頻中添加物體、消除物體以及生成視頻片段等能力,這被視為視頻領(lǐng)域的再一次技術(shù)革新。
從 2 月份 Sora 席卷全球到如今 Adobe 再施魔法,海外熱火朝天。相比之下,國(guó)內(nèi)在視頻領(lǐng)域,尤其是長(zhǎng)視頻生成方向還處于「等待」?fàn)顟B(tài)。在過(guò)去的兩個(gè)月里,我們已經(jīng)聽到了一些宣稱追趕 Sora 的聲音,但是目前還沒有看到國(guó)內(nèi)取得明顯進(jìn)展。但今天生數(shù)科技剛剛發(fā)布的這支短片,讓我們看到了不少驚喜。
這是生數(shù)科技聯(lián)合清華大學(xué)最新發(fā)布的視頻大模型「Vidu」所官宣的視頻??梢钥闯觯傻囊曨l不再是持續(xù)幾秒的「GIF」,而是達(dá)到了十幾秒(最長(zhǎng)可以達(dá)到 16 秒左右)。當(dāng)然更令人驚喜的是,「Vidu」畫面效果非常接近 Sora,在多鏡頭語(yǔ)言、時(shí)間和空間一致性、遵循物理規(guī)律等方面表現(xiàn)都非常出色,而且還能虛構(gòu)出真實(shí)世界不存在的超現(xiàn)實(shí)主義畫面,這是當(dāng)前的視頻生成模型難以實(shí)現(xiàn)的。在短短兩個(gè)月的時(shí)間,生數(shù)科技能實(shí)現(xiàn)到這般效果,著實(shí)令人驚喜。
國(guó)內(nèi)首個(gè)全面對(duì)標(biāo) Sora 的視頻模型
自 Sora 發(fā)布之后,「國(guó)產(chǎn) Sora」的爭(zhēng)奪戰(zhàn)就打響了。但當(dāng)行業(yè)都聚焦于「長(zhǎng)」這一特性時(shí),卻都忽略了 Sora 的背后其實(shí)是綜合效果的提升,例如長(zhǎng)時(shí)序下的一致性、真實(shí)度、美觀性等等。
從綜合效果看,「Vidu」是首個(gè)也是唯一在效果層面全面對(duì)標(biāo) Sora 的視頻模型,不僅僅在國(guó)內(nèi),在全球范圍,也是繼 Sora 之后首個(gè)完成突破的視頻模型。從具體效果,可以顯著看到幾處明顯的優(yōu)勢(shì):
給視頻注入「鏡頭語(yǔ)言」
在視頻制作中有個(gè)非常重要的概念 —— 鏡頭語(yǔ)言。它是通過(guò)畫面來(lái)表達(dá)故事情節(jié)、揭示角色心理、營(yíng)造氛圍以及引導(dǎo)觀眾情感的主要方式。不同的鏡頭選擇、角度、運(yùn)動(dòng)和組合將極大地影響敘事的效果和觀眾的感受。
現(xiàn)有 AI 生成的視頻,能夠明顯地感覺到鏡頭語(yǔ)言的單調(diào),鏡頭的運(yùn)動(dòng)局限于輕微幅度的推、拉、移等簡(jiǎn)單鏡頭。其背后的主要原因是,現(xiàn)有的視頻內(nèi)容生成大多是先通過(guò)生成單幀畫面,再做連續(xù)的前后幀預(yù)測(cè),但主流的技術(shù)路徑,很難做到長(zhǎng)時(shí)序的連貫預(yù)測(cè),只能做到小幅的動(dòng)態(tài)預(yù)測(cè)。
Runway 在去年 7 月份生成的科幻電影預(yù)告片《Trailer: Genesis》(《創(chuàng)世紀(jì)》)。
「Vidu」則突破了這些局限。在一個(gè)「海邊小屋」為主題的片段中,我們可以看到,「Vidu」一次生成的一段片段中涉及多個(gè)鏡頭,畫面既有小屋的近景特寫,也有望向海面的遠(yuǎn)眺,整體看下來(lái)有種從屋內(nèi)到走廊再到欄桿邊賞景的敘事感??梢钥闯?,「Vidu」能夠圍繞統(tǒng)一主體在一段畫面里實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭的切換。
,時(shí)長(zhǎng)00:15
提示:在一個(gè)古色古香的海邊小屋里,陽(yáng)光沐浴著房間,鏡頭緩慢過(guò)渡到一個(gè)陽(yáng)臺(tái),俯瞰著寧?kù)o的大海,最后鏡頭定格在漂浮著大海、帆船和倒影般的云彩。(生數(shù)旗下 PixWeaver 產(chǎn)品官網(wǎng)放出的完整視頻片段)
此外,從短片中的多個(gè)片段能看到,「Vidu」能直接生成轉(zhuǎn)場(chǎng)、追焦、長(zhǎng)鏡頭等效果,包括能夠生成影視級(jí)的鏡頭畫面,給視頻注入鏡頭語(yǔ)言,提升畫面的整體敘事感。
保持時(shí)間和空間的一致性
視頻畫面的連貫和流暢性至關(guān)重要,這背后其實(shí)是人物和場(chǎng)景的時(shí)空一致性,比如人物在空間中的運(yùn)動(dòng)始終保持一致,場(chǎng)景也不能在沒有任何轉(zhuǎn)場(chǎng)的情況下突變。而這一點(diǎn) AI 很難實(shí)現(xiàn),尤其時(shí)長(zhǎng)一長(zhǎng),AI 生成的視頻將出現(xiàn)敘事斷裂、視覺不連貫、邏輯錯(cuò)誤等問(wèn)題, 這些問(wèn)題會(huì)嚴(yán)重影響視頻的真實(shí)感和觀賞性。
「Vidu」在一定程度上克服了這些問(wèn)題。從它生成的一段「帶珍珠耳環(huán)的貓」的視頻中可以看到,隨著鏡頭的移動(dòng),作為畫面主體的貓?jiān)?3D 空間下一直保持著表情、服飾的一致,視頻整體上非常連貫、流暢,保持了很好的時(shí)間、空間一致性。
提示:這是一只藍(lán)眼睛的橙色貓的肖像,慢慢地旋轉(zhuǎn),靈感來(lái)自維米爾的《戴珍珠耳環(huán)的少女》,畫面上戴著珍珠耳環(huán),棕色頭發(fā)像荷蘭帽一樣,黑色背景,工作室燈光。(生數(shù)旗下 PixWeaver 產(chǎn)品官網(wǎng)放出的完整視頻片段)
模擬真實(shí)物理世界
Sora 令人驚艷的一大特點(diǎn),就是能夠模擬真實(shí)物理世界的運(yùn)動(dòng),例如物體的移動(dòng)和相互作用。其中 Sora 發(fā)布過(guò)的一個(gè)經(jīng)典案例 ——「一輛老式 SUV 行駛在山坡上」的畫面,非常好地模擬了輪胎揚(yáng)起的灰塵、樹林中的光影以及車行駛過(guò)程中的陰影變化。在同樣的提示詞下,「Vidu」與 Sora 生成效果高度接近,灰塵、光影等細(xì)節(jié)與人類在真實(shí)物理世界中的體驗(yàn)非常接近。
提示:鏡頭跟隨一輛帶有黑色車頂行李架的白色老式 SUV,它在陡峭的山坡上一條被松樹環(huán)繞的陡峭土路上加速行駛,輪胎揚(yáng)起灰塵,陽(yáng)光照射在 SUV 上,給整個(gè)場(chǎng)景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠(yuǎn)方,看不到其他汽車或車輛。道路兩旁都是紅杉樹,零星散落著一片片綠意。從后面看,這輛車輕松地沿著曲線行駛,看起來(lái)就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈,上面是清澈的藍(lán)天和縷縷云彩。
當(dāng)然在「帶有黑色車頂行李架」的局部細(xì)節(jié)上,「Vidu」沒能生成出來(lái)。但瑕不掩瑜,它的整體效果已高度接近真實(shí)世界。
豐富的想象力
與實(shí)景拍攝相比,用 AI 生成視頻有一個(gè)很大的優(yōu)勢(shì) —— 它可以生成現(xiàn)實(shí)世界中不存在的畫面。以往,這些畫面往往要花費(fèi)很大的人力、物力去搭建或做成特效,但是 AI 短時(shí)間就可以自動(dòng)生成了。
比如在下面這個(gè)場(chǎng)景中,「帆船」、「海浪」罕見地出現(xiàn)在了畫室里,而且海浪與帆船的交互動(dòng)態(tài)非常自然。
提示:畫室里的一艘船駛向鏡頭。(生數(shù)旗下 PixWeaver 產(chǎn)品官網(wǎng)放出的完整視頻片段)
短片中的「魚缸女孩」的片段也是奇幻但又具有一定的合理感。這種能夠虛構(gòu)真實(shí)世界不存在的畫面的能力,對(duì)于創(chuàng)作超現(xiàn)實(shí)主義內(nèi)容非常有幫助,不僅可以激發(fā)創(chuàng)作者的靈感,提供新穎的視覺體驗(yàn),還能拓寬藝術(shù)表達(dá)的邊界,帶來(lái)更加豐富和多元化的內(nèi)容形式。
理解中國(guó)元素
除了以上四方面的特點(diǎn)外,我們從「Vidu」放出的短片中還看到了一些不一樣的驚喜,「Vidu」能夠生成特有中國(guó)元素的畫面,比如熊貓、龍、宮殿場(chǎng)景等。
,時(shí)長(zhǎng)00:16
提示:在寧?kù)o的湖邊,一只熊貓熱切地彈著吉他,讓整個(gè)環(huán)境變得活躍起來(lái)。晴朗天空下平靜的水面倒映著這一場(chǎng)景,以生動(dòng)的全景鏡頭捕捉到,將現(xiàn)實(shí)主義與大熊貓活潑的精神融為一體,創(chuàng)造出活力與平靜的和諧融合。(生數(shù)旗下 PixWeaver 產(chǎn)品官網(wǎng)放出的完整視頻片段)
兩個(gè)月快速突破,背后是怎么做到的?
「Vidu」背后的研發(fā)團(tuán)隊(duì)生數(shù)科技是國(guó)內(nèi)多模態(tài)大模型方向的創(chuàng)業(yè)團(tuán)隊(duì),核心成員來(lái)自清華大學(xué)人工智能研究院,團(tuán)隊(duì)專注于圖像、3D、視頻等多模態(tài)生成領(lǐng)域。
在今年 1 月份,生數(shù)科技在旗下視覺創(chuàng)意設(shè)計(jì)平臺(tái) PixWeaver 就上線了短視頻生成功能,支持 4 秒高美學(xué)性的短視頻內(nèi)容。2 月份 Sora 推出后,據(jù)悉,生數(shù)科技內(nèi)部成立了正式的攻堅(jiān)小組,加快了原本視頻方向的研發(fā)進(jìn)度,3 月份內(nèi)部就實(shí)現(xiàn)了 8 秒的視頻生成,緊接著 4 月份就突破了 16 秒生成,生成質(zhì)量與時(shí)長(zhǎng)全方面取得突破。
眾所周知,Sora 并沒有公布太多的技術(shù)細(xì)節(jié),能在這么短的時(shí)間內(nèi)取得突破,背后核心是團(tuán)隊(duì)深厚的技術(shù)積累和諸多從 0 到 1 的原創(chuàng)成果,尤其是在最核心的技術(shù)架構(gòu)層面。
「Vidu」底層基于完全自研的 U-ViT 架構(gòu),該架構(gòu)由團(tuán)隊(duì)在 2022 年 9 月提出,早于 Sora 采用的 DiT 架構(gòu),是全球首個(gè) Diffusion 和 Transformer 融合的架構(gòu)。
在 DiT 論文發(fā)布兩個(gè)月前,清華大學(xué)的朱軍團(tuán)隊(duì)提交了一篇論文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。這篇論文提出了用 Transformer 替代基于 CNN 的 U-Net 的網(wǎng)絡(luò)架構(gòu) U-ViT。這是「Vidu」最重要的技術(shù)基礎(chǔ)。
在技術(shù)路線上,「Vidu」采用了和 Sora 完全一致的 Diffusion 和 Transformer 融合的架構(gòu)。不同于采用插幀的多步驟處理方式來(lái)達(dá)到長(zhǎng)視頻的生成,「Vidu」采用的是和 Sora 一致的路線,即通過(guò)單一步驟直接生成高質(zhì)量的視頻。從底層來(lái)看,這是一種「一步到位」的實(shí)現(xiàn)方法,基于單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理,文本到視頻的轉(zhuǎn)換是直接且連續(xù)的。
另外基于 U-ViT 架構(gòu),2023 年 3 月,團(tuán)隊(duì)在開源的大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓(xùn)練了 10 億參數(shù)量的多模態(tài)模型 ——UniDiffuser,并將其開源(參見《???清華朱軍團(tuán)隊(duì)開源首個(gè)基于 Transformer 的多模態(tài)擴(kuò)散大模型,文圖互生、改寫全拿下??》)。
UniDiffuser 主要擅長(zhǎng)圖文任務(wù),能支持圖文模態(tài)間的任意生成和轉(zhuǎn)換。UniDiffuser 的實(shí)現(xiàn)有一項(xiàng)重要的價(jià)值 —— 首次驗(yàn)證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴(kuò)展性(Scaling Law),相當(dāng)于將 U-ViT 架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程都跑通。值得一提的,UniDiffuser 比同樣 DiT 架構(gòu)的圖文模型 Stable Diffusion 3 的提出領(lǐng)先了一年。
這些在圖文任務(wù)中積累的工程經(jīng)驗(yàn)為視頻模型的研發(fā)打下了基礎(chǔ)。因?yàn)橐曨l本質(zhì)上是圖像的流,相當(dāng)于是圖像在時(shí)間軸上做了一個(gè)擴(kuò)增。因此,在圖文任務(wù)上取得的成果往往能夠在視頻任務(wù)中得到復(fù)用。Sora 就是這么做的:它采用了 DALL?E 3 的重標(biāo)注技術(shù),通過(guò)為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述,使模型能夠更加準(zhǔn)確地遵循用戶的文本指令生成視頻。這種效應(yīng)也必然會(huì)發(fā)生在「Vidu」上面。
根據(jù)此前的消息推測(cè),「Vidu」也復(fù)用了生數(shù)科技在圖文任務(wù)的很多經(jīng)驗(yàn),包括訓(xùn)練加速、并行化訓(xùn)練、低顯存訓(xùn)練等等,從而快速跑通了訓(xùn)練流程。據(jù)悉,他們通過(guò)視頻數(shù)據(jù)壓縮技術(shù)降低輸入數(shù)據(jù)的序列維度,同時(shí)采用自研的分布式訓(xùn)練框架,在保證計(jì)算精度的同時(shí),通信效率提升 1 倍,顯存開銷降低 80%,訓(xùn)練速度累計(jì)提升 40 倍。
從圖任務(wù)的統(tǒng)一到融合視頻能力,「Vidu」可被視為一款通用視覺模型,能夠支持生成更加多樣化、更長(zhǎng)時(shí)長(zhǎng)的視頻內(nèi)容。官方也透露,「Vidu」目前還在加速迭代提升。面向未來(lái),「Vidu」靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。
來(lái)自清華系的精干團(tuán)隊(duì)
最后,再聊下「Vidu」背后的團(tuán)隊(duì) —— 生數(shù)科技,這是一支清華背景的精干團(tuán)隊(duì)。
生數(shù)科技的核心團(tuán)隊(duì)來(lái)自清華大學(xué)人工智能研究院。首席科學(xué)家由清華人工智能研究院副院長(zhǎng)朱軍擔(dān)任;CEO 唐家渝本碩就讀于清華大學(xué)計(jì)算機(jī)系,是 THUNLP 組成員;CTO 鮑凡則是清華大學(xué)計(jì)算機(jī)系博士生、朱軍教授的課題組成員,長(zhǎng)期關(guān)注擴(kuò)散模型領(lǐng)域研究,U-ViT 和 UniDiffuser 兩項(xiàng)工作均是由他主導(dǎo)完成的。
團(tuán)隊(duì)從事生成式人工智能和貝葉斯機(jī)器學(xué)習(xí)的研究已有 20 余年,在深度生成模型突破的早期就開展了深入研究。在擴(kuò)散模型方面,團(tuán)隊(duì)于國(guó)內(nèi)率先開啟了該方向的研究,成果涉及骨干網(wǎng)絡(luò)、高速推理算法、大規(guī)模訓(xùn)練等全棧技術(shù)方向。
團(tuán)隊(duì)于 ICML、NeurIPS、ICLR 等人工智能頂會(huì)發(fā)表多模態(tài)領(lǐng)域相關(guān)論文近 30 篇,其中提出的免訓(xùn)練推理算法 Analytic-DPM、DPM-Solver 等突破性成果,獲得 ICLR 杰出論文獎(jiǎng),并被 OpenAI、蘋果、Stability.ai 等國(guó)外前沿機(jī)構(gòu)采用,應(yīng)用于 DALL?E 2、Stable Diffusion 等明星項(xiàng)目中。
自 2023 年成立以來(lái),團(tuán)隊(duì)已獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV 百度風(fēng)投、字節(jié)系錦秋基金等多家知名產(chǎn)業(yè)機(jī)構(gòu)的認(rèn)可,完成數(shù)億元融資。據(jù)悉,生數(shù)科技是目前國(guó)內(nèi)在多模態(tài)大模型賽道估值最高的創(chuàng)業(yè)團(tuán)隊(duì)。此次「Vidu」的推出,是生數(shù)科技在多模態(tài)原生大模型領(lǐng)域的再一次創(chuàng)新和領(lǐng)先。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
