自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="zylsk"></cite>

<ruby id="zylsk"></ruby>

<legend id="zylsk"><track id="zylsk"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

又一「國產(chǎn)版Sora」全球上線！清華朱軍創(chuàng)業(yè)團隊，視頻生成僅需30秒

作者：機器之心 2024-07-30 11:50:00

人工智能新聞

早在三個月前，國內(nèi)外視頻生成領(lǐng)域還一片「沉寂」之時，生數(shù)科技突然曝出自家最新視頻大模型 Vidu 的宣傳視頻，憑借其生動逼真、不輸 Sora 的效果，驚艷了一眾網(wǎng)友。

AI 視頻圈正「互扯頭花」。

國外的 Luma、Runway，國內(nèi)的快手可靈、字節(jié)即夢、智譜清影…… 你方唱罷我登場。無一例外，它們對標(biāo)的都是那個傳說中的 Sora。

其實，說起 Sora 全球挑戰(zhàn)者，生數(shù)科技的 Vidu 少不了。

早在三個月前，國內(nèi)外視頻生成領(lǐng)域還一片「沉寂」之時，生數(shù)科技突然曝出自家最新視頻大模型 Vidu 的宣傳視頻，憑借其生動逼真、不輸 Sora 的效果，驚艷了一眾網(wǎng)友。

就在今天，Vidu 正式上線。無需申請，只要有個郵箱，就能上手體驗。（Vidu官網(wǎng)鏈接：www.vidu.studio）

例如，皮卡丘和哆啦 A 夢玩「貼臉殺」：

《暮光之城》男女主秀恩愛：

它甚至還解決了 AI 不會寫字的問題：

此外，Vidu 的生成效率也賊拉猛，實現(xiàn)了業(yè)界最快的推理速度，僅需 30 秒就能生成一段 4 秒鏡頭。

接下來，我們就奉上最新的一手評測，看看這款「國產(chǎn) Sora」的實力究竟如何。

上手實測：鏡頭語言大膽，畫面不會崩壞！

這次，Vidu 亮出了絕活。

不僅延續(xù)了今年 4 月份展示的高動態(tài)性、高逼真度、高一致性等優(yōu)勢，還新增了動漫風(fēng)格、文字與特效畫面生成、角色一致性等特色能力。

主打一個：別人有的功能，我要有，別人沒有的功能，我也要有。

哦莫，它竟然認(rèn)字識數(shù)

現(xiàn)階段，Vidu 有兩大核心功能：文生視頻和圖生視頻。

提供 4s 和 8s 兩種時長選擇，分辨率最高達(dá) 1080P。風(fēng)格上，提供寫實和動畫兩大選擇。

先看看圖生視頻。

讓歷史重新鮮活起來，是當(dāng)下最流行的玩法。這是法國畫家伊麗莎白?路易絲?維瑞的名作《畫家與女兒像》。

我們輸入提示詞：畫家與女兒像，母女緊緊抱在一起。

生成的高清版本讓人眼前一亮，人物動作幅度很大，連眼神都有變化，但效果挺自然。

再試試達(dá)芬奇的《抱銀鼬的女子》。

提示詞：抱銀鼬的女子面露微笑。

長達(dá) 8 秒的視頻里，女子和寵物動作幅度較大，特別是女子的手部撫摸動作，還有身體、面部變化，但都沒有影響畫面的自然、流暢。

大幅度、精準(zhǔn)的動作有助于更好地表現(xiàn)視頻情節(jié)和人物情緒。不過，動作幅度一旦變大，畫面容易崩壞。因此，一些模型為保證流暢性，會犧牲動幅，而 Vidu 比較好地解決了這一問題。

模擬真實物理世界的運動，還真不錯。比如，復(fù)刻類似庫布里克《2001 太空漫游》的情景！

提示詞：長鏡頭下，緩緩走向消失。

提示詞：長鏡頭下，漂浮著，慢慢飄向盡頭。

除了圖生視頻，還有文生視頻。

提示詞：兩朵花在黑色背景下緩慢綻放，展示出細(xì)膩的花瓣和花蕊。

提示語：這次只她一人，獨自坐在櫻花深處的秋千架上，穿著粉紅的春衫，輕微蕩著秋千，幅度很小，像坐搖椅一般，微垂著頭，有點百無聊賴的樣子，緩緩伸足一點一點踢著地上的青草。那櫻花片片飄落在她身上頭上，她也不以手去拂，漸漸積得多了，和她衣裙的顏色相融，遠(yuǎn)遠(yuǎn)望去仿佛她整個人都是由櫻花砌成似的。

Vidu 語義理解能力不錯，還可以理解提示中一次包含多個鏡頭的片段要求。

比如，畫面中既有海邊小屋的特寫，還有運鏡轉(zhuǎn)向海面遠(yuǎn)眺的遠(yuǎn)景，通過鏡頭切換，賦予畫面一種鮮明的敘事感。

提示語：在一個古色古香的海邊小屋里，陽光沐浴著房間，鏡頭緩慢過渡到一個陽臺，俯瞰著寧靜的大海，最后鏡頭定格在漂浮著大海、帆船和倒影般的云彩。

對于第一人稱、延時攝影等鏡頭語言，Vidu 也能準(zhǔn)確理解和表達(dá)，用戶只需細(xì)化提示詞，即可大幅提升視頻的可控性。

提示詞：第一人稱視角，女友牽著我的手，一起漫步在海邊。

Vidu 是一款能夠準(zhǔn)確理解和生成一些詞匯的視頻生成器，比如數(shù)字。

提示詞：一塊生日蛋糕，上面插著蠟燭，蠟燭是數(shù)字 “32”。

蛋糕上換成「Happy Birthday」的字樣，它也能hold住。

提示詞：一塊蛋糕，上面寫著"HAPPY BIRTHDAY"。

動漫風(fēng)格嘎嘎好用

目前市面上的 AI 視頻工具大多局限于寫實風(fēng)格或源于現(xiàn)實的想象，而 Vidu 除了寫實風(fēng)格外，還支持動漫風(fēng)格。

我們選擇動畫模型，直接輸入提示詞即可輸出動漫風(fēng)格視頻。

例如，提示詞：動漫風(fēng)格，小女孩站在廚房里切菜。

說實話，這畫風(fēng)有宮崎駿老爺子的味道。Vidu 讀懂了提示詞，小女孩切菜動作一氣呵成，就是手指和刀具在不經(jīng)意間仍有變形。

提示詞：動漫風(fēng)格，一個戴著耳機的小女孩在跳舞。

Vidu 的想象力還挺豐富，自個兒把背景設(shè)置為帶有噴泉的公園，這也讓視頻畫面不那么單調(diào)。

當(dāng)然，我們還可以上傳一張動漫參考圖片，再輸入提示詞，如此一來，圖片中的動漫人物就能動起來啦。

例如，我們上傳一張蠟筆小新的靜態(tài)圖，然后輸入提示詞：蠟筆小新大笑著舉起手里的小花。圖片用途選擇「用作起始幀」。

我們來瞅瞅效果：

再上傳一張呆萌皮卡丘的圖像，輸入提示詞為「皮卡丘開心地蹦起來」。圖片用途選擇「用作起始幀」。

繼續(xù)上效果：

上傳《海賊王》路飛的圖像，再喂給它提示詞：男孩突然哭起來。

效果如下：

不得不說， Vidu 的動漫效果相當(dāng)驚艷，在保持風(fēng)格一致性的同時，顯著提高了畫面的穩(wěn)定性和流暢性，沒有出現(xiàn)變形、崩壞或者六指狂魔、左右腿不分等「邪門」畫面。

梗圖、表情包燥起來

在「圖生視頻」板塊中，除了支持首幀圖上傳，Vidu 這次還上新一項功能 —— 角色一致性（Charactor To Video）。

所謂角色一致性，就是上傳一個角色圖像，然后可以指定該角色在任意場景中做出任意動作。

我們就拿吳京為例。

提示詞：在一艘宇宙飛船里，吳京正穿著太空服，對鏡頭揮手。

提示詞：吳京穿著唐裝，站在一條古街上，向鏡頭揮手。

如果說，首幀圖上傳適合創(chuàng)作場景一致性的視頻，那么，有了角色一致性功能，從科幻角色到現(xiàn)代劇，演員七十二變，信手拈來。

此外，有了角色一致性功能，普通用戶創(chuàng)作「梗圖」、「表情包」可以燥起來了！

比如讓北美「意難忘」賈斯汀?比伯和賽琳娜再續(xù)前緣：

《武林外傳》中佟湘玉和白展堂嗑著瓜子，聊著同?？蜅５陌素裕?/span>

還有《甄嬛傳》皇后娘娘委屈大哭：

只要腦洞夠大，什么地鐵老人吃手機、鰲拜和韋小寶打啵、容嬤嬤喂紫薇吃雞腿，Vidu 都能整出來。

就一個字，快！

視頻生成過程中，用戶最煩啥？當(dāng)然是龜速爬行的進度條。

試想，為了一段幾秒的視頻，愣是趴在電腦前等個十分鐘，再慢性子的人也很難不破防。

目前，市面上主流 AI 視頻工具生成一段 4 秒左右的視頻片段，通常需要 1 到 5 分鐘，甚至更長。

例如，Runway 最新推出的 Gen-3 工具需要 1 分鐘來完成 5s 視頻生成，可靈需要 2-3 分鐘，而 Vidu 將這一等待時間縮短至 30 秒，速度比業(yè)內(nèi)最快水平的 Gen-3 還要再快一倍。

基于完全自研的 U-ViT 架構(gòu)，商用精心布局

「Vidu」底層基于完全自研的 U-ViT 架構(gòu)，該架構(gòu)由團隊在 2022 年 9 月提出，早于 Sora 采用的 DiT 架構(gòu)，是全球首個 Diffusion 和 Transformer 融合的架構(gòu)。

在 DiT 論文發(fā)布兩個月前，清華大學(xué)的朱軍團隊提交了一篇論文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。這篇論文提出了用 Transformer 替代基于 CNN 的 U-Net 的網(wǎng)絡(luò)架構(gòu) U-ViT。這是「Vidu」最重要的技術(shù)基礎(chǔ)。

由于不涉及中間的插幀和拼接等多步驟的處理，文本到視頻的轉(zhuǎn)換是直接且連續(xù)的，「Vidu」的作品感官上更加一鏡到底，視頻從頭到尾連續(xù)生成，沒有插幀痕跡。除了底層架構(gòu)上的創(chuàng)新，「Vidu」也復(fù)用了生數(shù)科技過往積累下的工程化經(jīng)驗和能力。

生數(shù)科技曾稱，從圖任務(wù)的統(tǒng)一到融合視頻能力，「Vidu」可被視為一款通用視覺模型，能夠支持生成更加多樣化、更長時長的視頻內(nèi)容。他們也透露，「Vidu」還在加速迭代提升。面向未來，「Vidu」靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。

生數(shù)科技成立于 2023 年 3 月，核心成員來自清華大學(xué)人工智能研究院，致力于自主研發(fā)世界領(lǐng)先的可控多模態(tài)通用大模型。自 2023 年成立以來，團隊已獲得螞蟻集團、啟明創(chuàng)投、BV 百度風(fēng)投、字節(jié)系錦秋基金等多家知名產(chǎn)業(yè)機構(gòu)的認(rèn)可，完成數(shù)億元融資。據(jù)悉，生數(shù)科技是目前國內(nèi)在多模態(tài)大模型賽道估值最高的創(chuàng)業(yè)團隊。

公司首席科學(xué)家由清華人工智能研究院副院長朱軍擔(dān)任；CEO 唐家渝本碩就讀于清華大學(xué)計算機系，是 THUNLP 組成員；CTO 鮑凡是清華大學(xué)計算機系博士生、朱軍教授的課題組成員，長期關(guān)注擴散模型領(lǐng)域研究，U-ViT 和 UniDiffuser 兩項工作均是由他主導(dǎo)完成的。

今年 1 月，生數(shù)科技旗下視覺創(chuàng)意設(shè)計平臺 PixWeaver 上線了短視頻生成功能，支持 4 秒高美學(xué)性的短視頻內(nèi)容。2 月份 Sora 推出后，生數(shù)科技內(nèi)部成立攻堅小組，加快了原本視頻方向的研發(fā)進度，不到一個月的時間，內(nèi)部就實現(xiàn)了 8 秒的視頻生成，緊接著 4 月份就突破了 16 秒生成，生成質(zhì)量與時長全方面取得突破。

如果說 4 月份的模型發(fā)布展示了 Vidu 在視頻生成能力上的領(lǐng)先，這次正式發(fā)布的產(chǎn)品則展示了 Vidu 在商業(yè)化方面的精心布局。生數(shù)科技目前采取模型層和應(yīng)用層兩條路走路的模式。

一方面，構(gòu)建覆蓋文本、圖像、視頻、3D 模型等多模態(tài)能力的底層通用大模型，面向 B 端提供模型服務(wù)能力。

另一方面，面向圖像生成、視頻生成等場景打造垂類應(yīng)用，按照訂閱等形式收費，應(yīng)用方向主要是游戲制作、影視后期等內(nèi)容創(chuàng)作場景。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營