自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文生視頻“黑馬”Morph Studio來襲:好用、1080P 、7秒時(shí)長還免費(fèi)

人工智能 新聞
近期,專注于 text-to-video 生成技術(shù)與社區(qū)的初創(chuàng)公司 Morph Studio 對(duì)模型進(jìn)行了一次重要更新。這些視頻正是模型更新后的作品,畫面清晰,細(xì)節(jié)生動(dòng)。

“發(fā)光的水母從海洋中慢慢升起,”在 Morph Studio 中繼續(xù)輸入想看到的景象,“在夜空中變成閃閃發(fā)光的星座”。  

幾分鐘后,Morph Studio 生成一個(gè)短視頻。一只水母通體透明,閃閃發(fā)光,一邊旋轉(zhuǎn)著一邊上升,搖曳的身姿與夜空繁星相映成趣。  

luminescent jellyfish ascend from a mystical ocean, transforming into sparkling constellations in the night sky

輸入“ joker cinematic ”,曾經(jīng)席卷全球的那張臉又回來了。

joker cinematic Hyper realistic Joaquin Phoenix as Joker cinematic shot smoke. in the city street of new york neon

近期,專注于 text-to-video 生成技術(shù)與社區(qū)的初創(chuàng)公司 Morph Studio 對(duì)模型進(jìn)行了一次重要更新。這些視頻正是模型更新后的作品,畫面清晰,細(xì)節(jié)生動(dòng)。  

Morph Studio 是世界第一個(gè)推出公眾可隨意測(cè)試 text-to-video 產(chǎn)品的團(tuán)隊(duì),比 Runway 開放 Gen2 公測(cè)的時(shí)間還早。  

和一些炙手可熱的 text-to-video 產(chǎn)品僅提供 720P 的免費(fèi)服務(wù)不同,Morph Studio 從一開始就提供默認(rèn) 1080P 以及最長 7 秒生成時(shí)間的免費(fèi)服務(wù)。更高分辨率、更長生成時(shí)長、更好的意圖表達(dá)是我們認(rèn)為 text-to-video 的三個(gè)最關(guān)鍵的指標(biāo),三個(gè)指標(biāo)上 Morph 都做到了行業(yè) SOTA 。 

好萊塢電影單鏡頭平均時(shí)長有 6 秒,將生成時(shí)長拉到 7 秒可以解鎖更多用戶的創(chuàng)作需求。 

體驗(yàn) Morph Studio 的模型很簡單,注冊(cè) discord 即可免費(fèi)使用。

圖片

畫面紅色方框部分中帶有“pro”字樣的模型就是更新后的模型,也是本文體驗(yàn)的對(duì)象。 

攝像機(jī)運(yùn)動(dòng)是視頻制作的基礎(chǔ)語言,也是一種強(qiáng)大的敘述手段。Morph 提供幾種常規(guī)的攝像機(jī)語言,包括變焦、平移(上、下、左、右)、旋轉(zhuǎn)(順時(shí)針或逆時(shí)針)和靜態(tài)鏡頭。  

Morph 還提供控制視頻運(yùn)動(dòng)的 MOTION 功能(1-10)。數(shù)值越大動(dòng)作越劇烈、夸張,設(shè)置的數(shù)值越小,動(dòng)作越微妙、平滑。 

幀率(FPS)提供從8 -30 的調(diào)整幅度,值越高,視頻越流暢,尺寸也越大。例如,-FPS 30 將生成最流暢但也是最大的視頻。默認(rèn)情況下,所有視頻均以每秒 24 幀的速度創(chuàng)建。  

視頻長度默認(rèn)為 3 秒,生成 7 秒視頻,可以在命令中輸入 -s 7。另外,模型還提供 5 種視頻比例供選擇。 

如果你對(duì)鏡頭、幀率和視頻長度等細(xì)節(jié)有要求,請(qǐng)?jiān)谳斎雰?nèi)容性提示后繼續(xù)輸入相應(yīng)參數(shù)。(目前僅支持英文輸入。)  

我們體驗(yàn)了一把更新后的模型服務(wù),強(qiáng)烈感受到 1080P 帶來的視覺震撼。 

直到最近,人類才有了第一張雪豹在星空下漫步的照片:  

人類拍攝到的第一張雪豹在星空下漫步的照片 。

我們想知道,Morph Studio 的模型能不能生成這種比較罕見的動(dòng)物視頻呢?

同樣的 prompt ,我們將 Morph Studio 的作品放在了視頻上部分,將用 Pika 生成的作品放在視頻下部分。

a snow leopard walking under a starry night,cinematic realistic, super detail,-motion 10,-ar 16:9,-zoom in,-pan up,-fps 30,-s 7. negative: Extra limbs,Missing arms and legs,fused fingers and legs,extra fingers,disfigure

Morph Studio 的答卷,文本理解準(zhǔn)確。1080P 畫面中,雪豹毛發(fā)細(xì)節(jié)豐富,栩栩如生。背景中可以看到銀河和星星。不過雪豹走動(dòng)幅度不明顯。  

Pika 的作業(yè)中,雪豹確實(shí)在步行,但夜空似乎被理解成飄著鵝毛大雪的夜。無論是雪豹風(fēng)格還是細(xì)節(jié),還有畫面清晰度都還有差距。

再看看人物生成的效果。

masterpiece best quality ultra detailed RAW video 1girl solo dancing digital painting beautiful cyborg girl age 21 long wavy red hair blue eyes delicate pale white skin perfect body singing in the eerie light of dawn in a post-apocalyp

Morph Studio 生成的作品中,高分辨率帶來極為細(xì)膩的面部輪廓和微表情,黎明光照下,發(fā)絲細(xì)節(jié)清晰可見。

受制于分辨率和色彩、光線層次的缺乏,Pika 生成的畫面整體偏青,人物面部細(xì)節(jié)也不太盡如人意。

人物、動(dòng)物都感受過了,再來看看建筑(人造物)的生成效果。

La torre eifel starry night van gogh epic stylish fine art complex deep colours flowing fky moving clouds

和 Pika 作品更偏繪畫質(zhì)感的畫面相比,Morph Studio 的作品比較好地平衡了梵高元素和現(xiàn)實(shí)元素,光線層次非常豐富,特別是云海的流動(dòng)細(xì)節(jié),Pika 作品里的天空幾乎是靜止的。

最后,體驗(yàn)一下自然風(fēng)景創(chuàng)作。

One early morning the sun slowly rose from the sea level and the waves gently touched the beach.

你可能會(huì)懷疑 Morph Studio 的作品是不是人類攝影師在自然條件下的真實(shí)拍攝。

Pika 生成的視頻因?yàn)槿狈?xì)膩的光影層次,海浪、沙灘顯得平板一塊,海浪拍打沙灘的動(dòng)作比較呆板。

除了高分辨率帶來的震撼體驗(yàn),同樣的 prompt 生成視頻(比如動(dòng)物、建筑、人物和自然風(fēng)景主題),對(duì)手多少會(huì)在某些生成任務(wù)中“失手”,Morph Studio 的發(fā)揮相對(duì)更穩(wěn)定一些,corner case 相對(duì)少一些,能更準(zhǔn)確預(yù)測(cè)用戶意圖。 

從一開始,這家初創(chuàng)公司對(duì)文生視頻的理解就是,視頻要能非常精準(zhǔn)地描述用戶輸入,所有優(yōu)化工作也是朝著這個(gè)方向在走。Morph Studio 的模型結(jié)構(gòu)對(duì)文字意圖理解比較深刻,這次更新做了一些結(jié)構(gòu)上的改變,還特地對(duì)一些數(shù)據(jù)做了更詳盡的標(biāo)注。 

除了比較好的文本理解能力,畫面的細(xì)節(jié)處理并未被高分辨率輸出難倒。 事實(shí)上,模型更新后,畫面動(dòng)作內(nèi)容更豐富,這也反應(yīng)在我們用 Morph Studio 生成的作品中。

“帶珍珠耳環(huán)的女孩”頭部動(dòng)作時(shí),耳環(huán)也在微微晃動(dòng);涉及騎馬之類比較復(fù)雜動(dòng)作的畫面也更流暢連貫和有邏輯,手部動(dòng)作的輸出也不錯(cuò)。

1080P 意味著模型要處理更多的像素,給細(xì)節(jié)生成帶來更大的挑戰(zhàn),但從結(jié)果看,畫面不但沒有拉垮掉,反而因?yàn)樨S富的層次細(xì)節(jié)而更有表現(xiàn)力。

這是我們用模型生成的一組自然景觀,既有壯觀的巨浪和火山噴發(fā),也有花朵的細(xì)膩特寫。

高分辨率輸出給用戶帶來更好的視覺享受,但也拉長了模型輸出的時(shí)間,影響到體驗(yàn)。  

Morph Studio 現(xiàn)在生成速度為 3 分半生成 1080p 視頻,和 Pika 生成 720P 的視頻速度一樣。 初創(chuàng)公司算力資源有限,Morph Studio 一直保持 SOTA,實(shí)屬不易。 

另外,視頻風(fēng)格上,除了電影寫實(shí),Morph Studio 模型也支持漫畫、3D 動(dòng)畫等常見風(fēng)格。


Morph Studio  專注的 text-to-video 技術(shù),被視為 AI 行業(yè)競賽的下一個(gè)階段。 

“即時(shí)視頻可能代表 AI 技術(shù)的下一次飛躍,”《紐約時(shí)報(bào)》在一篇科技報(bào)道的標(biāo)題中稱,并認(rèn)為它將與網(wǎng)絡(luò)瀏覽器、iPhone 一樣重要。  

2022 年 9 月,Meta 的機(jī)器學(xué)習(xí)工程師團(tuán)隊(duì)推出了一款名為 Make-A-Video 的新系統(tǒng),用戶輸入對(duì)場景的粗略描述,系統(tǒng)就會(huì)生成一個(gè)對(duì)應(yīng)的短視頻。  

2022 年 11 月,清華大學(xué)和北京人工智能研究院( BAAI )的研究人員也發(fā)布了 CogVideo。  

當(dāng)時(shí),這些模型生成的視頻,除了模糊(比如 CogVideo 生成的視頻分辨率只有 480 x 480 ),畫面也比較失真,還存在許多技術(shù)限制。但它們?nèi)匀淮砹?AI 內(nèi)容生成領(lǐng)域的重大發(fā)展。 

表面上看,視頻只是一連串的幀(靜止的圖像)以一種給人運(yùn)動(dòng)錯(cuò)覺的方式組合在一起。然而,保證一系列圖像在時(shí)間、空間上的一致性,難度要大得多。  

擴(kuò)散模型的出現(xiàn)加速了技術(shù)的進(jìn)化。研究人員嘗試將擴(kuò)散模型推廣到其他領(lǐng)域(如音頻、3D 和視頻),視頻合成技術(shù)取得顯著進(jìn)步。  

基于擴(kuò)散模型的技術(shù)主要是讓神經(jīng)網(wǎng)絡(luò)通過梳理數(shù)海量規(guī)模的圖像、視頻和文字說明,自動(dòng)學(xué)習(xí)一些模式。當(dāng)你輸入內(nèi)容需求時(shí),這個(gè)神經(jīng)網(wǎng)絡(luò)會(huì)生成一個(gè)列表,囊括所有它認(rèn)為創(chuàng)建圖像可能用到的特征(比如貓耳朵的輪廓、手機(jī)的邊緣)。  

然后,第二個(gè)神經(jīng)網(wǎng)絡(luò)(也就是擴(kuò)散模型)負(fù)責(zé)創(chuàng)建圖像并生成這些特征所需要的像素,并將像素轉(zhuǎn)換為連貫的圖像。  

通過分析數(shù)以千計(jì)的視頻,AI 可以學(xué)會(huì)以類似的連貫方式將許多靜止圖像串在一起。關(guān)鍵在于要訓(xùn)練一個(gè)能真正理解每一幀之間關(guān)系和一致性的模型。  

“這是我們?cè)谶^去一百年中建立的最令人印象深刻的技術(shù)之一,” Runway CEO Cristóbal Valenzuela 曾對(duì)媒體表示,“你需要讓人們真正使用它?!?nbsp; 

2023 年被一些業(yè)內(nèi)人士視為視頻合成的突破之年。1 月還不見公開的  text-to-video 模型,一年行將結(jié)束之際已經(jīng)有幾十個(gè)類似產(chǎn)品和數(shù)百萬用戶。  

圖片

a16z合伙人Justine Moore在社交平臺(tái)上分享的文生視頻模型的時(shí)間軸,我們可以從中看到除了大廠還有很多創(chuàng)業(yè)公司,另外,技術(shù)迭代的速度非???。  

目前的 AI 文生視頻,并沒有形成類似 LLM 統(tǒng)一明確的技術(shù)范式,關(guān)于怎樣生成穩(wěn)定的視頻,業(yè)界還處于探索階段。但研究人員相信,當(dāng)用越來越多的數(shù)據(jù)訓(xùn)練他們的系統(tǒng)時(shí),這些缺陷都能消除。最終,這項(xiàng)技術(shù)會(huì)使創(chuàng)建視頻像寫句子一樣簡單。  

國內(nèi)一位資深的 AI 行業(yè)投資人告訴我們,文生視頻技術(shù)的幾篇最重要的論文都是 2022 年 7-8 月出來的,類比文生圖的產(chǎn)業(yè)化進(jìn)程,這項(xiàng)技術(shù)臨近產(chǎn)業(yè)化的節(jié)點(diǎn)會(huì)出現(xiàn)在一年后,也就是 2023 年 7-8 月。  

整個(gè)視頻技術(shù)的發(fā)展特別快,技術(shù)越來越成熟,這位投資人士說,根據(jù)之前在 GAN 領(lǐng)域的投資經(jīng)驗(yàn),他們預(yù)測(cè)未來半年到 1 年會(huì)是 text-to-video 技術(shù)的產(chǎn)品化時(shí)期。 

Morph 團(tuán)隊(duì)匯集了視頻生成領(lǐng)域最優(yōu)秀的年輕研究者們,經(jīng)過過去一年日以繼夜地密集研發(fā),創(chuàng)始人徐懷哲與聯(lián)合創(chuàng)始人李峰、殷子欣、趙世豪、劉少騰等核心技術(shù)骨干一起,攻克了 AI 視頻生成難題。 

除了技術(shù)團(tuán)隊(duì)外,Morph Studio 最近也加強(qiáng)了其產(chǎn)品團(tuán)隊(duì)的實(shí)力,貓眼電影簽約制作人、上海國際電影節(jié)評(píng)委,前硅谷頭部 AIGC 公司核心成員海辛也于近期加入 Morph Studio。

海辛表示,Morph Studio 在技術(shù)研究上在整個(gè)行業(yè)里都占據(jù)著領(lǐng)先的位置;團(tuán)隊(duì)扁平、溝通效率和執(zhí)行力都特別高;每位成員都對(duì)行業(yè)充滿熱情。她最大的夢(mèng)想曾是加入一個(gè)動(dòng)畫公司。AI 時(shí)代來臨后,她很快意識(shí)到,未來的動(dòng)畫行業(yè)將會(huì)發(fā)生變革,過去數(shù)十年動(dòng)畫底座是 3D 引擎,很快將迎來全新的 AI 引擎時(shí)代。未來的皮克斯會(huì)在一家 AI 公司中誕生。而 Morph 就是她的選擇。 

創(chuàng)始人徐懷哲表示,Morph 正在積極布局 AI 視頻賽道,我們立志于做 AI 視頻時(shí)代的 Super App,為用戶實(shí)現(xiàn)夢(mèng)境。

2024 年,這個(gè)賽道會(huì)迎來自己的 Midjourney 時(shí)刻,他補(bǔ)充說。 

PS: 體會(huì)原汁原味的免費(fèi)1080P視頻生成樂趣,請(qǐng)移步至:

https://discord.com/invite/VVqS8QnBkA 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-10-05 10:57:21

2011-09-26 16:36:38

愛普生投影儀

2011-09-30 10:06:44

索尼投影儀

2025-01-02 07:10:00

2011-05-04 14:47:44

1080P高清電視

2011-11-15 11:03:56

優(yōu)派投影機(jī)

2012-04-09 16:42:59

愛普生投影機(jī)

2012-05-21 15:40:16

明基投影機(jī)

2012-01-12 13:05:31

愛普生投影機(jī)

2011-11-11 21:29:16

明基投影機(jī)

2024-06-21 09:24:03

2011-06-10 15:38:16

投影機(jī)技巧

2012-03-07 13:44:18

愛普生投影機(jī)

2011-06-17 11:48:39

投影機(jī)評(píng)測(cè)

2011-11-15 10:40:56

明基投影機(jī)

2012-02-24 15:19:07

明基投影機(jī)

2012-01-04 11:48:18

Acer投影機(jī)

2012-06-13 13:30:01

宏碁投影機(jī)

2011-09-16 09:44:44

明基投影儀

2011-10-20 13:37:09

奧圖碼投影儀
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)