自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora

發(fā)布于 2024-5-16 09:39
瀏覽
0收藏

5月15日,谷歌召開“ I/O 2024”大會(huì),并宣布了100多種產(chǎn)品和大模型。其中,有兩款產(chǎn)品令人印象深刻,一個(gè)是支持跨文本、視頻、音頻的多模態(tài)AI Agent—Project Astra;另外一個(gè)便是視頻模型Veo。


據(jù)悉,Veo支持文本生成超過1分鐘的1080P超高清視頻,在文本語義還原、視頻動(dòng)作一致性方面、運(yùn)鏡、幀與幀之間的連貫性、場(chǎng)景切換、光影效果等,可媲美OpenAI的Sora。

不過,Sora發(fā)布至今已經(jīng)3個(gè)月了一直處于內(nèi)測(cè)階段,公測(cè)遙遙無期。而谷歌已經(jīng)將Veo模型整合在文生視頻產(chǎn)品Video-Fx中支持申請(qǐng)?jiān)囉?,并且?huì)向開發(fā)者開放API。


文章末尾,「AIGC開放社區(qū)」還整理了本次I/O大會(huì)的所有重要內(nèi)容,方便大家了解谷歌最新的技術(shù)趨勢(shì)。


申請(qǐng)地址:??https://aitestkitchen.withgoogle.com/zh/tools/video-fx??

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

Veo生成視頻欣賞

由于平臺(tái)壓縮的原因,視頻看起來可能有點(diǎn)糊,實(shí)際效果是高清的。通過文本描述Veo生成的一個(gè)1分23秒的超長(zhǎng)視頻,提示詞:一個(gè)快速穿梭于繁華的反烏托邦城市中,明亮的霓虹燈、飛行汽車、薄霧、夜晚、鏡頭眩光和體積光線的鏡頭。


通過未來主義的城市肆虐快速追蹤鏡頭,明亮的霓虹燈標(biāo),天空中的星艦,夜晚。一輛汽車的霓虹全息圖以光速行駛,電影般的驚人細(xì)節(jié),體積光。汽車離開隧道,回到真實(shí)世界的中國(guó)香港城市。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

在燒烤架上,雞肉和青椒串烤的特寫鏡頭,火焰在旁燃燒。焦距淺,輕煙裊裊,色彩鮮艷。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

許多斑點(diǎn)水母在水下蠕動(dòng)。它們的身體透明,在深海中發(fā)光。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

一名孤獨(dú)的牛仔騎著馬穿越美麗日落的開闊平原,柔和的光線,溫暖的色彩。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

一艘宇宙飛船在宇宙的浩瀚中飛馳,星星在其旁劃過,高速飛行,科幻感十足。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

一只金毛尋回犬在蜿蜒的山間小徑上行走,它興奮地?fù)u著尾巴,探索著荒野的景色和氣味。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

此外,谷歌還把Veo的生成視頻的界面通過Video-Fx展示了出來。使用方法沒啥特別的,就是在文本框輸入提示詞,然后點(diǎn)擊生成即可。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)


一次會(huì)生成4個(gè)視頻,這對(duì)服務(wù)器的算力有著非常高的要求,不得不說谷歌為了拼視頻模型也是下了血本啦。


這也是Sora遲遲沒有全面公測(cè)的主要原因之一,還沒有準(zhǔn)備好強(qiáng)大的算力矩陣為用戶提供服務(wù)。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

值得一提的是,Veo有一個(gè)“Storyboard”模式,支持用戶為生成的視頻一鍵添加背景音樂。


Veo模型架構(gòu)簡(jiǎn)單介紹


根據(jù)谷歌的介紹,Veo更像是一個(gè)模型大合集,融合了GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、Transformer和Gemini等,谷歌很多知名的技術(shù)概念和現(xiàn)有的大模型。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

例如,Phenaki是谷歌很早之前便推出的文生視頻模型,采用了一個(gè)雙向掩碼轉(zhuǎn)換器架構(gòu)。在視頻幀之間的切換、一致性、關(guān)聯(lián)性方面非常優(yōu)秀。


WALT則是深度學(xué)習(xí)領(lǐng)域的一種視頻微調(diào)技術(shù),可關(guān)注模型內(nèi)部的激活層,通過權(quán)重調(diào)整來改進(jìn)模型性能。


Gemini是谷歌最新發(fā)布的性能強(qiáng)、消耗低的大模型,有很多種類型可以與OpenAI的GPT系列媲美。


所以,從這個(gè)技術(shù)合集就不難看出,谷歌是對(duì)Veo下了心血的誓要與OpenAI的Sora一較高下。


谷歌2024年I/O大會(huì),重要事件回顧


其實(shí)今年谷歌在I/O大會(huì)上發(fā)布的內(nèi)容非常非常多,尤其是生成式AI領(lǐng)域成為重頭戲。


但由于發(fā)布的產(chǎn)品實(shí)在太多、太雜,這里「AIGC開放社區(qū)」就為大家整理了所有重要事件的簡(jiǎn)報(bào),方便理解最新技術(shù)趨勢(shì)。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

發(fā)布了Gemini 1.5 Flash:一個(gè)更輕量的大模型,可高效地提供規(guī)模化服務(wù)。這也是在API 中提供的最快的 Gemini系列模型。


增強(qiáng)Gemini1.5 Pro性能:用戶版提供100萬tokens上下文窗口,開發(fā)者版提供200萬tokens上下文窗口。


發(fā)布最強(qiáng)TPU-Trillium:這是谷歌發(fā)布的第六代AI處理器,與TPU v5e相比,Trillium TPU每個(gè)芯片的峰值計(jì)算性能提高了4.7倍,但能源消耗卻降低了67%。


發(fā)布最新文生圖模型Imagen 3:生成的圖像質(zhì)量更好、文本語義理解更優(yōu)秀,目前已經(jīng)整合在ImageFX中,支持申請(qǐng)?jiān)囉谩?/p>


發(fā)布音樂模型Music AI Sandbox:通過AI生成超逼真的歌曲,包括流行、搖滾、抒情等。


Gemini的高級(jí)訂閱用戶很快就可以創(chuàng)建定制版本Gem,只需描述你想要 Gem 執(zhí)行的操作以及希望它如何響應(yīng),Gemini 將根據(jù)這些說明創(chuàng)建出符合特定需求的 Gem。


谷歌宣布將Gemini系列模型融合到谷歌搜索中,提供規(guī)劃、推理等多模態(tài)功能。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

Gemini 1.5 Pro現(xiàn)在可以通過 Workspace Labs 在 Gmail、Docs、Drive、Slides 和 Sheets的側(cè)邊欄中使用,下個(gè)月會(huì)為 Workspace 客戶和 Google One AI 高級(jí)訂閱用戶提供服務(wù)。


Google Photos中新增“詢問照片”功能,使用戶能查找特定記憶或回憶圖庫(kù)中包含的信息變得更加方便。該功能由Gemini模型提供服務(wù),并將在未來幾個(gè)月內(nèi)推出。


今年晚些時(shí)候,Gemini Nano模型會(huì)成為Android內(nèi)置的基礎(chǔ)模型,除了文本生成,還支持語音、視頻等多模態(tài)推理。


谷歌發(fā)布了PaliGemma,這是第一個(gè)面向視覺-語言的開源模型,針對(duì)視覺問答和圖像字幕進(jìn)行了優(yōu)化。


谷歌預(yù)覽了Gemma 2,采用了全新架構(gòu)有270億參數(shù),性能更強(qiáng)可在單個(gè) TPU 主機(jī)上運(yùn)行。

谷歌發(fā)布Veo:文生超1分鐘、1080P視頻,媲美Sora-AI.x社區(qū)

Gemini模型現(xiàn)已在 Android Studio、IDX、Firebase、Colab、VSCode、Cloud和Intellj中可用,可幫助開發(fā)人員提高生產(chǎn)力。


從Chrome126開始,Gemini Nano 模型將內(nèi)置到Chrome桌面客戶端中。


推出LearnLM,這是基于Gemini模型并經(jīng)過精細(xì)微調(diào)的用于學(xué)習(xí)的新模型。LearnLM 已經(jīng)為谷歌的搜索、YouTube 和 Google Classroom等提供技術(shù)支持。


谷歌的SynthID文本水印技術(shù),將在未來幾個(gè)月內(nèi)開源。


從上面重要事件不難看出,Gemini系列大模型已經(jīng)成為谷歌產(chǎn)品矩陣中重要的基礎(chǔ)技術(shù)之一,這充分說明生成式AI時(shí)代已經(jīng)降臨。


只有會(huì)用AI的人,才不會(huì)被這個(gè)時(shí)代淘汰,一起加油啦。


本文轉(zhuǎn)自  AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/BwaKw3B6N2rdozY5Rx17Aw??

標(biāo)簽
已于2024-5-16 10:17:09修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦