OpenAI被偷家,谷歌Veo 2反超Sora
視頻生成領(lǐng)先 OpenAI 了?
今天是個(gè)好日子,至少谷歌這么想。幾個(gè)小時(shí)前,該公司一鍵三連,一口氣發(fā)布了兩款視覺生成模型和一個(gè)工具:
- Veo 2:視頻生成模型,可使用文本或圖像 prompt 生成高真實(shí)感、高質(zhì)量的視頻;
- Imagen 3:文生圖模型,可更忠實(shí)地遵從提示詞,實(shí)現(xiàn)更加豐富的細(xì)節(jié)和紋理渲染;
- Whisk:圖生圖工具,基于 Imagen 3 與 Gemini 的視覺理解和描述能力打造,能讓用戶更加方便地調(diào)整圖像的場景、風(fēng)格和物體。
其中,Veo 2 可說是直接引爆了整個(gè)社交網(wǎng)絡(luò)。從早期用戶發(fā)布的生成結(jié)果以及反饋來看,Veo 2 的生成質(zhì)量明顯超過了當(dāng)前最佳的 Sora 等模型。一問世便是當(dāng)世第一,似乎完全可以囂張地喊一聲:「還有誰?」
谷歌 CEO Sundar Pichai 介紹 Veo 2 的推文
據(jù)介紹,Veo 2 可以創(chuàng)建 2 分鐘以上長度的 4k 分辨率視頻,也能理解提示詞中的相機(jī)控制指令(比如廣角鏡頭、POV 和無人機(jī)鏡頭),還能重建出符合真實(shí)世界的物理交互和人臉表情。
但也必須指出,目前這只是一個(gè)理論上的優(yōu)勢(shì)。在谷歌的實(shí)驗(yàn)性視頻制作工具 VideoFX 中,Veo 2 目前只提供分辨率上限為 720p、長度為 8 秒的視頻生成服務(wù)。(而目前的 Sora 可以制作高達(dá) 1080p、20 秒長的視頻。)
盡管如此,Veo 2 現(xiàn)有的表現(xiàn)已經(jīng)足夠驚艷了其表現(xiàn)是如此之好,以至于一心推介自家 Grok 的馬斯克也跑來贊美了一句。
為了佐證 Veo 2 確實(shí)優(yōu)秀,谷歌還做了一個(gè)基于人類評(píng)估者的對(duì)比評(píng)估,簡單來說就是讓人類評(píng)估者看不同模型基于同一提示詞生成的視頻,然后判斷自己更喜歡哪一個(gè)視頻。他們對(duì)比了 Meta Movie Gen、可靈 1.5、Minimax 和 Sora Turbo。參與者觀看了 1003 條提示詞及相應(yīng)視頻。
在整體偏好上,Veo 2 的優(yōu)勢(shì)非常明顯,被另一個(gè)對(duì)比模型勝過的概率不超過 33%。
而在指令遵從度上,Veo 2 的表現(xiàn)依舊強(qiáng)勢(shì)。
令人意外的反倒是 Sora Turbo,其整體偏好和指令遵從表現(xiàn)是這幾個(gè)模型里面最差的。Sora 要想「挽回面子」,可能還得看以后的滿血版了。
Veo 2 表現(xiàn)驚艷
話不多說,看看 Veo 2 的表現(xiàn),我們或許就能理解為什么它在大眾評(píng)審中能夠壓倒性地戰(zhàn)勝之前的明星視頻生成模型。
首先是對(duì)物理世界的理解力大大提高。如果不說是 AI 生成的,水下的波紋、光影,狗狗潛水時(shí)的動(dòng)作協(xié)調(diào)性,都讓人感覺如此真實(shí),仿佛眼前的一切都是手持相機(jī)拍出來的,簡直分不出來。
雖然儀表盤上的字不是完美,但我們可以看到,方向盤向左轉(zhuǎn)的時(shí)候,整體畫面也有一個(gè)左移,之后鏡頭向上從車窗搖到街道。
做到這種和主畫面保持強(qiáng)一致性的搖鏡頭,其實(shí)非常難,每個(gè)細(xì)節(jié)都需要精確控制,確保鏡頭移動(dòng)時(shí)畫面中的物體位置和運(yùn)動(dòng)協(xié)調(diào)一致。
只有提升對(duì)真實(shí)世界物理運(yùn)動(dòng)規(guī)律的理解,才能做到這點(diǎn),而 Veo 2 在這方面表現(xiàn)得尤為出色。
除此之外,Veo 2 的另一個(gè)亮點(diǎn)就是它生成的人類表情更加真實(shí)。
拿相似的 prompt 去測(cè)試其他模型,想實(shí)現(xiàn)這種自然又細(xì)膩的陶醉微表情,不失真、不鬼畜,試過才知道有多難。
還有,這畫面簡直就像從紀(jì)錄片里截取的一幕。鏡頭里,一個(gè)養(yǎng)蜂的男人在蜂群中忙碌,Veo 2 在生成這一場景時(shí),真的是突破了不少難關(guān)。
蜜蜂群體飛行不僅要表現(xiàn)出自然的協(xié)調(diào)感,還得和背景、光影無縫對(duì)接,避免出現(xiàn)卡頓或不自然的分布。但 Veo 2 把這些復(fù)雜的細(xì)節(jié)都處理得恰到好處,蜂群飛舞的每一刻都像是活生生的,「AI 味」已經(jīng)很淡了。
DeepMind 表示,雖然視頻模型經(jīng)常出現(xiàn)「幻覺」,展示不必要的細(xì)節(jié)(例如多余的手指或額外的物體),但 Veo 2 產(chǎn)生這些細(xì)節(jié)的頻率較低,模型的輸出更加逼真。
當(dāng)然,作為一款 SOTA 視頻生成模型,光能生成擬真視頻可不夠。從官方以及網(wǎng)友分享的生成結(jié)果看,Veo 2 在生成幻想和動(dòng)畫內(nèi)容方面的表現(xiàn)也同樣非常出色。
提示詞:A meeting of a lion, a bear and a giraffe, all of them wearing suits. Photorealistic, cinematic. 來自 X @hhm
提示詞:a sitcom tv show about potatoes,來自谷歌研究科學(xué)家 @babaeizadeh
Veo 2 還讓創(chuàng)作者可以輕松實(shí)現(xiàn)以前需要復(fù)雜后期才能完成的視覺效果。比如,它可以讓這個(gè)運(yùn)動(dòng)的立方體穩(wěn)定地切換材質(zhì),這個(gè)畫面讓人來做,看起來就很難,換 AI 來做,其實(shí)一點(diǎn)也沒變簡單。
Veo 2 不僅要解決實(shí)時(shí)追蹤的問題,確保在物體快速移動(dòng)時(shí)也能精準(zhǔn)捕捉位置和形態(tài),僅需 Prompt 就能置換材質(zhì)。最厲害的是,它能保證在多次連續(xù)變換過程中畫面始終流暢自然,不會(huì)出現(xiàn)抖動(dòng)或錯(cuò)位。
Veo 2 的功能已經(jīng)被加入到 Google Labs 視頻生成工具 VideoFX 中,并擴(kuò)大了可訪問的用戶數(shù)量。谷歌表示,計(jì)劃明年將 Veo 2 擴(kuò)展到 YouTube Shorts 和其他產(chǎn)品上。
提示詞:A broccoli wearing a leather jacket and carrot wearing a tank top having a steak dinner,來自谷歌研究科學(xué)家 @RubenEVillegas
不過 Veo 2 現(xiàn)在還未正式開放,需要填表排隊(duì),等待正式上線。
- 排隊(duì)鏈接:https://labs.google/fx/tools/video-fx
OpenAI 連開直播 12 天,雖然賺足了流量,但從開播至今干貨越來越少,可謂噱頭大于實(shí)質(zhì)。
而之前谷歌一直被 OpenAI 狙擊,這次終于迎頭反擊。
雪上加霜的是,OpenAI Sora 的項(xiàng)目負(fù)責(zé)人 Tim Brooks 也在兩個(gè)月前選擇了跳槽至 DeepMind。
按照目前雙方技術(shù)迭代的速度和質(zhì)量來看,或許就像網(wǎng)友們所預(yù)測(cè)的:「谷歌明年就會(huì)把 OpenAI 甩得連尾氣都吃不上了」。
參考內(nèi)容:
https://blog.google/technology/google-labs/video-image-generation-update-december-2024/。