谷歌“另辟蹊徑”,展示AI視頻生音頻最新進展,效果驚艷!網(wǎng)友:但有一個缺點 原創(chuàng)
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
最近幾周,文生視頻領(lǐng)域正卷的風(fēng)生水起。
可靈和Dream Machine相繼推出。而后者充滿趣味性的文生視頻功能更是開啟一陣?yán)m(xù)寫“meme”的狂潮。
正當(dāng)大家覺得文生視頻的開路者Runway要一直沉寂下去的時候。
Runway突然上演了一波“王者歸來”。展示了商用級別的生成視頻,讓人難辨是不是AI生成。
"一個悲傷的中年禿頭男人變得快樂起來, 因為一頂卷發(fā)假發(fā)和太陽鏡突然落在了他的頭上"。
畫質(zhì)驚艷的Runway,速度也不遜色,生成10秒鐘視頻才需要1分半左右的時間。
Runway重回巔峰又再次改變了文生視頻的格局。
圖片
正在大家在這邊卷得不急樂乎的時候。
谷歌突然站了出來,開始給大家匯報他們的視頻生音頻(V2A)進展。
圖片
谷歌的V2A已經(jīng)可以為無聲片段添加與場景聲學(xué)相匹配的聲音,為屏幕上的動作等伴奏。
干巴巴的視頻片段從此有了bgm!
雖然部分案例中使用了文字輔助,但仍然相當(dāng)驚艷,能看到AI對于視頻內(nèi)容以及場景中的感受理解得比較到位。
畫面中男人穿過廢棄工廠般的走廊,音樂突出了驚悚和緊張的氛圍:
給狼配上一段孤獨的長嘯聲:
音頻提示:"狼對月嚎叫"?
音樂展現(xiàn)了落日騎馬時,那種安逸與悠然的感覺:
草原上夕陽西下時 悠揚的口琴聲響起
海洋水母自在浮沉?xí)r,海洋的聲音:
水母在水下跳動 海洋生物 海洋?
鼓聲和歡呼聲讓人身臨其境:
音樂會舞臺上的鼓手 周圍是閃爍的燈光和歡呼的人群"?
谷歌的V2A的這股清流確實得到了網(wǎng)友的贊賞。
然而當(dāng)一位網(wǎng)友詢問,什么時候可以上手玩玩看的時候,被網(wǎng)友無情地回復(fù)道:等有人跳槽出來,把這個產(chǎn)品帶出來我們就能玩啦!
圖片
還有人說:這是谷歌,所以別再想著試一試了
圖片
當(dāng)前,觀眾的胃口已經(jīng)越來越大。無法開箱即用的技術(shù)和產(chǎn)品將難以說服用戶。
現(xiàn)在,無論OpenAI在社交平臺上發(fā)布什么內(nèi)容,都會收到無數(shù)用戶“催更”GPT-5的消息。
但是,另一邊。
早前OpenAI發(fā)布會上令人驚艷的GPT-4o多模態(tài)通話功能,甚至更遙遠(yuǎn)的Sora,都沒有讓廣泛的普通用戶上手。
蘋果在剛剛過去的全球開發(fā)者大會中,發(fā)布的“蘋果智能”被曝光分批上線,部分功能要到25年才能實現(xiàn)(更不用說大陸用戶只會更晚)。
人們渴望AI的有趣與實用能夠早一步的照進現(xiàn)實。否則,用戶的期待會慢慢冷卻,產(chǎn)品也終將沉于水中。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
