編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
最近幾周,文生視頻領(lǐng)域正卷的風(fēng)生水起。
可靈和Dream Machine相繼推出。而后者充滿趣味性的文生視頻功能更是開啟一陣?yán)m(xù)寫“meme”的狂潮。
正當(dāng)大家覺得文生視頻的開路者Runway要一直沉寂下去的時(shí)候。
Runway突然上演了一波“王者歸來”。展示了商用級別的生成視頻,讓人難辨是不是AI生成。
"一個(gè)悲傷的中年禿頭男人變得快樂起來, 因?yàn)橐豁斁戆l(fā)假發(fā)和太陽鏡突然落在了他的頭上"。
畫質(zhì)驚艷的Runway,速度也不遜色,生成10秒鐘視頻才需要1分半左右的時(shí)間。
Runway重回巔峰又再次改變了文生視頻的格局。
圖片
正在大家在這邊卷得不急樂乎的時(shí)候。
谷歌突然站了出來,開始給大家匯報(bào)他們的視頻生音頻(V2A)進(jìn)展。
圖片
谷歌的V2A已經(jīng)可以為無聲片段添加與場景聲學(xué)相匹配的聲音,為屏幕上的動(dòng)作等伴奏。
干巴巴的視頻片段從此有了bgm!
雖然部分案例中使用了文字輔助,但仍然相當(dāng)驚艷,能看到AI對于視頻內(nèi)容以及場景中的感受理解得比較到位。
畫面中男人穿過廢棄工廠般的走廊,音樂突出了驚悚和緊張的氛圍:
給狼配上一段孤獨(dú)的長嘯聲:
音頻提示:"狼對月嚎叫"
音樂展現(xiàn)了落日騎馬時(shí),那種安逸與悠然的感覺:
草原上夕陽西下時(shí) 悠揚(yáng)的口琴聲響起
海洋水母自在浮沉?xí)r,海洋的聲音:
水母在水下跳動(dòng) 海洋生物 海洋
鼓聲和歡呼聲讓人身臨其境:
音樂會(huì)舞臺上的鼓手 周圍是閃爍的燈光和歡呼的人群"
谷歌的V2A的這股清流確實(shí)得到了網(wǎng)友的贊賞。
然而當(dāng)一位網(wǎng)友詢問,什么時(shí)候可以上手玩玩看的時(shí)候,被網(wǎng)友無情地回復(fù)道:等有人跳槽出來,把這個(gè)產(chǎn)品帶出來我們就能玩啦!
圖片
還有人說:這是谷歌,所以別再想著試一試了
圖片
當(dāng)前,觀眾的胃口已經(jīng)越來越大。無法開箱即用的技術(shù)和產(chǎn)品將難以說服用戶。
現(xiàn)在,無論OpenAI在社交平臺上發(fā)布什么內(nèi)容,都會(huì)收到無數(shù)用戶“催更”GPT-5的消息。
但是,另一邊。
早前OpenAI發(fā)布會(huì)上令人驚艷的GPT-4o多模態(tài)通話功能,甚至更遙遠(yuǎn)的Sora,都沒有讓廣泛的普通用戶上手。
蘋果在剛剛過去的全球開發(fā)者大會(huì)中,發(fā)布的“蘋果智能”被曝光分批上線,部分功能要到25年才能實(shí)現(xiàn)(更不用說大陸用戶只會(huì)更晚)。
人們渴望AI的有趣與實(shí)用能夠早一步的照進(jìn)現(xiàn)實(shí)。否則,用戶的期待會(huì)慢慢冷卻,產(chǎn)品也終將沉于水中。