殺瘋了!谷歌卷視頻到語音,逼真音效讓AI視頻告別無聲!
這幾天,大洋彼岸殺瘋了!
Luma 的熱乎勁兒還沒過去,昨晚 Runway 就甩出一個王炸 ——Gen-3 Alpha。(查看詳情請移步:???Runway 版 Sora 發(fā)布:高保真、超強一致性,Gen-3 Alpha 震撼到網(wǎng)友了??)
更沒想到的是,一覺醒來,Google DeepMind 也有了新消息,悄咪咪地發(fā)布了視頻生成語音(V2A)技術(shù)的進展。
雖然這一功能還未向公眾開放,不過從官方放出的視頻 Demo 來看,效果那是相當絲滑。同時,Google DeepMind 強調(diào),所有示例均由 V2A 技術(shù)和他們最先進的生成視頻模型 Veo 聯(lián)手打造。
音頻提示: 緊張刺激的恐怖片配樂,腳步聲在混凝土上回響。(Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete)
黑燈瞎火的廢棄倉庫中,一個黑衣人猶如鬼魅般緩行,再配上詭異的音樂和腳步聲,恐怖氣氛拉滿。
音頻提示: 狼在月光下的長嚎。(Wolf howling at the moon)
視頻 Demo 一出,評論區(qū)清一水的追問:啥時候能用?
還有網(wǎng)友寄希望于開源社區(qū)當一回賽博菩薩,復制谷歌的這一視頻生成語音技術(shù)。
其實,就在 Google DeepMind 官宣沒多久,AI 音頻領(lǐng)域的「扛把子」ElevenLabs 就橫插一腳,開源了一個上傳視頻自動配音的項目,可以為視頻生成合適的音效。
鏈接:
??https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects??
如今 AI 圈子的競爭已呈白熱化階段,大小廠的你追我趕將會創(chuàng)造更加公平的競爭環(huán)境,而一旦這些技術(shù)成熟,AI 視頻領(lǐng)域?qū)袩o限可能。
AI 視頻告別無聲電影
眾所周知,視頻生成模型正以驚人的速度發(fā)展。不過,無論是年初驚艷世人的 Sora,還是近期的可靈、Luma、Gen-3 Alpha,生成的全是「無聲電影」,無一例外。
而 Google DeepMind 的視頻生成音頻 (V2A) 技術(shù),使得同步的視聽生成成為可能。它可以結(jié)合視頻像素和自然語言文本提示,為屏幕上的動作生成豐富的配音。
從技術(shù)應用上來說,V2A 技術(shù)能夠與 Veo 等視頻生成模型結(jié)合,創(chuàng)造出具有戲劇性配樂、逼真音效或與視頻角色以及風格相匹配的對話鏡頭。
它還能為檔案材料、無聲電影等傳統(tǒng)影像生成音軌,拓寬創(chuàng)作的可能。
音頻提示: 可愛的幼年恐龍在叢林中啁啾,伴隨著蛋殼的破裂聲。(Cute baby dinosaur chirps, jungle ambience, egg cracking)
音頻提示: 汽車打滑聲、引擎轟鳴聲,伴隨著天使般的電子音樂。(cars skidding, car engine throttling, angelic electronic music)
音頻提示: 日落時分,草原上響起悠揚的口琴聲。(a slow mellow harmonica plays as the sun goes down on the prairie)
V2A 技術(shù)能夠為任何視頻輸入生成無限數(shù)量的音軌。用戶可以選擇定義「正向提示」來引導生成期望的聲音,或者「負向提示」來避免不期望的聲音。
這種靈活性讓用戶對音頻輸出有了更多的控制,可以快速嘗試不同的音頻輸出,并選擇最佳匹配。
音頻提示:一艘宇宙飛船在浩瀚的太空中疾馳,星星在它周圍劃過,高速飛行,充滿科幻感。(A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi)
音頻提示:天籟般的大提琴氛圍(Ethereal cello atmosphere)
音頻提示:一艘宇宙飛船在廣袤的太空中高速穿梭,星星在它周圍飛速掠過,具有科幻感。(A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi)
背后的工作原理
研究團隊嘗試了自回歸和擴散方法,以發(fā)現(xiàn)最可擴展的 AI 架構(gòu)。擴散方法在音頻生成上給出了最真實和引人入勝的結(jié)果,用于同步視頻和音頻信息。
V2A 系統(tǒng)首先將視頻輸入編碼成壓縮表示,然后擴散模型從隨機噪聲中迭代細化音頻。這個過程由視覺輸入和給定的自然語言提示指導,生成與提示緊密對齊的同步、逼真音頻。最終,音頻輸出被解碼成音頻波形,并與視頻數(shù)據(jù)結(jié)合。
為了生成更高質(zhì)量的音頻并引導模型生成特定聲音,研究團隊在訓練過程中添加了更多信息,包括 AI 生成的注釋,詳細描述聲音和對話文本。
通過在視頻、音頻和額外注釋上的訓練,該技術(shù)學會將特定的音頻事件與各種視覺場景關(guān)聯(lián)起來,同時響應注釋或文本中提供的信息。
谷歌方面強調(diào),他們的技術(shù)與現(xiàn)有的視頻到音頻解決方案都不同,因為它可以理解原始像素,并且添加文本提示是可選的。此外,該系統(tǒng)不需要手動對生成的聲音與視頻進行對齊,極大地簡化了創(chuàng)作流程。
不過,谷歌的這一技術(shù)也并非完美,他們?nèi)栽谂鉀Q一些 bug。例如,視頻輸入的質(zhì)量直接影響音頻輸出的質(zhì)量,視頻中的偽影或失真可能導致音頻質(zhì)量下降。
同時,他們也在優(yōu)化唇形同步功能。
V2A 技術(shù)嘗試從輸入文本中生成語音,并將其與角色的口型動作進行同步,但若視頻模型未針對文本內(nèi)容進行相應的調(diào)整,就可能導致口型與語音不同步。他們正改進這一技術(shù),以提升唇形同步的自然度。
音頻提示:音樂,文本轉(zhuǎn)錄「這只火雞看起來好極了,我好餓?!梗∕usic, Transcript: “this turkey looks amazing, I’m so hungry”)
或許是由于深度偽造技術(shù)帶來諸多社會問題,Google DeepMind 求生欲滿滿,一個勁承諾將負責任開發(fā)和部署 AI 技術(shù),在向公眾開放之前,V2A 技術(shù)將經(jīng)過嚴格的安全評估和測試。
此外,他們還整合了 SynthID 工具包到 V2A 研究中,為所有 AI 生成的內(nèi)容添加水印,以防止技術(shù)的濫用。
本文轉(zhuǎn)自機器之心 ,作者:機器之心
