OpenAI藏了1年多的技術(shù)正式公開!15秒素材克隆聲音,HeyGen也在用
OpenAI雪藏的新產(chǎn)品——語音合成引擎Voice Engine,終于被正式揭幕。
有了它,只需15秒的語音樣本,就能克隆出一個人的聲音,而且還能跨越語言!
APP版ChatGPT中的語音對話功能,也正是由這項技術(shù)所驅(qū)動。
效果如何?先來聽段DEMO:
Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.
鹽分也可以保持人體內(nèi)的水分,確保其滿足正常功能的需要。
Voice Engine DEMO,量子位,7秒
而OpenAI通告顯示,他們在2022年底就已經(jīng)開發(fā)出了這項技術(shù),但出于安全考慮一直沒有正式發(fā)布。
這次,OpenAI終于官宣了Voice Engine,并展示了小規(guī)模測試中的幾個應(yīng)用案例。
比如,一家非營利醫(yī)療機構(gòu)就利用這項技術(shù),為一名年輕的病人恢復(fù)了她的聲音。
另外值得一提的是,去年爆火的視頻翻譯軟件HeyGen,采用的語音引擎也正是Voice Engine。
那么,這次OpenAI還展現(xiàn)了哪些效果,下面就來一睹為快。
用AI幫助病患恢復(fù)聲音
首先是利用基礎(chǔ)的語音合成能力,為兒童等不具備文字閱讀能力的群體提供閱讀輔助。
比如一家兒童教育技術(shù)公司,就一直在使用Voice Engine來給編寫好的畫外音內(nèi)容配音。
DEMO中生成的大段內(nèi)容,都是基于這樣一段15秒的樣本:
輔助閱讀-樣本,量子位,15秒
然后,就可以合成相同音色的長段語音:
輔助閱讀-合成,量子位,29秒
再來看看HeyGen中用到的的語音翻譯技術(shù),原始素材是一段英語的音頻:
翻譯前-英文,量子位,16秒
它被用原始的音色,翻譯成了普通話、法語、德語等多種語言。
忽略譯文的質(zhì)量,只聽聲音,中文的效果是這樣的:
翻譯后-普通話,量子位,24秒
音色保持的還算不錯,不過腔調(diào)很明顯一聽就是外國人在說中文。
至于這到底是個bug還是個feature,就見仁見智了(手動狗頭)。
此外,一款名為Livox的殘障人士輔助應(yīng)用,也利用Voice Engine為不能說話的殘障人士“發(fā)出聲音”——
在有了Voice Engine之后,TA們可以選擇專屬的真人音色,而不再是機械感明顯的合成音,并且在各種語言之間都能保持音色的一致性。
不只是幫助殘障人士擁有自己的聲音,Voice Engine還可以為因疾病導(dǎo)致聲音發(fā)生在重大改變的人群,恢復(fù)患病之前聲音,只要有以前的聲音樣本就能實現(xiàn)。
一名年輕的患者因罹患血管性腦腫瘤,失去了流利講話的能力,說話變成了這樣:
患者現(xiàn)在聲音,量子位,30秒
醫(yī)生從她所在學(xué)校錄制的視頻中提取到了她患病前的聲音作為樣本,在Voice Engine的幫助下為她恢復(fù)了此前的音色。
患病前聲音,量子位,15秒
恢復(fù)后效果,量子位,4秒
此次發(fā)布的案例,特別是為不便人士提供幫助的場景受到了不少好評,但也有網(wǎng)友對這項技術(shù)的濫用表達了擔(dān)憂。
安全問題需要全社會共同關(guān)注
實際上,安全問題也是OpenAI遲遲未將這項技術(shù)公之于眾的主要考量。
出于安全考慮,前面案例的開發(fā)者都經(jīng)過了OpenAI的嚴格篩選,并且需要承諾遵守使用協(xié)議。
這些開發(fā)者被要求必須明確說明聲音是合成的,并且設(shè)定了黑名單以防止克隆公眾人物聲音。
此外,OpenAI還向合成的聲音中添加了水印,以便出現(xiàn)問題時可以進行檢測監(jiān)控,同時呼吁人們采取措施共同應(yīng)對這一問題:
- 在銀行等敏感信息的安全驗證措施中逐步淘汰語音驗證方式
- 探索AI時代下個人聲音的保護措施
- 教育公眾理解AI的局限性,并了解其被用于欺詐的可能
- 加速開發(fā)跟蹤溯源技術(shù),讓人們能夠清晰辨別出真人和AI