AI可以復(fù)制任何人類聲音:這對(duì)播客意味著什么?
播客正在向一種更加非正式的音頻敘述方式發(fā)展。缺少精心設(shè)計(jì)的語(yǔ)言,而是更多地強(qiáng)調(diào)了主持人和聽(tīng)者之間的關(guān)系。主持人試圖運(yùn)用語(yǔ)言,使每件事都更容易理解和反應(yīng)。有聲故事的受歡迎程度呈上升趨勢(shì),數(shù)據(jù)支持了這一說(shuō)法。 據(jù)Statista統(tǒng)計(jì),2018年,美國(guó)已經(jīng)有7500萬(wàn)播客聽(tīng)眾,預(yù)計(jì)到2024年,每月聽(tīng)眾人數(shù)將達(dá)到1.64億。2019年至2023年的復(fù)合年增長(zhǎng)率估計(jì)為17%。
2020年,四分之三的美國(guó)人宣稱知道播客,其中超過(guò)一半(55%)的人已經(jīng)聽(tīng)過(guò)播客。世界上收入最高的播客是Joe Rogan的The Joe RoganExperience,在2019年賺了5000萬(wàn)美元,每月有近2億的下載量。 播客行業(yè)目前面臨的主要問(wèn)題是,如何在保持編輯獨(dú)立性的同時(shí),收集必要的資源,支持如此快的增長(zhǎng),具有聲音克隆能力的人工智能等突破性技術(shù)可能至少提供部分解決方案。 尼克松項(xiàng)目就是一個(gè)令人信服的案例,AI能夠以一種與復(fù)制與原聲沒(méi)有任何區(qū)別的人類聲音。
麻省理工學(xué)院的一組研究人員、記者和藝術(shù)家與聲音克隆公司Respeecher和VDR公司Canny AI合作,創(chuàng)造了第一次月球探險(xiǎn)的另一段歷史,宇航員尼爾·阿姆斯特朗和埃德溫·巴茲·奧爾德林未能完成任務(wù),被困在月球上。 他們通過(guò)修改尼克松總統(tǒng)的真實(shí)視頻,制作了一個(gè)贗品,讓人們有可能聽(tīng)到他告訴世界,登月之旅有一個(gè)悲慘的結(jié)局。
播客如何利用人工智能
計(jì)算機(jī)化聲音的主要挑戰(zhàn)是復(fù)制人類聲音和情感上的細(xì)微差別,并避免機(jī)械音。在人工智能技術(shù)的支持下,語(yǔ)音到語(yǔ)音的語(yǔ)音轉(zhuǎn)換技術(shù)為精確地實(shí)現(xiàn)這一目標(biāo)提供了手段。
蘋果的Siri、亞馬遜的Alexa、微軟的Cortana或谷歌Assistant等虛擬助手仍在使用文本到語(yǔ)音的功能。雖然TTS仍然是一個(gè)非常有用的技術(shù),要使一個(gè)聲音聽(tīng)起來(lái)不同相當(dāng)復(fù)雜。 例如讓Siri聽(tīng)起來(lái)像一個(gè)年長(zhǎng)的男人——它需要在預(yù)先錄制好的文件之外,還要一個(gè)新的音頻文件,里面包含這段對(duì)話所有的單詞。讓我們來(lái)看看語(yǔ)音到語(yǔ)音轉(zhuǎn)換帶來(lái)的一些好處。 你如何使用人工智能語(yǔ)音克隆播客?人工智能使聲音克隆成為可能。它可以幫助你完美地復(fù)制任何播客項(xiàng)目的任何聲音。“智能的雞尾酒”通常由兩種成分構(gòu)成——經(jīng)典數(shù)字信號(hào)處理算法和自營(yíng)深生成建模技術(shù),允許內(nèi)容制作者使用最合適的聲音。
· 邀請(qǐng)名人加入你的項(xiàng)目
演員、作家、運(yùn)動(dòng)員等越出名,請(qǐng)他們來(lái)播客節(jié)目就越困難。但如果你利用人工智能來(lái)復(fù)制人類的聲音,你就不用再等極度繁忙的他們撥冗來(lái)到演播室了。你可以為觀眾提供他們最喜歡的聲音的錄音,還不用花太多的時(shí)間和金錢把他們帶到錄音棚。
· 帶回過(guò)去的聲音
即使一位演員已經(jīng)去世了,聲音克隆也能神奇地幫助你按照你的期望完成你的項(xiàng)目。你在做一個(gè)關(guān)于肯尼迪總統(tǒng)在去世前的歷史性播客嗎?語(yǔ)音轉(zhuǎn)換技術(shù)可以幫助你使用他的確切的聲音,而不是僅僅接近接近。
· 使用孩子們的聲音
孩子們經(jīng)常會(huì)說(shuō)一些非常有趣的事情,并不一定是因?yàn)閮?nèi)容有趣,而只是因?yàn)樗麄冋f(shuō)話的方式(音調(diào)、語(yǔ)調(diào)、口音等等)。同時(shí),和他們一起工作也很有挑戰(zhàn)性。通過(guò)讓專業(yè)演員準(zhǔn)確地按照孩子們說(shuō)話的方式說(shuō)出來(lái),聲音合成可以簡(jiǎn)化這個(gè)過(guò)程。
圖源:unsplash
· 加速,直到完成你的播客項(xiàng)目
人工智能可以在一瞬間復(fù)制人類的聲音。你所需要做的就是提供目標(biāo)聲音的高質(zhì)量錄音,用不了多久就成型了。 2017年,播客的廣告收入達(dá)到了2.2億美元,而且每年都在翻番。吸引潛在廣告客戶的主要因素是用戶參與度的提高,還有播客廣告能被聽(tīng)到的事實(shí),完成率高達(dá)90%左右。 此外,廣告商愿意為某些播客時(shí)段支付高達(dá)30美元的cpm(每千次廣告的成本)。如果考慮到Facebook的平均cpm是6美元,這個(gè)數(shù)字就更合理了。 有線電視一步一個(gè)腳印地取代了網(wǎng)絡(luò)電視,播客和廣播之間有著千絲萬(wàn)縷的相似之處。即使我們把這個(gè)類比限制在電臺(tái)廣告預(yù)算上,這也意味著播客行業(yè)目前的財(cái)政狀況將得到200億美元的額外收益。正如我們一開(kāi)始所說(shuō)的,聽(tīng)眾人數(shù)的增加證明了對(duì)利潤(rùn)持續(xù)系統(tǒng)增長(zhǎng)的預(yù)期是合理的。
圖源:unsplash
諸如此類的數(shù)字清楚地表明,播客將會(huì)繼續(xù)存在下去,我們迫切需要用更有效的方法來(lái)授權(quán)音頻內(nèi)容制作者。上面列出的幾點(diǎn)只是AI能做到的事情的一小部分, AI語(yǔ)音克隆播客可以整個(gè)行業(yè)的發(fā)展,也能更好地處理編輯獨(dú)立性的問(wèn)題。
本文轉(zhuǎn)載自微信公眾號(hào)「讀芯術(shù)」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系讀芯術(shù)公眾號(hào)。