自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

語音識別不是難事，語音合成才是挑戰(zhàn)

作者：朱旭東 2016-02-17 10:39:18

移動開發(fā)

我們大多數(shù)人都接觸過語音識別，調(diào)戲siri、玩兒玩兒微軟小娜等等。但是有沒有想過你的聲音也會變成siri去調(diào)戲別人？

我相信大多數(shù)人對語音助手已經(jīng)不陌生了。很多人也已經(jīng)和 iOS 中的語音助手 Siri 進行過對話，不論是逗它玩還是真的需要它的幫助。

對 Siri 來說，要聽懂你說的是什么并不難，但真的要和它進行一場對話的話，你一定會感到怪怪的。拋開它是否能正確的回答你的問題不說，它回復你的聲音就會讓你明顯感覺到自己并不是在和一個人聊天。

的確，在語音識別這件事上，國內(nèi)外***的公司都已經(jīng)能做到95%左右的準確識別率。但在語音生成上，幾乎沒有公司能讓機器人說的話跟人說出來的話一樣，即便是一些簡單的詞組，你也一耳就能聽出是機器合成的還是真人播報。

但隨著人們越來越多的使用語音交互，如何讓電腦的聲音聽起來更具人性化，已經(jīng)成為了擺在很多軟件公司和程序員面前的大挑戰(zhàn)。

據(jù)《紐約時報》報道，IBM 曾在世紀之交花了18個月的時間讓機器人沃森(Watson)可以說話，但盡管沃森已經(jīng)非常聰明，它說話的本領仍然很差。因為聽起來根本不像人聲。

Michael Picheny，IBM 實驗室資深經(jīng)理。圖片來自《紐約時報》

現(xiàn)在電腦語音都是用機器合成的(除了部分天氣預報和導航提示是完全人工錄制)，合成最終語音的真人語音數(shù)據(jù)庫通常非常龐大，數(shù)據(jù)庫里有某個單詞的真人發(fā)音，以及這個單詞不同語調(diào)的發(fā)音，甚至這個單詞的部分發(fā)音。一位配音者通常需要花至少10個小時才能完成一個語音數(shù)據(jù)庫的錄入。

盡管語音數(shù)據(jù)庫已經(jīng)非常龐大，但是在合成語音的時候，仍然無法做到接近真人發(fā)聲。其中***的難點是讓合成音帶有人類的感情?？▋?nèi)基梅隆大學語言技術(shù)研究院的計算機科學家 Alan Black 告訴《紐約時報》，他們并沒有辦法告訴語音合成器說，這段話要帶有感情的去朗讀。

當然，設計者也經(jīng)常強調(diào)他們并不希望用合成語音來騙人說這是真人語音。但他們?nèi)匀幌Ｍ麢C器和人的語音交互能更加自然，更像人和人之間的交流。

事實上，如果機器發(fā)音和真人發(fā)音過于接近，會讓人感到很不舒服。日本機器人科學家森政弘曾在1970年發(fā)表了一篇題為《恐怖谷》的文章，核心就是說，當機器人和人的相似程度過于接近的時候，機器人身上的一點點小瑕疵，都會讓人感到不安。

根據(jù)森政弘的假設，隨著人類物體的擬人程度增加，人類對它的情感反應呈現(xiàn)增-減-增的曲線?？植拦染褪请S著械器人到達“接近人類”的相似度時，人類好感度突然下降至反感的范圍。“活動的類人體”比“靜止的類人體”變動的幅度更大。圖片來自維基百科

ToyTalk 是一家為兒童玩具制作人聲的公司，其 CEO Brian Langner 就表示，當機器能做對一些事情的時候，人們會認為它能做對任何事。所以在他的產(chǎn)品里，他會讓機器故意犯一點錯。畢竟他做的是玩具，犯點錯讓人們一笑也沒什么不好的。

現(xiàn)在的問題是，經(jīng)過了那么多科學家的努力，在合成語音這件事上，我們還無需擔心“恐怖谷”的到來。

為了讓沃森能“好好說話”，IBM 招募了25位配音演員，經(jīng)過大量的實驗和調(diào)整，他們終于合成了一個聽起來讓人感到比較舒服的聲音——雖然人們還是很明顯能聽出這不是真人在說話。

如果語音交互要有大發(fā)展的話，合成語音必須要讓人聽起來更舒服。不然的話，這種交互只能說是語音輸入，機器執(zhí)行，人類和機器之間并沒有真正的交流。

責任編輯：倪明來源： PingWest

語音識別語音合成語音交互

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營