谷歌推“同聲傳譯”系統(tǒng)Translatotron:語音翻譯無需文本轉(zhuǎn)換
谷歌AI官方博客***博文中向我們介紹了一項實驗性質(zhì)的新系統(tǒng)--Translatotron,它能夠直接將語音翻譯成為語音,中間不再需要任何文本。在博文中寫道:“Translatotron是***能夠直接將一種語言的語音翻譯成為另一種語言語音的端到端模型。”
谷歌表示當(dāng)前的翻譯系統(tǒng)分為三個步驟:自動語音識別,將語音轉(zhuǎn)換為文本;機器翻譯,將文本轉(zhuǎn)換為另一種語言;***是文本轉(zhuǎn)語音(TTS)合成,也就是將翻譯好的文本生成語音。在這三個步驟衍生出了Google Translate等服務(wù),不過這家科技巨頭希望通過一個模型就實現(xiàn)語音的翻譯,而不再需要借助文本這個中間步驟。
Google AI軟件工程師Ye Jia和Ron Weiss表示:“該系統(tǒng)名為Translatotron,這個系統(tǒng)避免了將任務(wù)分成不同的階段。”谷歌表示這意味著更快的翻譯速度和更少的轉(zhuǎn)譯錯誤。該系統(tǒng)使用頻譜圖作為輸入并生成頻譜圖,同樣依賴于神經(jīng)聲碼器和揚聲器編碼器,這意味著系統(tǒng)在翻譯后保留說話者的聲音特征。