跨語(yǔ)種「AI同傳」震撼登場(chǎng)!Meta谷歌連發(fā)重大突破,顛覆語(yǔ)音翻譯
就在Meta AI成立10周年之際,研究團(tuán)隊(duì)重磅開源了在語(yǔ)音翻譯領(lǐng)域的突破性進(jìn)展——「無(wú)縫交流」(Seamless Communication)模型。
作為首個(gè)開源的「大一統(tǒng)模型」,Seamless集成了其他三款SOTA模型的全部功能(SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2),可以實(shí)時(shí)進(jìn)行更自然、更真實(shí)的跨語(yǔ)言交流。
甚至可以說(shuō),它從本質(zhì)上實(shí)現(xiàn)了通用語(yǔ)音翻譯器(Universal Speech Translator)的概念。
緊接著,谷歌也分享了自己在無(wú)監(jiān)督語(yǔ)音翻譯的突破——Translation 3。
通過(guò)利用SpecAugment、MUSE嵌入和反向翻譯,Translatotron 3在翻譯詞匯的同時(shí),更能處理停頓、語(yǔ)速、說(shuō)話者身份等非文本語(yǔ)音細(xì)微差異。
不僅如此,Translatotron 3在還可以直接從單語(yǔ)數(shù)據(jù)學(xué)習(xí),擺脫了對(duì)并行數(shù)據(jù)的依賴。
論文地址:https://arxiv.org/abs/2305.17547
結(jié)果顯示,在翻譯質(zhì)量、說(shuō)話者相似性和語(yǔ)音自然度方面表現(xiàn)出色,Translation 3都超越了傳統(tǒng)系統(tǒng)。
探索溝通的未來(lái),Translatotron 3或?qū)⒁郧八从械男屎蜏?zhǔn)確性打破語(yǔ)言障礙。
Seamless:「無(wú)縫」語(yǔ)音翻譯大一統(tǒng)
Seamless將SeamlessM4T v2的高質(zhì)量和多語(yǔ)言、SeamlessStreaming的低延遲和SeamlessExpressive的表達(dá)一致性,全部融合到了一個(gè)統(tǒng)一的系統(tǒng)之中。
由此,Seamless也為了第一個(gè)能夠同時(shí)保持聲音風(fēng)格和語(yǔ)調(diào)的流式翻譯模型。
SeamlessExpressive:完美保留語(yǔ)音語(yǔ)調(diào)
雖然現(xiàn)有的翻譯工具能熟練地捕捉對(duì)話內(nèi)容,但它們的輸出通常依賴于單調(diào)的機(jī)器人文本到語(yǔ)音系統(tǒng)。
相比之下,SeamlessExpressive則可以保留語(yǔ)音的細(xì)微差別,如停頓和語(yǔ)速,以及聲音風(fēng)格和情感基調(diào)。
,時(shí)長(zhǎng)00:28
為了在不同語(yǔ)言中保留說(shuō)話者的語(yǔ)音風(fēng)格,研究人員在SeamlessM4T v2基礎(chǔ)模型中加入了表現(xiàn)力編碼器。這一過(guò)程可確保單元生成遵循預(yù)期的語(yǔ)速和節(jié)奏。
此外,將SeamlessM4T v2中的HiFi-GAN單元聲碼器替換為以源語(yǔ)音為條件的表現(xiàn)力單元到語(yǔ)音生成器,可實(shí)現(xiàn)音調(diào)、情感和風(fēng)格的無(wú)縫傳輸。
SeamlessStreaming:AI版「同聲傳譯」
SeamlessStreaming是首個(gè)大規(guī)模多語(yǔ)言模型,其翻譯延遲時(shí)間約為兩秒,準(zhǔn)確度幾乎與離線模型相同。
SeamlessStreaming以SeamlessM4T v2為基礎(chǔ),支持近100種輸入和輸出語(yǔ)言的自動(dòng)語(yǔ)音識(shí)別和語(yǔ)音到文本翻譯,以及近100種輸入語(yǔ)言和36種輸出語(yǔ)言的語(yǔ)音到語(yǔ)音翻譯。
Meta AI最先進(jìn)的流模型SeamlessStreaming能夠智能地決定何時(shí)有足夠的語(yǔ)境來(lái)輸出下一個(gè)目標(biāo)文本或語(yǔ)音片段。
SeamlessStreaming學(xué)習(xí)到的讀/寫策略,會(huì)根據(jù)部分音頻輸入來(lái)決定是「寫」并生成輸出,還是「讀」并繼續(xù)等待更多輸入。并且,還可以自適應(yīng)不同的語(yǔ)言結(jié)構(gòu),從而在許多不同的語(yǔ)言對(duì)中發(fā)揮更強(qiáng)的性能。
SeamlessM4T v2:更高質(zhì)量、更高精度
2023年8月,Meta AI推出了第一版SeamlessM4T——一個(gè)基礎(chǔ)多語(yǔ)言和多任務(wù)模型,可為跨語(yǔ)音和文本的翻譯和轉(zhuǎn)錄提供SOTA的結(jié)果。
在此基礎(chǔ)上,研究人員于11月推出了改進(jìn)版的SeamlessM4T v2,作為全新SeamlessExpressive和SeamlessStreaming模型的基礎(chǔ)。
升級(jí)后的SeamlessM4T v2采用非自回歸文本到單元解碼器,從而提高了文本和語(yǔ)音輸出之間的一致性。
其中,w2v-BERT 2.0編碼器是在450萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)基礎(chǔ)上訓(xùn)練出來(lái)的。相比之前,第一版的訓(xùn)練數(shù)據(jù)只有100萬(wàn)小時(shí)。
此外,SeamlessM4T v2還通過(guò)全新的SeamlessAlign,為低資源語(yǔ)言補(bǔ)充了更多數(shù)據(jù)。
評(píng)估結(jié)果顯示,SeamlessM4T v2在BLEU、ASR-BLEU、BLASER 2等任務(wù)上的表現(xiàn),明顯優(yōu)于之前的SOTA模型。
SeamlessAlignExpressive
基于之前在WikiMatrix、CCMatrix、NLLB、SpeechMatrix和SeamlessM4T方面所做的工作,Meta AI推出了首個(gè)表達(dá)式語(yǔ)音對(duì)齊程序——SeamlessExpressive。
從原始數(shù)據(jù)開始,富有表現(xiàn)力的對(duì)齊程序會(huì)自動(dòng)發(fā)現(xiàn)成對(duì)的音頻片段,這些片段不僅具有相同的含義,而且具有相同的整體表現(xiàn)力。
基于此,Meta還創(chuàng)建了第一個(gè)用于基準(zhǔn)測(cè)試的多語(yǔ)言音頻對(duì)齊的大型基準(zhǔn)測(cè)試數(shù)據(jù)集——SeamlessAlignExpressive。
Translatotron 3:引領(lǐng)無(wú)監(jiān)督語(yǔ)音翻譯新時(shí)代
谷歌聯(lián)合DeepMind提出的無(wú)監(jiān)督語(yǔ)音到語(yǔ)音翻譯架構(gòu)Translatotron 3,不僅為更多語(yǔ)言對(duì)之間的翻譯,還為停頓、語(yǔ)速和說(shuō)話人身份等非文本語(yǔ)音屬性的翻譯打開了大門。
這種方法不用對(duì)目標(biāo)語(yǔ)言進(jìn)行任何直接的監(jiān)督,而且可以在翻譯過(guò)程中保留源語(yǔ)音的其他特征(如語(yǔ)調(diào)、情感等)。
Translatotron 3在保留源語(yǔ)音其他特征(如語(yǔ)調(diào)、情感等)的同時(shí),無(wú)需對(duì)目標(biāo)語(yǔ)言進(jìn)行任何直接的監(jiān)督,并且還
摒棄了對(duì)雙語(yǔ)語(yǔ)音數(shù)據(jù)集的需求。
其設(shè)計(jì)包含三個(gè)關(guān)鍵方面:
1. 使用SpecAugment將整個(gè)模型作為mask自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練
SpecAugment是一種簡(jiǎn)單的語(yǔ)音識(shí)別數(shù)據(jù)增強(qiáng)方法,可在輸入音頻(而非原始音頻本身)的對(duì)數(shù)梅爾頻譜圖上進(jìn)行操作,從而有效提高編碼器的泛化能力。
2. 基于MUSE的無(wú)監(jiān)督嵌入映射
多語(yǔ)言無(wú)監(jiān)督嵌入是在未配對(duì)的語(yǔ)言上進(jìn)行訓(xùn)練的,可以讓模型學(xué)習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言之間共享的嵌入空間。
3. 基于反向翻譯的重構(gòu)損失
這種方法可以完全采用無(wú)監(jiān)督的方式,來(lái)訓(xùn)練編碼器-解碼器S2ST模型。
效果展示(西班牙語(yǔ)-英語(yǔ))
輸入
CommonVoice11 Input,新智元,5秒
CommonVoice11 Synthesized Input,新智元,2秒
Conversational Input,新智元,2秒
TTS合成
CommonVoice11 TTS,新智元,4秒
CommonVoice11 Synthesized TTS,新智元,2秒
Conversational TTS,新智元,1秒
Translatotron 3
CommonVoice11 Translation 3,新智元,4秒
CommonVoice11 Synthesized Translation 3,新智元,2秒
Conversational Translation 3,新智元,1秒
結(jié)構(gòu)
Translatotron 3采用共享編碼器對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行編碼。其中,解碼器由語(yǔ)言解碼器、聲音合成器(負(fù)責(zé)翻譯語(yǔ)音的聲音生成)和單一注意力模塊組成。
相比于上一代Translatotron 2,Translatotron 3配備有兩個(gè)解碼器,一個(gè)用于源語(yǔ)言,另一個(gè)用于目標(biāo)語(yǔ)言。
在訓(xùn)練過(guò)程中,研究人員使用單語(yǔ)語(yǔ)音-文本數(shù)據(jù)集(這些數(shù)據(jù)由語(yǔ)音-文本對(duì)組成;并且沒有進(jìn)行翻譯)。
編碼器
編碼器的輸出分為兩部分:第一部分包含語(yǔ)義信息,第二部分包含聲學(xué)信息。
其中,前半部分的輸出被訓(xùn)練成輸入語(yǔ)音頻譜圖文本的MUSE嵌入。后半部分在沒有MUSE損失的情況下進(jìn)行更新。
值得注意的是,源語(yǔ)言和目標(biāo)語(yǔ)言共享同一個(gè)編碼器。
基于MUSE嵌入的多語(yǔ)言性質(zhì),編碼器能夠?qū)W習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言的多語(yǔ)言嵌入空間。
這樣一來(lái),編碼器就能將兩種語(yǔ)言的語(yǔ)音編碼到一個(gè)共同的嵌入空間中,而不是為每種語(yǔ)言保留一個(gè)單獨(dú)的嵌入空間,從而更高效、更有效地對(duì)輸入進(jìn)行編碼。
解碼器
解碼器由三個(gè)不同的部分組成,即語(yǔ)言解碼器、聲音合成器和注意力模塊。
為了有效處理源語(yǔ)言和目標(biāo)語(yǔ)言的不同屬性,Translatotron 3配備有兩個(gè)獨(dú)立的解碼器,分別用于源語(yǔ)言和目標(biāo)語(yǔ)言。
訓(xùn)練
訓(xùn)練由兩個(gè)階段組成:(1)自動(dòng)編碼與重構(gòu);(2)反向翻譯。
第一個(gè)階段中,使用MUSE損失和重構(gòu)損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而將輸入內(nèi)容自動(dòng)編碼到多語(yǔ)言嵌入空間,確保網(wǎng)絡(luò)生成有意義的多語(yǔ)言表征。
在第二階段中,利用反向翻譯損失進(jìn)一步訓(xùn)練網(wǎng)絡(luò)翻譯輸入頻譜圖。為了減輕災(zāi)難性遺忘的問題,并確保潛空間是多語(yǔ)言的,此階段依然采用MUSE損失和重構(gòu)損失。
為了確保編碼器學(xué)習(xí)輸入的有意義屬性,而不是簡(jiǎn)單地重構(gòu)輸入,研究人員在兩個(gè)階段都對(duì)編碼器輸入應(yīng)用了 SpecAugment。事實(shí)證明,通過(guò)增強(qiáng)輸入數(shù)據(jù),可以有效提高編碼器的泛化能力。
- MUSE損失:MUSE損失衡量的是輸入頻譜圖的多語(yǔ)言嵌入與反向翻譯頻譜圖的多語(yǔ)言嵌入之間的相似性。
- 重構(gòu)損失: 重構(gòu)損失衡量的是輸入頻譜圖與反向翻譯頻譜圖之間的相似度。
性能
評(píng)估中包括Common Voice 11數(shù)據(jù)集,以及從對(duì)話和Common Voice 11數(shù)據(jù)集衍生出的兩個(gè)合成數(shù)據(jù)集。
其中,翻譯質(zhì)量是通過(guò)翻譯語(yǔ)音的ASR(自動(dòng)語(yǔ)音識(shí)別)轉(zhuǎn)錄的BLEU(越高越好)與相應(yīng)的參考翻譯文本進(jìn)行比較來(lái)衡量的。而語(yǔ)音質(zhì)量則通過(guò)MOS分?jǐn)?shù)來(lái)衡量(越高越好)。此外,說(shuō)話人相似度是通過(guò)平均余弦相似度來(lái)衡量的(越高越好)。
由于Translatotron 3是一種無(wú)監(jiān)督方法,因此研究人員使用了由ASR、無(wú)監(jiān)督機(jī)器翻譯(UMT)和 TTS(文本到語(yǔ)音)組合而成的級(jí)聯(lián)S2ST系統(tǒng)作為基準(zhǔn)。
結(jié)果顯示,Translatotron 3在翻譯質(zhì)量、說(shuō)話者相似性和語(yǔ)音質(zhì)量等各方面的表現(xiàn)都遠(yuǎn)遠(yuǎn)優(yōu)于基線,在會(huì)話語(yǔ)料庫(kù)中的表現(xiàn)尤為突出。
此外,Translatotron 3實(shí)實(shí)現(xiàn)了與真實(shí)音頻樣本相似的語(yǔ)音自然度(以MOS衡量,越高越好)。