自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ul id="8rigq"><tr id="8rigq"><em id="8rigq"></em></tr></ul>

<pre id="8rigq"><span id="8rigq"></span></pre>

<thead id="8rigq"></thead>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

跨語(yǔ)種「AI同傳」震撼登場(chǎng)！Meta谷歌連發(fā)重大突破，顛覆語(yǔ)音翻譯

作者：新智元 2023-12-03 08:57:54

人工智能新聞

Meta谷歌接連放出重磅成果！Meta開源無(wú)縫交流語(yǔ)音翻譯模型，谷歌放出無(wú)監(jiān)督語(yǔ)音翻譯重大突破Translation 3。

就在Meta AI成立10周年之際，研究團(tuán)隊(duì)重磅開源了在語(yǔ)音翻譯領(lǐng)域的突破性進(jìn)展——「無(wú)縫交流」（Seamless Communication）模型。

作為首個(gè)開源的「大一統(tǒng)模型」，Seamless集成了其他三款SOTA模型的全部功能（SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2），可以實(shí)時(shí)進(jìn)行更自然、更真實(shí)的跨語(yǔ)言交流。

甚至可以說(shuō)，它從本質(zhì)上實(shí)現(xiàn)了通用語(yǔ)音翻譯器（Universal Speech Translator）的概念。

緊接著，谷歌也分享了自己在無(wú)監(jiān)督語(yǔ)音翻譯的突破——Translation 3。

通過(guò)利用SpecAugment、MUSE嵌入和反向翻譯，Translatotron 3在翻譯詞匯的同時(shí)，更能處理停頓、語(yǔ)速、說(shuō)話者身份等非文本語(yǔ)音細(xì)微差異。

不僅如此，Translatotron 3在還可以直接從單語(yǔ)數(shù)據(jù)學(xué)習(xí)，擺脫了對(duì)并行數(shù)據(jù)的依賴。

論文地址：https://arxiv.org/abs/2305.17547

結(jié)果顯示，在翻譯質(zhì)量、說(shuō)話者相似性和語(yǔ)音自然度方面表現(xiàn)出色，Translation 3都超越了傳統(tǒng)系統(tǒng)。

探索溝通的未來(lái)，Translatotron 3或?qū)⒁郧八从械男屎蜏?zhǔn)確性打破語(yǔ)言障礙。

Seamless：「無(wú)縫」語(yǔ)音翻譯大一統(tǒng)

Seamless將SeamlessM4T v2的高質(zhì)量和多語(yǔ)言、SeamlessStreaming的低延遲和SeamlessExpressive的表達(dá)一致性，全部融合到了一個(gè)統(tǒng)一的系統(tǒng)之中。

由此，Seamless也為了第一個(gè)能夠同時(shí)保持聲音風(fēng)格和語(yǔ)調(diào)的流式翻譯模型。

SeamlessExpressive：完美保留語(yǔ)音語(yǔ)調(diào)

雖然現(xiàn)有的翻譯工具能熟練地捕捉對(duì)話內(nèi)容，但它們的輸出通常依賴于單調(diào)的機(jī)器人文本到語(yǔ)音系統(tǒng)。

相比之下，SeamlessExpressive則可以保留語(yǔ)音的細(xì)微差別，如停頓和語(yǔ)速，以及聲音風(fēng)格和情感基調(diào)。

，時(shí)長(zhǎng)00:28

為了在不同語(yǔ)言中保留說(shuō)話者的語(yǔ)音風(fēng)格，研究人員在SeamlessM4T v2基礎(chǔ)模型中加入了表現(xiàn)力編碼器。這一過(guò)程可確保單元生成遵循預(yù)期的語(yǔ)速和節(jié)奏。

此外，將SeamlessM4T v2中的HiFi-GAN單元聲碼器替換為以源語(yǔ)音為條件的表現(xiàn)力單元到語(yǔ)音生成器，可實(shí)現(xiàn)音調(diào)、情感和風(fēng)格的無(wú)縫傳輸。

SeamlessStreaming：AI版「同聲傳譯」

SeamlessStreaming是首個(gè)大規(guī)模多語(yǔ)言模型，其翻譯延遲時(shí)間約為兩秒，準(zhǔn)確度幾乎與離線模型相同。

SeamlessStreaming以SeamlessM4T v2為基礎(chǔ)，支持近100種輸入和輸出語(yǔ)言的自動(dòng)語(yǔ)音識(shí)別和語(yǔ)音到文本翻譯，以及近100種輸入語(yǔ)言和36種輸出語(yǔ)言的語(yǔ)音到語(yǔ)音翻譯。

Meta AI最先進(jìn)的流模型SeamlessStreaming能夠智能地決定何時(shí)有足夠的語(yǔ)境來(lái)輸出下一個(gè)目標(biāo)文本或語(yǔ)音片段。

SeamlessStreaming學(xué)習(xí)到的讀/寫策略，會(huì)根據(jù)部分音頻輸入來(lái)決定是「寫」并生成輸出，還是「讀」并繼續(xù)等待更多輸入。并且，還可以自適應(yīng)不同的語(yǔ)言結(jié)構(gòu)，從而在許多不同的語(yǔ)言對(duì)中發(fā)揮更強(qiáng)的性能。

SeamlessM4T v2：更高質(zhì)量、更高精度

2023年8月，Meta AI推出了第一版SeamlessM4T——一個(gè)基礎(chǔ)多語(yǔ)言和多任務(wù)模型，可為跨語(yǔ)音和文本的翻譯和轉(zhuǎn)錄提供SOTA的結(jié)果。

在此基礎(chǔ)上，研究人員于11月推出了改進(jìn)版的SeamlessM4T v2，作為全新SeamlessExpressive和SeamlessStreaming模型的基礎(chǔ)。

升級(jí)后的SeamlessM4T v2采用非自回歸文本到單元解碼器，從而提高了文本和語(yǔ)音輸出之間的一致性。

其中，w2v-BERT 2.0編碼器是在450萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)基礎(chǔ)上訓(xùn)練出來(lái)的。相比之前，第一版的訓(xùn)練數(shù)據(jù)只有100萬(wàn)小時(shí)。

此外，SeamlessM4T v2還通過(guò)全新的SeamlessAlign，為低資源語(yǔ)言補(bǔ)充了更多數(shù)據(jù)。

評(píng)估結(jié)果顯示，SeamlessM4T v2在BLEU、ASR-BLEU、BLASER 2等任務(wù)上的表現(xiàn)，明顯優(yōu)于之前的SOTA模型。

SeamlessAlignExpressive

基于之前在WikiMatrix、CCMatrix、NLLB、SpeechMatrix和SeamlessM4T方面所做的工作，Meta AI推出了首個(gè)表達(dá)式語(yǔ)音對(duì)齊程序——SeamlessExpressive。

從原始數(shù)據(jù)開始，富有表現(xiàn)力的對(duì)齊程序會(huì)自動(dòng)發(fā)現(xiàn)成對(duì)的音頻片段，這些片段不僅具有相同的含義，而且具有相同的整體表現(xiàn)力。

基于此，Meta還創(chuàng)建了第一個(gè)用于基準(zhǔn)測(cè)試的多語(yǔ)言音頻對(duì)齊的大型基準(zhǔn)測(cè)試數(shù)據(jù)集——SeamlessAlignExpressive。

Translatotron 3：引領(lǐng)無(wú)監(jiān)督語(yǔ)音翻譯新時(shí)代

谷歌聯(lián)合DeepMind提出的無(wú)監(jiān)督語(yǔ)音到語(yǔ)音翻譯架構(gòu)Translatotron 3，不僅為更多語(yǔ)言對(duì)之間的翻譯，還為停頓、語(yǔ)速和說(shuō)話人身份等非文本語(yǔ)音屬性的翻譯打開了大門。

這種方法不用對(duì)目標(biāo)語(yǔ)言進(jìn)行任何直接的監(jiān)督，而且可以在翻譯過(guò)程中保留源語(yǔ)音的其他特征（如語(yǔ)調(diào)、情感等）。

Translatotron 3在保留源語(yǔ)音其他特征（如語(yǔ)調(diào)、情感等）的同時(shí)，無(wú)需對(duì)目標(biāo)語(yǔ)言進(jìn)行任何直接的監(jiān)督，并且還

摒棄了對(duì)雙語(yǔ)語(yǔ)音數(shù)據(jù)集的需求。

其設(shè)計(jì)包含三個(gè)關(guān)鍵方面：

1. 使用SpecAugment將整個(gè)模型作為mask自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練

SpecAugment是一種簡(jiǎn)單的語(yǔ)音識(shí)別數(shù)據(jù)增強(qiáng)方法，可在輸入音頻（而非原始音頻本身）的對(duì)數(shù)梅爾頻譜圖上進(jìn)行操作，從而有效提高編碼器的泛化能力。

2. 基于MUSE的無(wú)監(jiān)督嵌入映射

多語(yǔ)言無(wú)監(jiān)督嵌入是在未配對(duì)的語(yǔ)言上進(jìn)行訓(xùn)練的，可以讓模型學(xué)習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言之間共享的嵌入空間。

3. 基于反向翻譯的重構(gòu)損失

這種方法可以完全采用無(wú)監(jiān)督的方式，來(lái)訓(xùn)練編碼器-解碼器S2ST模型。

效果展示（西班牙語(yǔ)-英語(yǔ)）

輸入

CommonVoice11 Input,新智元,5秒

CommonVoice11 Synthesized Input,新智元,2秒

Conversational Input,新智元,2秒

TTS合成

CommonVoice11 TTS,新智元,4秒

CommonVoice11 Synthesized TTS,新智元,2秒

Conversational TTS,新智元,1秒

Translatotron 3

CommonVoice11 Translation 3,新智元,4秒

CommonVoice11 Synthesized Translation 3,新智元,2秒

Conversational Translation 3,新智元,1秒

結(jié)構(gòu)

Translatotron 3采用共享編碼器對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行編碼。其中，解碼器由語(yǔ)言解碼器、聲音合成器（負(fù)責(zé)翻譯語(yǔ)音的聲音生成）和單一注意力模塊組成。

相比于上一代Translatotron 2，Translatotron 3配備有兩個(gè)解碼器，一個(gè)用于源語(yǔ)言，另一個(gè)用于目標(biāo)語(yǔ)言。

在訓(xùn)練過(guò)程中，研究人員使用單語(yǔ)語(yǔ)音-文本數(shù)據(jù)集（這些數(shù)據(jù)由語(yǔ)音-文本對(duì)組成；并且沒有進(jìn)行翻譯）。

編碼器

編碼器的輸出分為兩部分：第一部分包含語(yǔ)義信息，第二部分包含聲學(xué)信息。

其中，前半部分的輸出被訓(xùn)練成輸入語(yǔ)音頻譜圖文本的MUSE嵌入。后半部分在沒有MUSE損失的情況下進(jìn)行更新。

值得注意的是，源語(yǔ)言和目標(biāo)語(yǔ)言共享同一個(gè)編碼器。

基于MUSE嵌入的多語(yǔ)言性質(zhì)，編碼器能夠?qū)W習(xí)源語(yǔ)言和目標(biāo)語(yǔ)言的多語(yǔ)言嵌入空間。

這樣一來(lái)，編碼器就能將兩種語(yǔ)言的語(yǔ)音編碼到一個(gè)共同的嵌入空間中，而不是為每種語(yǔ)言保留一個(gè)單獨(dú)的嵌入空間，從而更高效、更有效地對(duì)輸入進(jìn)行編碼。

解碼器

解碼器由三個(gè)不同的部分組成，即語(yǔ)言解碼器、聲音合成器和注意力模塊。

為了有效處理源語(yǔ)言和目標(biāo)語(yǔ)言的不同屬性，Translatotron 3配備有兩個(gè)獨(dú)立的解碼器，分別用于源語(yǔ)言和目標(biāo)語(yǔ)言。

訓(xùn)練

訓(xùn)練由兩個(gè)階段組成：（1）自動(dòng)編碼與重構(gòu)；（2）反向翻譯。

第一個(gè)階段中，使用MUSE損失和重構(gòu)損失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，從而將輸入內(nèi)容自動(dòng)編碼到多語(yǔ)言嵌入空間，確保網(wǎng)絡(luò)生成有意義的多語(yǔ)言表征。

在第二階段中，利用反向翻譯損失進(jìn)一步訓(xùn)練網(wǎng)絡(luò)翻譯輸入頻譜圖。為了減輕災(zāi)難性遺忘的問題，并確保潛空間是多語(yǔ)言的，此階段依然采用MUSE損失和重構(gòu)損失。

為了確保編碼器學(xué)習(xí)輸入的有意義屬性，而不是簡(jiǎn)單地重構(gòu)輸入，研究人員在兩個(gè)階段都對(duì)編碼器輸入應(yīng)用了 SpecAugment。事實(shí)證明，通過(guò)增強(qiáng)輸入數(shù)據(jù)，可以有效提高編碼器的泛化能力。

- MUSE損失：MUSE損失衡量的是輸入頻譜圖的多語(yǔ)言嵌入與反向翻譯頻譜圖的多語(yǔ)言嵌入之間的相似性。
- 重構(gòu)損失：重構(gòu)損失衡量的是輸入頻譜圖與反向翻譯頻譜圖之間的相似度。

性能

評(píng)估中包括Common Voice 11數(shù)據(jù)集，以及從對(duì)話和Common Voice 11數(shù)據(jù)集衍生出的兩個(gè)合成數(shù)據(jù)集。

其中，翻譯質(zhì)量是通過(guò)翻譯語(yǔ)音的ASR（自動(dòng)語(yǔ)音識(shí)別）轉(zhuǎn)錄的BLEU（越高越好）與相應(yīng)的參考翻譯文本進(jìn)行比較來(lái)衡量的。而語(yǔ)音質(zhì)量則通過(guò)MOS分?jǐn)?shù)來(lái)衡量（越高越好）。此外，說(shuō)話人相似度是通過(guò)平均余弦相似度來(lái)衡量的（越高越好）。

由于Translatotron 3是一種無(wú)監(jiān)督方法，因此研究人員使用了由ASR、無(wú)監(jiān)督機(jī)器翻譯（UMT）和 TTS（文本到語(yǔ)音）組合而成的級(jí)聯(lián)S2ST系統(tǒng)作為基準(zhǔn)。

結(jié)果顯示，Translatotron 3在翻譯質(zhì)量、說(shuō)話者相似性和語(yǔ)音質(zhì)量等各方面的表現(xiàn)都遠(yuǎn)遠(yuǎn)優(yōu)于基線，在會(huì)話語(yǔ)料庫(kù)中的表現(xiàn)尤為突出。

此外，Translatotron 3實(shí)實(shí)現(xiàn)了與真實(shí)音頻樣本相似的語(yǔ)音自然度（以MOS衡量，越高越好）。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ol id="zpy5f"></ol>

<pre id="zpy5f"><fieldset id="zpy5f"></fieldset></pre>