Meta翻譯大模型可模仿語氣語速！AI再也不“莫得感情”了｜GitHub 9k標(biāo)星

作者：量子位 2023-12-21 14:53:00

人工智能新聞

AI這發(fā)展速度，再過幾年咱們學(xué)一門新語言就像學(xué)寫字一樣簡單。不由地讓人想象70億人說同一種語言是什么感覺。

Meta發(fā)布了全新AI翻譯大模型，實(shí)時語音轉(zhuǎn)換延遲不超過2秒。

感受一把這個速度（西班牙語<=>英語）：

不僅速度快，它的準(zhǔn)確率還和離線模型一樣高。

最重要的是，像什么停頓、語氣、語速和情緒…… 它都可以復(fù)刻。

例如模仿耳語：

原聲1,量子位,3秒

翻譯1,量子位,3秒

例如模仿悲傷：

原聲2,量子位,3秒

翻譯2,量子位,3秒

有了它，再也不用吐槽AI翻譯“莫的感情”了。

有網(wǎng)友則表示：

AI這發(fā)展速度，再過幾年咱們學(xué)一門新語言就像學(xué)寫字一樣簡單。

不由地讓人想象70億人說同一種語言是什么感覺。

目前，此模型已在GitHub已攬獲近9k標(biāo)星，可謂爆受歡迎。

除了開源下載，官方也提供了demo供大家嘗試體驗(yàn)。

4種型號，非自回歸架構(gòu)

Meta此次發(fā)布的是一個翻譯模型系列：Seamless Communication（無縫交流）。

4個不同型號分別為：

SeamlessExpressive

可以保留跨語言語音復(fù)雜性的模型，包括停頓、語速、情緒等內(nèi)容。

SeamlessStreaming

大規(guī)模多語言模型，提供大約2秒延遲的語音和文本翻譯，與離線模型準(zhǔn)確率幾乎一樣高。

支持近100種輸入語言和36種輸出語言的語音到語音翻譯，支持近100種輸入和輸出語言的自動語音識別和語音到文本翻譯。

SeamlessM4T v2

前兩個模型的底座模型，多語言多任務(wù)，今年8月發(fā)布的第一個版本，實(shí)現(xiàn)跨語音和文本翻譯的SOTA結(jié)果。

這一新版本采用的是帶有非自回歸文本到單元解碼器的新架構(gòu)，可提高文本和語音輸出之間的一致性。

Seamless

將前三種模型的功能融為一體的模型。

開源的是前三個。

那么，這一系列模型具體怎么打造出來的？

據(jù)官方博客介紹，以上所有模型都由fairseq2提供支持。

后者是一個用于序列到序列任務(wù)的輕量建模工具包，支持機(jī)器翻譯、語音識別等任務(wù)，可與PyTorch生態(tài)系統(tǒng)庫組合。

此外，還包括具有非自回歸文本到單元（text-to-unit）解碼器的新架構(gòu)UnitY2。

它的語音生成能力很強(qiáng)。

在SeamlessM4T v2 中，Meta使用multitask-UnitY2來啟用文本輸入。

在SeamlessStreaming和SeamlessExpressive中，UnitY2也作為模型架構(gòu)構(gòu)建基礎(chǔ)。

在此，Meta也特別解釋了一下為什么要采用非自回歸架構(gòu)。

這是因?yàn)?，自回歸模型雖然模擬語音很自然，但隨著序列長度的增加，它們的擴(kuò)展性很差。

而非自回歸模型預(yù)測每個片段的持續(xù)時間，使得每個片段可以并行解碼。

因此它對長序列具有魯棒性，更適應(yīng)流媒體場景。

那么，說到流媒體，Meta的模型是如何快速又準(zhǔn)確地翻譯實(shí)時語音的呢？

核心算法是EMMA，一個可以智能決定何時已經(jīng)擁有足夠的信息來生成下一個語音片段或目標(biāo)文本的模型。

它還可以從離線模型中進(jìn)行微調(diào)，讓準(zhǔn)確率更高。

原理的最后一部分，主要說說Meta的模型又是如何讓翻譯不機(jī)械，富有表現(xiàn)力的。

在此，他們用PRETSSEL（一個語音到單元生成器）替換SeamlessM4T v2中的HiFi-GAN 聲碼器單元。

這個生成器以源語音為條件來生成波形，以此傳輸音調(diào)、情感表達(dá)和聲音風(fēng)格質(zhì)量等信息。

此外，團(tuán)隊還開發(fā)了Prosody UnitY2，將它集成到SeamlessM4T v2中，讓它指導(dǎo)模型生成具有適當(dāng)節(jié)奏、語速和停頓的單元生成。

兩項特別的工作

除了以上這些，Meta還介紹了兩項額外的工作。

一是“毒性緩解”。

指的是翻譯準(zhǔn)確性的問題，在這種翻譯任務(wù)中，意外的錯誤或幻覺可能會導(dǎo)致兩個不同語言的人產(chǎn)生誤會。

由于這一問題的主要原因通常在于訓(xùn)練數(shù)據(jù)。

所以Meta做的第一件事就是在訓(xùn)練前過濾一遍數(shù)據(jù)中出現(xiàn)的“有毒內(nèi)容”。

但這只是被動的，并不能完全防問題發(fā)生。

因此，他們提出直接在翻譯生成過程中自動檢測生成的有毒單詞，確有問題時自動重新調(diào)整生成過程并使用新單詞來表達(dá)。

這個過程在推理時就能做，不需要對翻譯模型進(jìn)行任何微調(diào)。

最終，它顯著減少了翻譯“毒性”，并同時保持翻譯質(zhì)量。

二是音頻水印。

為了防止可能的濫用風(fēng)險，Meta翻譯模型也為音頻添加了水印。

方式是主動在音頻中嵌入人耳無法覺察的信號，用專門的檢測器模型可以檢測出來；通過這個水印，我們就可以準(zhǔn)確追蹤音頻的來源。

除此之外，這一水印還可以對抗各種打擊，比如有人想通過添加噪音、回聲或過濾某范圍內(nèi)的頻率來修改音頻、淡化水印以此來繞過檢測，就是行不通的。

One More Thing

除了模型、論文，Meta還同步開源了此系列翻譯模型的元數(shù)據(jù)、數(shù)據(jù)和數(shù)據(jù)對齊工具。

其中元數(shù)據(jù)包括58.5萬小時的語音文本對，涵蓋76種語言。

這是迄今為止總?cè)萘孔畲?、語言覆蓋范圍最廣的語音語料庫。

責(zé)任編輯：張燕妮來源：量子位

AI 模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta翻譯大模型可模仿語氣語速！AI再也不“莫得感情”了｜GitHub 9k標(biāo)星

4種型號，非自回歸架構(gòu)

兩項特別的工作

One More Thing

Meta翻譯大模型可模仿語氣語速！AI再也不“莫得感情”了｜GitHub 9k標(biāo)星

4種型號，非自回歸架構(gòu)