自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

新聞 語(yǔ)音識(shí)別
Facebook AI(bushi),更準(zhǔn)確地說(shuō)是Meta AI,剛剛發(fā)布了自監(jiān)督語(yǔ)音處理模型XLS-R,共支持128種語(yǔ)言。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

 Facebook AI(bushi),更準(zhǔn)確地說(shuō)是Meta AI,剛剛發(fā)布了自監(jiān)督語(yǔ)音處理模型XLS-R,共支持128種語(yǔ)言

[[436245]]

這項(xiàng)技術(shù)與Meta公司最新“元宇宙”愿景緊密相關(guān)。

相互交談是人們互動(dòng)的一種自然方式,隨著語(yǔ)音技術(shù)的發(fā)展,未來(lái)的虛擬世界可以使用我們技術(shù)進(jìn)行互動(dòng),虛擬體驗(yàn)將與物理世界融為一體。

說(shuō)人話,就是讓母語(yǔ)不同的人在元宇宙里社交:一位說(shuō)著英語(yǔ),一位說(shuō)著漢語(yǔ),兩人可以靠XLS-R在元宇宙中無(wú)障礙對(duì)話。

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

實(shí)際效果如何呢?

MetaAI在HuggingFace上發(fā)布了試用版語(yǔ)音直譯模型,支持從22種語(yǔ)言轉(zhuǎn)換到16種語(yǔ)言,我們先來(lái)試試它的英譯中效果。

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

(雖然翻譯腔較濃,但仍算準(zhǔn)確,7秒鐘的句子完成翻譯僅1.53秒)

我們知道,世界上的語(yǔ)言有上千種,要用AI實(shí)現(xiàn)這些語(yǔ)言的互通并非易事。

一般語(yǔ)料庫(kù)的豐富程度決定了語(yǔ)言翻譯模型的質(zhì)量,語(yǔ)音翻譯一般集中于幾個(gè)資源多大語(yǔ)種之間。但是由于小語(yǔ)種往往語(yǔ)料匱乏,使用這類母語(yǔ)的人往往很難獲得較高的AI翻譯質(zhì)量。

XLS-R通過(guò)自監(jiān)督技術(shù)對(duì)10倍的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,大大改善了以前的多語(yǔ)言模型,尤其是小語(yǔ)種的處理。

XLS-R的原理

XLS-R基于Facebook去年發(fā)布的wav2vec 2.0技術(shù)。

wav2vec 2.0與BERT類似,是通過(guò)預(yù)測(cè)音頻mask部分的語(yǔ)音單元來(lái)訓(xùn)練的。它們的區(qū)別是,語(yǔ)音音頻是一種連續(xù)的信號(hào),不能輕易清晰地分割成單詞或其他單位。

wav2vec 2.0通過(guò)學(xué)習(xí)25毫秒長(zhǎng)的基本單元來(lái)解決這個(gè)問(wèn)題,以便能夠?qū)W習(xí)高級(jí)上下文表示。

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

在僅擁有一小時(shí)的標(biāo)記訓(xùn)練數(shù)據(jù)的情況下,wav2vec 2.0能通過(guò)后續(xù)無(wú)監(jiān)督的訓(xùn)練數(shù)據(jù),在LibreSpeech測(cè)試基準(zhǔn)的100小時(shí)子集上達(dá)到SOTA水平。

之后,F(xiàn)acebook又推出了完全無(wú)監(jiān)督的高性能語(yǔ)音識(shí)別模型wav2vec-U,它純粹從錄制的語(yǔ)音音頻和未配對(duì)的文本中學(xué)習(xí)。

為了wav2vec-U讓學(xué)習(xí)識(shí)別音頻錄音中的單詞,F(xiàn)acebook訓(xùn)練了一個(gè)GAN。生成器根據(jù)嵌入在自監(jiān)督表示中的每個(gè)音頻段,預(yù)測(cè)與語(yǔ)言中的聲音對(duì)應(yīng)的音素。

而鑒別器負(fù)責(zé)評(píng)估預(yù)測(cè)的音素序列是否真實(shí)。最初,轉(zhuǎn)錄非常糟糕,但隨著時(shí)間的推移,隨著鑒別器的反饋,轉(zhuǎn)錄變得準(zhǔn)確。

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

通過(guò)這種方式,它學(xué)會(huì)了區(qū)分生成器的語(yǔ)音識(shí)別輸出和真實(shí)文本。

Facebook在此基礎(chǔ)上推出了包含53種語(yǔ)言的XLSR。

而最新發(fā)布的XLS-R有128種語(yǔ)言之多,語(yǔ)種數(shù)量是XLSR的兩倍多,數(shù)據(jù)量更是后者10倍——共計(jì)長(zhǎng)達(dá)43.6萬(wàn)小時(shí)的語(yǔ)音。

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

XLS-R共有20億參數(shù),它在測(cè)試的37種語(yǔ)言中,表現(xiàn)優(yōu)于大多數(shù)語(yǔ)種先前的工作。甚至在老撾語(yǔ)等小語(yǔ)種識(shí)別上,也能低于之前的錯(cuò)誤率。

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

此外XLS-R也讓低資源語(yǔ)言與英語(yǔ)之間的翻譯大幅改進(jìn),例如從印度尼西亞語(yǔ)到英語(yǔ)的翻譯,其中BLEU(雙語(yǔ)互譯質(zhì)量評(píng)估)的準(zhǔn)確性平均翻了一番。

CoVoST-2語(yǔ)音翻譯基準(zhǔn)測(cè)試中,XLS-R在21個(gè)英語(yǔ)翻譯方向上比之前技術(shù)平均提高了7.4 BLEU。

從下圖中可以看出,XLS-R對(duì)低資源語(yǔ)種的提升尤為明顯。

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

微調(diào)XLS-R

XLS-R只是一個(gè)預(yù)訓(xùn)練模型,為了能更好地服務(wù)于具體任務(wù),還需要對(duì)模型進(jìn)行微調(diào)。

Hugging Face官方提供了詳細(xì)的微調(diào)教程。

Meta發(fā)布支持128種語(yǔ)言的新語(yǔ)音模型:指向元宇宙跨語(yǔ)種交流

此外官方還提供不同參數(shù)規(guī)模的語(yǔ)音識(shí)別模型,以及15種語(yǔ)言與英語(yǔ)之間的互譯模型,供用戶下載。

傳送門(mén)

官方博客:
https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/

GitHub頁(yè):
https://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

論文地址:
https://arxiv.org/abs/2111.09296v1

試用網(wǎng)頁(yè)地址:
https://huggingface.co/spaces/facebook/XLS-R-2B-22-16

微調(diào)方法簡(jiǎn)介:
https://huggingface.co/blog/fine-tune-xlsr-wav2vec2

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-08-23 11:15:20

2023-05-25 16:24:13

2023-12-03 08:57:54

開(kāi)源模型

2022-07-20 16:36:02

模型AI

2022-07-28 14:22:50

元宇宙AI

2021-11-04 23:17:50

人工智能自然語(yǔ)言技術(shù)

2022-02-24 12:46:03

3D元宇宙AI

2022-02-28 14:54:40

FacebookMeta元宇宙

2023-02-03 17:50:29

元宇宙資本

2022-04-26 23:35:52

元宇宙Meta數(shù)據(jù)隱私

2022-04-01 11:13:48

語(yǔ)音識(shí)別機(jī)器學(xué)習(xí)微軟

2021-11-05 11:01:47

人工智能元宇宙面部識(shí)別

2023-05-23 14:14:14

技術(shù)模型

2023-07-03 09:47:38

AI語(yǔ)音

2022-06-17 08:30:00

元宇宙Meta架構(gòu)

2022-11-01 14:40:41

元宇宙

2023-02-13 08:01:56

2022-05-09 10:53:31

虛擬元宇宙
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)