Meta用《圣經(jīng)》訓(xùn)練超多語(yǔ)言模型:識(shí)別1107種、辨認(rèn)4017種語(yǔ)言
在《圣經(jīng)》中有一個(gè)巴別塔的故事,說(shuō)是人類聯(lián)合起來(lái)計(jì)劃興建一座高塔,希望能通往天堂,但神擾亂了人類的語(yǔ)言,計(jì)劃也就因此失敗。到了今天,AI 技術(shù)有望拆除人類語(yǔ)言之間的藩籬,幫助人類造出文明的巴別塔。
近日,Meta 的一項(xiàng)研究向這個(gè)方面邁出了重要一步,他們將新提出的方法稱為 Massively Multilingual Speech(超多語(yǔ)言語(yǔ)音 / MMS),其以《圣經(jīng)》作為訓(xùn)練數(shù)據(jù)的一部分,得到了以下成果:
- 在 1107 種語(yǔ)言上用 wave2vec 2.0 訓(xùn)練得到了一個(gè)有 10 億參數(shù)的多語(yǔ)言語(yǔ)音識(shí)別模型,相比于 OpenAI 的 Whisper 模型,其錯(cuò)誤率降低了 50% 以上。
- 單個(gè)音頻合成模型就支持這 1107 種語(yǔ)言的文本轉(zhuǎn)語(yǔ)音(TTS)。
- 開(kāi)發(fā)了一個(gè)能夠辨別 4017 種語(yǔ)言的語(yǔ)言辨識(shí)分類器。
對(duì)于很多罕見(jiàn)語(yǔ)言的數(shù)據(jù)稀少問(wèn)題,Meta 是如何解決的呢?他們采用的方法很有意思,即采用宗教的語(yǔ)料庫(kù),因?yàn)橄袷恰妒ソ?jīng)》這樣的語(yǔ)料具有最「對(duì)齊的」語(yǔ)音數(shù)據(jù)。盡管這個(gè)數(shù)據(jù)集偏向宗教內(nèi)容并且主要是男性聲音,但其論文表明這個(gè)模型在其它領(lǐng)域以及使用女聲時(shí)也表現(xiàn)優(yōu)良。這是基礎(chǔ)模型的涌現(xiàn)行為,著實(shí)讓人驚嘆。而更讓人驚嘆的是,Meta 將新開(kāi)發(fā)的模型(語(yǔ)音識(shí)別、TTS 和語(yǔ)言辨識(shí))都免費(fèi)發(fā)布出來(lái)了!
- 模型下載:https://github.com/facebookresearch/fairseq/tree/main/examples/mms
- 論文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
新提出的方法
為了打造出一個(gè)能識(shí)別千言萬(wàn)語(yǔ)的語(yǔ)音模型,首要的挑戰(zhàn)是收集各種語(yǔ)言的音頻數(shù)據(jù),因?yàn)楝F(xiàn)目前已有的最大語(yǔ)音數(shù)據(jù)集也只有至多 100 種語(yǔ)言。為了克服這個(gè)問(wèn)題,Meta 的研究者使用了宗教文本,比如《圣經(jīng)》,這些文本已被翻譯成了許多不同語(yǔ)言,并且那些譯本都已被廣泛研究過(guò)。這些譯本都有人們用不同語(yǔ)言閱讀的錄音,并且這些音頻也是公開(kāi)可用的。使用這些音頻,研究者創(chuàng)建了一個(gè)數(shù)據(jù)集,其中包含人們用 1100 種語(yǔ)言閱讀《新約》的音頻,其中每種語(yǔ)言的平均音頻長(zhǎng)度為 32 小時(shí)。
然后他們又納入了基督教的其它許多讀物的無(wú)標(biāo)注錄音,從而將可用語(yǔ)言數(shù)量增加到了 4000 以上。盡管這個(gè)數(shù)據(jù)集領(lǐng)域單一,并且大都是男聲,但分析結(jié)果表明 Meta 新開(kāi)發(fā)的模型在女聲上表現(xiàn)也同樣優(yōu)良,并且該模型也不會(huì)格外偏向于產(chǎn)生更宗教式的語(yǔ)言。研究者在博客中表示,這主要是得益于他們使用的 Connectionist Temporal Classification(連接主義時(shí)間分類)方法,相比于大型語(yǔ)言模型(LLM)或序列到序列語(yǔ)音識(shí)別模型,這種方法要遠(yuǎn)遠(yuǎn)更為受限。
潛在的性別偏見(jiàn)情況分析。在 FLEURS 基準(zhǔn)上,這個(gè)在超多語(yǔ)言語(yǔ)音(MMS)數(shù)據(jù)集上訓(xùn)練的自動(dòng)語(yǔ)音識(shí)別模型在男聲和女聲上的錯(cuò)誤率是差不多的。
為了提升數(shù)據(jù)質(zhì)量,使之能被機(jī)器學(xué)習(xí)算法使用,他們還采用了一些預(yù)處理方法。首先,他們?cè)诂F(xiàn)有的 100 多種語(yǔ)言的數(shù)據(jù)上訓(xùn)練了一個(gè)對(duì)齊模型,然后再搭配使用了一個(gè)高效的強(qiáng)制對(duì)齊算法,該算法可處理 20 分鐘以上的超長(zhǎng)錄音。之后,經(jīng)過(guò)多輪對(duì)齊過(guò)程,最終再執(zhí)行一步交叉驗(yàn)證過(guò)濾,基于模型準(zhǔn)確度移除可能未對(duì)齊的數(shù)據(jù)。為了方便其他研究者創(chuàng)建新的語(yǔ)音數(shù)據(jù)集,Meta 將該對(duì)齊算法添加到了 PyTorch 并放出了該對(duì)齊模型。
要訓(xùn)練出普遍可用的監(jiān)督式語(yǔ)音識(shí)別模型,每種語(yǔ)言僅有 32 小時(shí)的數(shù)據(jù)可不夠。因此,他們的模型是基于 wav2vec 2.0 開(kāi)發(fā)的,這是他們之前在自監(jiān)督語(yǔ)音表征學(xué)習(xí)上的研究成果,能極大減少訓(xùn)練所需的有標(biāo)注數(shù)據(jù)量。具體來(lái)說(shuō),研究者使用 1400 多種語(yǔ)言的大約 50 萬(wàn)小時(shí)語(yǔ)音數(shù)據(jù)訓(xùn)練了一個(gè)自監(jiān)督模型 —— 這個(gè)語(yǔ)言數(shù)量已經(jīng)超過(guò)之前任何研究的五倍以上了。然后,基于具體的語(yǔ)音任務(wù)(比如多語(yǔ)言語(yǔ)音識(shí)別或語(yǔ)言辨識(shí)),研究者再對(duì)所得模型進(jìn)行微調(diào)。
結(jié)果
研究者在一些已有基準(zhǔn)上評(píng)估了新開(kāi)發(fā)的模型。
其多語(yǔ)言語(yǔ)音識(shí)別模型的訓(xùn)練使用了含 10 億參數(shù)的 wav2vec 2.0 模型,訓(xùn)練數(shù)據(jù)集包含 1100 多種語(yǔ)言。隨著語(yǔ)言數(shù)量增加,模型性能確實(shí)會(huì)下降,但下降幅度非常?。寒?dāng)語(yǔ)言數(shù)量從 61 種增加到 1107 種時(shí),字符錯(cuò)誤率僅上升了 0.4%,但語(yǔ)言覆蓋范圍卻增加了 18 倍以上。
在 61 種 FLEURS 語(yǔ)言的基準(zhǔn)測(cè)試上,隨語(yǔ)言數(shù)量增長(zhǎng)的字符錯(cuò)誤率變化情況,錯(cuò)誤率越高,模型越差。
通過(guò)對(duì)比 OpenAI 的 Whisper 模型,研究者發(fā)現(xiàn)他們的模型的詞錯(cuò)誤率僅有 Whisper 的一半,而同時(shí)新模型支持的語(yǔ)言數(shù)量還多 11 倍。這個(gè)結(jié)果足以表明新方法的卓越能力。
在可直接比較的 54 種 FLEURS 語(yǔ)言的基準(zhǔn)測(cè)試上,OpenAI Whisper 與 MMS 的詞錯(cuò)誤率對(duì)比。
接下來(lái),使用之前已有的數(shù)據(jù)集(如 FLEURS 和 CommonVoice)和新數(shù)據(jù)集,Meta 的研究者還訓(xùn)練了一個(gè)語(yǔ)言辨識(shí)(LID)模型,并在 FLEURS LID 任務(wù)上進(jìn)行了評(píng)估。結(jié)果表明,新模型不僅表現(xiàn)很棒,而且支持的語(yǔ)言數(shù)量也增加了 40 倍。
之前的研究在 VoxLingua-107 基準(zhǔn)上也僅支持 100 多種語(yǔ)言,而 MMS 支持超過(guò) 4000 種語(yǔ)言。
另外 Meta 還構(gòu)建了一個(gè)支持 1100 種語(yǔ)言的文本轉(zhuǎn)語(yǔ)音系統(tǒng)。當(dāng)前文本轉(zhuǎn)語(yǔ)音模型的訓(xùn)練數(shù)據(jù)通常是來(lái)自單個(gè)說(shuō)話人的語(yǔ)音語(yǔ)料。MMS 數(shù)據(jù)的一個(gè)局限性是許多語(yǔ)言都只有少量說(shuō)話人,甚至往往只有一個(gè)說(shuō)話人。但是,在構(gòu)建文本轉(zhuǎn)語(yǔ)音系統(tǒng)時(shí),這卻成了一個(gè)優(yōu)勢(shì),于是 Meta 就順便造了一個(gè)支持 1100 多種語(yǔ)言的 TTS 系統(tǒng)。研究者表示,這些系統(tǒng)生成的語(yǔ)音質(zhì)量其實(shí)相當(dāng)好,下面給出了幾個(gè)例子。
約魯巴語(yǔ)、伊洛科語(yǔ)和邁蒂利語(yǔ)的 MMS 文本轉(zhuǎn)語(yǔ)音模型演示。
盡管如此,研究者表示 AI 技術(shù)都仍不完美,MMS 也是如此。舉個(gè)例子,MMS 在語(yǔ)音轉(zhuǎn)文本時(shí)可能錯(cuò)誤轉(zhuǎn)錄選定的詞或短語(yǔ)。這可能導(dǎo)致輸出結(jié)果中出現(xiàn)冒犯性和 / 或不準(zhǔn)確的語(yǔ)言。研究者強(qiáng)調(diào)了與 AI 社區(qū)合作共同進(jìn)行負(fù)責(zé)任開(kāi)發(fā)的重要性。
用單個(gè)模型支持千言萬(wàn)語(yǔ)的價(jià)值
世界上有許多語(yǔ)言瀕臨滅絕,而當(dāng)前的語(yǔ)音識(shí)別和語(yǔ)音生成技術(shù)的局限性只會(huì)進(jìn)一步加速這一趨勢(shì)。研究者在博客中設(shè)想:也許技術(shù)能鼓勵(lì)人們留存自己的語(yǔ)言,因?yàn)橛辛撕玫募夹g(shù)后,他們完全可以使用自己喜歡的語(yǔ)言來(lái)獲取信息和使用技術(shù)。
他們相信 MMS 項(xiàng)目是朝這個(gè)方向邁出的重要一步。他們還表示這個(gè)項(xiàng)目還將繼續(xù)開(kāi)發(fā),未來(lái)還將支持更多語(yǔ)言,甚至還會(huì)解決方言和口音的難題。