Meta NLLB團(tuán)隊(duì):將神經(jīng)機(jī)器翻譯擴(kuò)展到200種語言,問鼎Nature! 原創(chuàng)
神經(jīng)技術(shù)的發(fā)展為機(jī)器翻譯的研究開辟了新的途徑。如今,神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)可以利用高度多語言能力,甚至進(jìn)行零翻譯,提供了有希望的語言覆蓋和質(zhì)量結(jié)果。然而,擴(kuò)展高質(zhì)量的NMT需要大量平行雙語數(shù)據(jù),而這些數(shù)據(jù)對世界上7000多種語言并不平等地可用。將重點(diǎn)放在改進(jìn)相對較少數(shù)量的高資源語言的翻譯質(zhì)量上,將導(dǎo)致研究關(guān)注低資源語言的不足,從而加劇了數(shù)字不平等。為了打破這一模式,研究人員在這里介紹了No Language Left Behind——一個(gè)利用跨語言轉(zhuǎn)移學(xué)習(xí)的單一大規(guī)模多語言模型。研究人員開發(fā)了一個(gè)基于稀疏門專家混合架構(gòu)的條件計(jì)算模型,該架構(gòu)是基于針對低資源語言量身定制的新挖掘技術(shù)獲得的數(shù)據(jù)進(jìn)行訓(xùn)練的。此外,團(tuán)隊(duì)設(shè)計(jì)了多種架構(gòu)和訓(xùn)練改進(jìn)方法,以抵消在數(shù)千個(gè)任務(wù)上進(jìn)行訓(xùn)練時(shí)的過擬合。使用專門為此目的創(chuàng)建的工具評估了該模型在40,000個(gè)翻譯方向上的性能——一個(gè)自動基準(zhǔn)(FLORES-200),一個(gè)人工評估指標(biāo)(XSTS)和一個(gè)涵蓋模型中每種語言的毒性檢測器。與以前的最先進(jìn)模型相比,該模型在BLEU度量下平均達(dá)到了44%的翻譯質(zhì)量改進(jìn)。通過展示如何將NMT擴(kuò)展到200種語言,并且將此工作中的所有貢獻(xiàn)免費(fèi)提供給非商業(yè)用戶使用,該工作為通用翻譯系統(tǒng)的發(fā)展奠定了重要的基礎(chǔ)。
最近,神經(jīng)機(jī)器翻譯(NMT)的出現(xiàn)推動了翻譯技術(shù)的發(fā)展,但其好處并不均衡分布。絕大多數(shù)改進(jìn)主要受益于高資源語言,許多低資源語言被落下了。為了研究目的,研究人員將高資源語言定義為至少具有100萬句對齊文本數(shù)據(jù)(或雙語文本)的語言。這種差距主要可以歸因于數(shù)據(jù)缺口:NMT模型通常需要大量數(shù)據(jù)才能產(chǎn)生高質(zhì)量的翻譯,而這些數(shù)據(jù)在低資源語言中并不可用。"無語言被遺忘"(NLLB-200)項(xiàng)目旨在通過利用以前未知的方法構(gòu)建具有跨語言轉(zhuǎn)移能力的大規(guī)模多語言模型,使相關(guān)語言能夠相互學(xué)習(xí),從而克服這一限制。
目前已廣泛認(rèn)可,多語言模型相比雙語模型表現(xiàn)出有希望的性能改進(jìn)。然而,一個(gè)問題仍然存在,即大規(guī)模多語言模型是否能夠在不損害質(zhì)量的情況下表示數(shù)百種語言。結(jié)果表明,在機(jī)器翻譯中增加支持的語言數(shù)量并保持輸出質(zhì)量并不是互相排斥的努力。最終模型包括200種語言,低資源語言數(shù)量是高資源語言數(shù)量的三倍,平均性能比之前的最先進(jìn)系統(tǒng)提高了44%。本文介紹了實(shí)現(xiàn)這一目標(biāo)所使用的一些最重要的數(shù)據(jù)收集、建模和評估技術(shù)。
首先,與高資源語言相比,低資源語言的訓(xùn)練數(shù)據(jù)在成本和物流方面都具有挑戰(zhàn)性。公開可用的數(shù)字資源或者數(shù)量有限,或者對于自動化系統(tǒng)來說難以檢測(尤其是在大型公共網(wǎng)絡(luò)數(shù)據(jù)集,如CommonCrawl中)。無論是否需要收集關(guān)鍵質(zhì)量的人工翻譯種子數(shù)據(jù),足夠的數(shù)據(jù)獲取依賴于大規(guī)模數(shù)據(jù)挖掘和單語數(shù)據(jù)流水線。后者的技術(shù)通常受到噪聲和偏差的影響,因此驗(yàn)證它們生成的數(shù)據(jù)集的質(zhì)量是繁瑣的。在NLLB-200中,研究人員展示了一種基于蒸餾的句子編碼技術(shù)LASER3,它有助于有效地挖掘低資源語言的平行數(shù)據(jù)。
其次,在建模方面,研究人員使用一系列的種子、挖掘、開源和回譯數(shù)據(jù)集來訓(xùn)練多語言條件計(jì)算模型(更具體地說,稀疏門控專家混合模型),這些模型可以在相關(guān)語言之間實(shí)現(xiàn)跨語言轉(zhuǎn)移,而不增加無關(guān)語言之間的干擾。研究人員展示了如何在跨語言轉(zhuǎn)移和干擾之間取得最優(yōu)的性能平衡,并提高低資源語言的性能。
最后,為了進(jìn)行質(zhì)量評估,研究人員創(chuàng)建了FLORES-200,這是一個(gè)大規(guī)模多語言基準(zhǔn),可以衡量NLLB-200模型涵蓋的近40,000個(gè)翻譯方向的翻譯質(zhì)量。除了自動評估指標(biāo),還創(chuàng)建了跨語義文本相似度(XSTS)和毒性評估(ETOX)。XSTS是一個(gè)人工評估協(xié)議,可以在不同語言之間提供一致性;ETOX是一個(gè)使用毒性詞匯列表檢測翻譯中添加毒性的工具。
除了創(chuàng)建這些模型,研究人員還反思了NLLB的潛在社會影響。為了增強(qiáng)工作在服務(wù)低資源語言社區(qū)方面的實(shí)際適用性,Meta將在此努力中描述的所有基準(zhǔn)、數(shù)據(jù)、代碼和模型作為資源免費(fèi)提供給非商業(yè)用戶使用,地址如下:
???https://github.com/facebookresearch/fairseq/tree/nllb???
論文地址:https://www.nature.com/articles/s41586-024-07335-x
本文轉(zhuǎn)載自公眾號AIGC最前線
原文鏈接:??https://mp.weixin.qq.com/s/1HLOGEd3MjtS3WPjht1ogw??
