自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌為1000+「長(zhǎng)尾」語(yǔ)言創(chuàng)建機(jī)器翻譯系統(tǒng),已支持部分小眾語(yǔ)言

人工智能 新聞
當(dāng)今世界上有 7000 多種語(yǔ)言,其中只有大約 100 種具有機(jī)器翻譯系統(tǒng),那其他語(yǔ)言怎么辦呢?谷歌正在為這些小眾語(yǔ)言創(chuàng)建通用的機(jī)器翻譯系統(tǒng)。

過(guò)去十年,學(xué)術(shù)和商業(yè)機(jī)器翻譯系統(tǒng)(MT)的質(zhì)量已經(jīng)得到了大幅度的提升。這些提升很大程度上得益于機(jī)器學(xué)習(xí)的進(jìn)展和可用的大規(guī)模 web 挖掘數(shù)據(jù)集。同時(shí),深度學(xué)習(xí)(DL)和 E2E 模型的出現(xiàn)、從 web 挖掘得到的大型并行單語(yǔ)言數(shù)據(jù)集、回譯和自訓(xùn)練等數(shù)據(jù)增強(qiáng)方法以及大規(guī)模多語(yǔ)言建模等帶來(lái)了能夠支持超過(guò) 100 種語(yǔ)言的高質(zhì)量機(jī)器翻譯系統(tǒng)。

然而,雖然低資源機(jī)器翻譯出現(xiàn)了巨大進(jìn)展,但已經(jīng)構(gòu)建廣泛可用且通用的機(jī)器翻譯系統(tǒng)的語(yǔ)言被限制在了大約 100 種,顯然它們只是當(dāng)今全世界使用的 7000 多種語(yǔ)言中的一小部分。除了語(yǔ)言數(shù)量受限之外,當(dāng)前機(jī)器翻譯系統(tǒng)所支持的語(yǔ)言的分布也極大地向歐洲語(yǔ)言傾斜。

我們可以看到,盡管人口眾多,但非洲、南亞和東南亞所說(shuō)的語(yǔ)言以及美洲土著語(yǔ)言相關(guān)的服務(wù)卻較少。比如,谷歌翻譯支持弗里西亞語(yǔ)、馬耳他語(yǔ)、冰島語(yǔ)和柯西嘉語(yǔ),以它們?yōu)槟刚Z(yǔ)的人口均少于 100 萬(wàn)。相比之下,谷歌翻譯沒(méi)有提供服務(wù)的比哈爾方言人口約為 5100 萬(wàn)、奧羅莫語(yǔ)人口約為 2400 萬(wàn)、蓋丘亞語(yǔ)人口約為 900 萬(wàn)、提格里尼亞語(yǔ)人口約為 900 萬(wàn)(2022 年)。這些語(yǔ)言被稱為「長(zhǎng)尾」語(yǔ)言,數(shù)據(jù)缺乏需要應(yīng)用一些可以泛化到擁有充足訓(xùn)練數(shù)據(jù)的語(yǔ)言之外的機(jī)器學(xué)習(xí)技術(shù)。

構(gòu)建這些長(zhǎng)尾語(yǔ)言的機(jī)器翻譯系統(tǒng)在很大程度上受到可用數(shù)字化數(shù)據(jù)集和語(yǔ)言識(shí)別(LangID)模型等 NLP 工具缺失的限制。這些對(duì)高資源語(yǔ)言來(lái)說(shuō)卻是無(wú)處不在的。

在近日谷歌一篇論文《Building Machine Translation Systems for the Next Thousand Languages》中,二十幾位研究者展示了他們努力構(gòu)建支持超過(guò) 1000 種語(yǔ)言的實(shí)用機(jī)器翻譯系統(tǒng)的成果。

論文地址:https://arxiv.org/pdf/2205.03983.pdf

具體而言,研究者從以下三個(gè)研究領(lǐng)域描述了他們的成果。

第一,通過(guò)用于語(yǔ)言識(shí)別的半監(jiān)督預(yù)訓(xùn)練以及數(shù)據(jù)驅(qū)動(dòng)的過(guò)濾技術(shù),為 1500 + 語(yǔ)言創(chuàng)建了干凈、web 挖掘的數(shù)據(jù)集。

第二,通過(guò)用于 100 多種高資源語(yǔ)言的、利用監(jiān)督并行數(shù)據(jù)訓(xùn)練的大規(guī)模多語(yǔ)言模型以及適用于其他 1000+ 語(yǔ)言的單語(yǔ)言數(shù)據(jù)集,為服務(wù)水平低下的語(yǔ)言創(chuàng)建了切實(shí)有效的機(jī)器翻譯模型。

第三,研究這些語(yǔ)言的評(píng)估指標(biāo)存在哪些局限,并對(duì)機(jī)器翻譯模型的輸出進(jìn)行定性分析,并重點(diǎn)關(guān)注這類模型的幾種常見的誤差模式。

對(duì)于致力于為當(dāng)前研究不足的語(yǔ)言構(gòu)建機(jī)器翻譯系統(tǒng)的從業(yè)者,研究者希望這項(xiàng)工作可以為他們提供有用的洞見。此外,研究者還希望這項(xiàng)工作可以引領(lǐng)人們聚焦那些彌補(bǔ)數(shù)據(jù)稀疏設(shè)置下大規(guī)模多語(yǔ)言模型弱點(diǎn)的研究方向。

在 5 月 12 日的 I/O 大會(huì)上,谷歌宣布自家的翻譯系統(tǒng)新增了 24 種新的語(yǔ)言,其中包括一些小眾的美洲原住民語(yǔ)言,比如前文提到的比哈爾方言、奧羅莫語(yǔ)、蓋丘亞語(yǔ)和提格里尼亞語(yǔ)。

論文概述

這項(xiàng)工作主要分為四大章節(jié)展開,這里只對(duì)每個(gè)章節(jié)的內(nèi)容進(jìn)行簡(jiǎn)要介紹。

創(chuàng)建一個(gè) 1000-language 的 web 文本數(shù)據(jù)集

本章詳細(xì)介紹了研究者在為 1500 + 語(yǔ)言爬取單語(yǔ)言文本數(shù)據(jù)集的過(guò)程中采用的方法。這些方法重點(diǎn)在于恢復(fù)高精度數(shù)據(jù)(即高比例的干凈、語(yǔ)言內(nèi)文本),因此很大一部分是各種各樣的過(guò)濾方法。

總的來(lái)說(shuō),研究者采用的方法包括如下:

  • 從 LangID 模型中刪除訓(xùn)練數(shù)據(jù)質(zhì)量和 LangID 性能差的語(yǔ)言,并訓(xùn)練一個(gè) 1629-language 的 CLD3 LangID 模型和半監(jiān)督 LangID(SSLID)模型;
  • 按語(yǔ)言在 CLD3 模型中的誤差率進(jìn)行聚類操作;
  • 使用 CLD3 模型執(zhí)行第一輪 web 爬取;
  • 使用文檔一致性過(guò)濾句子;
  • 使用百分比閾值字列表過(guò)濾所有語(yǔ)料庫(kù);
  • 使用半監(jiān)督 LangID(SSLID)過(guò)濾所有語(yǔ)料庫(kù);
  • 使用相對(duì)召回率檢測(cè)異常值語(yǔ)言,并使用詞頻 - 逆文檔頻率(Term-Frequency-Inverse-Internet-Frequency, TF-IIF)進(jìn)行過(guò)濾;
  • 使用 Token-Frequency Anomalousness 分?jǐn)?shù)檢測(cè)異常值語(yǔ)言,并為它們手動(dòng)設(shè)計(jì)過(guò)濾器;
  • 在句子層面對(duì)所有語(yǔ)料庫(kù)進(jìn)行消重操作。

如下為使用 1745-language 的 CLD3 LangID 模型在 web 文本上的文檔一致性得分直方圖。

下表 2 為低資源語(yǔ)言(LRL)完整數(shù)據(jù)集的單語(yǔ)言數(shù)據(jù)、用于訓(xùn)練模型的部分單語(yǔ)言數(shù)據(jù)以及包括高資源語(yǔ)言在內(nèi)的完整訓(xùn)練集的單語(yǔ)言數(shù)據(jù)統(tǒng)計(jì)。

章節(jié)目錄如下:

為長(zhǎng)尾語(yǔ)言構(gòu)建機(jī)器翻譯模型

對(duì)于從 web 挖掘的單語(yǔ)言數(shù)據(jù),下一個(gè)挑戰(zhàn)是從數(shù)量有限的單語(yǔ)言訓(xùn)練數(shù)據(jù)中創(chuàng)建高質(zhì)量的通用機(jī)器翻譯模型。為此,研究者采用了這樣一種實(shí)用方法,即利用所有可用于更高資源語(yǔ)言的并行數(shù)據(jù)來(lái)提升只有單語(yǔ)言數(shù)據(jù)可用的長(zhǎng)尾語(yǔ)言的質(zhì)量。他們將這一設(shè)置稱為「零資源」(zero-resource),這是因?yàn)殚L(zhǎng)尾語(yǔ)言沒(méi)有直接的監(jiān)督。

研究者利用過(guò)去幾年為機(jī)器翻譯開發(fā)的幾種技術(shù)來(lái)提升長(zhǎng)尾語(yǔ)言零資源翻譯的質(zhì)量。這些技術(shù)包括從單語(yǔ)言數(shù)據(jù)中進(jìn)行自監(jiān)督學(xué)習(xí)、大規(guī)模多語(yǔ)言監(jiān)督學(xué)習(xí)、大規(guī)?;刈g和自訓(xùn)練、高容量模型。他們利用這些工具創(chuàng)建了能夠翻譯 1000 + 種語(yǔ)言的機(jī)器翻譯模型,并利用現(xiàn)有覆蓋大約 100 種語(yǔ)言的并行語(yǔ)料庫(kù)和從 web 中構(gòu)建的 1000-language 的單語(yǔ)言數(shù)據(jù)集。

具體地,研究者首先通過(guò)比較 15 億和 60 億參數(shù) Transformers 在零資源翻譯上的性能來(lái)強(qiáng)調(diào)模型容量在高度多語(yǔ)言模型中的重要性(3.2),然后將自監(jiān)督語(yǔ)言的數(shù)量增加到 1000 種,驗(yàn)證了隨著來(lái)自相似語(yǔ)言中更多單語(yǔ)言數(shù)據(jù)變得可用,大多數(shù)長(zhǎng)尾語(yǔ)言的性能也相應(yīng)提高(3.3)。雖然研究者的 1000-language 模型表現(xiàn)出了合理的性能,但為了了解使用方法的優(yōu)點(diǎn)和局限性,他們?nèi)谌肓舜笠?guī)模數(shù)據(jù)增強(qiáng)。

此外,研究者通過(guò)自訓(xùn)練和回譯對(duì)包含大量合成數(shù)據(jù)的 30 種語(yǔ)言的子集上的生成模型進(jìn)行微調(diào)(3.4)。他們進(jìn)一步描述了過(guò)濾合成數(shù)據(jù)的實(shí)用方法以增強(qiáng)這些微調(diào)模型對(duì)幻覺(jué)(hallucinations)和錯(cuò)誤語(yǔ)言翻譯的穩(wěn)健性(3.5)。

研究者還使用序列級(jí)蒸餾將這些模型提煉成更小、更易于推理的架構(gòu),并強(qiáng)調(diào)了教師和學(xué)生模型之間的性能差距(3.6)。

章節(jié)目錄如下:

評(píng)估

為了評(píng)估自己的機(jī)器翻譯模型,研究者首先將英文句子翻譯成了這些語(yǔ)言,為選擇的 38 種長(zhǎng)尾語(yǔ)言構(gòu)建了一個(gè)評(píng)估集(4.1)。他們強(qiáng)調(diào)了 BLEU 在長(zhǎng)尾設(shè)置中的局限性,并使用 CHRF 評(píng)估這些語(yǔ)言(4.2)。

研究者還提出了一個(gè)近似的、基于往返(round-trip)翻譯的無(wú)參考指標(biāo),用來(lái)了解模型在參考集不可用的語(yǔ)言上的質(zhì)量,并報(bào)告了以該指標(biāo)衡量的模型的質(zhì)量(4.3)。他們對(duì)模型在 28 種語(yǔ)言的子集上進(jìn)行人工評(píng)估并報(bào)告了結(jié)果,確認(rèn)可以按照文中描述的方法構(gòu)建有用的機(jī)器翻譯系統(tǒng)(4.4)。

為了了解大規(guī)模多語(yǔ)言零資源模型的弱點(diǎn),研究者在幾種語(yǔ)言上進(jìn)行了定性誤差分析。結(jié)果發(fā)現(xiàn),模型經(jīng)?;煜诜植忌舷嗨频膯卧~和概念,比如「老虎」變成了「小型鱷魚」(4.5)。并且在更低資源的設(shè)置下(4.6),模型翻譯 tokens 的能力在出現(xiàn)頻率降低的 tokens 上下降。

研究者還發(fā)現(xiàn),這些模型通常無(wú)法準(zhǔn)確地翻譯短的或者單個(gè)單詞輸入(4.7)。對(duì)提煉模型的研究結(jié)果表明,所有模型都更有可能放大訓(xùn)練數(shù)據(jù)中存在的偏見或噪聲(4.8)。

章節(jié)目錄如下:

額外的實(shí)驗(yàn)和注釋

研究者對(duì)上述模型進(jìn)行了一些額外的實(shí)驗(yàn),表明它們?cè)谙嗨普Z(yǔ)言之間直接進(jìn)行翻譯通常效果更好,而不使用英語(yǔ)作為支點(diǎn)(5.1),并且它們可以用于不同 scripts 之間的零樣本音譯(5.2)。

他們描述了一種將終端標(biāo)點(diǎn)符號(hào)附加到任何輸入的實(shí)用技巧,稱為「句號(hào)技巧」(period trick),可以用它來(lái)提升翻譯質(zhì)量(5.3)。

此外,研究者還證明了這些模型對(duì)一些而不是所有語(yǔ)言的非標(biāo)準(zhǔn) Unicode 字形使用都是穩(wěn)健的(5.4),并探索了幾種 non-Unicode 字體(5.5)。

章節(jié)目錄如下:

想要了解更多研究細(xì)節(jié),請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2020-10-11 22:05:22

機(jī)器翻譯谷歌AI

2020-10-27 14:34:42

算法MIT機(jī)器翻譯

2020-04-27 10:37:53

機(jī)器翻譯腦機(jī)接口腦波

2020-12-14 09:22:55

AI 數(shù)據(jù)人工智能

2023-02-28 12:38:22

谷歌數(shù)據(jù)集機(jī)器翻譯

2024-02-06 17:57:06

Go語(yǔ)言任務(wù)

2023-03-03 15:32:21

few-shot大語(yǔ)言模型

2017-11-21 11:05:29

谷歌操作系統(tǒng)Swift

2019-10-12 13:36:43

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2020-06-04 09:22:46

谷歌AI翻譯

2014-11-17 15:51:57

機(jī)器翻譯應(yīng)用

2023-05-11 06:59:40

谷歌AI 聊天機(jī)器人

2017-08-21 16:00:14

機(jī)器學(xué)習(xí)機(jī)器翻譯

2017-03-22 12:39:33

人工智能機(jī)器翻譯

2014-06-23 09:49:32

Go語(yǔ)言Android谷歌

2011-09-15 10:26:08

2023-07-28 14:43:33

語(yǔ)言Pony編碼

2022-06-13 08:55:01

aardio項(xiàng)目開發(fā)

2010-03-09 19:27:42

Python翻譯腳本

2017-10-17 14:35:50

谷歌
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)