自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

0語料下,如何通過「貼標(biāo)簽」獲得更好的多語言翻譯效果

人工智能
來自火山翻譯團(tuán)隊(duì)的研究者通過研究發(fā)現(xiàn),不同語言標(biāo)簽對多語言 Zero-shot 翻譯的巨大影響,并在數(shù)據(jù)相差很大的三個(gè)不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了不同語言標(biāo)簽對多語言 Zero-shot 翻譯確實(shí)存在巨大影響。

 [[409976]]

現(xiàn)今的多語言翻譯模型,大多是在一個(gè)以英語為中心的數(shù)據(jù)集上訓(xùn)練一個(gè)統(tǒng)一的模型,并通過添加語言標(biāo)簽的方式來告訴模型應(yīng)該翻譯到哪一種語言。這種模型在預(yù)測的時(shí)候能夠直接在一個(gè)非英語的句子上添加另一個(gè)非英語的語言標(biāo)簽來直接翻譯,從而達(dá)到即使在訓(xùn)練時(shí)沒有見過源語言和目標(biāo)語言的情況下,也能實(shí)現(xiàn)模型翻譯,這就是所謂的 zero-shot 多語言翻譯。

添加語言標(biāo)簽的方式有很多種,來自火山翻譯團(tuán)隊(duì)的研究者通過實(shí)驗(yàn)研究發(fā)現(xiàn),雖然不同的語言標(biāo)簽對監(jiān)督方向的效果幾乎沒有影響,但是對 zero-shot 的效果卻有著非常大的影響。這個(gè)現(xiàn)象在多個(gè)數(shù)據(jù)集上得到了驗(yàn)證,其中 IWSLT17 上相差 14.02 個(gè) BLEU,Euporal 上相差 24.24 個(gè) BLEU,TED talks 上相差 8.78 個(gè) BLEU。目前該研究已被 the findings of ACL 2021 接收。

0語料下,如何通過「貼標(biāo)簽」獲得更好的多語言翻譯效果

論文地址:https://arxiv.org/abs/2106.07930

研究背景和動機(jī)

在多語言翻譯中,有許多添加語言標(biāo)簽的方法,并且一般都認(rèn)為不同的語言標(biāo)簽的添加方法對模型的性能沒有影響,然而之前沒有研究者系統(tǒng)性地研究語言標(biāo)簽對翻譯模型是否有影響。這篇文章比較了四種常見的語言標(biāo)簽的添加方法。

0語料下,如何通過「貼標(biāo)簽」獲得更好的多語言翻譯效果

表 1 四種不同的的語言標(biāo)簽

如表 1 所示,這四種方法會將源語言標(biāo)簽和目標(biāo)語言標(biāo)簽按照不同的方法加到源句首或者目標(biāo)句首。

0語料下,如何通過「貼標(biāo)簽」獲得更好的多語言翻譯效果

表 2 數(shù)據(jù)集詳情

如表 2 所示,這篇文章選擇了 IWSLT17,Euporal 和 TED talks 三個(gè)數(shù)據(jù)集,這三個(gè)數(shù)據(jù)集在語言數(shù)量和數(shù)據(jù)集大小上都有比較大的差異。這篇文章在這三個(gè)數(shù)據(jù)集上基于上述四種不同的語言標(biāo)簽訓(xùn)練了配置完全一樣的多語言翻譯模型。

實(shí)驗(yàn)結(jié)果

0語料下,如何通過「貼標(biāo)簽」獲得更好的多語言翻譯效果

表 3 實(shí)驗(yàn)結(jié)果

如表 3 所示,可以看到:

1. 對于不同的語言標(biāo)簽,不同的數(shù)據(jù)集,在有監(jiān)督的方向上,模型的表現(xiàn)基本一致。

2. 在 Zero-shot 方向上:

a. 不同的語言標(biāo)簽對模型的性能有著很大的影響,并且,T-ENC 的表現(xiàn)在三種數(shù)據(jù)集上一致地超過了其他三種標(biāo)簽:在 IWSLT17 上超過了 14.02 個(gè) BLEU,在 Euporal 上超過了 24.24 個(gè) BLEU,在 TED talks 上超過了 8.78 個(gè) BLEU。

b. 不同語言標(biāo)簽導(dǎo)致的 off-target 的比例也不相同(off-target 是指翻譯到語言 X 時(shí),卻翻譯成另一個(gè)語言的情況),基本上 T-ENC 的 off-target 的比例都要比別的小,這一點(diǎn)和模型在 zero-shot 上的性能基本一致。

分析

那么是什么原因?qū)е铝诉@種現(xiàn)象?這篇文章試圖從三個(gè)方面解釋這個(gè)現(xiàn)象并在 TED 數(shù)據(jù)集上做了實(shí)驗(yàn):

1. 在目標(biāo)語言相同的情況下,語言標(biāo)簽的添加方式是否影響了不同語言的句子經(jīng)過 Encoder 之后的表示的一致性?

2. T-ENC 可以獲得相對于其他方法更小的 off-target 比例,是不是由于在預(yù)測的時(shí)候,它的 attention 注意力機(jī)制能夠更好地注意到語言標(biāo)簽?

3. 意思相同的不同語言的句子,在翻譯模型的每一層的相似性如何?

Encoder 的表示的一致性

0語料下,如何通過「貼標(biāo)簽」獲得更好的多語言翻譯效果

上圖是通過對 Encoder 的輸出使用 t-SNE 降維,之后使用 kde 畫出來的分布圖,展示了不同語言的句子在目標(biāo)語言相同的情況下的分布,可以發(fā)現(xiàn) T-ENC 不同語言之間的 Encoder 表示分布更加一致。這表明,T-ENC 能夠幫助模型學(xué)習(xí)到語言無關(guān)的 Encoder 表示。

緩解 off-target 的問題

0語料下,如何通過「貼標(biāo)簽」獲得更好的多語言翻譯效果

上圖通過一個(gè) case study 展示了從一個(gè)俄語句子翻譯到意大利語句子時(shí),不同的語言標(biāo)簽下,模型的 attention 對意大利語標(biāo)簽的 “關(guān)注” 程度,顯然使用 T-ENC 時(shí),模型對意大利語標(biāo)簽的關(guān)注程度最高,這可以一定程度上解釋為什么 T-ENC 擁有最小的 off-target 比例。

不同層的相似性

0語料下,如何通過「貼標(biāo)簽」獲得更好的多語言翻譯效果

上圖的子圖 a 展示了,從除了英語和俄語外的 18 個(gè)語言翻譯到俄語的時(shí)候,意思相同的句子在不同語言之間的表示的相似性,可以看到 T-ENC 的相似性曲線一直在其他的語言標(biāo)簽之上,這表明在目標(biāo)語言相同的時(shí)候,T-ENC 各層的表示相比于其他的方法都有更好的一致性。

上圖的子圖 b 展示了,從俄語翻譯到除了英語和俄語外的 18 個(gè)語言翻譯的時(shí)候,同一個(gè)俄語句子在不同目標(biāo)語言下的相似性,可以看到 T-ENC 的相似性曲線幾乎一直在其他的語言標(biāo)簽下方,這表明,當(dāng)目標(biāo)語言不同的時(shí)候,T-ENC 能夠更好的生成目標(biāo)語言相關(guān)的表示。

總結(jié)

該研究發(fā)現(xiàn)了不同語言標(biāo)簽對多語言 Zero-shot 翻譯的巨大影響,并在數(shù)據(jù)相差很大的三個(gè)不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了不同語言標(biāo)簽對多語言 Zero-shot 翻譯確實(shí)存在巨大影響,并且表明 T-ENC 在 Zero-shot 上優(yōu)于其他語言標(biāo)簽。同時(shí)該研究還分析了不同語言標(biāo)簽對模型在預(yù)測時(shí)表示的影響,發(fā)現(xiàn) T-ENC 能夠更好地得到與目標(biāo)語言相關(guān)而與源語言無關(guān)的表示:

1. T-ENC 能使不同源語言句子經(jīng)過 Encoder 的表示更一致。

2. T-ENC 的注意力機(jī)制能夠更好的注意到目標(biāo)語言的語言標(biāo)簽。

3. T-ENC 在不同層的表示相對于其他方法與目標(biāo)語言的相關(guān)性更強(qiáng)。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2022-08-09 07:22:15

語言數(shù)據(jù)庫程序

2014-04-16 14:50:20

Spark

2010-11-19 09:25:06

to_dataOracle

2012-04-19 11:40:21

Titanium

2011-08-05 17:54:33

Cocoa Touch 多語言

2009-08-25 10:44:50

C#實(shí)現(xiàn)多語言

2014-07-09 09:20:06

WPFWPF應(yīng)用

2024-05-09 08:14:09

系統(tǒng)設(shè)計(jì)語言多語言

2024-09-29 13:10:08

2019-08-22 10:20:41

Ubuntu設(shè)置語言

2023-08-04 10:18:15

2021-09-07 10:17:35

iOS多語言適配設(shè)計(jì)

2021-06-29 21:48:32

開源語言架構(gòu)

2009-08-03 17:33:01

ASP.NET多語言支

2009-07-17 10:02:29

WPF程序多語言支持

2021-07-24 11:41:42

前端開發(fā)技術(shù)

2016-12-14 16:09:49

微軟多語言翻譯

2020-04-14 09:50:02

2019-12-05 16:00:15

Vim插件編程文本編輯器

2009-08-31 17:13:09

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號