自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無監(jiān)督神經(jīng)機器翻譯:僅需使用單語語料庫

人工智能 機器學(xué)習(xí)
近期神經(jīng)機器翻譯(NMT)在標準基準上取得了很大成功,但是缺乏大型平行語料庫對很多語言對是非常大的問題。有幾個建議可以緩解該問題,比如三角剖分(triangulation)和半監(jiān)督學(xué)習(xí)技術(shù),但它們?nèi)匀恍枰獜姶蟮目缯Z言信號(cross-lingual signal)。本論文中,我們完全未使用平行數(shù)據(jù),提出了用完全無監(jiān)督的方式訓(xùn)練 NMT 系統(tǒng)的新方法,該方法只需使用單語語料庫。

無監(jiān)督神經(jīng)機器翻譯:僅需使用單語語料庫

摘要:近期神經(jīng)機器翻譯(NMT)在標準基準上取得了很大成功,但是缺乏大型平行語料庫對很多語言對是非常大的問題。有幾個建議可以緩解該問題,比如三角剖分(triangulation)和半監(jiān)督學(xué)習(xí)技術(shù),但它們?nèi)匀恍枰獜姶蟮目缯Z言信號(cross-lingual signal)。本論文中,我們完全未使用平行數(shù)據(jù),提出了用完全無監(jiān)督的方式訓(xùn)練 NMT 系統(tǒng)的新方法,該方法只需使用單語語料庫。我們的模型在近期關(guān)于無監(jiān)督嵌入映射的研究基礎(chǔ)上構(gòu)建,包含經(jīng)過少許修改的注意力編碼器-解碼器模型(attentional encoder-decoder model),該模型使用去噪和回譯(backtranslation)結(jié)合的方式在單語語料庫上進行訓(xùn)練。盡管該方法很簡單,但我們的系統(tǒng)在 WMT 2014 法語-英語和德語-英語翻譯中分別取得了 15.56 和 10.21 的 BLEU 得分。該模型還可以使用小型平行語料庫,使用 10 萬平行句對時,該模型分別取得了 21.81 和 15.24 的 BLEU 得分。我們的方法在無監(jiān)督 NMT 方面是一個突破,為未來的研究帶來了新的機會。

 

 

圖 1:系統(tǒng)架構(gòu)。

對語言 L1 中的每個句子,該系統(tǒng)都通過兩個步驟進行訓(xùn)練:去噪——利用共享編碼器優(yōu)化對句子帶噪聲版本進行編碼和使用 L1 解碼器重構(gòu)句子的概率;回譯——在推斷模式(inference mode)下翻譯該句子(使用共享編碼器編碼該句子,使用 L2 解碼器進行解碼),然后利用共享編碼器優(yōu)化對譯文句子進行編碼和使用 L1 解碼器恢復(fù)源句子的概率。交替執(zhí)行這兩個步驟對 L1 和 L2 進行訓(xùn)練,對 L2 的訓(xùn)練步驟和 L1 類似。

系統(tǒng)架構(gòu)

如圖 1 所示,我們提出的系統(tǒng)使用比較標準的帶有注意力機制的編碼器-解碼器架構(gòu)(Bahdanau et al., 2014)。具體來說,我們在編碼器中使用一個雙層雙向 RNN,在解碼器中使用另一個雙層 RNN。所有 RNN 使用帶有 600 個隱藏單元的 GRU 單元(Cho et al., 2014),嵌入的維度設(shè)置為 300。關(guān)于注意力機制,我們使用 Luong et al. (2015b) 提出的全局注意力方法,該方法具備常規(guī)對齊功能。但是,我們的系統(tǒng)與標準 NMT 在三個方面存在差異,而正是這些差異使得我們的系統(tǒng)能夠用無監(jiān)督的方式進行訓(xùn)練:

1. 二元結(jié)構(gòu)(Dual structure)。NMT 系統(tǒng)通常為特定的翻譯方向搭建(如法語到英語或英語到法語),而我們利用機器翻譯的二元本質(zhì)(He et al., 2016; Firat et al., 2016a),同時進行雙向翻譯(如法語 ↔ 英語)。

2. 共享編碼器。我們的系統(tǒng)僅使用一個編碼器,該編碼器由兩種語言共享。例如,法語和英語使用同一個編碼器。這一通用編碼器旨在產(chǎn)生輸入文本的語言獨立表征,然后每個解碼器將其轉(zhuǎn)換成對應(yīng)的語言。

3. 編碼器中的固定嵌入。大多數(shù) NMT 系統(tǒng)對嵌入進行隨機初始化,然后在訓(xùn)練過程中對其進行更新,而我們在編碼器中使用預(yù)訓(xùn)練的跨語言嵌入,這些嵌入在訓(xùn)練過程中保持不變。通過這種方式,編碼器獲得語言獨立的詞級表征(word-level representation),編碼器只需學(xué)習(xí)如何合成詞級表征來構(gòu)建較大的詞組表征。如 Section 2.1 中所述,存在多種無監(jiān)督方法利用平行語料庫來訓(xùn)練跨語言嵌入,這在我們的場景中也是可行的。注意:即使嵌入是跨語言的,我們?nèi)匀恍枰褂妹糠N語言各自的詞匯。這樣,同時存在于英語和法語中的單詞 chair(法語意思是「肌肉」)在每種語言中都會獲得一個不同的向量,盡管兩個向量存在于共同的空間中。

無監(jiān)督訓(xùn)練

NMT 系統(tǒng)通常用平行語料庫進行訓(xùn)練,由于我們只有單語語料庫,因此此類監(jiān)督式訓(xùn)練方法在我們的場景中行不通。但是,有了上文提到的架構(gòu),我們能夠使用以下兩種策略用無監(jiān)督的方式訓(xùn)練整個系統(tǒng):

1. 去噪

我們使用共享編碼器,利用機器翻譯的二元結(jié)構(gòu),因此本文提出的系統(tǒng)可以直接訓(xùn)練來重構(gòu)輸入。具體來說,整個系統(tǒng)可以進行優(yōu)化,以使用共享編碼器對給定語言的輸入句子進行編碼,然后使用該語言的解碼器重構(gòu)源句子。鑒于我們在共享編碼器中使用了預(yù)訓(xùn)練的跨語言嵌入,該編碼器學(xué)習(xí)將兩種語言的嵌入合稱為語言獨立的表征,每個解碼器應(yīng)該學(xué)習(xí)將這類表征分解成對應(yīng)的語言。在推斷階段,我們僅用目標語言的解碼器替代源語言的解碼器,這樣系統(tǒng)就可以利用編碼器生成的語言獨立表征生成輸入文本的譯文。

但是,相應(yīng)的訓(xùn)練過程本質(zhì)上是一個瑣碎的復(fù)制任務(wù),這使得上述完美行為大打折扣。該任務(wù)的最佳解決方案不需要捕捉語言的內(nèi)部結(jié)構(gòu),盡管會有很多退化解只會盲目地復(fù)制輸入序列的所有元素。如果確實如此的話,該系統(tǒng)的最好情況也不過是在推斷階段進行逐詞替換。

為了避免出現(xiàn)此類退化解,使編碼器真正學(xué)會將輸入詞語合成為語言獨立的表征,我們提出在輸入句子中引入隨機噪聲。這個想法旨在利用去噪自編碼器(denoising autoencoder)同樣的基本原則(Vincent et al., 2010),即系統(tǒng)被訓(xùn)練用于重構(gòu)帶噪聲輸入句子的原始版本(Hill et al., 2017)。為此,我們通過隨機互換相鄰詞語來改變輸入句子的詞序。具體而言,對于包含 N 個元素的序列,我們進行 N/2 次此類隨機互換操作。這樣,該系統(tǒng)需要學(xué)習(xí)該語言的內(nèi)部結(jié)構(gòu)以恢復(fù)正確的詞序。同時,我們不鼓勵系統(tǒng)過度依賴輸入句子的詞序,這樣我們可以更好地證明跨語言的實際詞序離散。

2. 回譯

盡管存在去噪策略,上述訓(xùn)練步驟仍然是一個復(fù)制任務(wù),其中包含一些合成的改動,最重要的是,每次改動都只涉及一種語言,而非同時考慮翻譯的兩種語言。為了在真正的翻譯環(huán)境中訓(xùn)練新系統(tǒng),而不違反僅使用單語語料庫的限制,研究人員提出引入 Sennrich 等人 2016 年提出的回譯方法。具體說來,這種方法是針對給定語言的一個輸入句,系統(tǒng)使用貪心解碼在推斷模式下將其翻譯成另一種語言(即利用共享編碼器和另一種語言的解碼器)。利用這種方法,研究人員得到了一個偽平行語料庫,然后訓(xùn)練該系統(tǒng)根據(jù)譯文來預(yù)測原文。

 

 

表 1:幾種系統(tǒng)在 newstest2014 上的 BLEU 得分。無監(jiān)督系統(tǒng)利用 News Crawl 單語語料庫進行訓(xùn)練,半監(jiān)督系統(tǒng)利用 News Crawl 單語語料庫和來自 News Commentary 平行語料庫的 10 萬句對進行訓(xùn)練,監(jiān)督學(xué)習(xí)系統(tǒng)(作為對比)使用來自 WMT 2014 的平行語料庫進行訓(xùn)練。其中,Wu et al. 2016 年提出的 GNMT 取得了單模型的最佳 BLEU 得分。

 

 

表 2:本文提出的系統(tǒng)使用 BPE 對 newstest2014 中的部分句子進行法語到英語的翻譯。

結(jié)論

在本論文中,研究人員提出用無監(jiān)督方法訓(xùn)練神經(jīng)機器翻譯系統(tǒng)的新方法。它建立在無監(jiān)督跨語言嵌入的現(xiàn)有工作上(Artetxe 等人,2017;Zhang 等人,2017),并將它們納入修改后的注意力編碼器-解碼器模型中。通過使用帶有固定跨語言嵌入的共享編碼器,結(jié)合去噪和回譯,我們實現(xiàn)了僅利用單語語料庫訓(xùn)練 NMT 系統(tǒng)。

實驗顯示了新方法的有效性,在標準 WMT 2014 法語-英語和德語-英語基準測試中,新方法的 BLEU 得分顯著超過執(zhí)行逐詞替換的基線系統(tǒng)。我們也手動分析并確定了新系統(tǒng)的表現(xiàn),結(jié)果表明它可以建模復(fù)雜的跨語言關(guān)系并生成高質(zhì)量的譯文。此外,實驗還表明新方法結(jié)合一個小型平行語料庫可以進一步提升系統(tǒng)性能,這對于訓(xùn)練數(shù)據(jù)不足的情況非常有用。

新的工作也為未來研究帶來了新的機會,盡管該研究在無監(jiān)督 NMT 方面是一個突破,但仍有很大改進空間。其中,在研究中用于比較的監(jiān)督 NMT 系統(tǒng)不是業(yè)內(nèi)最佳,這意味著新方法帶來的修正同樣也限制了其性能。因此,研究人員接下來將檢查這一線性的原因并嘗試緩解。直接解決它們不太可行,我們希望探索兩個步驟,時序 i 安按照當前方式訓(xùn)練系統(tǒng),然后恢復(fù)主要的架構(gòu)變更,再進行精確調(diào)整。另外,研究人員還將探索將字符級信息納入模型,這可能會有助于解決訓(xùn)練過程中出現(xiàn)的一些充分性問題。同時,如果解決了罕見詞,特別是命名實體的問題,該系統(tǒng)的表現(xiàn)將進一步提升。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2019-10-25 16:18:34

機器學(xué)習(xí)人工智能計算機

2014-11-17 15:51:57

機器翻譯應(yīng)用

2020-10-11 22:05:22

機器翻譯谷歌AI

2017-08-23 15:26:34

機器翻譯神經(jīng)網(wǎng)絡(luò)NMT

2020-11-11 09:00:00

機器學(xué)習(xí)技術(shù)人工智能

2017-08-21 16:00:14

機器學(xué)習(xí)機器翻譯

2017-03-22 12:39:33

人工智能機器翻譯

2018-08-07 14:42:20

機器翻譯

2020-06-02 10:28:17

機器學(xué)習(xí)技術(shù)人工智能

2021-10-13 18:57:59

AI

2021-10-13 18:59:42

AI

2020-02-24 16:17:04

人工智能機器學(xué)習(xí)技術(shù)

2017-10-15 21:43:36

2021-10-28 17:52:51

機器翻譯人工智能AI

2012-02-09 09:49:48

2023-02-28 12:38:22

谷歌數(shù)據(jù)集機器翻譯

2018-07-10 15:46:57

機器翻譯語言翻譯

2020-04-27 10:37:53

機器翻譯腦機接口腦波
點贊
收藏

51CTO技術(shù)棧公眾號