自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

對(duì)比對(duì)齊模型:神經(jīng)機(jī)器翻譯中的注意力到底在注意什么

開(kāi)發(fā) 開(kāi)發(fā)工具
神經(jīng)機(jī)器翻譯近來(lái)廣受關(guān)注,基于注意力的NMT逐漸流行。但是,很少有研究分析注意力到底在「注意」什么?它與對(duì)齊一樣嗎?本文將對(duì)此進(jìn)行分析。

神經(jīng)機(jī)器翻譯(NMT)近期備受關(guān)注,它極大地改進(jìn)了多種語(yǔ)言的機(jī)器翻譯質(zhì)量,取得了頂級(jí)的結(jié)果。神經(jīng)機(jī)器翻譯模型的核心架構(gòu)基于常見(jiàn)的編譯器-解碼器方法,學(xué)習(xí)把源語(yǔ)言編碼成分布式表征,并把這些表征解碼成目標(biāo)語(yǔ)言。在不同的神經(jīng)機(jī)器翻譯模型中,基于注意力的 NMT 逐漸流行,因?yàn)樗诿恳环g步使用源句最相關(guān)的部分。這一能力使得注意力模型在翻譯長(zhǎng)句時(shí)極為優(yōu)秀。

從 2015 年 Bahdanau 等人的論文將注意力模型引入神經(jīng)機(jī)器翻譯以來(lái),出現(xiàn)了各種變體。然而,少有研究分析「attention」到底捕捉到了什么現(xiàn)象。有一些研究認(rèn)為 attention 與傳統(tǒng)的詞對(duì)齊類似,一些方法也嘗試使用傳統(tǒng)的詞對(duì)齊來(lái)訓(xùn)練注意力模型,實(shí)驗(yàn)結(jié)果表明注意力模型也可被視為重排序模型(reordering model)和對(duì)齊模型(alignment model)。

但在此論文中,作者調(diào)查了注意力模型和對(duì)齊模型之間的區(qū)別,以及注意力機(jī)制到底捕捉到了什么。論文旨在解答兩個(gè)問(wèn)題:注意力模型只能做對(duì)齊嗎?在不同的句法現(xiàn)象中注意力與對(duì)齊的類似程度有多大?

該論文的貢獻(xiàn)有:

  • 提供了 NMT 中的注意力機(jī)制與詞對(duì)齊的詳細(xì)對(duì)比。
  • 雖然不同的注意力機(jī)制會(huì)與詞對(duì)齊有不同程度的符合度,但完全符合對(duì)詞預(yù)測(cè)而言不總是有利的。
  • 研究表明根據(jù)生成的詞類型,注意力也會(huì)有不同的模式。
  • 研究證明注意力并不總是符合對(duì)齊機(jī)制。研究表明注意力與對(duì)齊的區(qū)別源于注意力模型關(guān)注當(dāng)前要翻譯詞的上下文,這會(huì)影響當(dāng)前詞的翻譯結(jié)果。

論文:What does Attention in Neural Machine Translation Pay Attention to?

論文:What does Attention in Neural Machine Translation Pay Attention to?

論文鏈接:https://arxiv.org/pdf/1710.03348.pdf

摘要:神經(jīng)機(jī)器翻譯的注意力機(jī)制提供了在每一個(gè)翻譯步中編碼源句最相關(guān)部分的可能性,因此注意力機(jī)制通常被當(dāng)做對(duì)齊模型。然而,目前并沒(méi)有論文專門(mén)研究注意力機(jī)制,分析注意力模型究竟學(xué)到了什么。所以,關(guān)于注意力機(jī)制和傳統(tǒng)對(duì)齊模型的相似性和區(qū)別的問(wèn)題仍然沒(méi)有答案。在這篇論文中,我們對(duì)注意力機(jī)制進(jìn)行了詳細(xì)分析,并和傳統(tǒng)的對(duì)齊模型作了比較。對(duì)于注意力機(jī)制只能做詞對(duì)齊,還是能捕捉更多信息,我們給出了解答。我們的研究表明,對(duì)于某些案例,注意力機(jī)制和對(duì)齊模型是不同的,注意力能夠捕捉到更多有用的信息。

翻譯樣本中每一個(gè)生成詞的源句子最相關(guān)部分的注意力可視化。我們可以看到在「would」和「like」的例子中,注意力是如何在多個(gè)源詞中「彌散」開(kāi)的。

圖 1

圖 1:翻譯樣本中每一個(gè)生成詞的源句子最相關(guān)部分的注意力可視化。我們可以看到在「would」和「like」的例子中,注意力是如何在多個(gè)源詞中「彌散」開(kāi)的。

圖 2

圖 2:注意力和對(duì)齊不一致的例子。帶邊框的單元格展示了 RWTH 數(shù)據(jù)集手工對(duì)齊的結(jié)果(見(jiàn)表 1)。我們可以看到在「will」和「come」的例子中,注意力是如何偏離對(duì)齊點(diǎn)的。

RWTH 德英數(shù)據(jù)集提供的手動(dòng)對(duì)齊統(tǒng)計(jì)數(shù)據(jù)

表 1:RWTH 德英數(shù)據(jù)集提供的手動(dòng)對(duì)齊統(tǒng)計(jì)數(shù)據(jù)。

輸入-饋送系統(tǒng)(input-feeding system)的平均注意力損失和平均詞預(yù)測(cè)損失。

圖 3:輸入-饋送系統(tǒng)(input-feeding system)的平均注意力損失和平均詞預(yù)測(cè)損失。

輸入-饋送模型的詞預(yù)測(cè)損失和注意力損失之間的相關(guān)性

圖 4:輸入-饋送模型的詞預(yù)測(cè)損失和注意力損失之間的相關(guān)性。

輸入-饋送模型的注意力熵(attention entropy)及其與注意力損失之間的相關(guān)性

圖 5:輸入-饋送模型的注意力熵(attention entropy)及其與注意力損失之間的相關(guān)性。

輸入-饋送系統(tǒng)的注意力熵和詞預(yù)測(cè)損失之間的相關(guān)性

圖 6:輸入-饋送系統(tǒng)的注意力熵和詞預(yù)測(cè)損失之間的相關(guān)性。

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2024-06-28 08:04:43

語(yǔ)言模型應(yīng)用

2019-10-25 16:18:34

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2024-12-09 00:00:10

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡(luò)CNN機(jī)器學(xué)習(xí)

2025-02-12 10:17:12

2017-08-09 10:02:12

NMT神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理

2022-03-25 11:29:04

視覺(jué)算法美團(tuán)

2025-02-10 00:00:55

MHAValue向量

2024-09-19 10:07:41

2024-02-19 00:12:00

模型數(shù)據(jù)

2024-10-31 10:00:39

注意力機(jī)制核心組件

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2017-07-07 15:46:38

循環(huán)神經(jīng)網(wǎng)絡(luò)視覺(jué)注意力模擬

2023-05-05 13:11:16

2018-05-03 16:27:29

RNN神經(jīng)網(wǎng)絡(luò)ResNet

2011-07-07 13:12:58

移動(dòng)設(shè)備端設(shè)計(jì)注意力

2024-12-05 16:19:14

2024-06-06 09:18:48

2024-04-03 14:31:08

大型語(yǔ)言模型PytorchGQA
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)