自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越Softmax瓶頸:一種高秩RNN語言模型

人工智能 深度學(xué)習(xí)
在因式分解(factorization)的基礎(chǔ)上,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的語言模型在多項基準(zhǔn)上都達(dá)到了當(dāng)前最佳的水平。盡管 RNN 作為通用近似器有出色的表達(dá)能力,但點積和 Softmax 的組合是否有能力建模條件概率(會隨語境的變化而發(fā)生巨大的變化),這個問題還沒有得到清楚的解答。
超越Softmax瓶頸:一種高秩RNN語言模型
在因式分解(factorization)的基礎(chǔ)上,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的語言模型在多項基準(zhǔn)上都達(dá)到了當(dāng)前***的水平。盡管 RNN 作為通用近似器有出色的表達(dá)能力,但點積和 Softmax 的組合是否有能力建模條件概率(會隨語境的變化而發(fā)生巨大的變化),這個問題還沒有得到清楚的解答。
 
在這項工作中,我們從矩陣分解的角度研究了前面提到的基于 Softmax 的循環(huán)語言模型的表達(dá)能力。我們表明使用標(biāo)準(zhǔn)公式學(xué)習(xí)基于 Softmax 的循環(huán)語言模型等價于求解矩陣分解問題。更重要的是,因為自然語言高度依賴于語境,所以被分解的矩陣可能是高秩的(high-rank)。這進(jìn)一步表明帶有分布式(輸出)詞嵌入的基于標(biāo)準(zhǔn) Softmax 的語言模型沒有足夠的能力建模自然語言。我們稱之為 Softmax 瓶頸(Softmax bottleneck)。
 
我們提出了一種解決 Softmax 瓶頸的簡單且有效的方法。具體而言,我們將離散隱變量(discrete latent variable)引入了循環(huán)語言模型,并且將 next-token 概率分布形式化為了 Mixture of Softmaxes(MoS)。Mixture of Softmaxes 比 Softmax 和以前的研究考慮的其它替代方法有更好的表達(dá)能力。此外,我們表明 MoS 可以學(xué)習(xí)有更大的歸一化奇異值(normalized singular values)的矩陣,因此比 Softmax 和基于真實世界數(shù)據(jù)集的其它基準(zhǔn)有高得多的秩。
 
我們有兩大貢獻(xiàn)。首先,我們通過將語言建模形式化為矩陣分解問題而確定了 Softmax 瓶頸的存在。第二,我們提出了一種簡單且有效的方法,可以在當(dāng)前***的結(jié)果上實現(xiàn)顯著的提升。

 
論文地址:https://arxiv.org/pdf/1711.03953.pdf
 
摘要:我們將語言建模形式化了矩陣分解問題,并且表明基于 Softmax 的模型(包括大多數(shù)神經(jīng)語言模型)的表達(dá)能力受限于 Softmax 瓶頸。鑒于自然語言高度依賴于語境,這就進(jìn)一步表明使用分布式詞嵌入的 Softmax 實際上沒有足夠的能力來建模自然語言。我們提出了一種解決這一問題的簡單且有效的方法,并且在 Penn Treebank 和 WikiText-2 上分別將當(dāng)前***的困惑度水平改善到了 47.69 和 40.68。
 
在 PTB 和 WT2 上的語言建模結(jié)果分別在表 1 和表 2 中給出。在參數(shù)數(shù)量差不多的情況下,MoS 的表現(xiàn)超越了所有使用了或沒使用動態(tài)評估(dynamic evaluation)的基準(zhǔn),并且在當(dāng)前***的基礎(chǔ)上實現(xiàn)了顯著的提升(困惑度改善了高達(dá) 3.6)。 

 

 
表 1:在 Penn Treebank 的驗證集和測試集上的單個模型困惑度?;鶞?zhǔn)結(jié)果是從 Merity et al. (2017) 和 Krause et al. (2017) 獲得的。† 表示使用了動態(tài)評估。 

 

 
表 2:在 WikiText-2 上的單個模型困惑度?;鶞?zhǔn)結(jié)果是從 Merity et al. (2017) 和 Krause et al. (2017) 獲得的。† 表示使用了動態(tài)評估。
 
為了進(jìn)一步驗證上面所給出的改善確實源自 MoS 結(jié)構(gòu),而不是因為增加了額外的隱藏層或找到了一組特定的超參數(shù),我們在 PTB 和 WT2 上執(zhí)行了 ablation study(是指移除模型和算法的某些功能或結(jié)構(gòu),看它們對該模型和算法的結(jié)果有何影響)。

 

 
表 3:在 Switchboard 上的評估分?jǐn)?shù)。 
 
表 4:在 Penn Treebank 和 WikiText-2 上的 ablation study,沒有使用微調(diào)或動態(tài)評估。
 
我們繪制了歸一化的奇異值的累積百分比,即歸一化的奇異值低于某個閾值的百分比。 

 

 
圖 1:給定 [0,1] 中的一個值,歸一化奇異值的累積百分比。 
責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2015-08-31 09:27:21

語言界面UI

2015-08-03 09:36:01

賽迪翻譯

2010-01-21 16:24:02

C++語言

2012-11-01 13:41:25

編程語言BasicPerl

2010-01-25 15:09:17

C++語言

2023-07-18 18:10:04

2022-03-01 09:58:10

高并發(fā)架構(gòu)開發(fā)

2024-05-24 08:54:18

2023-08-21 08:00:00

人工智能大型語言模型

2018-03-12 13:32:02

編程語言程序員語言

2010-11-04 10:55:24

編程語言

2020-12-23 10:10:23

Pythonweb代碼

2022-06-22 09:44:41

Python文件代碼

2022-07-07 10:33:27

Python姿勢代碼

2020-12-09 10:15:34

Pythonweb代碼

2015-12-18 16:15:55

架構(gòu)新型計算模型

2009-12-15 19:18:39

Ruby源代碼

2020-10-20 09:45:28

Facebook AI翻譯

2025-01-27 13:00:00

2017-01-22 16:35:02

iOSBlockCallback
點贊
收藏

51CTO技術(shù)棧公眾號