自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”

新聞 人工智能
DeepMind通過(guò)教自動(dòng)編碼器學(xué)會(huì)“自我糾正”,提出了一個(gè)叫做“圣代”(SUNDAE)的非自回歸模型。

[[440946]]

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

 一直以來(lái),自回歸語(yǔ)言模型(Autoregressive model,AR)在文本生成任務(wù)中表現(xiàn)都相當(dāng)出色。

現(xiàn)在,DeepMind通過(guò)教自動(dòng)編碼器學(xué)會(huì)“自我糾正”,提出了一個(gè)叫做“圣代”(SUNDAE)的非自回歸模型。

教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”

它不僅能在WMT’14英德互譯任務(wù)中取得非自回歸模型中的SOTA,還表現(xiàn)出與自回歸模型相當(dāng)?shù)男阅堋?/p>

更厲害的是,還能輕松做到自回歸模型做不到的事兒——文字補(bǔ)全

教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”

要知道,非自回歸模型一直不被看好。

而這個(gè)“圣代”的文字補(bǔ)全功能,也為人類和機(jī)器共同編輯、創(chuàng)作文本提供了新的途徑。

非自回歸語(yǔ)言模型“圣代”

“圣代”全名“逐步展開降噪自動(dòng)編碼器”(Step-unrolled Denoising Autoencoder,SUNDAE),作為一種新的文本生成模型,它不依賴于經(jīng)典的自回歸模型。

與降噪擴(kuò)散技術(shù)(denoising diffusion)類似,“圣代”在訓(xùn)練期間采用展開降噪(unrolled denoising),將一系列token重復(fù)應(yīng)用,從隨機(jī)輸入開始,每次都對(duì)其進(jìn)行改進(jìn),直至收斂。

這就是所謂的“自我糾正”過(guò)程。

教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”

下面用一張圖來(lái)說(shuō)明一下降噪和展開降噪的區(qū)別。

教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”

第一行為原始文本,它被隨機(jī)“污染”(corrupt)后產(chǎn)生新的文本(第二行),其中綠色的token代表“未污染”文本,紅色代表“污染”文本。

這個(gè)中間文本再通過(guò)降噪(從生成模型中采樣),生成底部的又一個(gè)“污染”文本。

標(biāo)準(zhǔn)降噪自動(dòng)編碼器只學(xué)習(xí)從中間文本到頂部文本的映射,逐步展開降噪自動(dòng)編碼器(“圣代”)則會(huì)學(xué)習(xí)從底部到頂部的映射。

而在文本生成期間,網(wǎng)絡(luò)遇到的大多數(shù)文本都并非像上圖中間那樣,而是底部那種,所以展開降噪是非常有用的。

此外,研究人員還提出了一個(gè)簡(jiǎn)單的改進(jìn)算子,它能實(shí)現(xiàn)比降噪擴(kuò)散技術(shù)收斂所需的更少的迭代次數(shù),同時(shí)在自然語(yǔ)言數(shù)據(jù)集上定性地生成更好的樣本。

直白的說(shuō),“圣代”采用的方法讓文本合成的質(zhì)量和速度都變得可控了。

在機(jī)器翻譯和文本生成任務(wù)上表現(xiàn)如何?

下面就來(lái)看看“圣代”的具體表現(xiàn)。

研究人員首先在機(jī)器翻譯基準(zhǔn)上評(píng)估“圣代”。

使用BLEU分?jǐn)?shù)作為衡量標(biāo)準(zhǔn),將“圣代”在WMT’14德英互譯任務(wù)上的翻譯質(zhì)量與自回歸模型(AR)和非AR模型進(jìn)行比較。

結(jié)果發(fā)現(xiàn),在不使用序列級(jí)知識(shí)蒸餾等技術(shù)的情況下,“圣代”的性能幾乎與AR模型相當(dāng),并且打敗了所有非AR模型。

教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”

接著是對(duì)“圣代”在文本生成任務(wù)上的評(píng)估。

研究人員在大型高質(zhì)量公開數(shù)據(jù)集 Colossal Clean Common Crawl (C4) 上訓(xùn)練“圣代”。

模型一共包含335M參數(shù),24層,embedding size為1024 , hidden size為4096 , 以及16 個(gè)attention head,使用bacth size為4096的Adam optimizer訓(xùn)練了多達(dá)40萬(wàn)步。

最終生成的文本如下,未經(jīng)cherry pick

教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”

這10句里面,除了第4,都挺合理。

不過(guò)由于C4數(shù)據(jù)集來(lái)自網(wǎng)絡(luò),所以無(wú)論是訓(xùn)練集還是生成的最終結(jié)果,換行符都挺多。

此外,由于“圣代”模型的非自回歸性,研究人員也測(cè)試了它的文本“修復(fù)”能力

要知道,這對(duì)于只能從左到右按序生成的AR模型來(lái)說(shuō)根本就辦不到。

結(jié)果如下(cherry-pick過(guò)):

  • C4數(shù)據(jù)集
教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”
  • GitHub上的Python程序組成的數(shù)據(jù)集
教自動(dòng)編碼器學(xué)會(huì)「自我糾正」,DeepMind提出語(yǔ)言模型“SUNDAE”

大家覺得這效果如何?語(yǔ)法和邏輯似乎都沒有問(wèn)題。

更多數(shù)據(jù)和內(nèi)容歡迎戳下方鏈接。

論文地址:

https://arxiv.org/abs/2112.06749

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2022-02-14 10:16:29

AI模型編碼

2017-09-24 12:13:52

深度學(xué)習(xí)自動(dòng)編碼器機(jī)器學(xué)習(xí)

2019-05-22 17:34:16

代碼開發(fā)工具

2017-08-16 21:58:05

自動(dòng)編碼器DeepCoder深度學(xué)習(xí)

2017-07-10 13:45:33

自動(dòng)編碼數(shù)據(jù)生成GAN

2025-04-10 06:30:00

2023-10-22 14:21:21

模型LLM數(shù)據(jù)

2022-03-02 13:44:10

3D模型數(shù)據(jù)

2024-09-27 12:20:18

2023-03-28 16:05:01

2023-08-14 08:30:32

2025-04-08 04:20:00

2021-03-29 11:37:50

人工智能深度學(xué)習(xí)

2021-11-02 20:44:47

數(shù)字化

2021-03-22 10:52:13

人工智能深度學(xué)習(xí)自編碼器

2024-03-12 13:33:40

2025-04-10 11:52:55

2012-04-10 16:55:22

PowerSmart編碼器

2012-04-01 16:40:45

編碼器

2025-04-02 07:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)