自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大語(yǔ)言模型的 few-shot 或許會(huì)改變機(jī)器翻譯的范式

開(kāi)發(fā)
大語(yǔ)言模型當(dāng)然也影響到了機(jī)器翻譯領(lǐng)域。近一個(gè)月里 arxiv 上掛出了多篇相關(guān)的論文,而去年一年類(lèi)似的工作基本都是在 WMT 比賽后作為參賽報(bào)告提交的。由此也可以窺見(jiàn)大語(yǔ)言模型對(duì)機(jī)器翻譯的沖擊。

近期 NLP 界的大語(yǔ)言模型 (Large LM) 引領(lǐng)了一波研究熱潮 。有關(guān)大語(yǔ)言模型介紹的博文眾多、此處推薦一下 Stanford 為此專(zhuān)門(mén)設(shè)計(jì)的一門(mén)課程(僅開(kāi)源了講義)。

Stanford CS324 - Large Language Modelsstanford-cs324.github.io/winter2022/

大語(yǔ)言模型當(dāng)然也影響到了機(jī)器翻譯領(lǐng)域。近一個(gè)月里 arxiv 上掛出了多篇相關(guān)的論文,而去年一年類(lèi)似的工作基本都是在 WMT 比賽后作為參賽報(bào)告提交的。由此也可以窺見(jiàn)大語(yǔ)言模型對(duì)機(jī)器翻譯的沖擊。

這幾篇論文展示的一些結(jié)果很有啟發(fā),尤其是本次 Google 發(fā)表的論文很有在未來(lái)改變機(jī)器翻譯訓(xùn)練范式的潛質(zhì)——盡管筆者認(rèn)為論文的實(shí)驗(yàn)分析存在一些瑕疵,我也贊同論文標(biāo)題對(duì)他們?cè)?few-shot 機(jī)器翻譯上效果的形容:unreasonable。

接下來(lái)筆者將針對(duì)論文進(jìn)行簡(jiǎn)單介紹及評(píng)價(jià)。

The unreasonable effectiveness of few-shot learning for machine translation

機(jī)構(gòu):Google AI

鏈接:https://arxiv.org/pdf/2302.01398.pdf

本文的效果非常驚艷。作者聲稱(chēng)只使用 decoder-only 的模型(類(lèi)似PaLM) [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html] 、中量級(jí)的單語(yǔ)數(shù)據(jù)做訓(xùn)練,再在infer時(shí)加上五組雙語(yǔ)對(duì),就能讓 few-shot 機(jī)器翻譯的結(jié)果追平甚至超過(guò) WMT’21 競(jìng)賽的優(yōu)勝模型。

訓(xùn)練方法

作者使用了深度為 32 層、寬度為 4096 hidden+16384 的 FFW 大型 decoder-only Transformer 就在 100M 級(jí)別的單語(yǔ)語(yǔ)料上進(jìn)行訓(xùn)練、模型參數(shù)量在 8B 左右。各語(yǔ)種的數(shù)據(jù)量見(jiàn)下表

圖片

作者使用的單語(yǔ)語(yǔ)料數(shù)量級(jí)并不算大

由于采用了decoder-only的架構(gòu),作者使用了UL2的訓(xùn)練方法[https://arxiv.org/abs/2205.05131]。簡(jiǎn)言之,這種方法和 BERT 的 mask recover 自監(jiān)督預(yù)訓(xùn)練很相似,只是添加了更多種類(lèi)的噪音,并要求模型恢復(fù)被加噪音的token。

在 infer 階段,作者給定了如下的 prompt 模板來(lái)讓模型生成翻譯結(jié)果,其中是從 dev set 中隨機(jī)挑選的 5 個(gè)雙語(yǔ)句子。還需要提及的是 MBR[https://arxiv.org/abs/2111.09388] 作為解碼搜索算法而非 beam search。

圖片

prompt 模板中規(guī)中矩

如此簡(jiǎn)單的步驟就完成了模型訓(xùn)練和 infer 的設(shè)置。

實(shí)驗(yàn)效果

作者主要是和 WMT‘21 的前三模型以及自家的 LM 大模型 PaLM 做對(duì)比,所用的指標(biāo)主要是自家的 BLEURT。

下表為大語(yǔ)種翻譯的效果。一個(gè)有趣的點(diǎn)是三語(yǔ)訓(xùn)練的模型效果甚至比雙語(yǔ)的還要好——這一點(diǎn)其實(shí)和以往多語(yǔ)言訓(xùn)練的經(jīng)驗(yàn)有些不同(語(yǔ)種越多、大語(yǔ)種的效果往往越差)。

圖片

兩個(gè)大語(yǔ)種的翻譯上,作者的模型追平或超過(guò)了往期冠軍、甚至戰(zhàn)勝了自家的 Google Translate 在線(xiàn)服務(wù)。

下表為小語(yǔ)種冰島語(yǔ)的翻譯效果。因?yàn)楸鶏u語(yǔ)較少,作者實(shí)際上是先在英、德單語(yǔ)上預(yù)訓(xùn)練,再在冰島語(yǔ)單語(yǔ)上訓(xùn)練的(作者聲稱(chēng)這種方法并不影響最終效果、只是為了訓(xùn)練啟動(dòng)更快)。有趣的一點(diǎn)是同為大模型的 PaLM 在小語(yǔ)種上效果很差,而本文的方法反而不錯(cuò)。

圖片

小語(yǔ)種的翻譯上不及往期冠軍,但遠(yuǎn)超自家的大語(yǔ)言模型、比肩 Google Translate

此外論文還秀了一些術(shù)語(yǔ)翻譯、風(fēng)格化翻譯的效果。這里僅介紹一個(gè)實(shí)驗(yàn):作者使用了 IWSLT’22 的相關(guān)任務(wù)數(shù)據(jù)集(口語(yǔ)化翻譯和書(shū)面語(yǔ)化翻譯)。prompt 模板中填入的 dev set 被證實(shí)可以很好地控制翻譯風(fēng)格:

圖片

UMD 是當(dāng)期冠軍。作者的 few-shot 展示了與之匹敵的效果

筆者簡(jiǎn)評(píng)

筆者首先要指出的是,論文的評(píng)測(cè)可能存在一些問(wèn)題, 值得我們謹(jǐn)慎對(duì)待

  • 評(píng)估指標(biāo)的問(wèn)題:作者引用同組內(nèi)的研究
    [https://arxiv.org/abs/2211.09102]
    , 聲稱(chēng) BLEU 這種 n-gram 的指標(biāo)不能良好地衡量大型 LM 生成的結(jié)果,而優(yōu)先使用了 BLEURT。然而,BLEURT 也有許多缺陷:一是 BLEURT 比較對(duì)翻譯流暢度的偏好高于準(zhǔn)確度,而大語(yǔ)言模型擅長(zhǎng)生成好句子、同時(shí) few-shot 模型在翻譯時(shí)經(jīng)常有漏譯的問(wèn)題,作者們選用 BLEURT 有刻意揚(yáng)長(zhǎng)避短的嫌疑;二是 BLEURT 指標(biāo)和本文模型的訓(xùn)練語(yǔ)料都來(lái)自 Google 自家 household 的語(yǔ)料庫(kù),這也許會(huì)造成評(píng)測(cè)上的不準(zhǔn)確(見(jiàn)下文筆者的經(jīng)驗(yàn)談*)。

圖片

作者在附錄中低調(diào)地報(bào)告了 BLEU 結(jié)果,比 SOTA 差 10 個(gè)點(diǎn)左右

  • 數(shù)據(jù)泄漏問(wèn)題: WMT 測(cè)試集的領(lǐng)域非常單一、集中在新聞。在 WMT 比賽中官方發(fā)布的訓(xùn)練集一般是前一年的新聞?wù)Z料,而測(cè)試集是最近發(fā)布的新聞,由此避免數(shù)據(jù)泄漏。而本文用到的是網(wǎng)絡(luò)爬取的語(yǔ)料等,如果其中有和測(cè)試集類(lèi)似的新聞報(bào)道,很有可能模型。盡管作者做了 training set 和 test set 間 token-level 的重疊度分析,但一方面作者用的指標(biāo)相對(duì)寬松、需要有 15 個(gè) token 相同才視為重疊——即便如此重疊度在1%的水平;另一方面,正如作者認(rèn)為 BLEU 這種 token-level 的指標(biāo)不精確一樣,token-level 的重疊度一樣不能很好地衡量領(lǐng)域相似度,詞不相似但領(lǐng)域相似的訓(xùn)練數(shù)據(jù)一樣能帶來(lái)在測(cè)試集上的過(guò)擬合。

圖片

訓(xùn)練集和測(cè)試集的 overlap 衡量。測(cè)試集句子有 15 個(gè) token 與訓(xùn)練集某句相同時(shí),記為一次 overlap

  • Scaling 的問(wèn)題: neural scaling law 及一些大模型的討論工作展示了大語(yǔ)料+大模型能大幅提升 NLP 效果。作為 Google 的研究團(tuán)隊(duì),作者們肯定不缺乏數(shù)據(jù),然而論文只探索了 100M 級(jí)別的訓(xùn)練效果。我們應(yīng)當(dāng)思考,論文的方法在更大數(shù)據(jù)下的性能是否也會(huì)按照 scaling law 那樣增長(zhǎng)?筆者認(rèn)為作者們有做加數(shù)據(jù)的實(shí)驗(yàn),但可能性能的提升效果不如預(yù)期。

*筆者在工作中也經(jīng)常比較各大公司的翻譯效果。在幾家競(jìng)品翻譯人工評(píng)估結(jié)果相似的情況下,BLEURT 最偏好 Google Translate 的結(jié)果,有可能是兩者用了相同的訓(xùn)練數(shù)據(jù)。

*按照之前筆者參與 WMT 比賽的經(jīng)驗(yàn),有一個(gè)常見(jiàn)的競(jìng)賽的 trick 是在往期的 dev set 上做微量精調(diào)[https://aclanthology.org/W19-5341.pdf], 此法可以小幅度提升 BLEU 值( 1-3 BLEU),這是因?yàn)?WMT 對(duì) dev/test set 的譯文風(fēng)格有著較強(qiáng)的一致性控制。筆者按照本文的方法測(cè)量了往期 en-de 的 dev/test set 的 15 token 重合度,都不超過(guò) 0.3%,側(cè)面說(shuō)明作者的 overlap 指標(biāo)有缺陷。此外,德語(yǔ)、冰島語(yǔ)作為屈折語(yǔ),同個(gè)單詞的詞形變化非常地豐富,不清楚作者算 overlap 時(shí)有沒(méi)有對(duì)單詞做 stemming。

但即便論文實(shí)驗(yàn)上有缺陷、行文也多少有些 overclaim,筆者認(rèn)為這篇論文足夠驚艷。

其一,作者的這一套方法幾乎不依賴(lài)雙語(yǔ)數(shù)據(jù)、對(duì)單語(yǔ)數(shù)據(jù)的要求也很少,唯一的門(mén)檻在于模型較大 (8 B)。然而在可見(jiàn)的未來(lái),大語(yǔ)言模型作為大勢(shì)所趨,這個(gè)量級(jí)的模型的部署和訓(xùn)練也會(huì)越來(lái)越容易、也會(huì)有更多類(lèi)似 BLOOM 的開(kāi)源。即便作者的方法不能完全打敗傳統(tǒng)雙語(yǔ)訓(xùn)練的模型,也極大地降低了機(jī)器翻譯模型的門(mén)檻,尤其是數(shù)據(jù)門(mén)檻。

其二,作者的方法對(duì)于小語(yǔ)種翻譯模型的訓(xùn)練范式(尤其是無(wú)監(jiān)督機(jī)器翻譯)可以說(shuō)是降維打擊。

其三,則是告訴我們大規(guī)模語(yǔ)言模型還有很多神奇性質(zhì)。之前的 seq2seq 范式下,單語(yǔ) pretrain +雙語(yǔ) few-shot 的效果并不好,很多時(shí)候得要用 Back-translation 等才能達(dá)到合格的水平。而本文通過(guò)把模型加大就直接解決了該類(lèi)問(wèn)題。Large LM 的潛力比我們預(yù)想的強(qiáng)。

此外還有一小點(diǎn):風(fēng)格化翻譯、術(shù)語(yǔ)翻譯、特定領(lǐng)域是上一代機(jī)器翻譯沒(méi)有很好解決的問(wèn)題,本篇論文給了一些 prompt 上的經(jīng)驗(yàn)參考,可以說(shuō)是給了一種低開(kāi)銷(xiāo)的 prompt 方案(考慮到近期 NLP 社區(qū)也都在用 prompt 和 context learning 的方法來(lái)做這些任務(wù)了,沒(méi)有這篇論文,這類(lèi)問(wèn)題的技術(shù)路徑也是大體確定的)

責(zé)任編輯:龐桂玉 來(lái)源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2021-05-27 08:38:47

機(jī)器學(xué)習(xí)Few-shot Le深度學(xué)習(xí)

2020-10-11 22:05:22

機(jī)器翻譯谷歌AI

2019-10-25 16:18:34

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2020-10-27 14:34:42

算法MIT機(jī)器翻譯

2018-07-10 15:46:57

機(jī)器翻譯語(yǔ)言翻譯

2020-04-27 10:37:53

機(jī)器翻譯腦機(jī)接口腦波

2021-10-13 18:59:42

AI

2021-10-28 17:52:51

機(jī)器翻譯人工智能AI

2012-02-09 09:49:48

2023-05-10 15:49:10

NLP語(yǔ)言模型

2022-05-26 15:00:36

翻譯模型谷歌

2024-06-13 09:05:36

2021-10-21 13:13:57

數(shù)字化

2017-08-21 16:00:14

機(jī)器學(xué)習(xí)機(jī)器翻譯

2017-03-22 12:39:33

人工智能機(jī)器翻譯

2017-10-15 21:43:36

2017-01-16 19:27:40

視覺(jué)人工智能AI

2020-05-19 10:33:31

機(jī)器翻譯GitHubNLP

2021-10-13 18:57:59

AI

2017-08-23 15:26:34

機(jī)器翻譯神經(jīng)網(wǎng)絡(luò)NMT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)