自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta這篇語(yǔ)言互譯大模型研究,結(jié)果對(duì)比都是「套路」

人工智能 新聞
有人認(rèn)為 Meta AI 在 NLLB 中提出的許多主張是沒(méi)有根據(jù)的,具有誤導(dǎo)性,并且評(píng)估結(jié)果有嚴(yán)重的缺陷。

今年 7 月初,Meta AI 發(fā)布了一個(gè)新的翻譯模型,名為 No Language Left behind (NLLB),我們可以將其直譯為「一個(gè)語(yǔ)言都不能少」。

顧名思義,NLLB 可以支持 200 + 語(yǔ)言之間任意互譯,Meta AI 還把它開(kāi)源了。平時(shí)你都沒(méi)見(jiàn)到的語(yǔ)言如盧干達(dá)語(yǔ)、烏爾都語(yǔ)等它都能翻譯。

圖片

  • 論文地址:https://research.facebook.com/publications/no-language-left-behind/
  • 開(kāi)源地址:https://github.com/facebookresearch/fairseq/tree/nllb

不過(guò),近日這項(xiàng)研究遭到了質(zhì)疑,有人認(rèn)為 Meta AI 在 NLLB 中提出的許多主張是沒(méi)有根據(jù)的,具有誤導(dǎo)性,并且評(píng)估結(jié)果有嚴(yán)重的缺陷。此外,質(zhì)疑者還表示根據(jù) Meta AI 的評(píng)估方法,很容易獲得比他們報(bào)告更高的數(shù)字。

質(zhì)疑者為自然語(yǔ)言處理研究科學(xué)家 Benjamin Marie,他精通翻譯技術(shù)。他質(zhì)疑的內(nèi)容可概括為 Meta AI 將 spBLEU 和 BLEU 放在一起進(jìn)行比較。

圖片

對(duì)于這項(xiàng)質(zhì)疑,有研究者表示:spBLEU 是一個(gè)合理的度量標(biāo)準(zhǔn),前提是文本沒(méi)有空格(泰語(yǔ)等)。但是比較 spBLEU 和 BLEU 絕對(duì)是不正確的。

圖片

網(wǎng)友 Arle Lommel 在回復(fù) Benjamin Marie 時(shí)表示:這是一個(gè)很棒的觀點(diǎn)。這也教會(huì)我,對(duì)于機(jī)器學(xué)習(xí)的研究,要非常謹(jǐn)慎地對(duì)待缺乏證實(shí)的研究。你在這里的發(fā)現(xiàn)確實(shí)表明,當(dāng)人們只引用分?jǐn)?shù)而不控制它們的產(chǎn)生方式時(shí),問(wèn)題會(huì)變得很復(fù)雜。

圖片

論文作者之一 Vedanuj Goswami 表示:「我們 100% 同意作者的觀點(diǎn),即你不能將 BLEU 分?jǐn)?shù)與不同的 tokenizer 比較。但作者的主要論點(diǎn)是,我們論文中的大多數(shù)結(jié)果是不可比較的是不成立的。

在我們的論文中,表 30 和表 31 使用相同的 tokenizer 進(jìn)行 spBLEU 評(píng)估(FLORES-101 spm tokenizer),專門用于可比性。我們不使用 FLORES-200 spm tokenizer。我們?cè)诒?30 的標(biāo)題和第 8.3.1 節(jié)中對(duì)此進(jìn)行了詳細(xì)說(shuō)明。同樣,表 35、36、37、38 都使用可比較的指標(biāo) / tokenizer 進(jìn)行適當(dāng)比較。我們對(duì)論文進(jìn)行了更新

總的來(lái)說(shuō),目前的機(jī)器翻譯評(píng)價(jià)方法還不完善,不同的論文采用了不同的方法。」

圖片

下面我們介紹 Benjamin Marie 質(zhì)疑的具體內(nèi)容:?

評(píng)估方法有缺陷

首先讓我們做一個(gè)簡(jiǎn)單的類比:

Paul 有 25 個(gè)香蕉,Bill 有 30 個(gè)西紅柿。你會(huì)說(shuō) Bill 比 Paul 多 5 個(gè)香蕉嗎?

BLEU 好比香蕉,spBLEU 好比西紅柿。將 Paul 替換為 Previous work,將 Bill 替換為 NLLB。我們現(xiàn)在可以寫下這樣的內(nèi)容:

之前的工作在 25 BLEU 下執(zhí)行,NLLB 在 30 spBLEU 下執(zhí)行。你會(huì)說(shuō) NLLB 比以前的工作好 5 個(gè) BLEU 點(diǎn)嗎?

圖片

有了上面的類比,下面介紹的內(nèi)容可能就會(huì)更容易理解。

此前,Meta AI 發(fā)布了一篇論文,對(duì) NLLB 進(jìn)行了全面解釋和評(píng)估。在論文摘要中,他們聲稱模型相對(duì)于之前 SOTA 方法實(shí)現(xiàn)了 44% 的 BLEU 提升。換句話說(shuō),NLLB 會(huì)比以往研究結(jié)果更好。

關(guān)于 BLEU,在機(jī)器翻譯研究史上很少見(jiàn)到 BLEU 比以前的 SOTA 技術(shù)提高 44%。所以論文中這簡(jiǎn)單的一句話,代表了科學(xué)進(jìn)步。有些媒體直接報(bào)道了這一說(shuō)法,并且沒(méi)有經(jīng)過(guò)進(jìn)一步的驗(yàn)證,就將 Meta AI 定位在語(yǔ)言機(jī)器翻譯的最高點(diǎn)。?

如果 Meta AI 選擇發(fā)布如此大的技術(shù)研究,他們就應(yīng)該提供非??煽康目茖W(xué)證據(jù)。否則,在沒(méi)有任何證據(jù)的情況下,Meta AI 聲稱自己做得比別人好,這只會(huì)破壞其他研究機(jī)構(gòu)已經(jīng)做過(guò)和正在做的非常艱苦的工作。

Marie 為了解釋 NLLB 的錯(cuò)誤問(wèn)題,他嘗試證明 Meta AI 是如何被它自己的結(jié)果誤導(dǎo)的。Marie 使用 NLLB 中的簡(jiǎn)單示例和自己找到的類似示例,證明當(dāng)使用 NLLB 有缺陷的評(píng)估方法時(shí)其實(shí)很容易超越 SOTA 的水平。最后,Marie 指出并具體解釋他們?cè)u(píng)估中的主要錯(cuò)誤。?

Meta AI 將其模型和 20 多個(gè)以前的研究數(shù)據(jù)進(jìn)行比較后得出結(jié)論,NLLB 明顯優(yōu)于以前的研究。為了使如此多的比較具有可行性,他們依賴于機(jī)器翻譯評(píng)估的自動(dòng)評(píng)估指標(biāo),這些指標(biāo)主要是 BLEU 和 spBLEU。?

BLEU 在機(jī)器翻譯中極受歡迎,盡管其存在著缺陷。

例如,我們想用谷歌翻譯將以下來(lái)自 FLORES101 的數(shù)據(jù)集的法語(yǔ)文本翻譯成英語(yǔ)。如果你會(huì)說(shuō)法語(yǔ),你會(huì)注意到,這是一個(gè)質(zhì)量很差的翻譯:語(yǔ)法錯(cuò)誤、術(shù)語(yǔ)不一致、讀起來(lái)不自然。事實(shí)上,由于數(shù)據(jù)集是從英語(yǔ)創(chuàng)建的,因此 Meta AI 在翻譯成英語(yǔ)時(shí)只評(píng)估機(jī)器翻譯。

圖片

我們可以通過(guò)計(jì)算谷歌翻譯中有多少 token 也在這個(gè)參考翻譯中,將其與參考翻譯進(jìn)行比較。在這里定義一個(gè) token 是由一個(gè)空格分隔的字符序列。橘色突出顯示了上面谷歌翻譯中出現(xiàn)在下面參考翻譯中的所有 token 序列。

圖片

僅考慮到所有匹配的 token,可以計(jì)算出 BLEU 分?jǐn)?shù)為 50.8 BLEU。僅僅這個(gè)分?jǐn)?shù)是沒(méi)有任何意義,只有與另一個(gè) BLEU 分?jǐn)?shù)相比,它才有意義。

這里需要理解的關(guān)鍵點(diǎn)是,分?jǐn)?shù)是基于 token 計(jì)算的,這在大多數(shù)機(jī)器翻譯研究中會(huì)被忽視。使用 SacreBLEU 計(jì)算 BLEU 分?jǐn)?shù),SacreBLEU 執(zhí)行自己的內(nèi)部 tokenization,基本上只在標(biāo)點(diǎn)符號(hào)之前添加空格。這是計(jì)算 BLEU 分?jǐn)?shù)最可靠和可重復(fù)的方法之一。而 Meta AI 使用的是 spBLEU。

那么 spBLEU 是什么?它是 BLEU,但使用了不同的 tokenization。它將谷歌翻譯和參考翻譯的 token 化如下。

圖片

與 spBLEU 相關(guān)的 token 通過(guò)將單詞分解成更小的片段來(lái)生成 token(附加到 token 的▁ 在這里并不重要,請(qǐng)嘗試忽略它)。使用 spBLEU token 化的直接后果是,我們最終得到的翻譯和參考都有更多的 token。由于有更多的 token,我們可以期望谷歌翻譯從參考中匹配更多的 token。然后分?jǐn)?shù)會(huì)增長(zhǎng)。事實(shí)上,這里的的 spBLEU 分?jǐn)?shù)是 54.8。

我們不禁會(huì)問(wèn)比上面使用 SacreBLEU 內(nèi)部 tokenization 計(jì)算的 BLEU 分?jǐn)?shù)高 4 分?那么翻譯是不是越來(lái)越好了?

顯然沒(méi)有,翻譯保持不變。比較 BLEU 和 spBLEU 根本沒(méi)有意義。BLEU 和 spBLEU 以不同的方式處理谷歌翻譯和參考翻譯,而且僅用于評(píng)估目的。它們實(shí)際上是不同的指標(biāo)。如果它們是相同的指標(biāo),我們就不必對(duì)它們進(jìn)行不同的命名。正如我們?cè)跈C(jī)器翻譯研究社區(qū)經(jīng)常讀到和聽(tīng)到的那樣,使用不同甚至幾乎相似的 token 計(jì)算的 BLEU 分?jǐn)?shù)來(lái)比較翻譯質(zhì)量并不是公平的,甚至是不公平的。如果你希望你的研究具有科學(xué)可信度,你只需要使用完全相同的 tokenization 一致地計(jì)算你的 BLEU 分?jǐn)?shù)。?

Meta AI 聲稱 NLLB 比之前的研究好得多,因?yàn)樗麄兪冀K可以獲得比之前公布的 BLEU 分?jǐn)?shù)更好的 spBLEU 分?jǐn)?shù),事實(shí)相反。因?yàn)閷?duì)于給定的翻譯,讓 spBLEU 分?jǐn)?shù)低于 BLEU 分?jǐn)?shù)是一項(xiàng)極其困難的任務(wù)。更讓人無(wú)法理解的是,如果他們的目標(biāo)是獲得最高分?jǐn)?shù),為什么不直接使用 chrBLEU 指標(biāo)。

例如在谷歌翻譯和參考翻譯中,每個(gè)字符都會(huì)成為一個(gè) token 換句話說(shuō),在字符之間添加了空格)。

然后我們計(jì)算 chrBLEU 值為 75.5,比 spBLEU 高 20.7 點(diǎn)。根據(jù) NLLB 的評(píng)估,這將是一個(gè)重大的改進(jìn),這將是機(jī)器翻譯的新高點(diǎn),而原來(lái)的谷歌翻譯保持不變。

圖片

論文中的錯(cuò)誤示例?

現(xiàn)在,讓我們來(lái)看看 NLLB 評(píng)估的具體示例。

Meta AI 聲稱,通過(guò)將其數(shù)字與之前發(fā)布的數(shù)字進(jìn)行比較,發(fā)現(xiàn)其表現(xiàn)優(yōu)于之前的工作。在本文中,從表 30、31、32、35、36、37 和 38 中得出結(jié)論,這些結(jié)論與以前的工作進(jìn)行了比較。

將從表 32 開(kāi)始。這是最具說(shuō)明性的例子之一,因?yàn)樗嬖谥鞣N不同類型的錯(cuò)誤。

圖片

從表中可得,除 NLLB-200 列外,所有數(shù)字均直接復(fù)制自之前發(fā)表的論文 IndicBART 和 IndicTrans。為了便于閱讀,Meta AI 用粗體標(biāo)出了每種語(yǔ)言的最高分?jǐn)?shù),粗體列表示相應(yīng)的系統(tǒng)是最好的。

表中為 spBLEU for all,這具有誤導(dǎo)性。實(shí)際上,all 的意思是只有 NLLB-200,因?yàn)?IndicBART 和 IndicTrans 使用的不是 spBLEU,而是 BLEU。然而比較后發(fā)現(xiàn),NLLB 的 spBLEU 分?jǐn)?shù)高于之前工作的 BLEU 分?jǐn)?shù)。但這是否意味著 NLLB 更好?這就好比 30 個(gè)西紅柿比 25 個(gè)香蕉好嗎?

在解釋結(jié)果的文本中,我們可以看到:

圖片

例如(c)谷歌翻譯,(d)微軟翻譯。NLLB-200 在大多數(shù)方向上顯著優(yōu)于所有模型。NLLB-200 的訓(xùn)練數(shù)據(jù)集包括 25 種印度語(yǔ)言,幾乎是(a)和(b)所涵蓋語(yǔ)言的兩倍。性能的提高可以歸因于更多的多語(yǔ)言傳輸,以及印度語(yǔ)系挖掘和反譯數(shù)據(jù)質(zhì)量的提高。

換句話說(shuō),NLLB 的番茄比之前的研究中的香蕉多。所以 NLLB 有更多的香蕉。

spBLEU 分?jǐn)?shù)高于 BLEU 分?jǐn)?shù),因?yàn)樗鼈兪窃诟〉亩也煌?token 上計(jì)算的。然而,NLLB 的翻譯更好嗎?我們根本無(wú)法回答。更糟糕的是,IndicBART 和 IndicTrans 也不具有可比性,因?yàn)樗鼈兌际褂昧藘煞N不同的 token 方法。

上面列出的大多數(shù)表格都有類似的問(wèn)題,或多或少都有錯(cuò)誤。

如果你看一下 IndicBART 和 IndicTrans 發(fā)表的論文來(lái)檢查這些數(shù)字,你會(huì)發(fā)現(xiàn)還有其他問(wèn)題。表 32 中的(a、b)列全部交換,IndicBART 數(shù)字是 indicatrans 中的數(shù)字,反之亦然。

如果你看表 30,問(wèn)題就更大了。圖片不過(guò)表 30 在論文中更新了,Benjamin Marie 表示非常感謝 Vedanuj 更新了文章。表 30 確實(shí)提到了 tokenizer 是相同的。我承認(rèn)我的錯(cuò)誤。

圖片

如表 32 所示,Meta AI 聲稱 NLLB 優(yōu)于以前的 DeltaLM 和 Deepnet,同時(shí)比較了使用不同計(jì)算方法得出的 BLEU 分?jǐn)?shù)。這里的新內(nèi)容是,他們還將 NLLB 與自己以前的研究 M2M-100 進(jìn)行了比較,也使用 spBLEU 進(jìn)行了評(píng)估。那么這個(gè)比較有意義嗎?沒(méi)有。即使他們都使用 spBLEU,但實(shí)際上他們使用了不同的 tokenizer,這使比較變得失去可能性。他們?cè)谀_注 28 中作出以下聲明:

圖片

「我們的分析表明,當(dāng)在 FLORES-101 語(yǔ)言上進(jìn)行測(cè)量時(shí),F(xiàn)LORES-200 的 SPM-200 和 FLORES-101 的 SPM-100 模型之間存在微小差異。SPM-200 的主要優(yōu)點(diǎn)是它涵蓋 200 多種語(yǔ)言。」

微小的差異也是差異。在這種情況下,這些差異很重要,因?yàn)槲覀冊(cè)谧隹茖W(xué)研究。

與他們?cè)?M2M-100 上的工作相比,NLLB 的一個(gè)進(jìn)步是向模型和數(shù)據(jù)集添加了更多的語(yǔ)言。它包括 tokenization 模型。從技術(shù)上講,如果向這個(gè) tokenizer 添加更多具有不同書(shū)寫系統(tǒng)的語(yǔ)言,同時(shí)保持詞匯表的大小不變,那么將機(jī)械地獲得具有較小 token 的詞匯表。正如在上面看到的,使用較小的 token 可能會(huì)獲得更好的分?jǐn)?shù)。讓我們驗(yàn)證一下。

如下圖所示:

圖片

此 tokenization 生成 95 個(gè) token,而 NLLB 生成 97 個(gè) token。這只是一個(gè)微妙的區(qū)別,如果使用 M2M-100 tokenization 計(jì)算 spBLEU,則得分為 53.8,比 NLLB tokenization 低 1 分。根據(jù)機(jī)器翻譯研究文獻(xiàn),通常 1 分的差異足以聲稱系統(tǒng)明顯更好。正如預(yù)期的那樣,NLLB 將產(chǎn)生比 M2M-100 更高的分?jǐn)?shù)。

下一張表是本文的最后一張表:表 31。

圖片

同樣,我們也有上文提到的相同的問(wèn)題:

1. M2M-100 和 NLLB 使用兩種不同的 tokenization 進(jìn)行評(píng)分,因此無(wú)法進(jìn)行比較。2. MMTAfrica 似乎在他們的論文中使用了 M2M-100 tokenization。它可以與 M2M-100 相比,但不能與 NLLB 相比。

文中還有一些問(wèn)題,在這就不一一介紹了。在 NLLB 中,Meta AI 所犯的主要錯(cuò)誤是機(jī)器翻譯評(píng)估中的一個(gè)非常常見(jiàn)的錯(cuò)誤,不過(guò)我們應(yīng)該承認(rèn),這項(xiàng)工作確實(shí)令人驚嘆,而且可能為許多語(yǔ)言提供了更高的翻譯質(zhì)量。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-08-23 11:15:20

2023-11-17 14:37:56

2023-03-06 09:44:06

模型開(kāi)源

2025-02-28 08:00:00

大語(yǔ)言模型DeepSeek機(jī)器學(xué)習(xí)

2023-10-19 08:30:56

模型搜索

2023-02-06 14:37:44

LeCun模型

2024-03-26 06:40:06

大語(yǔ)言模型人工智能AI

2020-10-21 15:38:32

Facebook翻譯語(yǔ)言

2024-04-18 12:16:37

MetaAIOpenEQA

2023-02-25 16:14:36

AIMeta語(yǔ)言模型

2023-02-28 14:57:02

MetaAI

2024-12-19 09:48:07

2024-01-12 10:29:26

2023-10-16 12:43:00

模型評(píng)測(cè)

2023-09-07 20:33:08

2025-04-22 08:08:37

2022-12-16 15:11:39

AI模型

2025-01-10 10:30:00

大模型統(tǒng)計(jì)評(píng)估

2022-10-21 09:29:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)