自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌發(fā)布含7種語言的全新數(shù)據(jù)集:有效提升BERT等多語言模型任務精度高達3倍!

新聞 機器學習
近日,谷歌發(fā)布了包含 7 種語言釋義對的全新數(shù)據(jù)集,即:PAWS 與 PAWS-X。BERT 通過該數(shù)據(jù)集的訓練,在釋義對問題上的精度實現(xiàn)了約為 3 倍的提升。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

近日,谷歌發(fā)布了包含 7 種語言釋義對的全新數(shù)據(jù)集,即:PAWS 與 PAWS-X。BERT 通過該數(shù)據(jù)集的訓練,在釋義對問題上的精度實現(xiàn)了約為 3 倍的提升;其它先進的模型也能夠利用該數(shù)據(jù)集將精度提高到 85-90%。谷歌希望這些數(shù)據(jù)集將有助于推動多語言模型的進一步發(fā)展,并發(fā)布了相關(guān)文章介紹了該數(shù)據(jù)集,雷鋒網(wǎng) AI 開發(fā)者將其整理編譯如下。

[[278629]]

背景環(huán)境

詞序和句法結(jié)構(gòu)對句子意義有很大影響,即使詞序中的一點小改動也能完全改變句子的意思,例如下面的一組句子:

  1. Flights from New York to Florida.(從紐約飛往佛羅里達州的航班)

  2. Flights to Florida from New York.(從紐約出發(fā)到佛羅里達州的航班)

  3. Flights from Florida to New York.(從佛羅里達州飛往紐約的航班)

盡管這三個詞都有相同的詞組;但是 1 和 2 具有相同的含義,我們將這樣的一組句子對稱為釋義對(paraphrase pairs),而 1 和 3 有完全相反的含義,所以我們將其稱為非釋義對(non-paraphrase pairs)。識別一對句子是否為釋義對的任務則被稱為釋義識別,這一任務對于許多實際應用中的自然語言理解(NLU)處理而言是非常重要的,例如:常見的問答任務等。

但令人驚訝的是,目前即使是最先進的模型,如:BERT,如果僅在現(xiàn)有的 NLU 數(shù)據(jù)集下進行訓練,并不能正確地識別大部分非釋義對(就像上面所列舉的 1 與 3)之間的差異。其中很大的原因是由于在現(xiàn)有 NLU 數(shù)據(jù)集中,缺少諸如此類的訓練數(shù)據(jù)。因此,即使現(xiàn)有的機器學習模型能夠很好地理解復雜的上下文短語,它們依舊很難擁有對該類任務的判斷能力。

PAWS 數(shù)據(jù)集與 PaWS-X 數(shù)據(jù)集

為了解決這一問題,我們發(fā)布了兩個新的數(shù)據(jù)集,致力于幫助社區(qū)進行相關(guān)的研究。數(shù)據(jù)集包括:

  • 支持英語的釋義識別對抗性數(shù)據(jù)集 PAWS(Paraphrase Adversaries from Word Scrambling,https://arxiv.org/abs/1904.01130)

  • 支持多語言的釋義識別對抗性數(shù)據(jù)集 PaWS- X(https://arxiv.org/abs/1908.11828)

其中,PaWS-X 數(shù)據(jù)集則是在 PAWS 數(shù)據(jù)集基礎(chǔ)上,擴展得到包含另外六種不同類型語言的釋義識別對抗性數(shù)據(jù)集,支持的語言包括:法語、西班牙語、德語、漢語、日語和韓語。

這兩個數(shù)據(jù)集都包含了格式良好、具有高度重疊詞匯的句子對。其中大約有一半的句子對是釋義對,另一些則不是,數(shù)據(jù)集也包含了最先進模型的訓練數(shù)據(jù)。通過新數(shù)據(jù)的訓練,該模型對釋義識別任務的精度從 50% 提高到了 85-90%。

相比之前即使在有新的訓練數(shù)據(jù)時,無法獲得非本地上下文信息的模型仍然無法完成釋義識別任務的情況;這一新數(shù)據(jù)集則為測量模型對語序和結(jié)構(gòu)的敏感性提供了一個有效的工具。

數(shù)據(jù)集詳情

PAWS 數(shù)據(jù)集共計包含了 108463 組由人工標記的句子對,這些數(shù)據(jù)來源于 Quora Question Pairs(QQP,https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-Pairs)以及維基百科頁面(https://www.wikipedia.org/)。

PAWS-X 數(shù)據(jù)集則包含了 23659 組由人工判斷而得的 PAWS 擴展句子對,以及 296406 組由機器翻譯的訓練對。下表給出了數(shù)據(jù)集的詳細統(tǒng)計。

PAWS-X 的訓練集是從 PAWS wiki 數(shù)據(jù)集的一個子集通過機器翻譯而來的

支持英語的 PAWS 數(shù)據(jù)集

在「PAWS: Paraphrase Adversaries from Word Scrambling(https://arxiv.org/abs/1904.01130)」一文中,我們介紹了在生成具有高度詞重疊的且具有釋義性的句子對的工作流程。

為了生成數(shù)據(jù)對,源語句首先被傳遞到一個專門的語言模型(https://en.wikipedia.org/wiki/Language_model),該模型將創(chuàng)建具有語義的單詞交換變體句,但無法保證生成句子與原句是否互為釋義對的關(guān)系;接著再由人工評判員判斷句子的語法是否正確,然后由其它人工評判員來判斷它們是否互為釋義句。

PAWS 語料庫創(chuàng)建工作流

這種簡單的單詞交換策略存在的一個問題,即它往往會產(chǎn)生不符合常識的「釋義句」,例如:「why do bad things happen to good people」和「why do good things happen to bad people」,盡管單詞都相同,但「為什么壞事會發(fā)生在好人身上」的意義和「為什么好事會發(fā)生在壞人身上」完全不同。

因此,為了確保釋義和非釋義之間的平衡,我們增加了其他基于反譯的數(shù)據(jù)信息。因為反譯往往表現(xiàn)出與此類方法相反的傾向,它會選擇優(yōu)先保留句子意義,然后在這基礎(chǔ)上改變詞序和詞語選擇。這兩種策略共同保證 PAWS 語料庫總體的平衡,尤其是維基百科部分的數(shù)據(jù)。

多語言 PAWS-X 數(shù)據(jù)集的創(chuàng)建

在建立了 PAWS 數(shù)據(jù)集之后,我們將它擴展出了其它六種語言,包括:漢語、法語、德語、韓語、日語和西班牙語。在這過程中,我們采用了人工翻譯來完成句子對的翻譯擴展和測試集生成工作,并使用神經(jīng)網(wǎng)絡(luò)機器翻譯(neural machine translation,NMT)服務來完成訓練集的翻譯。

我們從六個語言中(共計 48000 組翻譯)的每一個 PAWS 擴展集上,隨機抽取了 4000 個句子對進行人工翻譯(翻譯者所翻譯語言均為母語)。每一組句子都是獨立的,從而保證翻譯不會受到語境的影響,然后再由第二個工作者驗證隨機抽樣子集,最終使得數(shù)據(jù)集的字級錯誤率小于 5%。

注意,如果所得句子不完整或模棱兩可,我們允許專業(yè)人士不翻譯。平均只有不到 2% 的句子對沒有被翻譯,我們暫且將它們排除在外。最終的翻譯對被分為新的擴展集和測試集,每個集合大約包含 2000 組句子對。

德語(DE)和漢語(ZH)的人工翻譯句子對的例子

使用 PAWS 和 PAWS-X 來理解語言

我們在所創(chuàng)建的數(shù)據(jù)集上訓練多個模型,并對評估集上的分類精度進行度量。當用 PAWS 訓練強大的模型后,如 BERT 和 DIN,這些模型對現(xiàn)有 QQP 數(shù)據(jù)集進行訓練時的表現(xiàn)會產(chǎn)生顯著的改善。

如果在現(xiàn)有 QQP 上訓練,BERT 僅獲得 33.5 的精度,但是當給定 PAWS 訓練實例時,即使用來自 QQP的 PAWS 數(shù)據(jù)(PAWS-QQP),它的精度將達到 83.1 。

不過與 BERT 不同,Bag-of-Words(BoW,https://en.wikipedia.org/wiki/Bag-of-words_model)模型無法從 PAWS 訓練實例中進行學習,這也展示了它在捕捉非局部上下文信息方面的弱點。但總體來看,這些結(jié)果都表明了 PAWS 可以有效地度量模型對詞序和結(jié)構(gòu)的敏感性。

PAWS-QQP 精度評估設(shè)置(英文)

下圖顯示了主流的多語言 BERT 模型(https://github.com/google-research/bert/blob/master/multilingual.md)在 PAWS X 上使用幾種常用方法所表現(xiàn)的性能,其中:

  • Zero Shot:該模型使用支持英語的 PAWS 數(shù)據(jù)集進行訓練,然后直接評估所有其他翻譯,這種方法不涉及機器翻譯。(引申:Zero-Shot 翻譯則是指在完成語言 A 到語言 B 的翻譯訓練之后,語言 A 到語言 C 的翻譯不需要再經(jīng)過任何學習,它能自動把之前的學習成果轉(zhuǎn)化到翻譯任意一門語言,即便工程師們從來沒有進行過相關(guān)訓練)

  • Translate Test(翻譯測試):使用英語訓練數(shù)據(jù)訓練一個模型,并將所有測試用例翻譯成英文進行評估。

  • Translate Train(翻譯訓練):英語訓練數(shù)據(jù)被機器翻譯成每種目標語言,以提供數(shù)據(jù)來訓練每一個模型。

  • Merged(歸并):在所有語言上訓練多語言模型,包括原始英語對和所有其他語言的機器翻譯數(shù)據(jù)。

結(jié)果表明,新數(shù)據(jù)集除了為跨語言的技術(shù)提供了幫助,同時也留下了很大的余地進而驅(qū)動多語種釋義識別問題的研究。

基于 BERT 模型的 PAWS-X 測試集的精度

數(shù)據(jù)集下載相關(guān)

PAWS-Wiki 

該語料庫包含從維基百科頁面生成的句子對(可直接下載),包括:

  • PAWS-Wik 標記集(終版) 包含從單詞交換和反譯方法生成的句子對。所有的組別都有釋義性和流暢性的人工判斷,它們被分為訓練/擴展/測試部分。

  • PAWS-Wik 標記集(僅交換) 包含沒有反譯對應項的句子對,因此該子集不包含在第一組中。但數(shù)據(jù)集質(zhì)量很高,包含人工對釋義性和流暢性的判斷,可以作為輔助訓練集。

  • PAWS-Wik 未標記集(終版) 包含從單詞交換和反譯方法生成的句子對。但該子集中有噪聲標記但沒有人工判斷,也可用作輔助訓練集。

PAWS-QQP 

該語料庫包含了從 QQP 語料庫生成的對,但由于 QQP 的許可證,我們不能直接獲得 PAWS-QQP 數(shù)據(jù),因此必須通過下載最原始數(shù)據(jù),然后運行腳本生成數(shù)據(jù)并附加標記來重建示例。

重建 PAWS-QQP 語料庫,首先需要下載原始的 QQP 數(shù)據(jù)集,并將 tsv 文件保存到某個位置/path/to/original_qqp/data.tsv;然后從特定鏈接下載 PAWS-QQP 索引文件。

PAWS-X

該語料庫包含六種不同語言的 PAWS 示例翻譯,包含:法語、西班牙語、德語、漢語、日語和韓語。詳情可通過這里查看(https://github.com/google-research-datasets/paws/tree/master/pawsx)。

需要注意的是,對于多語言實驗,請使用 paws-x repo 中提供的 dev_2k.tsv 作為所有語言(包括英語)的擴展集。

[[278631]]

數(shù)據(jù)集下載地址:

https://github.com/google-research-datasets/paws

原文鏈接:

https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html 

責任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2023-09-04 19:19:36

語言模型LLM

2023-05-23 14:14:14

技術(shù)模型

2020-10-28 10:38:08

谷歌模型機器翻譯

2024-11-25 15:30:00

語言模型數(shù)據(jù)

2014-07-09 09:20:06

WPFWPF應用

2021-08-09 10:03:03

數(shù)據(jù)開源語音

2022-08-09 07:22:15

語言數(shù)據(jù)庫程序

2014-04-16 14:50:20

Spark

2021-03-02 13:53:37

人工智能深度學習Google mBER

2012-04-19 11:40:21

Titanium

2009-08-25 10:44:50

C#實現(xiàn)多語言

2011-08-05 17:54:33

Cocoa Touch 多語言

2023-08-04 10:18:15

2021-09-07 10:17:35

iOS多語言適配設(shè)計

2021-06-29 21:48:32

開源語言架構(gòu)

2024-05-09 08:14:09

系統(tǒng)設(shè)計語言多語言

2009-07-17 10:02:29

WPF程序多語言支持

2025-01-16 17:08:38

2022-02-21 09:35:36

機器學習自然語言模型

2016-09-27 17:38:36

大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號