自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google開(kāi)源ToTTo數(shù)據(jù)集,你的模型還「撐」得住嗎?

新聞 開(kāi)源
近日,Google研究人員提出一個(gè)大型從表轉(zhuǎn)換到文本的英文數(shù)據(jù)集,已經(jīng)在Git上開(kāi)源。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 近日,Google研究人員提出一個(gè)大型從表轉(zhuǎn)換到文本的英文數(shù)據(jù)集,已經(jīng)在Git上開(kāi)源。該數(shù)據(jù)集不僅提供了一個(gè)可以受控的句子生成任務(wù),還提供了一個(gè)基于迭代語(yǔ)句修訂的數(shù)據(jù)注釋過(guò)程。實(shí)驗(yàn)結(jié)果證明,ToTTo可以作為有用且高效的數(shù)據(jù)集,用來(lái)幫助其他研究者建模研究,以及開(kāi)發(fā)可以更好地檢測(cè)模型改進(jìn)的評(píng)估指標(biāo)。

在過(guò)去的幾年里,自然語(yǔ)言生成(用于文本摘要等任務(wù))的研究取得了巨大的進(jìn)展。

然而,盡管達(dá)到了高水平的流暢性,神經(jīng)系統(tǒng)仍然容易產(chǎn)生「幻覺(jué)」(即產(chǎn)生的文本盡管可以被理解,但是含義并不忠實(shí)于源文本),這使得這些系統(tǒng)不能用于許多需要高準(zhǔn)確性的應(yīng)用。

我們可以舉例說(shuō)明這個(gè)問(wèn)題:

這是一個(gè)來(lái)自Wikibio數(shù)據(jù)集的例子,其中,負(fù)責(zé)總結(jié)比利時(shí)足球運(yùn)動(dòng)員Constant Vanden Stock的維基信息框條目的神經(jīng)基線模型,在經(jīng)過(guò)分析之后,錯(cuò)誤地得出了他是一個(gè)美國(guó)花樣滑冰運(yùn)動(dòng)員的結(jié)論,如下圖:

雖然評(píng)估生成的文本與源內(nèi)容的真實(shí)性相比,可能會(huì)具有一定的不一致。

但當(dāng)源內(nèi)容是結(jié)構(gòu)化的(例如,以表格格式)時(shí),在含義上保持一致往往會(huì)更容易。

此外,結(jié)構(gòu)化數(shù)據(jù)還可以測(cè)試模型的推理和數(shù)值推理能力。

這么聽(tīng)上去,結(jié)構(gòu)化數(shù)據(jù)是蠻好的,對(duì)不對(duì)?

然而,現(xiàn)有的大規(guī)模結(jié)構(gòu)化數(shù)據(jù)集往往有噪聲(即引用的句子不能從表格數(shù)據(jù)中完全推斷出來(lái)),這使得研究人員在模型開(kāi)發(fā)中對(duì)「幻覺(jué)」的測(cè)量并不可靠。

針對(duì)這一問(wèn)題,Google的研究人員提出了他們的解決方案:

在《ToTTo:一個(gè)受控的表到文本生成數(shù)據(jù)集》(ToTTo: A Controlled Table-to-Text Generation Dataset)中,研究人員提出了一個(gè)開(kāi)放域的表到文本生成數(shù)據(jù)集。

該數(shù)據(jù)集是由一種新的注釋過(guò)程(通過(guò)句子修改)以及一個(gè)可用于評(píng)估模型「幻覺(jué)」的受控文本生成任務(wù)生成的。

在接下來(lái)的介紹中,我們將「表到文本」稱(chēng)為T(mén)oTTo。

ToTTo包含121,000個(gè)訓(xùn)練示例,以及7,500個(gè)用于開(kāi)發(fā)和測(cè)試的示例。

由于標(biāo)注的準(zhǔn)確性,該數(shù)據(jù)集適合作為研究高精度文本生成的具有挑戰(zhàn)性的benchmark。

此外,數(shù)據(jù)集和代碼已經(jīng)在Google的GitHub repo上開(kāi)源:

Git地址:https://github.com/google-research-datasets/totto

論文地址:https://arxiv.org/pdf/2004.14373.pdf

引入受控任務(wù),維基百科表成輸入來(lái)源

ToTTo引入了一個(gè)受控的生成任務(wù)——

在該任務(wù)中,源材料是帶有一組選定單元格的給定維基百科表,而生成的則是一個(gè)總結(jié)表上下文中單元格內(nèi)容的單句描述。

下圖中的示例,展示了該任務(wù)中包含的一些挑戰(zhàn),例如數(shù)值推理、大量的開(kāi)放域詞匯表和多種表結(jié)構(gòu)等等:

在ToTTo數(shù)據(jù)集中,輸入是源表和高亮顯示的單元格集(上圖左側(cè)),而目標(biāo)是生成一個(gè)句子描述,例如“Target Sentence”(上圖右側(cè))。

在這里需要注意的是,生成目標(biāo)句子需要數(shù)值推理能力和對(duì)NFL領(lǐng)域的理解。

注釋器可實(shí)現(xiàn)分階段修訂,目標(biāo)句簡(jiǎn)潔自然有趣

接下來(lái),研究人員要設(shè)計(jì)一個(gè)注釋過(guò)程,這個(gè)注釋過(guò)程可以使得從表格數(shù)據(jù)中獲得語(yǔ)法自然又干凈簡(jiǎn)潔的目標(biāo)句子,而這,無(wú)疑是一個(gè)重大的挑戰(zhàn)。

為什么呢?

一個(gè)方面來(lái)說(shuō),許多像Wikibio和RotoWire這樣的數(shù)據(jù)集,會(huì)將自然產(chǎn)生的文本啟發(fā)式地與表配對(duì),然而,這是一個(gè)「嘈雜」的過(guò)程,因?yàn)樵谶@個(gè)過(guò)程中,我們很難弄清楚「幻覺(jué)」主要是由數(shù)據(jù)噪聲還是模型缺陷引起的。

從另一方面來(lái)說(shuō),研究者確實(shí)可以讓注釋器從頭開(kāi)始編寫(xiě)忠于表的目標(biāo)句子,但是不好的一點(diǎn)是,最終的目標(biāo)句子在結(jié)構(gòu)和風(fēng)格方面往往缺乏多樣性。

相比之下,ToTTo是使用一種新的數(shù)據(jù)注釋策略構(gòu)建的——

在這個(gè)方法下,注釋器可以分階段修改現(xiàn)有的維基百科句子。

如此以來(lái),目標(biāo)句可以具有簡(jiǎn)潔干凈、自然的特點(diǎn),并且還能包含有趣和多樣的語(yǔ)言特性。

具體過(guò)程是這樣的:

數(shù)據(jù)收集和注釋過(guò)程會(huì)從Wikipedia收集表開(kāi)始,其中「給定表」會(huì)與根據(jù)啟發(fā)式從支持頁(yè)面上下文收集的「摘要句」配對(duì)。

這個(gè)摘要句可能包含沒(méi)有表格支持的信息,也可能包含只有表格中有先行詞的代詞,而不是句子本身。

然后,注釋器突出顯示表中支持該句子的單元格,并刪除表不支持的句子中的短語(yǔ)。

此外,注釋器還將句子去語(yǔ)境化,使其獨(dú)立成文(例如,在必要的時(shí)候使用正確的代詞),具有正確的語(yǔ)法。

實(shí)驗(yàn)結(jié)果表明,注釋器對(duì)上述任務(wù)的一致性很高:

單元格高亮顯示的Fleiss Kappa為0.856,最終目標(biāo)句子的BLEU為67.0。

結(jié)果分析涉及話題極其廣泛,「體育和國(guó)家」占比最大

Google的研究人員對(duì)ToTTo數(shù)據(jù)集進(jìn)行了超過(guò)44個(gè)類(lèi)別的主題分析,例如體育和國(guó)家主題。

每個(gè)主題都包含一系列細(xì)粒度的主題,例如體育的足球/奧林匹克和國(guó)家的人口/建筑,這些共占數(shù)據(jù)集的56.4%。

另外44%的話題范圍更廣,包括表演藝術(shù)、交通和娛樂(lè)。

此外,研究人員對(duì)隨機(jī)選取的100多個(gè)實(shí)例數(shù)據(jù)集中的不同類(lèi)型的語(yǔ)言現(xiàn)象進(jìn)行了人工分析。

下表總結(jié)了需要參考頁(yè)面和章節(jié)標(biāo)題的部分例子,以及數(shù)據(jù)集中可能對(duì)當(dāng)前系統(tǒng)構(gòu)成新挑戰(zhàn)的一些語(yǔ)言現(xiàn)象:

全新角度測(cè)試諸多先進(jìn)模型,BERT-to-BERT最能還原原文含義

研究人員從文獻(xiàn)中提供了三個(gè)最先進(jìn)模型(BERT-to-BERT、指針生成器和Puduppully 2019模型),使用了兩個(gè)評(píng)估指標(biāo),即BLEU和PARENT。

除了報(bào)告整個(gè)測(cè)試集的分?jǐn)?shù)外,研究人員還在一個(gè)由域外示例組成的更具挑戰(zhàn)性的子集上評(píng)估了每個(gè)模型。

實(shí)驗(yàn)結(jié)果如下表所示:

我們可以發(fā)現(xiàn),BERT-to-BERT模型在「親近原文本」方面表現(xiàn)最好。

此外,所有模型在挑戰(zhàn)集上的性能都相當(dāng)?shù)?,這表明了域外泛化任務(wù)還是具有很強(qiáng)的挑戰(zhàn)性。

雖然自動(dòng)指標(biāo)可以提供一些性能信息,但目前還不足以評(píng)估文本生成系統(tǒng)中的「幻覺(jué)」現(xiàn)象。

為了更好地理解「幻覺(jué)」,研究人員假設(shè)差異表明「幻覺(jué)」,并手動(dòng)評(píng)估了最高表現(xiàn)基線,以確定目的句子對(duì)源表內(nèi)容的忠實(shí)程度。

結(jié)果顯示,最高表現(xiàn)基線下,出現(xiàn)「幻覺(jué)」信息的概率為20%。

當(dāng)前最新模型仍有諸多不足,文本生成「路漫漫其修遠(yuǎn)兮」

在下表中,研究人員選擇了觀察到的模型錯(cuò)誤,以突出顯示ToTTo數(shù)據(jù)集的面臨的一些更有挑戰(zhàn)性的問(wèn)題:

研究人員發(fā)現(xiàn),即使使用「干凈」的引用參考內(nèi)容,最先進(jìn)的模型也會(huì)與「幻覺(jué)」、「數(shù)值推理」和「罕見(jiàn)的主題」等問(wèn)題「糾纏不清」(在上圖中,錯(cuò)誤用紅色表明)。、

而最后一個(gè)例子表明,即使模型輸出是正確的,它有時(shí)也沒(méi)有原始引用提供的信息豐富——

原始引用包含了更多關(guān)于表的推理(在上圖中,用藍(lán)色顯示)。

最后,除了提出的任務(wù),研究人員還表示,希望ToTTo也可以幫助其他任務(wù),如表格的理解和句子的修改。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)