自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

突破遷移學(xué)習(xí)局限!谷歌提出“T5”新NLP模型,多基準(zhǔn)測試達SOTA

新聞 人工智能
遷移學(xué)習(xí)在2018年出現(xiàn)的GPT、ULMFiT、ELMo以及 BERT等成果上初露鋒芒,之后又在2019年大顯身手,推動了領(lǐng)域內(nèi)多種新方法的發(fā)展,其中就包括XLNet、RoBERTa、ALBERT、Reformer 和 MT-DNN 等等。

  [[316154]]

過去幾年間,遷移學(xué)習(xí)給 NLP 領(lǐng)域帶來了豐碩的成果,掀起了新一波的發(fā)展浪潮。

而遷移學(xué)習(xí)之所以如此有效,得益于其利用自監(jiān)督任務(wù)(如語言建模或填充缺失詞)在大量可用的無標(biāo)注的文本數(shù)據(jù)上對模型進行預(yù)訓(xùn)練;接著,又在更小的標(biāo)注數(shù)據(jù)集上對模型進行微調(diào),從而讓模型實現(xiàn)比單單在標(biāo)注數(shù)據(jù)上訓(xùn)練更好得多的性能。

遷移學(xué)習(xí)在2018年出現(xiàn)的GPT、ULMFiT、ELMo以及 BERT等成果上初露鋒芒,之后又在2019年大顯身手,推動了領(lǐng)域內(nèi)多種新方法的發(fā)展,其中就包括XLNet、RoBERTa、ALBERT、Reformer 和 MT-DNN 等等。

隨著 NLP 領(lǐng)域的發(fā)展迅猛,評估其中的哪些發(fā)展成果最具有意義以及這些成果結(jié)合起來會發(fā)揮出怎樣的效果,已不是易事。

突破遷移學(xué)習(xí)局限!谷歌提出“T5”新NLP模型,多基準(zhǔn)測試達SOTA

論文地址:https://arxiv.org/abs/1910.10683

谷歌研究者在論文《使用統(tǒng)一的文本到文本的Transformer 來探索遷移學(xué)習(xí)的局限性》中,提出了一個大規(guī)模的實證評估,以確定哪些遷移學(xué)習(xí)技術(shù)效果最好,并大規(guī)模應(yīng)用這些遷移學(xué)習(xí)技術(shù)來創(chuàng)建一個新模型,作者將這個新模型稱之為文本到文本的遷移Transformer (Text-To-Text Transfer Transformer,T5)。與此同時,他們還引入了一個新的開源預(yù)訓(xùn)練數(shù)據(jù)集——Colossal Clean Crawled Corpus(C4)。

作者在C4數(shù)據(jù)集上對T5 模型進行預(yù)訓(xùn)練,讓模型在許多 NLP 基準(zhǔn)上都實現(xiàn)了最佳結(jié)果,與此同時還擁有足夠的靈活性,進行微調(diào)后可應(yīng)用到多個重要的下游任務(wù)上。

一、共享的文本到文本框架

創(chuàng)建了T5模型后,作者將所有的 NLP 任務(wù)都重新構(gòu)建為統(tǒng)一的文本到文本格式,輸入和輸出都始終是文本字符串,與只能輸出類標(biāo)簽或者輸入范圍的 BERT 式的模型截然不同。

該文本到文本的框架讓他們可以在任何 NLP 任務(wù)上都使用相同的模型、損失函數(shù)以及超參數(shù),包括機器翻譯、文檔摘要、問答和分類任務(wù)(如情感分析)等等。

T5 模型甚至可以被應(yīng)用到回歸任務(wù)上,具體方式是訓(xùn)練 T5 模型來預(yù)測一個數(shù)字的字符串表示,而不是這個數(shù)字本身。

突破遷移學(xué)習(xí)局限!谷歌提出“T5”新NLP模型,多基準(zhǔn)測試達SOTA

文本到文本框架圖。對于每個任務(wù),作者都考慮使用文本作為模型的輸入,并訓(xùn)練模型生成一些目標(biāo)文本。這讓他們能夠在多個任務(wù)上使用相同的模型、損失函數(shù)和超參數(shù),包括翻譯(綠色框)、語言可接受性(紅色框)、句子相似性(黃色框)和文檔摘要(藍色框)。它也為實證評估中所包含的方法提供了一個標(biāo)準(zhǔn)的試驗臺。

二、大型預(yù)訓(xùn)練數(shù)據(jù)集(C4)

遷移學(xué)習(xí)的一個重要部分,便是用于模型預(yù)訓(xùn)練的未標(biāo)注的數(shù)據(jù)集。為了準(zhǔn)確地評估擴大預(yù)訓(xùn)練規(guī)模的效果,我們需要一個不僅高質(zhì)量、多樣化而且規(guī)模龐大的數(shù)據(jù)集。

現(xiàn)有的預(yù)訓(xùn)練數(shù)據(jù)集無法滿足上述三點要求,例如來自維基百科的文本是高質(zhì)量的,并且格式統(tǒng)一,但是規(guī)模相對而言較小,而從Common Crawl 網(wǎng)站上爬取的文本雖然規(guī)模較大并且多樣化程度高,但是質(zhì)量相當(dāng)?shù)汀?/p>

為了滿足這三點要求,作者開發(fā)了一個Colossal Clean Crawled Corpus數(shù)據(jù)集 (C4),該數(shù)據(jù)集是比維基百科大兩個數(shù)量級的 Common Crawl 的清潔版本。他們的清潔處理過程涉及到刪除重復(fù)數(shù)據(jù)、去除不完整的句子以及消除冒犯性或有噪音的內(nèi)容。

這一過濾可以讓模型在下游任務(wù)上獲得更好的表現(xiàn),與此同時額外規(guī)模的數(shù)據(jù)集也讓模型在預(yù)訓(xùn)練期間不過擬合的情況下,增加其大小。

C4數(shù)據(jù)集地址:

https://www.tensorflow.org/datasets/catalog/c4

三、遷移學(xué)習(xí)方法的系統(tǒng)研究

作者使用T5 文本到文本框架和新的預(yù)訓(xùn)練數(shù)據(jù)集C4,評估了在過去幾年間為NLP 遷移學(xué)習(xí)引入的大量思想和方法。詳盡的評估細節(jié)可前往論文查看,其中包括以下實驗:

  • 模型架構(gòu)的實驗中,他們發(fā)現(xiàn)編碼—解碼模型通常比“僅解碼”的語言模型,性能更優(yōu);
  • 預(yù)訓(xùn)練目標(biāo)的實驗中,他們證實了填空式的去噪目標(biāo)(即訓(xùn)練模型來復(fù)原輸入中缺失的詞)的效果更好,并且其中最重要的因素是計算成本。
  • 未標(biāo)注數(shù)據(jù)集的實驗中,他們展示了在域內(nèi)數(shù)據(jù)集上訓(xùn)練模型是有益的,而在更小的數(shù)據(jù)集上對模型進行預(yù)訓(xùn)練則會導(dǎo)致不利的過擬合;
  • 訓(xùn)練策略的實驗中,他們發(fā)現(xiàn)多任務(wù)學(xué)習(xí)可以與“先預(yù)訓(xùn)練再微調(diào)”的方法相媲美,但是要求更細致地選擇模型在每個任務(wù)上訓(xùn)練的頻率。
  • 模型規(guī)模的實驗中,他們對比了不同大小的模型、訓(xùn)練時間以及集成模型的數(shù)量,以確定如何才能最好地利用固定的計算能力。

四、遷移方法+數(shù)據(jù)規(guī)模=性能最佳

為了探索NLP目前遷移學(xué)習(xí)的局限性,作者進行了最后一組實驗,結(jié)合系統(tǒng)研究中的所有最佳方法,并利用Google Cloud TPU加速器進行了優(yōu)化。

其中最大規(guī)模的模型有110億個參數(shù),在GLUE、Superglue、Team和CNN/Daily Mail基準(zhǔn)測試中都能夠達到SOTA。另外,在SuperGLUE 自然語言理解的基準(zhǔn)測試中獲得了接近人類水平的分數(shù)。

5、擴展到其他任務(wù),表現(xiàn)也同樣可喜

T5非常靈活,可以非常容易的進行修改,除了作者論文中的一些任務(wù),在其他任務(wù)中也能取得了巨大的成功。例如在下面兩個新任務(wù)中,模型表現(xiàn)也不錯。

1、封閉數(shù)據(jù)問答

在閱讀理解問題中往往可以使用文本到文本的框架。給模型提供上下文信息以及一個問題,訓(xùn)練其在上下文信息中找到問題的答案,例如可以向模型提供維基百科文章中關(guān)于康尼颶風(fēng)的文本,并提問“康妮颶風(fēng)在哪天發(fā)生?”然后訓(xùn)練模型,讓其找到文章中的日期。事實上,作者使用這種方法在斯坦福問答數(shù)據(jù)集(SQuAD)中取得了最先進的結(jié)果。

在作者的Colab demo和后續(xù)論文中,其訓(xùn)練了T5在一個更加困難的封閉的環(huán)境中回答瑣碎的問題,而且不需要接觸任何外部知識。

換句話說,T在回答問題時只能用其在無監(jiān)督預(yù)訓(xùn)練期間訓(xùn)練出的參數(shù)和知識。

突破遷移學(xué)習(xí)局限!谷歌提出“T5”新NLP模型,多基準(zhǔn)測試達SOTA

在預(yù)訓(xùn)練期間,T5學(xué)習(xí)如何從C4文檔中填充文本的丟失跨度。對模型進行了微調(diào),在無需輸入任何信息或者上下文的情況下,將其應(yīng)用于已經(jīng)封閉式問答。

T5非常擅長這項任務(wù),其110億參數(shù)模型分別在TriviaQA、Web問題(WebQuestions)和自然問題(Natural Questions)對50.1%、37.4%和34.5%的答案進行了精確生成。

為了客觀看待此類問題,T5團隊在酒吧瑣事挑戰(zhàn)(pub trivia challenge)與訓(xùn)練好的模型并肩作戰(zhàn),但不幸的是慘敗而歸。如下動圖所示

突破遷移學(xué)習(xí)局限!谷歌提出“T5”新NLP模型,多基準(zhǔn)測試達SOTA

2、完形填空第二個任務(wù)是完形填空。像GPT-2這種大型語言模型在文本生產(chǎn)方面非常擅長。模型在經(jīng)過訓(xùn)練之后,能夠根據(jù)輸入預(yù)測出下一個單詞,如此將模型集成,便會產(chǎn)生非常創(chuàng)新性的應(yīng)用程序,例如基于文本的游戲“AI地下城”。

T5使用的預(yù)訓(xùn)練目標(biāo)與填空任務(wù)非常相似,在填空任務(wù)中,模型預(yù)測文本中缺少的單詞,但是此目標(biāo)是對“繼續(xù)任務(wù)”(continuation task)的概括,因為填空任務(wù)中的空白有可能出現(xiàn)在文本的末尾。

為了完成目標(biāo),創(chuàng)建了一個名為“填充空白”的新任務(wù),并要求模型用指定數(shù)量的單詞替換空白。例如給模型輸入:我喜歡吃花生醬和—4—三明治。大概會訓(xùn)練模型用4個單詞進行填空。

用C4對模型進行了微調(diào),效果良好,尤其是模型對缺失文本的預(yù)測非常棒!例如下列對于輸入:“我喜歡花生醬和—N—三明治”,輸出結(jié)果如下所示:

突破遷移學(xué)習(xí)局限!谷歌提出“T5”新NLP模型,多基準(zhǔn)測試達SOTA

預(yù)訓(xùn)練模型:

https://github.com/google-research/text-to-text-transfer-transformer#released-model-checkpoints

代碼:

https://github.com/google-research/text-to-text-transfer-transformer

Colab Notebook

https://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/master/notebooks/t5-trivia.ipynb

 

責(zé)任編輯:張燕妮 來源: AI科技評論
相關(guān)推薦

2022-06-15 07:42:00

谷歌T5模型

2021-01-13 15:16:45

谷歌架構(gòu)開發(fā)者

2025-04-27 08:30:00

2024-03-25 12:40:19

訓(xùn)練模型

2023-07-17 11:02:36

模型開源

2024-10-30 15:00:00

AI視頻模型

2024-11-13 08:34:32

T5聊天機器人大模型

2025-01-13 10:00:00

模型生成3D

2025-02-10 08:30:00

2022-01-21 15:33:56

架構(gòu)模型AI

2024-06-28 18:13:05

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2022-03-14 10:53:12

谷歌模型研究

2013-04-01 11:37:54

Oracle微處理器SPARC T5

2025-04-03 09:27:44

2023-01-17 09:38:17

模型訓(xùn)練

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2021-07-24 10:19:14

AI 數(shù)據(jù)克隆

2020-10-28 10:38:08

谷歌模型機器翻譯

2024-10-12 10:57:39

點贊
收藏

51CTO技術(shù)棧公眾號