自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華唐杰團(tuán)隊(duì):一文看懂NLP預(yù)訓(xùn)練模型前世今生

新聞 人工智能
搞出了全球超大預(yù)訓(xùn)練模型的悟道團(tuán)隊(duì),現(xiàn)在來手把手地教你怎么弄懂預(yù)訓(xùn)練這一概念了。

 [[422829]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

搞出了全球超大預(yù)訓(xùn)練模型的悟道團(tuán)隊(duì),現(xiàn)在來手把手地教你怎么弄懂預(yù)訓(xùn)練這一概念了。

剛剛,清華唐杰教授聯(lián)合悟道團(tuán)隊(duì)發(fā)布了一篇有關(guān)預(yù)訓(xùn)練模型的綜述:

清華唐杰團(tuán)隊(duì):一文看懂NLP預(yù)訓(xùn)練模型前世今生

整篇論文超過40頁,從發(fā)展歷史、最新突破和未來研究三個(gè)方向,完整地梳理了大規(guī)模預(yù)訓(xùn)練模型(PTM)的前世今生。

清華唐杰團(tuán)隊(duì):一文看懂NLP預(yù)訓(xùn)練模型前世今生

現(xiàn)在就一起來看看這篇論文的主要內(nèi)容吧。

預(yù)訓(xùn)練的歷史

論文首先從預(yù)訓(xùn)練的發(fā)展過程開始講起。

清華唐杰團(tuán)隊(duì):一文看懂NLP預(yù)訓(xùn)練模型前世今生

早期預(yù)訓(xùn)練的工作主要集中在遷移學(xué)習(xí)上,其中特征遷移和參數(shù)遷移是兩種最為廣泛的預(yù)訓(xùn)練方法。

從早期的有監(jiān)督預(yù)訓(xùn)練到當(dāng)前的自監(jiān)督預(yù)訓(xùn)練,將基于Transformer的PTM作用于NLP任務(wù)已經(jīng)成為了一種標(biāo)準(zhǔn)流程。

可以說,最近PTM在多種工作上的成功,就得益于自監(jiān)督預(yù)訓(xùn)練和Transformer的結(jié)合。

這也就是論文第3節(jié)的主要內(nèi)容:

神經(jīng)架構(gòu)Transformer,以及兩個(gè)基于Transformer的里程碑式的預(yù)訓(xùn)練模型:BERT和GPT。

清華唐杰團(tuán)隊(duì):一文看懂NLP預(yù)訓(xùn)練模型前世今生

兩個(gè)模型分別使用自回歸語言建模和自編碼語言建模作為預(yù)訓(xùn)練目標(biāo)。

后續(xù)所有的預(yù)訓(xùn)練模型可以說都是這兩個(gè)模型的變種。

例如論文中展示的這張圖,就列出了近年修改了模型架構(gòu),并探索了新的預(yù)訓(xùn)練任務(wù)的諸多PTM:

清華唐杰團(tuán)隊(duì):一文看懂NLP預(yù)訓(xùn)練模型前世今生

大規(guī)模預(yù)訓(xùn)練模型的最新突破

論文的4-7節(jié)則全面地回顧了PTM的最新突破。

這些突破主要由激增的算力和越來越多的數(shù)據(jù)驅(qū)動,朝著以下四個(gè)方向發(fā)展:

設(shè)計(jì)有效架構(gòu)

第4節(jié)中,論文深入地探究了BERT家族及其變體PTM,并提到,所有用于語言預(yù)訓(xùn)練的基于Transformer的BERT架構(gòu)都可被歸類為兩個(gè)動機(jī):

  • 統(tǒng)一序列建模
  • 認(rèn)知啟發(fā)架構(gòu)

除此以外,當(dāng)前大多數(shù)研究都專注于優(yōu)化BERT架構(gòu),以提高語言模型在自然語言理解方面的性能。

[[422830]]

利用多源數(shù)據(jù)

很多典型PTM都利用了數(shù)據(jù)持有方、類型、特征各不相同的多源異構(gòu)數(shù)據(jù)。

比如多語言PTM、多模態(tài)PTM和知識(Knowledge)增強(qiáng)型PTM。

提高計(jì)算效率

第6節(jié)從三個(gè)方面介紹了如何提升計(jì)算效率。

第一種方法是系統(tǒng)級優(yōu)化,包括單設(shè)備優(yōu)化和多設(shè)備優(yōu)化。

比如說像是ZeRO-Offload,就設(shè)計(jì)了精細(xì)的策略來安排CPU內(nèi)存和GPU內(nèi)存之間的交換,以便內(nèi)存交換和設(shè)備計(jì)算能夠盡可能多地重疊。

清華唐杰團(tuán)隊(duì):一文看懂NLP預(yù)訓(xùn)練模型前世今生

第二種方法是探索更高效的預(yù)訓(xùn)練方法和模型架構(gòu),以降低方案的成本。

第三種則是模型壓縮策略,包括參數(shù)共享、模型剪枝、知識蒸餾和模型量化。

解釋和理論分析

對于PTM的工作原理和特性,論文在第7節(jié)做了詳細(xì)的解讀。

首先是PTM所捕獲的兩類隱性知識

一種是語言知識,一般通過表征探測、表示分析、注意力分析、生成分析四種方法進(jìn)行研究。

另一種是包括常識和事實(shí)在內(nèi)的世界知識

隨后論文也指出,在最近相關(guān)工作的對抗性示例中,PTM展現(xiàn)出了嚴(yán)重的魯棒性問題,即容易被同義詞所誤導(dǎo),從而做出錯(cuò)誤預(yù)測。

最后,論文總結(jié)了PTM的結(jié)構(gòu)稀疏性/模塊性,以及PTM理論分析方面的開創(chuàng)性工作。

未來的研究方向

到現(xiàn)在,論文已經(jīng)回顧了PTM的過去與現(xiàn)在,最后一節(jié)則基于上文提到的各種工作,指出了PTM未來可以進(jìn)一步發(fā)展的7個(gè)方向

  • 架構(gòu)和預(yù)訓(xùn)練方法

包括新架構(gòu)、新的預(yù)訓(xùn)練任務(wù)、Prompt Tuning、可靠性

  • 多語言和多模態(tài)訓(xùn)練

包括更多的模態(tài)、解釋、下游任務(wù),以及遷移學(xué)習(xí)

  • 計(jì)算效率

包括數(shù)據(jù)遷移、并行策略、大規(guī)模訓(xùn)練、封裝和插件

  • 理論基礎(chǔ)

包括不確定性、泛化和魯棒性

  • 模識(Modeledge)學(xué)習(xí)

包括基于知識感知的任務(wù)、模識的儲存和管理

  • 認(rèn)知和知識學(xué)習(xí)

包括知識增強(qiáng)、知識支持、知識監(jiān)督、認(rèn)知架構(gòu)、知識的互相作用

  • 應(yīng)用

包括自然語言生成、對話系統(tǒng)、特定領(lǐng)域的PTM、領(lǐng)域自適應(yīng)和任務(wù)自適應(yīng)

論文最后也提到,和以自然語言形式,即離散符號表現(xiàn)的人類知識不同,儲存在PTM中的知識是一種對機(jī)器友好的,連續(xù)的實(shí)值向量。

團(tuán)隊(duì)將這種知識命名為模識,希望未來能以一種更有效的方式捕捉模識,為特定任務(wù)尋找更好的解決方案。

更多細(xì)節(jié)可點(diǎn)擊直達(dá)原論文:

http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2018-05-31 09:46:04

車聯(lián)網(wǎng)智能交通ITS

2017-06-09 08:49:49

2020-05-15 15:29:36

Stata數(shù)據(jù)分析

2022-03-13 18:27:09

Redis數(shù)據(jù)庫開源

2018-08-08 16:08:45

深度學(xué)習(xí)機(jī)器學(xué)習(xí)NLP

2023-02-18 18:33:08

計(jì)算機(jī)前世今生

2023-04-10 11:35:31

評估模型業(yè)務(wù)流程

2019-01-16 09:56:27

2019-05-22 17:34:16

代碼開發(fā)工具

2020-03-25 09:20:21

自然語言處理

2020-03-31 14:40:24

HashMap源碼Java

2025-01-26 15:02:47

2016-08-18 00:21:12

網(wǎng)絡(luò)爬蟲抓取網(wǎng)絡(luò)

2019-07-05 13:19:43

技術(shù)團(tuán)隊(duì)組建績效考核

2024-08-12 12:30:27

2020-07-02 14:35:44

模型人工智能方案

2023-07-07 11:36:29

人工智能基礎(chǔ)模型

2021-11-15 10:00:22

模型人工智能NLP

2025-01-20 09:15:00

iOS 18.3蘋果iOS 18

2021-08-02 06:56:19

TypeScript編程語言編譯器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號