清華唐杰團(tuán)隊(duì):一文看懂NLP預(yù)訓(xùn)練模型前世今生
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
搞出了全球超大預(yù)訓(xùn)練模型的悟道團(tuán)隊(duì),現(xiàn)在來手把手地教你怎么弄懂預(yù)訓(xùn)練這一概念了。
剛剛,清華唐杰教授聯(lián)合悟道團(tuán)隊(duì)發(fā)布了一篇有關(guān)預(yù)訓(xùn)練模型的綜述:

整篇論文超過40頁,從發(fā)展歷史、最新突破和未來研究三個(gè)方向,完整地梳理了大規(guī)模預(yù)訓(xùn)練模型(PTM)的前世今生。

現(xiàn)在就一起來看看這篇論文的主要內(nèi)容吧。
預(yù)訓(xùn)練的歷史
論文首先從預(yù)訓(xùn)練的發(fā)展過程開始講起。

早期預(yù)訓(xùn)練的工作主要集中在遷移學(xué)習(xí)上,其中特征遷移和參數(shù)遷移是兩種最為廣泛的預(yù)訓(xùn)練方法。
從早期的有監(jiān)督預(yù)訓(xùn)練到當(dāng)前的自監(jiān)督預(yù)訓(xùn)練,將基于Transformer的PTM作用于NLP任務(wù)已經(jīng)成為了一種標(biāo)準(zhǔn)流程。
可以說,最近PTM在多種工作上的成功,就得益于自監(jiān)督預(yù)訓(xùn)練和Transformer的結(jié)合。
這也就是論文第3節(jié)的主要內(nèi)容:
神經(jīng)架構(gòu)Transformer,以及兩個(gè)基于Transformer的里程碑式的預(yù)訓(xùn)練模型:BERT和GPT。

兩個(gè)模型分別使用自回歸語言建模和自編碼語言建模作為預(yù)訓(xùn)練目標(biāo)。
后續(xù)所有的預(yù)訓(xùn)練模型可以說都是這兩個(gè)模型的變種。
例如論文中展示的這張圖,就列出了近年修改了模型架構(gòu),并探索了新的預(yù)訓(xùn)練任務(wù)的諸多PTM:

大規(guī)模預(yù)訓(xùn)練模型的最新突破
論文的4-7節(jié)則全面地回顧了PTM的最新突破。
這些突破主要由激增的算力和越來越多的數(shù)據(jù)驅(qū)動,朝著以下四個(gè)方向發(fā)展:
設(shè)計(jì)有效架構(gòu)
在第4節(jié)中,論文深入地探究了BERT家族及其變體PTM,并提到,所有用于語言預(yù)訓(xùn)練的基于Transformer的BERT架構(gòu)都可被歸類為兩個(gè)動機(jī):
- 統(tǒng)一序列建模
- 認(rèn)知啟發(fā)架構(gòu)
除此以外,當(dāng)前大多數(shù)研究都專注于優(yōu)化BERT架構(gòu),以提高語言模型在自然語言理解方面的性能。
利用多源數(shù)據(jù)
很多典型PTM都利用了數(shù)據(jù)持有方、類型、特征各不相同的多源異構(gòu)數(shù)據(jù)。
比如多語言PTM、多模態(tài)PTM和知識(Knowledge)增強(qiáng)型PTM。
提高計(jì)算效率
第6節(jié)從三個(gè)方面介紹了如何提升計(jì)算效率。
第一種方法是系統(tǒng)級優(yōu)化,包括單設(shè)備優(yōu)化和多設(shè)備優(yōu)化。
比如說像是ZeRO-Offload,就設(shè)計(jì)了精細(xì)的策略來安排CPU內(nèi)存和GPU內(nèi)存之間的交換,以便內(nèi)存交換和設(shè)備計(jì)算能夠盡可能多地重疊。

第二種方法是探索更高效的預(yù)訓(xùn)練方法和模型架構(gòu),以降低方案的成本。
第三種則是模型壓縮策略,包括參數(shù)共享、模型剪枝、知識蒸餾和模型量化。
解釋和理論分析
對于PTM的工作原理和特性,論文在第7節(jié)做了詳細(xì)的解讀。
首先是PTM所捕獲的兩類隱性知識:
一種是語言知識,一般通過表征探測、表示分析、注意力分析、生成分析四種方法進(jìn)行研究。
另一種是包括常識和事實(shí)在內(nèi)的世界知識。
隨后論文也指出,在最近相關(guān)工作的對抗性示例中,PTM展現(xiàn)出了嚴(yán)重的魯棒性問題,即容易被同義詞所誤導(dǎo),從而做出錯(cuò)誤預(yù)測。
最后,論文總結(jié)了PTM的結(jié)構(gòu)稀疏性/模塊性,以及PTM理論分析方面的開創(chuàng)性工作。
未來的研究方向
到現(xiàn)在,論文已經(jīng)回顧了PTM的過去與現(xiàn)在,最后一節(jié)則基于上文提到的各種工作,指出了PTM未來可以進(jìn)一步發(fā)展的7個(gè)方向:
- 架構(gòu)和預(yù)訓(xùn)練方法
包括新架構(gòu)、新的預(yù)訓(xùn)練任務(wù)、Prompt Tuning、可靠性
- 多語言和多模態(tài)訓(xùn)練
包括更多的模態(tài)、解釋、下游任務(wù),以及遷移學(xué)習(xí)
- 計(jì)算效率
包括數(shù)據(jù)遷移、并行策略、大規(guī)模訓(xùn)練、封裝和插件
- 理論基礎(chǔ)
包括不確定性、泛化和魯棒性
- 模識(Modeledge)學(xué)習(xí)
包括基于知識感知的任務(wù)、模識的儲存和管理
- 認(rèn)知和知識學(xué)習(xí)
包括知識增強(qiáng)、知識支持、知識監(jiān)督、認(rèn)知架構(gòu)、知識的互相作用
- 應(yīng)用
包括自然語言生成、對話系統(tǒng)、特定領(lǐng)域的PTM、領(lǐng)域自適應(yīng)和任務(wù)自適應(yīng)
論文最后也提到,和以自然語言形式,即離散符號表現(xiàn)的人類知識不同,儲存在PTM中的知識是一種對機(jī)器友好的,連續(xù)的實(shí)值向量。
團(tuán)隊(duì)將這種知識命名為模識,希望未來能以一種更有效的方式捕捉模識,為特定任務(wù)尋找更好的解決方案。
更多細(xì)節(jié)可點(diǎn)擊直達(dá)原論文:
http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf