顛覆大規(guī)模預(yù)訓(xùn)練!清華楊植麟組提出全新NLP學(xué)習(xí)框架TLM,學(xué)習(xí)效率×100倍
近期,清華大學(xué)團(tuán)隊(duì)提出一種無(wú)需預(yù)訓(xùn)練的高效 NLP 學(xué)習(xí)框架,在僅使用了1% 的算力和1% 的訓(xùn)練語(yǔ)料的條件下,在眾多 NLP 任務(wù)上實(shí)現(xiàn)了比肩甚至超越預(yù)訓(xùn)練模型的性能。這一研究結(jié)果對(duì)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的必要性提出了質(zhì)疑:我們真的需要大規(guī)模預(yù)訓(xùn)練來(lái)達(dá)到最好的效果嗎?
基于預(yù)訓(xùn)練語(yǔ)言模型(PLM)的方法在自然語(yǔ)言處理領(lǐng)域蓬勃發(fā)展,已經(jīng)在多種標(biāo)準(zhǔn)自然語(yǔ)言任務(wù)上實(shí)現(xiàn)了最優(yōu)(SOTA)性能。強(qiáng)大的性能使其成為解決 NLP 任務(wù)的標(biāo)準(zhǔn)方法之一。
盡管如此,預(yù)訓(xùn)練嚴(yán)重依賴大量的計(jì)算資源的現(xiàn)狀,導(dǎo)致只有極少數(shù)資源充足的機(jī)構(gòu)或者組織有能力開(kāi)展對(duì)于預(yù)訓(xùn)練的探索,多數(shù)研究者則轉(zhuǎn)向所需資源較少的下游微調(diào)算法的研究。 然而,微調(diào)算法性能的上限也是很大程度受到預(yù)訓(xùn)練模型性能的約束。
這種「昂貴而集權(quán)」的研究模式限制了平民研究者們?yōu)?NLP 社區(qū)做出貢獻(xiàn)的邊界,也極大制約了該領(lǐng)域的長(zhǎng)期發(fā)展。
清華大學(xué)的研究者們針對(duì)這一問(wèn)題提出的一種全新的高效學(xué)習(xí)框架:「TLM(Task-driven Language Modeling)」。
論文地址:https://arxiv.org/pdf/2111.04130.pdf
項(xiàng)目地址:https://github.com/yaoxingcheng/TLM
TLM 框架無(wú)需進(jìn)行大規(guī)模預(yù)訓(xùn)練,僅需要相較于傳統(tǒng)預(yù)訓(xùn)練模型(例如 RoBERTa)約 1% 的訓(xùn)練時(shí)間與 1% 的語(yǔ)料, 即可在眾多任務(wù)上實(shí)現(xiàn)和預(yù)訓(xùn)練模型比肩甚至更好的性能。
作者希望 TLM 的提出能夠引發(fā) NLP 研究者們對(duì)現(xiàn)有預(yù)訓(xùn)練-微調(diào)范式的重新審視,并促進(jìn) NLP 民主化的進(jìn)程,加速 NLP 領(lǐng)域的進(jìn)一步發(fā)展。
語(yǔ)言模型也可以「臨時(shí)抱佛腳」?
任務(wù)驅(qū)動(dòng)的語(yǔ)言建模
我們有這樣的觀察:人類可以以有限的時(shí)間和精力高效掌握某種技能,這整個(gè)過(guò)程并不需要掌握所有可能的知識(shí)和信息,而是只需要對(duì)核心的部分有針對(duì)性地學(xué)習(xí)。
例如,考生考試前臨時(shí)抱佛腳,僅需要突擊學(xué)習(xí)重點(diǎn)內(nèi)容即可應(yīng)對(duì)考試。受到這一現(xiàn)象的啟發(fā),我們不禁發(fā)問(wèn):預(yù)訓(xùn)練語(yǔ)言模型可以「臨時(shí)抱佛腳」嗎?
傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)方法與 TLM 框架之間的比較
類似地,作者提出假設(shè):預(yù)訓(xùn)練語(yǔ)言模型在特定任務(wù)上的性能,僅受益于大規(guī)模通用語(yǔ)料中僅與任務(wù)相關(guān)的部分,而不需要大規(guī)模的全量數(shù)據(jù)。
該方法主要包含兩個(gè)階段:
為了從大規(guī)模通用語(yǔ)料中抽取關(guān)鍵數(shù)據(jù),TLM 首先以任務(wù)數(shù)據(jù)作為查詢,對(duì)通用語(yǔ)料庫(kù)進(jìn)行相似數(shù)據(jù)的召回;
TLM 基于任務(wù)數(shù)據(jù)和召回?cái)?shù)據(jù),從零開(kāi)始進(jìn)行基于任務(wù)目標(biāo)和語(yǔ)言建模目標(biāo)的聯(lián)合訓(xùn)練。
基于任務(wù)數(shù)據(jù)的語(yǔ)料召回
首先根據(jù)任務(wù)數(shù)據(jù),從大規(guī)模通用語(yǔ)料中抽取相關(guān)數(shù)據(jù)。
相比于大多數(shù)文本匹配算法傾向于采用稠密特征,本文作者另辟蹊徑,采用了使用基于稀疏特征的 BM25 算法[2] 作為召回算法,它簡(jiǎn)單高效,并且不依賴于下游任務(wù)給出的監(jiān)督信號(hào)。
同時(shí)該算法完全不依賴預(yù)訓(xùn)練模型,從而可以公平地與傳統(tǒng)的大規(guī)模預(yù)訓(xùn)練進(jìn)行比較。
自監(jiān)督任務(wù)與下游任務(wù)的聯(lián)合訓(xùn)練
TLM 基于篩選后的通用預(yù)料數(shù)據(jù)和任務(wù)數(shù)據(jù),進(jìn)行了自監(jiān)督任務(wù)與下游任務(wù)的聯(lián)合訓(xùn)練。
作者采用了傳統(tǒng)的掩碼語(yǔ)言模型(Masked Language Modeling)作為自監(jiān)督訓(xùn)練任務(wù)。
訓(xùn)練的損失函數(shù)
實(shí)驗(yàn)結(jié)果:小資源比肩大規(guī)模預(yù)訓(xùn)練語(yǔ)言
主要結(jié)果
作者在 8 個(gè)自然語(yǔ)言分類任務(wù)上,從三個(gè)不同的規(guī)模分別開(kāi)展了對(duì)比實(shí)驗(yàn)。這些任務(wù)涵蓋了生物醫(yī)藥、新聞、評(píng)論、計(jì)算機(jī)等領(lǐng)域,并且覆蓋了情感分類、實(shí)體關(guān)系抽取、話題分類等任務(wù)類型。
TLM 在三種不同訓(xùn)練規(guī)模下的評(píng)估結(jié)果
和傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)范式相比,TLM 在多領(lǐng)域多任務(wù)類型的數(shù)據(jù)集上實(shí)現(xiàn)了大致相當(dāng)甚至更優(yōu)的結(jié)果。
而更大的優(yōu)勢(shì)在于,TLM 實(shí)現(xiàn)該相當(dāng)甚至更優(yōu)的結(jié)果所使用的資源(包括計(jì)算量 FLOPs 和使用的訓(xùn)練數(shù)據(jù)量),相較于對(duì)應(yīng)預(yù)訓(xùn)練-微調(diào)基準(zhǔn)的資源使用量極大減少約兩個(gè)數(shù)量級(jí)規(guī)模。
參數(shù)高效性分析
為了探究 TLM 高效性更本質(zhì)的來(lái)源,作者們對(duì)模型的每個(gè)注意力頭所輸出的注意力結(jié)果進(jìn)行了可視化分析。
已有研究[1]指出,呈現(xiàn)「對(duì)角線」模式的注意力結(jié)果(如紅框所示)是對(duì)模型性能影響的關(guān)鍵因素,因?yàn)椤笇?duì)角線」模式把注意力關(guān)注于此前或者此后的符號(hào)(token)上,從而可以捕捉和建模相鄰符號(hào)之間的關(guān)聯(lián)性。
注意力結(jié)果可視化分析
從可視化結(jié)果可以觀察到,TLM 中包含了更多「對(duì)角線」模式,即有更多的符號(hào)位置都將注意力分散賦予了其相鄰的其他符號(hào)。
對(duì)比之下,原始的大規(guī)模預(yù)訓(xùn)練模型(BERT-Base 和 RoBERTa-Base)「對(duì)角線」模式較少,而「垂直」模式更多(如灰色所示),這意味著更多符號(hào)位置將注意力關(guān)注到[CLS]、[SEP]或者標(biāo)點(diǎn)符號(hào)這種不具備語(yǔ)法或者語(yǔ)義信息的符號(hào)上。
可以看出,TLM 的參數(shù)高效性要顯著優(yōu)于預(yù)訓(xùn)練語(yǔ)言模型,任務(wù)驅(qū)動(dòng)使得 TLM 針對(duì)下游任務(wù)學(xué)習(xí)到了更豐富的語(yǔ)法語(yǔ)義信息。
消融實(shí)驗(yàn)
此外作者還分別在數(shù)據(jù)選取策略、數(shù)據(jù)召回?cái)?shù)量、多任務(wù)學(xué)習(xí)目標(biāo)權(quán)重等多個(gè)角度進(jìn)行了消融實(shí)驗(yàn)探究,以此考察模型性能的穩(wěn)定性和最優(yōu)配置。
數(shù)據(jù)選取策略消融實(shí)驗(yàn)結(jié)果
在數(shù)據(jù)召回策略上,相比起同等數(shù)量的隨機(jī)選取,基于稀疏特征的 BM25 算法最終結(jié)果有顯著提升(約1-4 個(gè)點(diǎn)),證明其在召回和任務(wù)數(shù)據(jù)相似的通用數(shù)據(jù)上的有效性。
最優(yōu)數(shù)據(jù)召回量消融實(shí)驗(yàn)結(jié)果
召回通用數(shù)據(jù)無(wú)監(jiān)督訓(xùn)練目標(biāo)權(quán)重(ρ1) 和任務(wù)數(shù)據(jù)無(wú)監(jiān)督訓(xùn)練目標(biāo)權(quán)重(ρ2) 消融實(shí)驗(yàn)結(jié)果
對(duì)于最優(yōu)數(shù)據(jù)召回量和多任務(wù)學(xué)習(xí)目標(biāo)權(quán)重兩因素的消融實(shí)驗(yàn)結(jié)果展示出一致的結(jié)論:即兩因素的選擇顯示出和任務(wù)數(shù)據(jù)規(guī)模強(qiáng)相關(guān)性:
對(duì)于數(shù)據(jù)規(guī)模較大的任務(wù)(如 AGNews,RCT),它需要召回相對(duì)更少的相似通用數(shù)據(jù),同時(shí)應(yīng)賦予任務(wù)數(shù)據(jù)目標(biāo)更大的比重;
對(duì)于數(shù)據(jù)規(guī)模較小的任務(wù)(如 ChemProt,SciERC),它需要召回相對(duì)更多的通用數(shù)據(jù)提供充足信息,同時(shí)賦予召回通用數(shù)據(jù)上的無(wú)監(jiān)督訓(xùn)練目標(biāo)更大的權(quán)重。
TLM vs PLM:優(yōu)勢(shì)如何?
總結(jié)來(lái)說(shuō),PLM 以極高的成本學(xué)習(xí)盡可能多的任務(wù)無(wú)關(guān)的知識(shí),而 TLM 以非常低的成本針對(duì)每個(gè)任務(wù)學(xué)習(xí)相關(guān)知識(shí)。
TLM 和 PLM 的對(duì)比
具體來(lái)說(shuō),TLM 和 PLM 相比還具有如下特點(diǎn):
1. 民主化
TLM 的提出打破了 NLP 研究受限于大規(guī)模計(jì)算資源,以及只能由極少數(shù)機(jī)構(gòu)和人員開(kāi)展相關(guān)探索的現(xiàn)狀。基于 TLM 框架,大多數(shù) NLP 研究者都可以以較低代價(jià)以及較高效率,對(duì)目前最先進(jìn)的解決方案做更進(jìn)一步的自由探索和研究。
2. 靈活性
相比 PLM,TLM 允許研究者以更加靈活的方式根據(jù)具體的任務(wù)自定義標(biāo)記策略、數(shù)據(jù)表示、序列長(zhǎng)度、超參數(shù)等等。這使得進(jìn)一步提升性能和效率成為可能。
3. 高效性
如實(shí)驗(yàn)結(jié)果所示,TLM 的每個(gè)任務(wù)上的 FLOPs 消耗顯著少于 PLM。TLM 和 PLM 分別適用不同情況——當(dāng)面臨少數(shù)目標(biāo)任務(wù)或者領(lǐng)域特定的稀有任務(wù)(例如,NLP 科研工作開(kāi)展過(guò)程對(duì)少數(shù)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和研究;工業(yè)界面臨極其特殊領(lǐng)域問(wèn)題的解決),TLM 是非常高效的選擇;當(dāng)需要一次性解決大量相似且常見(jiàn)任務(wù)時(shí)(例如,公司需要構(gòu)建統(tǒng)一平臺(tái)為多方提供相似服務(wù)),PLM 的可重復(fù)利用使其仍然具備優(yōu)勢(shì)。
4. 通用性
PLM 學(xué)習(xí)任務(wù)無(wú)關(guān)的一般性表示,即強(qiáng)調(diào)通用性,而 TLM 通過(guò)學(xué)習(xí)任務(wù)相關(guān)的表示一定程度犧牲通用性換取更高的效率。當(dāng)然,也可以將 PLM 和 TLM 結(jié)合從而實(shí)現(xiàn)通用性和效率之間更好的權(quán)衡。
總結(jié)展望
TLM 的提出給自然語(yǔ)言處理領(lǐng)域帶來(lái)「新面貌」,它使得現(xiàn)有 NLP 的研究可以脫離代價(jià)高昂的預(yù)訓(xùn)練,也使得更多獨(dú)立 NLP 研究者們可以在更廣闊的空間進(jìn)行自由探索成為可能。
未來(lái)可以進(jìn)一步開(kāi)展更多基于 TLM 框架的研究,例如:如何進(jìn)一步提升 TLM 的通用性和可遷移性;如何更加經(jīng)濟(jì)地達(dá)到更大規(guī)模預(yù)訓(xùn)練模型的表現(xiàn)效果等等。
作者介紹
論文一作為清華大學(xué)姚班大四本科生姚星丞,他也是今年大火的 EMNLP 接收論文 SimCSE 的共同一作。
論文地址:https://arxiv.org/pdf/2104.08821.pdf
論文的通訊作者為清華大學(xué)交叉信息院助理教授、Recurrent AI 聯(lián)合創(chuàng)始人楊植麟,曾做出 Transformer-XL、XLNet、HotpotQA 等諸多 NLP 領(lǐng)域大受歡迎的工作。
論文的另外兩名作者鄭亞男和楊小驄也來(lái)自清華大學(xué),其中鄭亞男是今年年初備受矚目的P-tuning(GPT Understands, Too)的共同一作。
論文地址:https://arxiv.org/pdf/2103.10385.pdf