自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

顛覆大規(guī)模預(yù)訓(xùn)練!清華楊植麟組提出全新NLP學(xué)習(xí)框架TLM,學(xué)習(xí)效率×100倍

新聞 人工智能
近期,清華大學(xué)團(tuán)隊(duì)提出一種無(wú)需預(yù)訓(xùn)練的高效 NLP 學(xué)習(xí)框架,在僅使用了1% 的算力和1% 的訓(xùn)練語(yǔ)料的條件下,在眾多 NLP 任務(wù)上實(shí)現(xiàn)了比肩甚至超越預(yù)訓(xùn)練模型的性能。

 [[436890]]

近期,清華大學(xué)團(tuán)隊(duì)提出一種無(wú)需預(yù)訓(xùn)練的高效 NLP 學(xué)習(xí)框架,在僅使用了1% 的算力和1% 的訓(xùn)練語(yǔ)料的條件下,在眾多 NLP 任務(wù)上實(shí)現(xiàn)了比肩甚至超越預(yù)訓(xùn)練模型的性能。這一研究結(jié)果對(duì)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的必要性提出了質(zhì)疑:我們真的需要大規(guī)模預(yù)訓(xùn)練來(lái)達(dá)到最好的效果嗎?

  基于預(yù)訓(xùn)練語(yǔ)言模型(PLM)的方法在自然語(yǔ)言處理領(lǐng)域蓬勃發(fā)展,已經(jīng)在多種標(biāo)準(zhǔn)自然語(yǔ)言任務(wù)上實(shí)現(xiàn)了最優(yōu)(SOTA)性能。強(qiáng)大的性能使其成為解決 NLP 任務(wù)的標(biāo)準(zhǔn)方法之一。

  盡管如此,預(yù)訓(xùn)練嚴(yán)重依賴大量的計(jì)算資源的現(xiàn)狀,導(dǎo)致只有極少數(shù)資源充足的機(jī)構(gòu)或者組織有能力開(kāi)展對(duì)于預(yù)訓(xùn)練的探索,多數(shù)研究者則轉(zhuǎn)向所需資源較少的下游微調(diào)算法的研究。 然而,微調(diào)算法性能的上限也是很大程度受到預(yù)訓(xùn)練模型性能的約束。

  這種「昂貴而集權(quán)」的研究模式限制了平民研究者們?yōu)?NLP 社區(qū)做出貢獻(xiàn)的邊界,也極大制約了該領(lǐng)域的長(zhǎng)期發(fā)展。

  清華大學(xué)的研究者們針對(duì)這一問(wèn)題提出的一種全新的高效學(xué)習(xí)框架:「TLM(Task-driven Language Modeling)」。

  論文地址:https://arxiv.org/pdf/2111.04130.pdf

  項(xiàng)目地址:https://github.com/yaoxingcheng/TLM

  TLM 框架無(wú)需進(jìn)行大規(guī)模預(yù)訓(xùn)練,僅需要相較于傳統(tǒng)預(yù)訓(xùn)練模型(例如 RoBERTa)約 1% 的訓(xùn)練時(shí)間與 1% 的語(yǔ)料, 即可在眾多任務(wù)上實(shí)現(xiàn)和預(yù)訓(xùn)練模型比肩甚至更好的性能。

  作者希望 TLM 的提出能夠引發(fā) NLP 研究者們對(duì)現(xiàn)有預(yù)訓(xùn)練-微調(diào)范式的重新審視,并促進(jìn) NLP 民主化的進(jìn)程,加速 NLP 領(lǐng)域的進(jìn)一步發(fā)展。

  語(yǔ)言模型也可以「臨時(shí)抱佛腳」?

任務(wù)驅(qū)動(dòng)的語(yǔ)言建模

  我們有這樣的觀察:人類可以以有限的時(shí)間和精力高效掌握某種技能,這整個(gè)過(guò)程并不需要掌握所有可能的知識(shí)和信息,而是只需要對(duì)核心的部分有針對(duì)性地學(xué)習(xí)。

  例如,考生考試前臨時(shí)抱佛腳,僅需要突擊學(xué)習(xí)重點(diǎn)內(nèi)容即可應(yīng)對(duì)考試。受到這一現(xiàn)象的啟發(fā),我們不禁發(fā)問(wèn):預(yù)訓(xùn)練語(yǔ)言模型可以「臨時(shí)抱佛腳」嗎?

  傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)方法與 TLM 框架之間的比較

  類似地,作者提出假設(shè):預(yù)訓(xùn)練語(yǔ)言模型在特定任務(wù)上的性能,僅受益于大規(guī)模通用語(yǔ)料中僅與任務(wù)相關(guān)的部分,而不需要大規(guī)模的全量數(shù)據(jù)。

  該方法主要包含兩個(gè)階段:

為了從大規(guī)模通用語(yǔ)料中抽取關(guān)鍵數(shù)據(jù),TLM 首先以任務(wù)數(shù)據(jù)作為查詢,對(duì)通用語(yǔ)料庫(kù)進(jìn)行相似數(shù)據(jù)的召回;

TLM 基于任務(wù)數(shù)據(jù)和召回?cái)?shù)據(jù),從零開(kāi)始進(jìn)行基于任務(wù)目標(biāo)和語(yǔ)言建模目標(biāo)的聯(lián)合訓(xùn)練。

基于任務(wù)數(shù)據(jù)的語(yǔ)料召回

  首先根據(jù)任務(wù)數(shù)據(jù),從大規(guī)模通用語(yǔ)料中抽取相關(guān)數(shù)據(jù)。

  相比于大多數(shù)文本匹配算法傾向于采用稠密特征,本文作者另辟蹊徑,采用了使用基于稀疏特征的 BM25 算法[2] 作為召回算法,它簡(jiǎn)單高效,并且不依賴于下游任務(wù)給出的監(jiān)督信號(hào)。

  同時(shí)該算法完全不依賴預(yù)訓(xùn)練模型,從而可以公平地與傳統(tǒng)的大規(guī)模預(yù)訓(xùn)練進(jìn)行比較。

  自監(jiān)督任務(wù)與下游任務(wù)的聯(lián)合訓(xùn)練

  TLM 基于篩選后的通用預(yù)料數(shù)據(jù)和任務(wù)數(shù)據(jù),進(jìn)行了自監(jiān)督任務(wù)與下游任務(wù)的聯(lián)合訓(xùn)練。

  作者采用了傳統(tǒng)的掩碼語(yǔ)言模型(Masked Language Modeling)作為自監(jiān)督訓(xùn)練任務(wù)。

  訓(xùn)練的損失函數(shù)

  實(shí)驗(yàn)結(jié)果:小資源比肩大規(guī)模預(yù)訓(xùn)練語(yǔ)言

主要結(jié)果

  作者在 8 個(gè)自然語(yǔ)言分類任務(wù)上,從三個(gè)不同的規(guī)模分別開(kāi)展了對(duì)比實(shí)驗(yàn)。這些任務(wù)涵蓋了生物醫(yī)藥、新聞、評(píng)論、計(jì)算機(jī)等領(lǐng)域,并且覆蓋了情感分類、實(shí)體關(guān)系抽取、話題分類等任務(wù)類型。

  TLM 在三種不同訓(xùn)練規(guī)模下的評(píng)估結(jié)果

  和傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)范式相比,TLM 在多領(lǐng)域多任務(wù)類型的數(shù)據(jù)集上實(shí)現(xiàn)了大致相當(dāng)甚至更優(yōu)的結(jié)果。

  而更大的優(yōu)勢(shì)在于,TLM 實(shí)現(xiàn)該相當(dāng)甚至更優(yōu)的結(jié)果所使用的資源(包括計(jì)算量 FLOPs 和使用的訓(xùn)練數(shù)據(jù)量),相較于對(duì)應(yīng)預(yù)訓(xùn)練-微調(diào)基準(zhǔn)的資源使用量極大減少約兩個(gè)數(shù)量級(jí)規(guī)模。

參數(shù)高效性分析

  為了探究 TLM 高效性更本質(zhì)的來(lái)源,作者們對(duì)模型的每個(gè)注意力頭所輸出的注意力結(jié)果進(jìn)行了可視化分析。

  已有研究[1]指出,呈現(xiàn)「對(duì)角線」模式的注意力結(jié)果(如紅框所示)是對(duì)模型性能影響的關(guān)鍵因素,因?yàn)椤笇?duì)角線」模式把注意力關(guān)注于此前或者此后的符號(hào)(token)上,從而可以捕捉和建模相鄰符號(hào)之間的關(guān)聯(lián)性。

  注意力結(jié)果可視化分析

  從可視化結(jié)果可以觀察到,TLM 中包含了更多「對(duì)角線」模式,即有更多的符號(hào)位置都將注意力分散賦予了其相鄰的其他符號(hào)。

  對(duì)比之下,原始的大規(guī)模預(yù)訓(xùn)練模型(BERT-Base 和 RoBERTa-Base)「對(duì)角線」模式較少,而「垂直」模式更多(如灰色所示),這意味著更多符號(hào)位置將注意力關(guān)注到[CLS]、[SEP]或者標(biāo)點(diǎn)符號(hào)這種不具備語(yǔ)法或者語(yǔ)義信息的符號(hào)上。

  可以看出,TLM 的參數(shù)高效性要顯著優(yōu)于預(yù)訓(xùn)練語(yǔ)言模型,任務(wù)驅(qū)動(dòng)使得 TLM 針對(duì)下游任務(wù)學(xué)習(xí)到了更豐富的語(yǔ)法語(yǔ)義信息。

消融實(shí)驗(yàn)

  此外作者還分別在數(shù)據(jù)選取策略、數(shù)據(jù)召回?cái)?shù)量、多任務(wù)學(xué)習(xí)目標(biāo)權(quán)重等多個(gè)角度進(jìn)行了消融實(shí)驗(yàn)探究,以此考察模型性能的穩(wěn)定性和最優(yōu)配置。

  數(shù)據(jù)選取策略消融實(shí)驗(yàn)結(jié)果

  在數(shù)據(jù)召回策略上,相比起同等數(shù)量的隨機(jī)選取,基于稀疏特征的 BM25 算法最終結(jié)果有顯著提升(約1-4 個(gè)點(diǎn)),證明其在召回和任務(wù)數(shù)據(jù)相似的通用數(shù)據(jù)上的有效性。

  最優(yōu)數(shù)據(jù)召回量消融實(shí)驗(yàn)結(jié)果

  召回通用數(shù)據(jù)無(wú)監(jiān)督訓(xùn)練目標(biāo)權(quán)重(ρ1) 和任務(wù)數(shù)據(jù)無(wú)監(jiān)督訓(xùn)練目標(biāo)權(quán)重(ρ2) 消融實(shí)驗(yàn)結(jié)果

  對(duì)于最優(yōu)數(shù)據(jù)召回量和多任務(wù)學(xué)習(xí)目標(biāo)權(quán)重兩因素的消融實(shí)驗(yàn)結(jié)果展示出一致的結(jié)論:即兩因素的選擇顯示出和任務(wù)數(shù)據(jù)規(guī)模強(qiáng)相關(guān)性:

對(duì)于數(shù)據(jù)規(guī)模較大的任務(wù)(如 AGNews,RCT),它需要召回相對(duì)更少的相似通用數(shù)據(jù),同時(shí)應(yīng)賦予任務(wù)數(shù)據(jù)目標(biāo)更大的比重;

對(duì)于數(shù)據(jù)規(guī)模較小的任務(wù)(如 ChemProt,SciERC),它需要召回相對(duì)更多的通用數(shù)據(jù)提供充足信息,同時(shí)賦予召回通用數(shù)據(jù)上的無(wú)監(jiān)督訓(xùn)練目標(biāo)更大的權(quán)重。

  TLM vs PLM:優(yōu)勢(shì)如何?

  總結(jié)來(lái)說(shuō),PLM 以極高的成本學(xué)習(xí)盡可能多的任務(wù)無(wú)關(guān)的知識(shí),而 TLM 以非常低的成本針對(duì)每個(gè)任務(wù)學(xué)習(xí)相關(guān)知識(shí)。

  TLM 和 PLM 的對(duì)比

  具體來(lái)說(shuō),TLM 和 PLM 相比還具有如下特點(diǎn):

1. 民主化

  TLM 的提出打破了 NLP 研究受限于大規(guī)模計(jì)算資源,以及只能由極少數(shù)機(jī)構(gòu)和人員開(kāi)展相關(guān)探索的現(xiàn)狀。基于 TLM 框架,大多數(shù) NLP 研究者都可以以較低代價(jià)以及較高效率,對(duì)目前最先進(jìn)的解決方案做更進(jìn)一步的自由探索和研究。

2. 靈活性

  相比 PLM,TLM 允許研究者以更加靈活的方式根據(jù)具體的任務(wù)自定義標(biāo)記策略、數(shù)據(jù)表示、序列長(zhǎng)度、超參數(shù)等等。這使得進(jìn)一步提升性能和效率成為可能。

3. 高效性

  如實(shí)驗(yàn)結(jié)果所示,TLM 的每個(gè)任務(wù)上的 FLOPs 消耗顯著少于 PLM。TLM 和 PLM 分別適用不同情況——當(dāng)面臨少數(shù)目標(biāo)任務(wù)或者領(lǐng)域特定的稀有任務(wù)(例如,NLP 科研工作開(kāi)展過(guò)程對(duì)少數(shù)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和研究;工業(yè)界面臨極其特殊領(lǐng)域問(wèn)題的解決),TLM 是非常高效的選擇;當(dāng)需要一次性解決大量相似且常見(jiàn)任務(wù)時(shí)(例如,公司需要構(gòu)建統(tǒng)一平臺(tái)為多方提供相似服務(wù)),PLM 的可重復(fù)利用使其仍然具備優(yōu)勢(shì)。

4. 通用性

  PLM 學(xué)習(xí)任務(wù)無(wú)關(guān)的一般性表示,即強(qiáng)調(diào)通用性,而 TLM 通過(guò)學(xué)習(xí)任務(wù)相關(guān)的表示一定程度犧牲通用性換取更高的效率。當(dāng)然,也可以將 PLM 和 TLM 結(jié)合從而實(shí)現(xiàn)通用性和效率之間更好的權(quán)衡。

總結(jié)展望

  TLM 的提出給自然語(yǔ)言處理領(lǐng)域帶來(lái)「新面貌」,它使得現(xiàn)有 NLP 的研究可以脫離代價(jià)高昂的預(yù)訓(xùn)練,也使得更多獨(dú)立 NLP 研究者們可以在更廣闊的空間進(jìn)行自由探索成為可能。

  未來(lái)可以進(jìn)一步開(kāi)展更多基于 TLM 框架的研究,例如:如何進(jìn)一步提升 TLM 的通用性和可遷移性;如何更加經(jīng)濟(jì)地達(dá)到更大規(guī)模預(yù)訓(xùn)練模型的表現(xiàn)效果等等。

  作者介紹

  論文一作為清華大學(xué)姚班大四本科生姚星丞,他也是今年大火的 EMNLP 接收論文 SimCSE 的共同一作。

  論文地址:https://arxiv.org/pdf/2104.08821.pdf

  論文的通訊作者為清華大學(xué)交叉信息院助理教授、Recurrent AI 聯(lián)合創(chuàng)始人楊植麟,曾做出 Transformer-XL、XLNet、HotpotQA 等諸多 NLP 領(lǐng)域大受歡迎的工作。

  論文的另外兩名作者鄭亞男和楊小驄也來(lái)自清華大學(xué),其中鄭亞男是今年年初備受矚目的P-tuning(GPT Understands, Too)的共同一作。

  論文地址:https://arxiv.org/pdf/2103.10385.pdf

 

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2021-11-15 10:00:22

模型人工智能NLP

2023-11-27 13:51:00

模型訓(xùn)練

2020-11-18 10:29:07

模型人工智能開(kāi)源

2024-10-15 09:29:36

2023-05-26 08:39:44

深度學(xué)習(xí)Alluxio

2017-11-06 10:15:36

機(jī)器學(xué)習(xí)框架Tensorflow

2020-11-16 08:54:05

Google 開(kāi)源技術(shù)

2021-07-22 15:25:14

開(kāi)源技術(shù) 框架

2023-03-05 15:51:54

AIGCChatGPT

2017-06-03 16:34:22

云服務(wù)數(shù)據(jù)中心公有云

2017-09-11 15:19:05

CoCoA機(jī)器學(xué)習(xí)分布式

2024-03-11 13:20:00

模型AI

2024-06-17 00:00:00

MiCo模態(tài)人腦

2021-09-09 09:29:03

AI 數(shù)據(jù)模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-04-11 09:35:34

2024-09-04 13:35:03

2017-10-09 16:51:34

機(jī)器學(xué)習(xí)No Free Lun

2022-07-07 11:00:09

美團(tuán)模型實(shí)踐

2025-01-03 13:47:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)