自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM

新聞 人工智能
清華提出的高效學(xué)習(xí)框架 TLM 也學(xué)會(huì)了「抱佛腳」。近期,來自清華大學(xué)的研究者們提出了一種簡單高效的 NLP 學(xué)習(xí)框架。

 [[435029]]

近期,來自清華大學(xué)的研究者們提出了一種簡單高效的 NLP 學(xué)習(xí)框架。不同于當(dāng)下 NLP 社區(qū)主流的大規(guī)模預(yù)訓(xùn)練 + 下游任務(wù)微調(diào)(pretraining-finetuning)的范式,這一框架無需進(jìn)行大規(guī)模預(yù)訓(xùn)練。相較于傳統(tǒng)的預(yù)訓(xùn)練語言模型,該框架將訓(xùn)練效率 (Training FLOPs) 提升了兩個(gè)數(shù)量級(jí),并且在多個(gè) NLP 任務(wù)上實(shí)現(xiàn)了比肩甚至超出預(yù)訓(xùn)練模型的性能。這一研究結(jié)果對大規(guī)模預(yù)訓(xùn)練語言模型的必要性提出了質(zhì)疑:大規(guī)模預(yù)訓(xùn)練對下游任務(wù)的貢獻(xiàn)究竟有多大?我們真的需要大規(guī)模預(yù)訓(xùn)練來達(dá)到最好的效果嗎?

無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM
  • 論文地址:https://arxiv.org/pdf/2111.04130.pdf
  • 項(xiàng)目地址:https://github.com/yaoxingcheng/TLM

預(yù)訓(xùn)練語言模型因其強(qiáng)大的性能被廣泛關(guān)注,基于預(yù)訓(xùn)練 - 微調(diào)(pretraining-finetuning)的范式也已經(jīng)成為許多 NLP 任務(wù)的標(biāo)準(zhǔn)方法。然而,當(dāng)前通用語言模型的預(yù)訓(xùn)練成本極其高昂,這使得只有少數(shù)資源充足的研究機(jī)構(gòu)或者組織能夠?qū)ζ湔归_探索。這種 「昂貴而集權(quán)」的研究模式限制了平民研究者們?yōu)?NLP 社區(qū)做出貢獻(xiàn)的邊界,甚至為該領(lǐng)域的長期發(fā)展帶來了障礙。

近期,為了緩解這一現(xiàn)狀,來自清華大學(xué)的研究者們提出的一種完全不需要預(yù)訓(xùn)練語言模型的高效學(xué)習(xí)框架。這一框架從通用語料中篩選出與下游任務(wù)相關(guān)的子集,并將語言建模任務(wù)與下游任務(wù)進(jìn)行聯(lián)合訓(xùn)練。研究者們稱之為 TLM (Task-driven Language Modeling)。相較于傳統(tǒng)的預(yù)訓(xùn)練模型(例如 RoBERTa),TLM 僅需要約 1% 的訓(xùn)練時(shí)間與 1% 的語料,即可在眾多 NLP 任務(wù)上比肩甚至超出預(yù)訓(xùn)練模型的性能(如圖 1 所示)。研究者們希望 TLM 的提出能夠引發(fā)更多對現(xiàn)有預(yù)訓(xùn)練微調(diào)范式的思考,并推動(dòng) NLP 民主化的進(jìn)程。

無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM

語言模型會(huì)「抱佛腳」嗎? 任務(wù)驅(qū)動(dòng)的語言建模

無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM

TLM 提出的動(dòng)機(jī)源于一個(gè)簡單的觀察:人類可以通過僅對關(guān)鍵信息的學(xué)習(xí),以有限的時(shí)間和精力快速掌握某一任務(wù)技能。例如,在臨考抱佛腳時(shí),焦慮的學(xué)生僅需要根據(jù)考綱復(fù)習(xí)瀏覽若干相關(guān)章節(jié)即可應(yīng)對考試,而不必學(xué)習(xí)所有可能的知識(shí)點(diǎn)。類似地,我們也可以推測:預(yù)訓(xùn)練語言模型在下游任務(wù)上的優(yōu)良表現(xiàn),絕大多數(shù)來源于語料中與下游任務(wù)相關(guān)的數(shù)據(jù);僅利用下游任務(wù)相關(guān)數(shù)據(jù),我們便可以取得與全量數(shù)據(jù)類似的結(jié)果。

為了從大規(guī)模通用語料中抽取關(guān)鍵數(shù)據(jù),TLM 首先以任務(wù)數(shù)據(jù)作為查詢,對通用語料庫進(jìn)行相似數(shù)據(jù)的召回。這里作者選用基于稀疏特征的 BM25 算法[2] 作為召回算法。之后,TLM 基于任務(wù)數(shù)據(jù)和召回?cái)?shù)據(jù),同時(shí)優(yōu)化任務(wù)目標(biāo)和語言建模目標(biāo) (如下圖公式所示),從零開始進(jìn)行聯(lián)合訓(xùn)練。

無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM

1% 的算力 + 1% 的語料即可比肩預(yù)訓(xùn)練語言模型

為了測試 TLM 的性能,研究者們在 8 個(gè) NLP 分類任務(wù)上從三個(gè)不同規(guī)模展開了對比實(shí)驗(yàn)。這 8 個(gè)任務(wù)涵蓋了計(jì)算機(jī)科學(xué)、生物醫(yī)藥、新聞、評(píng)論等 4 個(gè)領(lǐng)域,包括了訓(xùn)練樣本數(shù)量小于 5000 的低資源任務(wù)(Hyperpartisan News, ACL-ARC, SciERC, Chemprot)和訓(xùn)練樣本數(shù)量大于 20000 的高資源任務(wù)(IMDB, AGNews, Helpfulness, RCT),覆蓋了話題分類,情感分類,實(shí)體關(guān)系抽取等任務(wù)類型。從實(shí)驗(yàn)結(jié)果可以看出,和對應(yīng)預(yù)訓(xùn)練 - 微調(diào)基準(zhǔn)相比,TLM 實(shí)現(xiàn)了相當(dāng)甚至更優(yōu)的性能。平均而言,TLM 減少了兩個(gè)數(shù)量級(jí)規(guī)模的訓(xùn)練計(jì)算量 (Training FLOPs) 以及訓(xùn)練語料的規(guī)模。

無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM

任務(wù)驅(qū)動(dòng)的語言建模(TLM) vs 預(yù)訓(xùn)練語言模型(PLMs)

無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM

表格 1 直接對比了 TLM 和 PLM。整體來說,PLM 以極高的成本學(xué)習(xí)盡可能多的任務(wù)無關(guān)的知識(shí),而 TLM 以非常低的成本針對每個(gè)任務(wù)學(xué)習(xí)相關(guān)知識(shí)。對比 TLM 和 PLM 有如下幾個(gè)方面特點(diǎn)。

1.推動(dòng) NLP 研究公平化和民主化(Democratization)

預(yù)訓(xùn)練本身嚴(yán)重依賴大量的計(jì)算資源,這一限制使得大多數(shù) NLP 研究者專項(xiàng)對微調(diào)算法的研究。然而微調(diào)性能上限很大程度上受預(yù)訓(xùn)練模型性能的約束。而 TLM 使得大多數(shù)研究人員可以以較低的代價(jià)和較高的效率,基于最先進(jìn)的解決方案對模型架構(gòu)、損失函數(shù)、算法等方面進(jìn)一步自由探索。

2. 高效性(Efficiency)

TLM 在平均每個(gè)任務(wù)的 FLOPs 消耗方面顯著優(yōu)于 PLM。當(dāng)我們有少數(shù)目標(biāo)任務(wù)需要解決的時(shí)候(例如研究人員希望對少量幾個(gè)數(shù)據(jù)集進(jìn)行研究),TLM 會(huì)是非常高效的;然而當(dāng)需要一次性解決大量任務(wù)時(shí)(例如工業(yè)界構(gòu)建一個(gè) NLP 平臺(tái)為多方提供相似的服務(wù)),PLM 仍然具有優(yōu)勢。

3. 靈活性(Flexibility)

TLM 是任務(wù)驅(qū)動(dòng)的,所以可以給研究人員更大的自由度,從而自定義策略進(jìn)行標(biāo)記、序列長度、數(shù)據(jù)表示、超參數(shù)的調(diào)整等等,從而達(dá)到提高性能和效率的目的。

4. 通用性(Generality)

PLM 學(xué)習(xí)與任務(wù)無關(guān)的一般性表示,可用于小樣本和零樣本學(xué)習(xí),而 TLM 通過學(xué)習(xí)任務(wù)相關(guān)的表示一定程度犧牲通用型換取效率。從這個(gè)意義上,TLM 需要在通用型方面進(jìn)一步提升。此外也可以 PLM 和 TLM 結(jié)合從而在通用性和效率之間實(shí)現(xiàn)更好的權(quán)衡。

深入觀察 TLM:讓更多參數(shù)為下游任務(wù)服務(wù)

無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM

為了深入了解 TLM 的工作機(jī)制,研究人員對模型每個(gè)注意力頭所輸出的注意力分?jǐn)?shù)進(jìn)行了可視化??梢杂^察到,TLM 的注意力模式中包含了更多的「對角線」模式(圖 3 紅框),也即大多 token 都將注意力分?jǐn)?shù)集中賦予了其鄰近 token,這種模式已在前人的工作 [1] 中被證明對模型的最終預(yù)測有著重要貢獻(xiàn)。而預(yù)訓(xùn)練模型(BERT, RoBERTa)中則包含了大量「垂直」模式的注意力頭(圖 3 灰色區(qū)域),也即大多 token 都將注意力分?jǐn)?shù)集中賦予了 [CLS],[SEP] 或者句號(hào)這種毫無語義或者句法信息的詞匯上。這一現(xiàn)象表明 TLM 中參數(shù)利用率要顯著高于預(yù)訓(xùn)練語言模型,TLM 或許針對下游任務(wù)學(xué)習(xí)到了更加富有語義信息的表示。

總結(jié)

TLM 的提出讓 NLP 研究跳脫出預(yù)訓(xùn)練微調(diào)范式成為了可能,這使得 NLP 研究者們可以更為自由地探索新興的模型結(jié)構(gòu)與訓(xùn)練框架,而不拘泥于大規(guī)模預(yù)訓(xùn)練模型。在未來,更多有趣的研究可以在 TLM 的基礎(chǔ)上展開,例如:如何經(jīng)濟(jì)地達(dá)到更大規(guī)模預(yù)訓(xùn)練模型的表現(xiàn)效果;如何提升 TLM 的通用性與可遷移性;可否利用 TLM 進(jìn)行小樣本或零樣本學(xué)習(xí)等等。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-11-26 10:18:37

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2020-11-18 10:29:07

模型人工智能開源

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2023-11-27 13:51:00

模型訓(xùn)練

2024-10-15 09:29:36

2024-01-30 07:56:57

2020-08-10 15:25:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-03-05 15:51:54

AIGCChatGPT

2023-05-26 08:39:44

深度學(xué)習(xí)Alluxio

2021-09-09 09:29:03

AI 數(shù)據(jù)模型

2025-04-11 09:35:34

2021-07-22 15:25:14

開源技術(shù) 框架

2017-11-06 10:15:36

機(jī)器學(xué)習(xí)框架Tensorflow

2024-06-17 00:00:00

MiCo模態(tài)人腦

2016-12-09 10:11:40

機(jī)器學(xué)習(xí)算法庫Fregata

2020-11-16 08:54:05

Google 開源技術(shù)

2025-03-27 09:47:23

訓(xùn)練模型AI

2024-03-11 13:20:00

模型AI

2023-10-26 01:26:04

Vaex數(shù)據(jù)數(shù)據(jù)集

2017-09-11 15:19:05

CoCoA機(jī)器學(xué)習(xí)分布式
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)