自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="pt1sq"></blockquote>}

<sub id="pt1sq"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

顛覆大規(guī)模預(yù)訓(xùn)練！清華楊植麟組提出全新NLP學(xué)習(xí)框架TLM，學(xué)習(xí)效率×100倍

作者：佚名 2021-11-26 10:18:37

新聞人工智能

近期，清華大學(xué)團(tuán)隊(duì)提出一種無(wú)需預(yù)訓(xùn)練的高效 NLP 學(xué)習(xí)框架，在僅使用了1% 的算力和1% 的訓(xùn)練語(yǔ)料的條件下，在眾多 NLP 任務(wù)上實(shí)現(xiàn)了比肩甚至超越預(yù)訓(xùn)練模型的性能。

近期，清華大學(xué)團(tuán)隊(duì)提出一種無(wú)需預(yù)訓(xùn)練的高效 NLP 學(xué)習(xí)框架，在僅使用了1% 的算力和1% 的訓(xùn)練語(yǔ)料的條件下，在眾多 NLP 任務(wù)上實(shí)現(xiàn)了比肩甚至超越預(yù)訓(xùn)練模型的性能。這一研究結(jié)果對(duì)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的必要性提出了質(zhì)疑：我們真的需要大規(guī)模預(yù)訓(xùn)練來(lái)達(dá)到最好的效果嗎？

　　基于預(yù)訓(xùn)練語(yǔ)言模型（PLM）的方法在自然語(yǔ)言處理領(lǐng)域蓬勃發(fā)展，已經(jīng)在多種標(biāo)準(zhǔn)自然語(yǔ)言任務(wù)上實(shí)現(xiàn)了最優(yōu)（SOTA）性能。強(qiáng)大的性能使其成為解決 NLP 任務(wù)的標(biāo)準(zhǔn)方法之一。

　　盡管如此，預(yù)訓(xùn)練嚴(yán)重依賴大量的計(jì)算資源的現(xiàn)狀，導(dǎo)致只有極少數(shù)資源充足的機(jī)構(gòu)或者組織有能力開(kāi)展對(duì)于預(yù)訓(xùn)練的探索，多數(shù)研究者則轉(zhuǎn)向所需資源較少的下游微調(diào)算法的研究。然而，微調(diào)算法性能的上限也是很大程度受到預(yù)訓(xùn)練模型性能的約束。

　　這種「昂貴而集權(quán)」的研究模式限制了平民研究者們?yōu)?NLP 社區(qū)做出貢獻(xiàn)的邊界，也極大制約了該領(lǐng)域的長(zhǎng)期發(fā)展。

　　清華大學(xué)的研究者們針對(duì)這一問(wèn)題提出的一種全新的高效學(xué)習(xí)框架：「TLM（Task-driven Language Modeling）」。

　　論文地址：https://arxiv.org/pdf/2111.04130.pdf

　　項(xiàng)目地址：https://github.com/yaoxingcheng/TLM

　　TLM 框架無(wú)需進(jìn)行大規(guī)模預(yù)訓(xùn)練，僅需要相較于傳統(tǒng)預(yù)訓(xùn)練模型（例如 RoBERTa）約 1% 的訓(xùn)練時(shí)間與 1% 的語(yǔ)料，即可在眾多任務(wù)上實(shí)現(xiàn)和預(yù)訓(xùn)練模型比肩甚至更好的性能。

　　作者希望 TLM 的提出能夠引發(fā) NLP 研究者們對(duì)現(xiàn)有預(yù)訓(xùn)練-微調(diào)范式的重新審視，并促進(jìn) NLP 民主化的進(jìn)程，加速 NLP 領(lǐng)域的進(jìn)一步發(fā)展。

　　語(yǔ)言模型也可以「臨時(shí)抱佛腳」？

任務(wù)驅(qū)動(dòng)的語(yǔ)言建模

　　我們有這樣的觀察：人類可以以有限的時(shí)間和精力高效掌握某種技能，這整個(gè)過(guò)程并不需要掌握所有可能的知識(shí)和信息，而是只需要對(duì)核心的部分有針對(duì)性地學(xué)習(xí)。

　　例如，考生考試前臨時(shí)抱佛腳，僅需要突擊學(xué)習(xí)重點(diǎn)內(nèi)容即可應(yīng)對(duì)考試。受到這一現(xiàn)象的啟發(fā)，我們不禁發(fā)問(wèn)：預(yù)訓(xùn)練語(yǔ)言模型可以「臨時(shí)抱佛腳」嗎？

　　傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)方法與 TLM 框架之間的比較

　　類似地，作者提出假設(shè)：預(yù)訓(xùn)練語(yǔ)言模型在特定任務(wù)上的性能，僅受益于大規(guī)模通用語(yǔ)料中僅與任務(wù)相關(guān)的部分，而不需要大規(guī)模的全量數(shù)據(jù)。

　　該方法主要包含兩個(gè)階段：

為了從大規(guī)模通用語(yǔ)料中抽取關(guān)鍵數(shù)據(jù)，TLM 首先以任務(wù)數(shù)據(jù)作為查詢，對(duì)通用語(yǔ)料庫(kù)進(jìn)行相似數(shù)據(jù)的召回；

TLM 基于任務(wù)數(shù)據(jù)和召回?cái)?shù)據(jù)，從零開(kāi)始進(jìn)行基于任務(wù)目標(biāo)和語(yǔ)言建模目標(biāo)的聯(lián)合訓(xùn)練。

基于任務(wù)數(shù)據(jù)的語(yǔ)料召回

　　首先根據(jù)任務(wù)數(shù)據(jù)，從大規(guī)模通用語(yǔ)料中抽取相關(guān)數(shù)據(jù)。

　　相比于大多數(shù)文本匹配算法傾向于采用稠密特征，本文作者另辟蹊徑，采用了使用基于稀疏特征的 BM25 算法[2] 作為召回算法，它簡(jiǎn)單高效，并且不依賴于下游任務(wù)給出的監(jiān)督信號(hào)。

　　同時(shí)該算法完全不依賴預(yù)訓(xùn)練模型，從而可以公平地與傳統(tǒng)的大規(guī)模預(yù)訓(xùn)練進(jìn)行比較。

　　自監(jiān)督任務(wù)與下游任務(wù)的聯(lián)合訓(xùn)練

　　TLM 基于篩選后的通用預(yù)料數(shù)據(jù)和任務(wù)數(shù)據(jù)，進(jìn)行了自監(jiān)督任務(wù)與下游任務(wù)的聯(lián)合訓(xùn)練。

　　作者采用了傳統(tǒng)的掩碼語(yǔ)言模型（Masked Language Modeling）作為自監(jiān)督訓(xùn)練任務(wù)。

　　訓(xùn)練的損失函數(shù)

　　實(shí)驗(yàn)結(jié)果：小資源比肩大規(guī)模預(yù)訓(xùn)練語(yǔ)言

主要結(jié)果

　　作者在 8 個(gè)自然語(yǔ)言分類任務(wù)上，從三個(gè)不同的規(guī)模分別開(kāi)展了對(duì)比實(shí)驗(yàn)。這些任務(wù)涵蓋了生物醫(yī)藥、新聞、評(píng)論、計(jì)算機(jī)等領(lǐng)域，并且覆蓋了情感分類、實(shí)體關(guān)系抽取、話題分類等任務(wù)類型。

　　TLM 在三種不同訓(xùn)練規(guī)模下的評(píng)估結(jié)果

　　和傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)范式相比，TLM 在多領(lǐng)域多任務(wù)類型的數(shù)據(jù)集上實(shí)現(xiàn)了大致相當(dāng)甚至更優(yōu)的結(jié)果。

　　而更大的優(yōu)勢(shì)在于，TLM 實(shí)現(xiàn)該相當(dāng)甚至更優(yōu)的結(jié)果所使用的資源（包括計(jì)算量 FLOPs 和使用的訓(xùn)練數(shù)據(jù)量），相較于對(duì)應(yīng)預(yù)訓(xùn)練-微調(diào)基準(zhǔn)的資源使用量極大減少約兩個(gè)數(shù)量級(jí)規(guī)模。

參數(shù)高效性分析

　　為了探究 TLM 高效性更本質(zhì)的來(lái)源，作者們對(duì)模型的每個(gè)注意力頭所輸出的注意力結(jié)果進(jìn)行了可視化分析。

　　已有研究[1]指出，呈現(xiàn)「對(duì)角線」模式的注意力結(jié)果（如紅框所示）是對(duì)模型性能影響的關(guān)鍵因素，因?yàn)椤笇?duì)角線」模式把注意力關(guān)注于此前或者此后的符號(hào)(token)上，從而可以捕捉和建模相鄰符號(hào)之間的關(guān)聯(lián)性。

　　注意力結(jié)果可視化分析

　　從可視化結(jié)果可以觀察到，TLM 中包含了更多「對(duì)角線」模式，即有更多的符號(hào)位置都將注意力分散賦予了其相鄰的其他符號(hào)。

　　對(duì)比之下，原始的大規(guī)模預(yù)訓(xùn)練模型（BERT-Base 和 RoBERTa-Base）「對(duì)角線」模式較少，而「垂直」模式更多（如灰色所示），這意味著更多符號(hào)位置將注意力關(guān)注到[CLS]、[SEP]或者標(biāo)點(diǎn)符號(hào)這種不具備語(yǔ)法或者語(yǔ)義信息的符號(hào)上。

　　可以看出，TLM 的參數(shù)高效性要顯著優(yōu)于預(yù)訓(xùn)練語(yǔ)言模型，任務(wù)驅(qū)動(dòng)使得 TLM 針對(duì)下游任務(wù)學(xué)習(xí)到了更豐富的語(yǔ)法語(yǔ)義信息。

消融實(shí)驗(yàn)

　　此外作者還分別在數(shù)據(jù)選取策略、數(shù)據(jù)召回?cái)?shù)量、多任務(wù)學(xué)習(xí)目標(biāo)權(quán)重等多個(gè)角度進(jìn)行了消融實(shí)驗(yàn)探究，以此考察模型性能的穩(wěn)定性和最優(yōu)配置。

　　數(shù)據(jù)選取策略消融實(shí)驗(yàn)結(jié)果

　　在數(shù)據(jù)召回策略上，相比起同等數(shù)量的隨機(jī)選取，基于稀疏特征的 BM25 算法最終結(jié)果有顯著提升（約1-4 個(gè)點(diǎn)），證明其在召回和任務(wù)數(shù)據(jù)相似的通用數(shù)據(jù)上的有效性。

　　最優(yōu)數(shù)據(jù)召回量消融實(shí)驗(yàn)結(jié)果

　　召回通用數(shù)據(jù)無(wú)監(jiān)督訓(xùn)練目標(biāo)權(quán)重(ρ1) 和任務(wù)數(shù)據(jù)無(wú)監(jiān)督訓(xùn)練目標(biāo)權(quán)重(ρ2) 消融實(shí)驗(yàn)結(jié)果

　　對(duì)于最優(yōu)數(shù)據(jù)召回量和多任務(wù)學(xué)習(xí)目標(biāo)權(quán)重兩因素的消融實(shí)驗(yàn)結(jié)果展示出一致的結(jié)論：即兩因素的選擇顯示出和任務(wù)數(shù)據(jù)規(guī)模強(qiáng)相關(guān)性：

對(duì)于數(shù)據(jù)規(guī)模較大的任務(wù)（如 AGNews，RCT），它需要召回相對(duì)更少的相似通用數(shù)據(jù)，同時(shí)應(yīng)賦予任務(wù)數(shù)據(jù)目標(biāo)更大的比重；

對(duì)于數(shù)據(jù)規(guī)模較小的任務(wù)（如 ChemProt，SciERC），它需要召回相對(duì)更多的通用數(shù)據(jù)提供充足信息，同時(shí)賦予召回通用數(shù)據(jù)上的無(wú)監(jiān)督訓(xùn)練目標(biāo)更大的權(quán)重。

　　TLM vs PLM：優(yōu)勢(shì)如何？

　　總結(jié)來(lái)說(shuō)，PLM 以極高的成本學(xué)習(xí)盡可能多的任務(wù)無(wú)關(guān)的知識(shí)，而 TLM 以非常低的成本針對(duì)每個(gè)任務(wù)學(xué)習(xí)相關(guān)知識(shí)。

　　TLM 和 PLM 的對(duì)比

　　具體來(lái)說(shuō)，TLM 和 PLM 相比還具有如下特點(diǎn)：

1. 民主化

　　TLM 的提出打破了 NLP 研究受限于大規(guī)模計(jì)算資源，以及只能由極少數(shù)機(jī)構(gòu)和人員開(kāi)展相關(guān)探索的現(xiàn)狀。基于 TLM 框架，大多數(shù) NLP 研究者都可以以較低代價(jià)以及較高效率，對(duì)目前最先進(jìn)的解決方案做更進(jìn)一步的自由探索和研究。

2. 靈活性

　　相比 PLM，TLM 允許研究者以更加靈活的方式根據(jù)具體的任務(wù)自定義標(biāo)記策略、數(shù)據(jù)表示、序列長(zhǎng)度、超參數(shù)等等。這使得進(jìn)一步提升性能和效率成為可能。

3. 高效性

　　如實(shí)驗(yàn)結(jié)果所示，TLM 的每個(gè)任務(wù)上的 FLOPs 消耗顯著少于 PLM。TLM 和 PLM 分別適用不同情況——當(dāng)面臨少數(shù)目標(biāo)任務(wù)或者領(lǐng)域特定的稀有任務(wù)（例如，NLP 科研工作開(kāi)展過(guò)程對(duì)少數(shù)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和研究；工業(yè)界面臨極其特殊領(lǐng)域問(wèn)題的解決），TLM 是非常高效的選擇；當(dāng)需要一次性解決大量相似且常見(jiàn)任務(wù)時(shí)（例如，公司需要構(gòu)建統(tǒng)一平臺(tái)為多方提供相似服務(wù)），PLM 的可重復(fù)利用使其仍然具備優(yōu)勢(shì)。

4. 通用性

　　PLM 學(xué)習(xí)任務(wù)無(wú)關(guān)的一般性表示，即強(qiáng)調(diào)通用性，而 TLM 通過(guò)學(xué)習(xí)任務(wù)相關(guān)的表示一定程度犧牲通用性換取更高的效率。當(dāng)然，也可以將 PLM 和 TLM 結(jié)合從而實(shí)現(xiàn)通用性和效率之間更好的權(quán)衡。

總結(jié)展望

　　TLM 的提出給自然語(yǔ)言處理領(lǐng)域帶來(lái)「新面貌」，它使得現(xiàn)有 NLP 的研究可以脫離代價(jià)高昂的預(yù)訓(xùn)練，也使得更多獨(dú)立 NLP 研究者們可以在更廣闊的空間進(jìn)行自由探索成為可能。

　　未來(lái)可以進(jìn)一步開(kāi)展更多基于 TLM 框架的研究，例如：如何進(jìn)一步提升 TLM 的通用性和可遷移性；如何更加經(jīng)濟(jì)地達(dá)到更大規(guī)模預(yù)訓(xùn)練模型的表現(xiàn)效果等等。

　　作者介紹

　　論文一作為清華大學(xué)姚班大四本科生姚星丞，他也是今年大火的 EMNLP 接收論文 SimCSE 的共同一作。

　　論文地址：https://arxiv.org/pdf/2104.08821.pdf

　　論文的通訊作者為清華大學(xué)交叉信息院助理教授、Recurrent AI 聯(lián)合創(chuàng)始人楊植麟，曾做出 Transformer-XL、XLNet、HotpotQA 等諸多 NLP 領(lǐng)域大受歡迎的工作。

　　論文的另外兩名作者鄭亞男和楊小驄也來(lái)自清華大學(xué)，其中鄭亞男是今年年初備受矚目的P-tuning（GPT Understands, Too）的共同一作。

　　論文地址：https://arxiv.org/pdf/2103.10385.pdf

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

同話題下的熱門(mén)內(nèi)容

看不懂GitHub代碼？剛剛這個(gè)AI工具讓全球每個(gè)GitHub項(xiàng)目開(kāi)口說(shuō)話全民沸騰！神舟二十圓滿升空！中國(guó)火箭攝影進(jìn)入高清時(shí)代！多項(xiàng)科技揭秘！發(fā)射時(shí)間的隱藏彩蛋：東方紅一號(hào)55周年！7B超越GPT！1/20數(shù)據(jù)，無(wú)需知識(shí)蒸餾，馬里蘭等推出全新視覺(jué)推理方法首個(gè)大模型全鏈路安全綜述！南洋理工新國(guó)立等發(fā)布LLM Safety全景圖：從數(shù)據(jù)、訓(xùn)練到部署的全面梳理納米AI為4億打工人定制「AI牛馬」！可0代碼手搓超級(jí)智能體太爭(zhēng)氣了！百度的底氣，李彥宏的決心：3萬(wàn)卡國(guó)產(chǎn)自研集群；一口氣九個(gè)重磅發(fā)布，全方位支持MCP，百度在大模型應(yīng)用時(shí)代的出招與押注猛擊OpenAI o1、DeepSeek-R1！剛剛，阿里Qwen3登頂全球開(kāi)源模型王座，深夜爆火兩萬(wàn)人大裁員！AI掉隊(duì)、工廠暫停擴(kuò)張，英特爾復(fù)興之路注定艱難

相關(guān)專題更多

解讀惠普Z(yǔ)系列工作站ZBook Ultra G1a高性能移動(dòng)

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開(kāi)發(fā)者成長(zhǎng)學(xué)院 | 成長(zhǎng)有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)