微軟朱晨光:預(yù)訓(xùn)練模型下一步怎么走?突破PLM的「不可能三角」
?近年來,大規(guī)模預(yù)訓(xùn)練語言模型(PLM)已經(jīng)顯著提升了各種 NLP 任務(wù)的性能。從 BERT 和 GPT-2 開始,自監(jiān)督預(yù)訓(xùn)練 + 監(jiān)督式微調(diào)的范式取得了巨大的成功,刷新了語義相似度、機(jī)器閱讀理解、常識推理和文本摘要等很多 NLP 領(lǐng)域的 SOTA 結(jié)果。此外,中等規(guī)模的 PLM 實(shí)現(xiàn)了廣泛和快速的模型微調(diào)和調(diào)整。
但是,在很多實(shí)際尤其是新穎的 NLP 場景中,受限于預(yù)算或者時間,用于有效微調(diào)的標(biāo)注數(shù)據(jù)極其有限。這種情況刺激了零樣本和小樣本 NLP 模型的發(fā)展。從 GPT-3 開始,當(dāng)僅給出任務(wù)描述以及可能的一些手動示例時,超級大規(guī)模 PLM(SL-PLM)在一般 NLP 任務(wù)上顯示出了更強(qiáng)的性能。這種能力在以往的中等規(guī)模 PLM 中沒有觀察到。然而,SL-PLM 的前所未有的規(guī)模在很大程度上也限制了它們的廣泛應(yīng)用。小的科技公司和研究人員很難獲得加載這些模型所需要的足夠的計(jì)算資源,更不用說高效的部署和可能的微調(diào)了。
近日,微軟認(rèn)知服務(wù)研究小組(Cognitive Services Research,CSR)的兩位研究者在其新論文《Impossible Triangle: What’s Next for Pre-trained Language Models?》中對未來的預(yù)訓(xùn)練語言模型進(jìn)行了展望。
論文一作朱晨光(Chenguang Zhu)本科畢業(yè)于清華姚班,2016 年博士畢業(yè)于斯坦福大學(xué)。之后,他進(jìn)入微軟工作,現(xiàn)任 CSR 首席研究經(jīng)理。
論文地址:https://arxiv.org/pdf/2204.06130.pdf
他們首先根據(jù)不可能三角(Impossible Triangle)的概念詳細(xì)闡述當(dāng)前使用 PLM 模型的難點(diǎn),這里的不可能三角包括中等模型大小、SOTA 小樣本學(xué)習(xí)能力和 SOTA 微調(diào)能力。研究者認(rèn)為,所有現(xiàn)有的 PLM 模型都缺少不可能三角中的一個或多個屬性。為了彌補(bǔ) PLM 缺失的這些屬性,人們提出了各種技術(shù),例如知識蒸餾、數(shù)據(jù)增強(qiáng)和提示學(xué)習(xí),這些不可避免地對 PLM 在真實(shí)場景中的應(yīng)用帶來了額外的工作。
針對這些情況,研究者對未來 PLM 的研究方向提出了自己的見解以實(shí)現(xiàn)不可能三角,并將任務(wù)分解成了三個關(guān)鍵階段。
不可能三角
該研究用「不可能三角」這個經(jīng)濟(jì)學(xué)理論來形容 PLM 研究當(dāng)前遇到的障礙,如圖 1 所示。這個三角描述了高效使用 PLM 三個關(guān)鍵屬性:P1 表示模型尺寸,P2 表示 SOTA 小樣本學(xué)習(xí)能力,P3 表示 SOTA 自監(jiān)督學(xué)習(xí)能力。這三個要素對應(yīng) PLM 在實(shí)際應(yīng)用中的三個需求:P1 用于使用合理數(shù)量的計(jì)算資源進(jìn)行高效部署;P2 用于標(biāo)記數(shù)據(jù)為零或很少的場景;P3 針對標(biāo)注數(shù)據(jù)比較豐富的場景。
不可能三角存在的一個潛在原因是,在當(dāng)前階段,只有當(dāng) PLM 規(guī)模足夠大、容量足夠高,小樣本學(xué)習(xí)能力才會出現(xiàn)。雖然有研究設(shè)計(jì)出了中等規(guī)模的 PLM(例如 iPET),以實(shí)現(xiàn)比 GPT-3 更好的小樣本學(xué)習(xí)能力,但該模型被后來的 SL-PLM 超越,之后隨著模型的不斷擴(kuò)展,零樣本或小樣本學(xué)習(xí)性能不斷得到提高。例如,與具有 8B 和 62B 參數(shù)的模型變體相比,具有 540B 參數(shù)的 PaLM 在許多任務(wù)上的準(zhǔn)確率都有了大幅提升。因此,在保持卓越的監(jiān)督學(xué)習(xí)能力的同時,開發(fā)具有 SOTA 零 / 小樣本學(xué)習(xí)性能的中等規(guī)模模型仍然是一個巨大的挑戰(zhàn)。
盡管沒有 PLM 實(shí)現(xiàn)不可能三角中的所有三個屬性,但它們中的許多已經(jīng)獲得了其中的一兩個功能:
中等規(guī)模 PLM(P1 + P3):這些語言模型具有中等規(guī)模,參數(shù)小于 10 億,能夠有效地進(jìn)行調(diào)優(yōu)和部署。這類模型在一般的 NLP 任務(wù)中(例如 GLUE 基準(zhǔn)、文本摘要、open-domain 問答、嘗試推理)可以達(dá)到 SOTA 性能。然而,這類模型通常具有相對較弱的零 / 小樣本學(xué)習(xí)能力,這意味著使用這些模型取決于目標(biāo)域中足夠的標(biāo)記數(shù)據(jù)。
超大規(guī)模 PLM(P2):這些語言模型具有超大規(guī)模,參數(shù) 1 到 10000 億,并且在大規(guī)模數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。例如,具有 5400 億參數(shù)的 PaLM 在具有 7800 億個 token 的不同文本語料庫上進(jìn)行了預(yù)訓(xùn)練。當(dāng)具有 prompt 任務(wù)描述和一些少量的輸入 - 輸出樣本對時,這類模型在一般的零 / 小樣本 NLP 任務(wù)上實(shí)現(xiàn)了 SOTA 性能。然而,一般而言,SL-PLM 的零 / 小樣本性能低于有監(jiān)督訓(xùn)練模型的性能;在微調(diào)之后,許多 SL-PLM 的性能仍然低于最佳微調(diào)的中等規(guī)模的 PLM,可能是由于這類模型尺寸巨大難以微調(diào)。
當(dāng)前都有哪些彌補(bǔ)方法
由于不可能三角關(guān)系的存在,研究者采取不同措施來解決??煽偨Y(jié)如下:
巨大的模型規(guī)模(缺少 P1)。當(dāng) SL-PLM 顯示出極好的小樣本學(xué)習(xí)能力以及微調(diào)后性能強(qiáng)大,就會發(fā)生這種情況。為了獲得性能與 SL-PLM 相似的中等大小的模型,一種常見的做法是知識蒸餾 (KD)。在 KD 中,較大的模型充當(dāng)教師,較小的模型是學(xué)生,學(xué)生從教師的預(yù)測分布或參數(shù)中學(xué)習(xí)。知識蒸餾在創(chuàng)建更有效的模型方面非常有效,但性能卻略有降低。然而,知識蒸餾仍然存在兩個問題:首先,學(xué)生模型很難達(dá)到與老師模型相同的性能;其次,SL-PLM 大尺寸阻礙了推理,使其作為教師模型不方便使用。
較差的零 / 小樣本性能(缺少 P2):這對于中等規(guī)模的 PLM 最常見,它們在微調(diào)后可以實(shí)現(xiàn) SOTA 性能,但具有相對較低的零 / 小樣本學(xué)習(xí)能力。當(dāng)缺少足夠的標(biāo)記數(shù)據(jù)時,部署這樣的模型是比較好的。數(shù)據(jù)增強(qiáng)是一種常用方法,通過從其他模型或噪聲注入生成偽標(biāo)簽和偽數(shù)據(jù)實(shí)例,該模型可以利用這些額外數(shù)據(jù)進(jìn)行有效的監(jiān)督訓(xùn)練。然而,偽數(shù)據(jù)質(zhì)量的變化和不同任務(wù)中數(shù)據(jù)類型的多樣性對普遍適用的解決方案提出了挑戰(zhàn)。
監(jiān)督訓(xùn)練性能較差(缺少 P3):這在微調(diào) SL-PLM 時很典型,在這種情況下,計(jì)算資源有限或訓(xùn)練數(shù)據(jù)的數(shù)量不足以調(diào)整一個超大型模型。一個典型的解決方案是 prompt 學(xué)習(xí)。可以利用 hard prompt(即離散文本模板)或 soft prompt(即連續(xù)模板),以便在微調(diào)期間僅更新 hard prompt 詞或 soft prompt 參數(shù)。這已被證明對于提高給定標(biāo)記數(shù)據(jù)的 SL-PLM 的性能非常有效。但是,但這種方式對 prompt 的設(shè)計(jì)非常敏感,同時效果不如有監(jiān)督學(xué)習(xí)的中等規(guī)模 PLM。
三個關(guān)鍵階段
雖然目前 NLP 模型存在不可能三角,研究者認(rèn)為它可以通過以下三個階段來解決。
階段 1:PLM 的開發(fā)目標(biāo)是實(shí)現(xiàn)三角中的一些期望屬性,同時對其他缺失的屬性進(jìn)行改進(jìn)。例如,具備 SOTA 監(jiān)督學(xué)習(xí)能力的中等規(guī)模的模型可以提升其小樣本學(xué)習(xí)性能;或者具備小樣本學(xué)習(xí)能力的 SL-PLM 被壓縮成具有更強(qiáng)監(jiān)督學(xué)習(xí)性能的更小模型。
階段 2:開發(fā)在少數(shù) NLP 任務(wù)之一(如 NER 或文本摘要)上實(shí)現(xiàn)所有三種期望屬性的 PLM。為此,我們可以利用目標(biāo)任務(wù)的獨(dú)特屬性,例如性能對訓(xùn)練數(shù)據(jù)規(guī)模的依賴更少、零 / 小樣本和監(jiān)督學(xué)習(xí)性能之間的差距更小等。
階段 3:在階段 1 和階段 2 進(jìn)展的基礎(chǔ)上,開發(fā)在一般 NLP 任務(wù)上實(shí)現(xiàn)所有三種期望屬性的 PLM。潛在的方法包括使用更大的數(shù)據(jù)預(yù)訓(xùn)練中等規(guī)模的模型、開發(fā)更好的知識蒸餾、泛化數(shù)據(jù)增強(qiáng)方法等。
一旦 PLM 模型在一般 NLP 任務(wù)上具備了不可能三角的所有三種屬性,它將改變 NLP 研究和應(yīng)用的整個局面,促進(jìn)快速、高效和高質(zhì)量的模型開發(fā)和部署。?