陳丹琦組掩蔽語言模型研究:15%掩蔽率不是最佳,40%站得住腳嗎?
前段時間,斯隆基金會公布了2022 年度斯隆研究獎的獲獎?wù)?,陳丹琦、方飛、顧全全、李博等多位研究者獲得了計算機科學(xué)領(lǐng)域的獎項。
在獲獎后不久,陳丹琦所在的團隊就公布了一項新研究。但和陳丹琦之前廣受贊譽的各項工作不同,這一新作受到了諸多質(zhì)疑。
這個工作是關(guān)于掩蔽語言建模( masked language modeling,MLM)的。掩蔽語言模型通常使用15%的掩蔽率,因為大家發(fā)現(xiàn),更高的掩蔽率將不能提供足夠的上下文來學(xué)習(xí)良好的表示,而更低的掩蔽率將大幅提高訓(xùn)練成本。但陳丹琦等人卻發(fā)現(xiàn),如果將掩蔽率提高到40%,性能可以超過15%的基線;如果提高到80%,大部分性能仍能得以保留,這是在下游任務(wù)上進(jìn)行微調(diào)測得的結(jié)果。
由于和不少人自身實驗的結(jié)果并不符合,而且沒有開源代碼,所以這一研究在推特、知乎等平臺上引起了很大的爭議。
有人認(rèn)為,這就是一個調(diào)參的結(jié)果,沒有理論依據(jù),「黑盒的層面很多」,能不能復(fù)現(xiàn)也不好說。但也有人認(rèn)為,如果嚴(yán)格按照論文的設(shè)置,論文的結(jié)果能夠復(fù)現(xiàn),就相當(dāng)于「有人事先把最優(yōu)參數(shù)調(diào)出來了」,這也沒什么不好。而且,這篇論文還能「啟發(fā)大家重新反思MLM的使用」,所以算得上是一個有價值的工作。
知乎鏈接:https://www.zhihu.com/question/517319014?utm_source
接下來,我們就一起來看下這項工作。
這篇文章寫了什么
幾個月前,何愷明的Masked Autoencoders成為了計算機視覺的熱門,其遮蔽80%還能腦補原圖的重建能力驚為天人。何愷明等人在其論文中展望了預(yù)訓(xùn)練大模型在CV領(lǐng)域的前景,而在NLP領(lǐng)域里,人們訓(xùn)練算法通常使用的遮蔽比例是15%。在陳丹琦的新研究中,這一數(shù)字被顯著提高了。
論文鏈接:https://arxiv.org/abs/2202.08005
預(yù)訓(xùn)練語言模型已經(jīng)改變了自然語言處理領(lǐng)域的格局。大型語言模型經(jīng)過巨量文本數(shù)據(jù)的訓(xùn)練,可獲得豐富多樣的語言表示能力。與總是預(yù)測序列中下一個token的自回歸模型相比,像 BERT 這樣的掩蔽語言模型(MLM)會根據(jù)上下文預(yù)測輸入token的掩蔽子集,由于具有雙向性質(zhì),此方法效果通常更佳。
此種方法是把模型限制為只掩蔽一小部分token內(nèi)容開始進(jìn)行學(xué)習(xí)的,通常為每序列15%。15%的數(shù)字反映這樣一個假設(shè)——若掩蔽太多文本,則模型無法很好地學(xué)習(xí)表示,這一思路被BERT之后的研究普遍采用。同時,僅對 15% 的序列進(jìn)行預(yù)測已被視為對 MLM 進(jìn)行有效預(yù)訓(xùn)練的限制。
在普林斯頓大學(xué)陳丹琦等人的研究中,作者發(fā)現(xiàn)了與此前結(jié)論完全不同的情況:在有效的預(yù)訓(xùn)練方案下,他們可以掩蔽 40-50% 的輸入文本,并獲得比默認(rèn)的 15% 更好的下游性能。
下表展示了掩蔽 80%、40%和15% 的情況下,預(yù)訓(xùn)練模型的下游性能。在掩蔽率為80%的條件下,大多數(shù)上下文內(nèi)容已變得不可見,但相比15%掩蔽,模型仍能學(xué)習(xí)到接近的預(yù)訓(xùn)練表示效果。這挑戰(zhàn)了人們關(guān)于掩蔽率的直覺,并提出了模型如何從高掩蔽率中受益的問題。
表1:不同掩蔽率下的掩蔽示例、驗證困惑度和下游任務(wù)性能。在這里,所有模型都是有效預(yù)訓(xùn)練條件下訓(xùn)練的大模型。
沿著這一方向,作者建議將掩蔽率分解為兩個因素:損壞率(corruption rate,有多少上下文被掩蔽)和預(yù)測率(prediction rate,模型預(yù)測的token有多少)。在 MLM 中,損壞率和預(yù)測率都與掩蔽率相同。然而,這兩個因素具有相反的效果:雖然較高的預(yù)測率會產(chǎn)生更多的訓(xùn)練信號并有利于優(yōu)化,但較高的損壞率會使學(xué)習(xí)問題在較少上下文的情況下更具挑戰(zhàn)性。
為獨立研究這兩個因素,作者設(shè)計了消融實驗來分離損壞和預(yù)測。實驗證明,模型可受益于更高的預(yù)測率,更高的損壞率則不然。更高的預(yù)測率所帶來的好處能否掩蓋更高的損壞率所帶來的負(fù)面影響,決定了模型能否在更高的掩蔽率下表現(xiàn)得更好。研究者還發(fā)現(xiàn),擁有處理更高損壞率的更大的模型表現(xiàn)出了更高的最佳掩蔽率。
受這一結(jié)果啟發(fā),作者在復(fù)雜情況下考慮了更高的掩蔽率,例如span掩蔽和 PMI 掩蔽。當(dāng)以 15% 的掩蔽率進(jìn)行評估時,這些方法被證明優(yōu)于簡單的均勻掩蔽(uniform masking),但均勻掩蔽在其各自的最佳掩蔽率下與復(fù)雜的掩蔽基線相比具有競爭力。本文作者表示,他們提出的新的預(yù)測率-損壞率框架也為 BERT 基于原始或隨機token(80-10-10 策略)的預(yù)測實踐提供了新的思路——如果沒有它,模型通常會表現(xiàn)得更好。
作者在討論中表示,在 MLM 中采用更高的掩蔽率會帶來更好的性能,尤其是在資源有限的環(huán)境中。從輸入中移除掩蔽token,或解耦損壞率和預(yù)測率,有望進(jìn)一步加速預(yù)訓(xùn)練。
具體來說,這項研究的貢獻(xiàn)包括:
- 研究證明,訓(xùn)練具有較高掩蔽率的掩蔽語言模型是可以成功的。例如,具有高效預(yù)訓(xùn)練方法的大模型在掩蔽率為40%的情況下比15%的情況下表現(xiàn)更好;
- 研究者建議將掩蔽率分解為損壞率和預(yù)測率,這兩個相反的要素分別影響任務(wù)難度和訓(xùn)練信號,研究者使用該框架表明,較大的模型有更高的最優(yōu)掩蔽率,并且只使用[ MASK ]token掩蔽優(yōu)于80-10-10策略;
- 研究證明,在高掩蔽率下,與span掩蔽和PMI掩蔽等更高級的掩蔽方案相比,均勻掩蔽更具競爭力。
掩蔽語言模型通常使用15%的掩蔽率,研究者一般認(rèn)為更高的掩蔽率會導(dǎo)致用來學(xué)習(xí)良好表征的上下文不足,而更低的掩蔽率則會導(dǎo)致訓(xùn)練成本太高。
在這項研究中,研究者發(fā)現(xiàn)高達(dá)40%的掩蔽率可以超過15%的baseline,即使是80%的掩蔽率也可以保持大部分性能,這可以通過對下游任務(wù)進(jìn)行微調(diào)來衡量。
實驗結(jié)果
在消融實驗中研究者發(fā)現(xiàn),增加掩蔽率有兩方面影響:1、更高比例的輸入token被損壞,減少了上下文的大小并創(chuàng)建了一個更困難的任務(wù);2、模型會執(zhí)行更多的預(yù)測,這有利于訓(xùn)練。研究者觀察到,較大的模型特別適合更高的掩蔽率,因為大模型本身具備更高的能力來執(zhí)行困難任務(wù)。進(jìn)一步地,研究者將該發(fā)現(xiàn)與復(fù)雜的掩蔽方案結(jié)合起來,比如span掩蔽和PMI掩蔽,以及BERT的80-10-10策略,并發(fā)現(xiàn)使用[MASK]替代的簡單均勻掩蔽在更高的掩蔽率下具備競爭力。
圖1:掩蔽率對具有高效預(yù)訓(xùn)練方案的大模型的影響。研究者發(fā)現(xiàn),在大多數(shù)任務(wù)中,更高的掩蔽率比15%的掩蔽率表現(xiàn)更好,40%是最佳的掩蔽率。
表2:大模型、高效預(yù)訓(xùn)練方法的條件下,15% 或40% 掩蔽率在 GLUE 基準(zhǔn)上的測試結(jié)果對比。
圖2:在掩蔽率為15%和40%的情況下,使用高效的預(yù)訓(xùn)練方法訓(xùn)練的大模型的下游任務(wù)性能。
表3:損壞率 vs. 預(yù)測率。以40%的掩蔽作為基線,分離m_corr和m_pred,并分別對它們進(jìn)行操作。趨勢是明確的:更高的預(yù)測率是有益的,但更高的損壞率是有害的。
圖3:掩蔽率對不同大小的模型的影響??梢园l(fā)現(xiàn),較大的模型擁有較大的最佳掩蔽率。
未來展望
研究者進(jìn)一步討論了其他語言模型中的掩蔽率問題,除MLM之外,還有其他被廣泛用于NLP任務(wù)的預(yù)訓(xùn)練方案,包括自回歸語言模型(Radford et al., 2018; Brown et al., 2020) 和sequence-to-sequence語言模型(Raffel et al., 2020; Lewis et al., 2020)。類似地,sequence-to-sequence語言模型以一定的掩蔽率損壞文本,并用自回歸的方式預(yù)測掩蔽文本。T5(Raffel et al., 2020)也采用了15%的掩蔽率。研究者準(zhǔn)備擴大研究,比如研究文本到文本模型,并探討掩蔽率和不同類型解碼器之間的相互作用。
更多內(nèi)容請參考原論文。