PubMedBERT:生物醫(yī)學(xué)自然語言處理領(lǐng)域的特定預(yù)訓(xùn)練模型
今年大語言模型的快速發(fā)展導(dǎo)致像BERT這樣的模型都可以稱作“小”模型了。Kaggle LLM比賽LLM Science Exam 的第四名就只用了deberta,這可以說是一個(gè)非常好的成績(jī)了。所以說在特定的領(lǐng)域或者需求中,大語言模型并不一定就是最優(yōu)的解決方案,“小”模型也有一定的用武之地,所以今天我們來介紹PubMedBERT,它使用特定領(lǐng)域語料庫從頭開始預(yù)訓(xùn)練BERT,這是微軟研究院2022年發(fā)布在ACM的論文。
論文的主要要點(diǎn)如下:
對(duì)于具有大量未標(biāo)記文本的特定領(lǐng)域,如生物醫(yī)學(xué),從頭開始預(yù)訓(xùn)練語言模型比持續(xù)預(yù)訓(xùn)練通用領(lǐng)域語言模型效果顯著。提出了生物醫(yī)學(xué)語言理解與推理基準(zhǔn)(BLURB)用于特定領(lǐng)域的預(yù)訓(xùn)練。
PubMedBERT
1、特定領(lǐng)域Pretraining
研究表明,從頭開始的特定領(lǐng)域預(yù)訓(xùn)練大大優(yōu)于通用語言模型的持續(xù)預(yù)訓(xùn)練,從而表明支持混合領(lǐng)域預(yù)訓(xùn)練的主流假設(shè)并不總是適用。
2、模型
使用BERT。對(duì)于掩碼語言模型(MLM),全詞屏蔽(WWM)強(qiáng)制要求整個(gè)詞必須被屏蔽。
3、BLURB數(shù)據(jù)集
據(jù)作者介紹,BLUE[45]是在生物醫(yī)學(xué)領(lǐng)域創(chuàng)建NLP基準(zhǔn)的第一次嘗試。但BLUE的覆蓋范圍有限。針對(duì)基于pubmed的生物醫(yī)學(xué)應(yīng)用,作者提出了生物醫(yī)學(xué)語言理解與推理基準(zhǔn)(BLURB)。
PubMedBERT使用更大的特定領(lǐng)域語料庫(21GB)。
結(jié)果展示
在大多數(shù)生物醫(yī)學(xué)NLP任務(wù)中,PubMedBERT始終優(yōu)于所有其他BERT模型,并且通常具有顯著的優(yōu)勢(shì)。