自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

PubMedBERT:生物醫(yī)學(xué)自然語言處理領(lǐng)域的特定預(yù)訓(xùn)練模型

人工智能
今年大語言模型的快速發(fā)展導(dǎo)致像BERT這樣的模型都可以稱作“小”模型了。Kaggle LLM比賽LLM Science Exam 的第四名就只用了deberta,這可以說是一個(gè)非常好的成績(jī)了。

今年大語言模型的快速發(fā)展導(dǎo)致像BERT這樣的模型都可以稱作“小”模型了。Kaggle LLM比賽LLM Science Exam 的第四名就只用了deberta,這可以說是一個(gè)非常好的成績(jī)了。所以說在特定的領(lǐng)域或者需求中,大語言模型并不一定就是最優(yōu)的解決方案,“小”模型也有一定的用武之地,所以今天我們來介紹PubMedBERT,它使用特定領(lǐng)域語料庫從頭開始預(yù)訓(xùn)練BERT,這是微軟研究院2022年發(fā)布在ACM的論文。

論文的主要要點(diǎn)如下:

對(duì)于具有大量未標(biāo)記文本的特定領(lǐng)域,如生物醫(yī)學(xué),從頭開始預(yù)訓(xùn)練語言模型比持續(xù)預(yù)訓(xùn)練通用領(lǐng)域語言模型效果顯著。提出了生物醫(yī)學(xué)語言理解與推理基準(zhǔn)(BLURB)用于特定領(lǐng)域的預(yù)訓(xùn)練。

PubMedBERT

1、特定領(lǐng)域Pretraining

研究表明,從頭開始的特定領(lǐng)域預(yù)訓(xùn)練大大優(yōu)于通用語言模型的持續(xù)預(yù)訓(xùn)練,從而表明支持混合領(lǐng)域預(yù)訓(xùn)練的主流假設(shè)并不總是適用。

2、模型

使用BERT。對(duì)于掩碼語言模型(MLM),全詞屏蔽(WWM)強(qiáng)制要求整個(gè)詞必須被屏蔽。

3、BLURB數(shù)據(jù)集

據(jù)作者介紹,BLUE[45]是在生物醫(yī)學(xué)領(lǐng)域創(chuàng)建NLP基準(zhǔn)的第一次嘗試。但BLUE的覆蓋范圍有限。針對(duì)基于pubmed的生物醫(yī)學(xué)應(yīng)用,作者提出了生物醫(yī)學(xué)語言理解與推理基準(zhǔn)(BLURB)。

PubMedBERT使用更大的特定領(lǐng)域語料庫(21GB)。

結(jié)果展示

在大多數(shù)生物醫(yī)學(xué)NLP任務(wù)中,PubMedBERT始終優(yōu)于所有其他BERT模型,并且通常具有顯著的優(yōu)勢(shì)。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2022-09-30 15:28:05

BERT語言模型自然語言

2017-05-05 15:34:49

自然語言處理

2014-08-21 09:16:45

生物醫(yī)學(xué)

2018-02-27 09:32:13

神經(jīng)網(wǎng)絡(luò)自然語言初探

2021-09-03 12:01:07

模型自然語言

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2024-06-11 07:40:00

2021-05-13 07:17:13

Snownlp自然語言處理庫

2022-04-22 09:00:00

自然語言處理HMMCRF

2022-04-11 09:30:00

自然語言HMM深度學(xué)習(xí)

2018-04-04 12:00:00

2017-10-19 17:05:58

深度學(xué)習(xí)自然語言

2024-04-24 11:38:46

語言模型NLP人工智能

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術(shù)

2020-08-10 15:25:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-06-23 15:45:55

神經(jīng)網(wǎng)絡(luò)AI算法

2022-11-29 15:38:01

學(xué)習(xí)框架編碼器數(shù)據(jù)

2017-04-17 15:03:16

Python自然語言處理

2020-02-25 12:00:53

自然語言開源工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)