自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NASA和IBM推出INDUS:高級科學(xué)研究的綜合大模型 原創(chuàng)

發(fā)布于 2024-11-4 11:15
瀏覽
0收藏

在最近的一項研究中,來自美國宇航局和IBM的一組研究人員合作開發(fā)了一種模型,該模型可應(yīng)用于地球科學(xué),天文學(xué),物理學(xué),天體物理學(xué),太陽物理學(xué),行星科學(xué)和生物學(xué)以及其他多學(xué)科學(xué)科。當(dāng)前的模型,如 SCIBERT、BIOBERT和SCHOLARBERT僅部分覆蓋了其中的一些領(lǐng)域?,F(xiàn)有的模型沒有充分考慮所有這些相關(guān)領(lǐng)域。

為了彌合這一差距,該團(tuán)隊推出了INDUS,這是一套基于LLMs編碼器的專門針對這些特定領(lǐng)域的設(shè)備。由于INDUS 是根據(jù)從各種來源精心挑選的語料庫進(jìn)行培訓(xùn)的,因此可以保證涵蓋這些領(lǐng)域的知識體系。INDUS 套件包括多種類型的模型,以滿足不同的需求。

在這項研究中,Indus特別關(guān)注與地球、天體、太陽和太陽系內(nèi)的行星相關(guān)的跨學(xué)科領(lǐng)域,如物理學(xué)、地球科學(xué)、天體物理學(xué)、太陽物理學(xué)、行星科學(xué)和生物學(xué)。雖然現(xiàn)有的特定領(lǐng)域模型(如 scibert、biobert和scholarbert)的訓(xùn)練語料庫部分涵蓋了其中一些領(lǐng)域,但目前還沒有一個特定的模型可以共同涵蓋所有感興趣的領(lǐng)域。Indus,這是一個基于llm Encoder的合集,專注于這些感興趣的領(lǐng)域,使用來自不同來源的精心策劃的語料庫進(jìn)行訓(xùn)練。

具體而言,Indus做到了:

1. 利用字節(jié)對編碼算法IndusBPE,從精選的科學(xué)語料庫中定制的分詞器。

2. 利用精心策劃的科學(xué)語料庫和IndusBPE標(biāo)記器預(yù)訓(xùn)練了多個??encoder-only的大模型???(Indus-base)。通過微調(diào)這個編碼器模型,使用??對比學(xué)習(xí)??目標(biāo)來學(xué)習(xí)“通用”句子嵌入(粉色的部分),進(jìn)而創(chuàng)建了sentence-embedding模型。最后還使用知識蒸餾技術(shù)訓(xùn)練了這些模型的更小,更高效的版本(Indus-small)。

3. 本次還創(chuàng)建三個新的科學(xué)基準(zhǔn)數(shù)據(jù)集,即氣候變化ner(實體識別任務(wù))、nasa-qa(抽取式問答任務(wù))和 nasa-ir(檢索任務(wù)),以進(jìn)一步加速這一多學(xué)科領(lǐng)域的研究。

4. 通過實驗結(jié)果表明模型在這些基準(zhǔn)任務(wù)以及現(xiàn)有的特定領(lǐng)域基準(zhǔn)上具有很強(qiáng)的性能,與原始模型相比,在大多數(shù)基準(zhǔn)任務(wù)中,知識提煉的小模型在延遲方面實現(xiàn)了顯著提高,同時保持了強(qiáng)大的經(jīng)驗性能。

至于訓(xùn)練數(shù)據(jù)方面,下圖左側(cè)是本次的訓(xùn)練語料庫的組成部分,右側(cè)對比RoBERTa和IndusBPE Tokenizer的效率,標(biāo)記越少,計算成本越低。下文為兩者切詞的對比。


NASA和IBM推出INDUS:高級科學(xué)研究的綜合大模型-AI.x社區(qū)



NASA和IBM推出INDUS:高級科學(xué)研究的綜合大模型-AI.x社區(qū)




  • SAO/NASA ADS:涵蓋了天文學(xué)和天體物理學(xué)、物理學(xué)和普通科學(xué)領(lǐng)域的出版物,包括所有arXiv。
  • PubMed Central (pmc)是由美國國家醫(yī)學(xué)圖書館和美國國立衛(wèi)生研究院維護(hù)的生物醫(yī)學(xué)和生命科學(xué)期刊文獻(xiàn)的全文檔案。本次使用了pmc中具有商業(yè)友好許可證的部分,以及pmc中所有文章的PubMed摘要。
  • 美國氣象學(xué)會 (ams): 使用了涵蓋地球系統(tǒng)、地球相互作用、應(yīng)用氣象學(xué)和氣候?qū)W、物理海洋學(xué)、大氣科學(xué)、氣候、水文氣象學(xué)、天氣和預(yù)報以及社會影響等主題的全文期刊文件。
  • 美國地球物理聯(lián)盟 (agu):數(shù)據(jù)集包括大氣、生物地球科學(xué)、地球表面、機(jī)器學(xué)習(xí)和計算、海洋、行星、固體地球和空間物理學(xué)等主題的期刊文檔。
  • NASA通用元數(shù)據(jù)存儲庫 (CMR):是一個高性能、高質(zhì)量的元數(shù)據(jù)系統(tǒng),對NASA地球科學(xué)數(shù)據(jù)和信息系統(tǒng) (ESDIS)的所有數(shù)據(jù)和服務(wù)元數(shù)據(jù)記錄進(jìn)行編目。


??

NASA和IBM推出INDUS:高級科學(xué)研究的綜合大模型-AI.x社區(qū)


模型的整體架構(gòu)如上,沒有太復(fù)雜的地方。唯一值得關(guān)注的是利用了知識蒸餾和對比學(xué)習(xí),訓(xùn)練出更小的模型,和檢索器。


NASA和IBM推出INDUS:高級科學(xué)研究的綜合大模型-AI.x社區(qū)


實驗結(jié)果表明,這些模型在最近創(chuàng)建的基準(zhǔn)任務(wù)和當(dāng)前使用的領(lǐng)域特定基準(zhǔn)上都表現(xiàn)良好。它們的性能優(yōu)于特定領(lǐng)域的編碼器(如 SCIBERT)和通用模型(如 RoBERTa),關(guān)鍵是整體的體積很小!


NASA和IBM推出INDUS:高級科學(xué)研究的綜合大模型-AI.x社區(qū)

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦