BiomedGPT:一種用于多樣化生物醫(yī)學(xué)任務(wù)的通用型跨模態(tài)基礎(chǔ)模型 - 賓州Lehigh大學(xué)、佐治亞大學(xué)、哈佛醫(yī)學(xué)院
摘要
[2305.17100] BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks
??https://arxiv.org/abs/2305.17100??
??https://github.com/taokz/BiomedGPT??
核心速覽
研究背景
- 研究問(wèn)題:這篇文章要解決的問(wèn)題是如何設(shè)計(jì)一個(gè)通用的生物醫(yī)學(xué)視覺(jué)語(yǔ)言基礎(chǔ)模型(BiomedGPT),以解決現(xiàn)有生物醫(yī)學(xué)人工智能(AI)模型在現(xiàn)實(shí)世界部署中的靈活性有限和難以利用整體信息的問(wèn)題。
- 研究難點(diǎn):該問(wèn)題的研究難點(diǎn)包括:現(xiàn)有模型通常是針對(duì)特定任務(wù)或模態(tài)設(shè)計(jì)的,缺乏跨任務(wù)和模態(tài)的通用性;通用模型需要處理多種數(shù)據(jù)類型,計(jì)算復(fù)雜度較高;需要在保持模型性能的同時(shí),降低模型的規(guī)模和復(fù)雜性。
- 相關(guān)工作:該問(wèn)題的研究相關(guān)工作包括:傳統(tǒng)的生物醫(yī)學(xué)AI模型通常針對(duì)特定任務(wù)進(jìn)行優(yōu)化,如放射學(xué)解釋、臨床信息總結(jié)和精確疾病診斷;現(xiàn)有的通用AI模型如GPT-3等在自然語(yǔ)言處理領(lǐng)域表現(xiàn)出色,但在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用較少,且大多為閉源模型。
研究方法
這篇論文提出了BiomedGPT,用于解決生物醫(yī)學(xué)AI模型在現(xiàn)實(shí)世界部署中的靈活性和通用性問(wèn)題。具體來(lái)說(shuō),
- 模型架構(gòu):BiomedGPT采用Transformer架構(gòu),設(shè)計(jì)為編碼器-解碼器結(jié)構(gòu),能夠處理視覺(jué)和文本輸入。模型通過(guò)離散化數(shù)據(jù)為標(biāo)記,并使用ViT和語(yǔ)言模型的思想實(shí)現(xiàn)輸入/輸出的統(tǒng)一。
- 預(yù)訓(xùn)練任務(wù):預(yù)訓(xùn)練任務(wù)包括掩碼圖像建模(MIM)、對(duì)象檢測(cè)、掩碼語(yǔ)言建模(MLM)、圖像描述和視覺(jué)問(wèn)答(VQA)。這些任務(wù)的指令分別為:“中間部分的圖像是什么?”、“圖像中有哪些對(duì)象?”、“‘{Text}’的完整文本是什么?”、“圖像描述了什么?”和“{Question}”。
- 多任務(wù)學(xué)習(xí):BiomedGPT支持視覺(jué)、文本和視覺(jué)語(yǔ)言任務(wù)的抽象,通過(guò)預(yù)訓(xùn)練和微調(diào)實(shí)現(xiàn)多任務(wù)學(xué)習(xí)。預(yù)訓(xùn)練任務(wù)包括視覺(jué)任務(wù)(MIM、MLM、圖像描述、VQA)和文本任務(wù)(MLM)。
- 零樣本學(xué)習(xí):BiomedGPT能夠在無(wú)需進(jìn)一步訓(xùn)練的情況下回答多模態(tài)醫(yī)學(xué)問(wèn)題,展示了其零樣本學(xué)習(xí)能力。
實(shí)驗(yàn)設(shè)計(jì)
- 數(shù)據(jù)收集:預(yù)訓(xùn)練數(shù)據(jù)集包括592,567張圖像、約1.83億文本句子、46,408個(gè)對(duì)象標(biāo)簽對(duì)和271,804個(gè)圖像-文本對(duì)。微調(diào)數(shù)據(jù)集涵蓋了多個(gè)生物醫(yī)學(xué)任務(wù),如醫(yī)學(xué)圖像分類、文本理解和總結(jié)、視覺(jué)問(wèn)答等。
- 模型版本:設(shè)計(jì)了三個(gè)版本的BiomedGPT模型,分別對(duì)應(yīng)小(S)、中(M)和大(B)規(guī)模,以適應(yīng)不同的計(jì)算資源和任務(wù)需求。
- 評(píng)估指標(biāo):使用多種評(píng)估指標(biāo)來(lái)衡量模型的性能,包括準(zhǔn)確率、F1分?jǐn)?shù)、ROUGE-L、METEOR、CIDEr等。
結(jié)果與分析
- 預(yù)訓(xùn)練效果:BiomedGPT在預(yù)訓(xùn)練階段通過(guò)大規(guī)模數(shù)據(jù)集的學(xué)習(xí),建立了穩(wěn)健和通用的數(shù)據(jù)表示。模型在多個(gè)預(yù)訓(xùn)練任務(wù)上表現(xiàn)出色,特別是在視覺(jué)問(wèn)答和圖像描述任務(wù)上。
- 微調(diào)性能:在微調(diào)階段,BiomedGPT在多個(gè)生物醫(yī)學(xué)任務(wù)上取得了顯著的性能提升。例如,在醫(yī)學(xué)圖像分類任務(wù)中,BiomedGPT在多個(gè)數(shù)據(jù)集上的準(zhǔn)確率均超過(guò)了現(xiàn)有的最先進(jìn)模型;在文本理解和總結(jié)任務(wù)中,ROUGE-L評(píng)分也顯著提高。
- 零樣本學(xué)習(xí):BiomedGPT展示了其在零樣本學(xué)習(xí)中的潛力,能夠在無(wú)需進(jìn)一步訓(xùn)練的情況下回答多模態(tài)醫(yī)學(xué)問(wèn)題,性能與領(lǐng)先的AI模型相當(dāng)。
- 人類評(píng)估:通過(guò)放射科醫(yī)生的評(píng)估,BiomedGPT在視覺(jué)問(wèn)答、報(bào)告生成和總結(jié)任務(wù)中表現(xiàn)出色,顯示出其在實(shí)際臨床應(yīng)用中的潛力。
總體結(jié)論
這篇論文提出的BiomedGPT是一個(gè)開源且輕量級(jí)的視覺(jué)語(yǔ)言基礎(chǔ)模型,能夠在多種生物醫(yī)學(xué)任務(wù)中表現(xiàn)出色。研究表明,通過(guò)大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練和微調(diào),可以有效提高生物醫(yī)學(xué)AI模型的實(shí)用性和診斷效率。盡管BiomedGPT在多個(gè)任務(wù)中表現(xiàn)出色,但在安全、公平和偏見(jiàn)方面仍需進(jìn)一步的評(píng)估和改進(jìn)。未來(lái)的研究可以集中在優(yōu)化模型的性能,擴(kuò)展其應(yīng)用范圍,并確保其在實(shí)際臨床環(huán)境中的可靠性和安全性。
論文評(píng)價(jià)
優(yōu)點(diǎn)與創(chuàng)新
- 開源與輕量級(jí):BiomedGPT是第一個(gè)開源且輕量級(jí)的視覺(jué)語(yǔ)言基礎(chǔ)模型,參數(shù)規(guī)模僅為商業(yè)通用生物醫(yī)學(xué)AI模型Med-PaLM M的3088分之一,顯著降低了計(jì)算和部署的復(fù)雜性。
- 多模態(tài)處理能力:BiomedGPT能夠處理視覺(jué)和文本輸入,并通過(guò)序列化處理表格數(shù)據(jù),展示了其在多模態(tài)任務(wù)中的強(qiáng)大能力。
- 廣泛的預(yù)訓(xùn)練數(shù)據(jù)集:BiomedGPT使用了包含592,567張圖像、約1.83億文本句子、46,408個(gè)對(duì)象標(biāo)簽對(duì)和271,804個(gè)圖像-文本對(duì)的大規(guī)模預(yù)訓(xùn)練語(yǔ)料庫(kù),確保了模型的泛化能力。
- 指令遵循能力:開發(fā)了Instruct-BiomedGPT變體,通過(guò)特定的指令調(diào)優(yōu)數(shù)據(jù)提升了模型的指令遵循能力。
- 零樣本學(xué)習(xí):BiomedGPT能夠在不進(jìn)行額外訓(xùn)練的情況下回答多模態(tài)醫(yī)學(xué)問(wèn)題,表現(xiàn)出與領(lǐng)先AI相當(dāng)?shù)男阅堋?/li>
- 人類評(píng)估:在放射學(xué)視覺(jué)問(wèn)答、報(bào)告生成和摘要等任務(wù)中進(jìn)行了人類評(píng)估,展示了BiomedGPT在實(shí)際臨床應(yīng)用中的潛力。
- 多任務(wù)學(xué)習(xí):BiomedGPT展示了出色的多任務(wù)學(xué)習(xí)能力,簡(jiǎn)化了AI系統(tǒng)的部署和管理。
不足與反思
- 數(shù)據(jù)質(zhì)量和多樣性:開發(fā)AI依賴于高質(zhì)量和標(biāo)注的數(shù)據(jù),但在生物醫(yī)學(xué)領(lǐng)域,數(shù)據(jù)注釋昂貴且耗時(shí),導(dǎo)致數(shù)據(jù)質(zhì)量參差不齊?,F(xiàn)有數(shù)據(jù)集大多集中在放射學(xué),導(dǎo)致模態(tài)不平衡。
- 生成文本的事實(shí)準(zhǔn)確性:評(píng)估生成文本的質(zhì)量存在挑戰(zhàn),盡管CIDEr和ROUGE-L等指標(biāo)可以衡量生成內(nèi)容與黃金標(biāo)準(zhǔn)的相似性,但確保這些輸出的事實(shí)準(zhǔn)確性仍然是一個(gè)問(wèn)題。
- 模型擴(kuò)展的復(fù)雜性:BiomedGPT目前專注于處理圖像和文本數(shù)據(jù),但擴(kuò)展其能力以涵蓋其他類型的生物醫(yī)學(xué)數(shù)據(jù)(如視頻和時(shí)間序列數(shù)據(jù))可能會(huì)引入負(fù)遷移問(wèn)題。
- 計(jì)算效率:盡管BiomedGPT在零樣本預(yù)測(cè)和微調(diào)后表現(xiàn)出色,但擴(kuò)展模型規(guī)模帶來(lái)的計(jì)算挑戰(zhàn)仍然存在。探索可控學(xué)習(xí)策略如專家混合方法可能有助于緩解這些問(wèn)題。
- 文本理解能力:與GPT-4V相比,BiomedGPT的文本理解能力尚未完全建立,特別是在復(fù)雜醫(yī)學(xué)應(yīng)用中。未來(lái)的研究應(yīng)專注于提高上下文學(xué)習(xí)和文本理解的性能。
關(guān)鍵問(wèn)題及回答
問(wèn)題1:BiomedGPT在預(yù)訓(xùn)練過(guò)程中使用了哪些具體的任務(wù)和數(shù)據(jù)集?這些任務(wù)和數(shù)據(jù)集的選擇對(duì)模型性能有何影響?
BiomedGPT在預(yù)訓(xùn)練過(guò)程中使用了多種任務(wù)和數(shù)據(jù)集,包括掩碼圖像建模(MIM)、對(duì)象檢測(cè)、掩碼語(yǔ)言建模(MLM)、圖像描述和視覺(jué)問(wèn)答(VQA)。具體數(shù)據(jù)集包括IU X-ray、MediCat、PathVQA、PEIR GROSS和SLAKE等。這些任務(wù)和數(shù)據(jù)集的選擇對(duì)模型性能有顯著影響,因?yàn)樗鼈兒w了視覺(jué)和文本的多種模態(tài),確保了模型的泛化能力。特別是,使用大規(guī)模和多樣化的數(shù)據(jù)集有助于模型學(xué)習(xí)到更穩(wěn)健和通用的數(shù)據(jù)表示,從而在多個(gè)下游任務(wù)中表現(xiàn)出色。
問(wèn)題2:BiomedGPT在微調(diào)階段的表現(xiàn)如何?它在哪些具體任務(wù)上取得了顯著的性能提升?
在微調(diào)階段,BiomedGPT在多個(gè)生物醫(yī)學(xué)任務(wù)上取得了顯著的性能提升。例如,在醫(yī)學(xué)圖像分類任務(wù)中,BiomedGPT在多個(gè)數(shù)據(jù)集上的準(zhǔn)確率均超過(guò)了現(xiàn)有的最先進(jìn)模型;在文本理解和總結(jié)任務(wù)中,ROUGE-L評(píng)分也顯著提高。具體來(lái)說(shuō),BiomedGPT在醫(yī)學(xué)圖像分類任務(wù)中的準(zhǔn)確率在多個(gè)數(shù)據(jù)集上達(dá)到了90%以上,在文本總結(jié)任務(wù)中的ROUGE-L評(píng)分接近50%。這些結(jié)果表明,BiomedGPT能夠通過(guò)微調(diào)有效地適應(yīng)不同的生物醫(yī)學(xué)任務(wù),展現(xiàn)出強(qiáng)大的多任務(wù)學(xué)習(xí)能力。
問(wèn)題3:人類評(píng)估中,BiomedGPT在哪些具體任務(wù)上表現(xiàn)出色?評(píng)估結(jié)果如何?
在人類評(píng)估中,BiomedGPT在視覺(jué)問(wèn)答、報(bào)告生成和總結(jié)任務(wù)中表現(xiàn)出色。具體來(lái)說(shuō),在放射科醫(yī)生的評(píng)估中,BiomedGPT在視覺(jué)問(wèn)答任務(wù)中的平均得分為1.75,總分達(dá)到91分;在報(bào)告生成任務(wù)中,生成的報(bào)告在事實(shí)性、遺漏和錯(cuò)誤嚴(yán)重性方面的得分分別為23.3%、23.5%和8.3%;在報(bào)告總結(jié)任務(wù)中,生成的總結(jié)在完整性、正確性和潛在醫(yī)療危害方面的得分分別為81.0%、90.0%和6.0%。這些評(píng)估結(jié)果表明,BiomedGPT在實(shí)際臨床應(yīng)用中具有較高的潛力,能夠生成高質(zhì)量的報(bào)告和總結(jié),輔助醫(yī)生進(jìn)行診斷和治療。
本文轉(zhuǎn)載自 ??知識(shí)圖譜科技??,作者: KGGPT
