LLM在放射科學(xué)中應(yīng)用潛力如何?數(shù)十家研究機(jī)構(gòu)聯(lián)合測(cè)試了31個(gè)大模型
近年來,大型語言模型(LLM)在自然語言領(lǐng)域(NLP)掀起了革新的狂潮,在大規(guī)模、高質(zhì)量數(shù)據(jù)訓(xùn)練的驅(qū)動(dòng)下,LLM 在多種領(lǐng)域都展現(xiàn)出卓越的性能。LLMs 的崛起不僅讓我們重新審視了自然語言的處理方式,更是為多個(gè)領(lǐng)域注入了革新的 “新鮮血液”。值得注意的是,近期像 ChatGPT、BLOOM、Llama 這樣的 LLM 正在大量涌現(xiàn)與飛速進(jìn)化,令人嘆為觀止。更令人興奮的是,國(guó)內(nèi)多個(gè)優(yōu)秀模型,如 Ziya-LLaMA、ChatGLM、baichuan 等,也在 LLM 的世界舞臺(tái)上嶄露頭角。這一潮流不僅見證了 LLM 不斷涌現(xiàn)和更新迭代,還展示了它們?cè)卺t(yī)療健康領(lǐng)域的巨大潛力。
在這一浪潮中,放射學(xué) NLP 領(lǐng)域備受矚目,LLM 在這個(gè)領(lǐng)域的發(fā)展和應(yīng)用更是已經(jīng)成為不可忽視的趨勢(shì)。然而,盡管 LLMs 發(fā)展趨勢(shì)迅猛,系統(tǒng)性地評(píng)估它們?cè)诜派淇?NLP 能力上的研究還遠(yuǎn)遠(yuǎn)不足,尤其是對(duì)來自像中國(guó)這樣的多語言國(guó)家的新興模型的研究:這些模型在英文和中文(等其它語言)的多語言處理能力方面有獨(dú)特的優(yōu)勢(shì),但卻鮮有深入的科學(xué)性能評(píng)估研究。在醫(yī)學(xué)和放射學(xué)領(lǐng)域,我們正面臨著一個(gè)亟需填補(bǔ)的知識(shí)空白。
因此,我們認(rèn)為有必要對(duì)這些全球性 LLMs 進(jìn)行嚴(yán)格且系統(tǒng)性的探索和分析。這不僅有助于更全面、更深入地了解它們的能力和局限性,還能將它們有機(jī)地融入全球 LLMs 的生態(tài)系統(tǒng)中之中,從而推進(jìn)全球醫(yī)療領(lǐng)域、放射學(xué)領(lǐng)域 LLM 社區(qū)的發(fā)展。本研究旨在通過廣泛測(cè)試全球 31 個(gè)主流 LLMs 在兩個(gè)公開放射科數(shù)據(jù)集 (MIMIC-CXR 和 OpenI) 上的性能,驗(yàn)證它們?cè)谏煞派鋵W(xué)診斷信息(impression)的能力。
論文地址:https://arxiv.org/pdf/2307.13693.pdf
在這項(xiàng)研究中,我們采用了一系列具體指標(biāo)來評(píng)估模型,模型的評(píng)估標(biāo)準(zhǔn)均基于它們從放射學(xué)發(fā)現(xiàn)生成診斷信息的能力,通過具體指標(biāo)來驗(yàn)證模型所生成診斷信息的質(zhì)量。所用指標(biāo)包括零樣本(zero-shot)、一樣本(one-shot)和五樣本(five-shot)條件下的 Recall@1、Recall@2 和 Recall@L。通過將這 31 個(gè)國(guó)際主流 LLMs 在這些指標(biāo)上進(jìn)行 “競(jìng)爭(zhēng)”,我們旨在揭示它們?cè)诜派鋵W(xué)領(lǐng)域的相對(duì)優(yōu)勢(shì)和劣勢(shì),為 LLMs 在放射學(xué)領(lǐng)域的應(yīng)用提供更加深入的理解。
值得一提的是,這項(xiàng)研究的成果不僅有助于推動(dòng)放射學(xué)自然語言處理工具和LLM的優(yōu)化和開發(fā),而且這些 LLM 模型也將成為放射科醫(yī)師和廣泛醫(yī)學(xué)界的寶貴工具,推動(dòng)放射學(xué) NLP 領(lǐng)域的發(fā)展。在這個(gè)充滿挑戰(zhàn)和機(jī)遇的時(shí)刻,我們對(duì) LLMs 在放射學(xué)領(lǐng)域的應(yīng)用充滿信心,并期待它們?cè)谖磥淼陌l(fā)展中發(fā)揮更加重要的作用。
方法介紹
測(cè)試方法
對(duì)于整體實(shí)驗(yàn),我們會(huì)使用一些精心設(shè)計(jì)的 prompt 和推理參數(shù)來測(cè)試這 31 個(gè)大模型。對(duì)于三類樣本數(shù)推理測(cè)試,即 zero-shot、one-shot 以及 five-shot inference,我們結(jié)合專業(yè)醫(yī)療意見,對(duì)每種都設(shè)計(jì)了專有、統(tǒng)一的 Prompt 來進(jìn)行測(cè)試。結(jié)合過程中的測(cè)試的效果,我們?cè)诖罅繉?shí)驗(yàn)中總結(jié)、固定了推理參數(shù),即 temperature=0.9、top-k=40 以及 top-p=0.9。
模型選擇
鑒于資源和比較一致性的考慮,我們集中評(píng)估了擁有約 70 億參數(shù)的大型語言模型(LLMs)。這個(gè)參數(shù)規(guī)模被選中是因?yàn)樗谟?jì)算效率和性能之間取得了平衡,使得在高效地全面評(píng)估成為可能,并能夠代表不同類型的 LLMs 性能。對(duì)于開源模型,我們從官方 GitHub 存儲(chǔ)庫獲取了代碼和模型參數(shù),確保了正確的實(shí)施和評(píng)估。而對(duì)于商業(yè)模型,我們利用它們的應(yīng)用程序編程接口(APIs),以一致可靠的方式與模型進(jìn)行交互,確保了評(píng)估的準(zhǔn)確性和一致性。
測(cè)試 Prompt
為了確保在不同的 LLM 之間進(jìn)行公平而公正的比較,不論是 zero-shot、one-shot,還是 five-shot 的情形,我們都嚴(yán)格遵循相同的提示設(shè)置,保持了一致性。在 zero-shot 評(píng)估中,模型將面對(duì)全新的任務(wù),沒有任何之前的示例可供參考。而在 one-shot 的情景下,我們向模型提供了一個(gè)先前的示例作為參考。同時(shí),在 five-shot 的情況下,模型將得到五個(gè)示例供其學(xué)習(xí)。所有的示例都是結(jié)合醫(yī)療建議嚴(yán)格挑選、設(shè)計(jì)。這些評(píng)估場(chǎng)景旨在模擬真實(shí)世界的使用條件,其中模型只獲得有限數(shù)量的示例,并需要從中推導(dǎo)出通用規(guī)則。
數(shù)據(jù)集
我們的研究充分利用了 MIMIC-CXR 和 OpenI 兩個(gè)放射學(xué)領(lǐng)域廣泛使用的公開數(shù)據(jù)集,評(píng)估了大型語言模型(LLMs)在生成放射學(xué)文本報(bào)告方面的性能。我們的研究重點(diǎn)集中在放射學(xué)報(bào)告的 “Finding” 和 “Impression” 部分,這些部分提供了對(duì)影像結(jié)果和放射科醫(yī)師的詳細(xì)解釋性文本信息。
實(shí)驗(yàn)結(jié)果
在 OpenI 數(shù)據(jù)集上,Anthropic 的 Claude2 實(shí)現(xiàn)了最佳的 zero-shot 表現(xiàn),而 BayLing-7B 在 five-shot 中領(lǐng)先。在 MIMIC-CXR 上,Claude2 再次在 zero-shot 中排名第一,PaLM2 在 one-shot 中排名第一,BayLing-7B 在 five-shot 中領(lǐng)先。
我們觀察到在不同模型之間存在顯著的性能差異。這些全面的測(cè)試結(jié)果為每個(gè) LLM 在放射科應(yīng)用中提供了質(zhì)量指標(biāo)數(shù)據(jù),為領(lǐng)域研究者提供了關(guān)于其豐富的優(yōu)勢(shì)和劣勢(shì)的深刻見解。
眾多的實(shí)驗(yàn)結(jié)果表明,國(guó)內(nèi)許多新興 LLM 與全球?qū)κ窒啾纫灿谐浞值母?jìng)爭(zhēng)力,能夠在全球性的舞臺(tái)上作為后起之秀與全世界的對(duì)手一決高下。但是,像 AtomGPT_8k 這樣的一些模型在所有設(shè)置下的表現(xiàn)都很差??傮w而言,模型大小并不意味著表現(xiàn)一定優(yōu)越與否,更重要的是對(duì)于模型應(yīng)用領(lǐng)域的適應(yīng)性,我們的結(jié)果正是強(qiáng)調(diào)了根據(jù)特定放射科任務(wù)而不是模型大小本身來仔細(xì)選擇 LLM 的重要性,我們的工作正是為現(xiàn)在 LLM 研究中模型大小與效果優(yōu)劣的相關(guān)問題拋出了預(yù)見性的 “橄欖枝”,為日后更為高效的 LLM 研究提供了經(jīng)驗(yàn)知識(shí)。
結(jié)論
這項(xiàng)開創(chuàng)性的研究對(duì)來自全球各大團(tuán)隊(duì)的 LLM 在解釋放射科報(bào)告這一領(lǐng)域進(jìn)行了詳盡的評(píng)估。關(guān)于模型之間能力和性能的差距所獲得的見解將作為引導(dǎo)未來擴(kuò)展 LLM 以增強(qiáng)在放射科領(lǐng)域、乃至更多醫(yī)療健康領(lǐng)域?qū)嵺`的堅(jiān)固基石。通過審慎的應(yīng)用和開發(fā),LLM 在促進(jìn)全球醫(yī)療保健交付方面顯示出巨大的前景。
但是,總體而言結(jié)果中 LLM 局限的能力(仍然不夠高的指標(biāo)得分)預(yù)示著還需要開展持續(xù)的研究,開發(fā)更具有專業(yè)性、領(lǐng)域性、精確性的多語言和多模態(tài) LLM, 以充分發(fā)揮它們?cè)诓煌t(yī)學(xué)專業(yè)中的潛力,這將為全世界的醫(yī)療行業(yè)提供啟發(fā)與便利,并且也是通用人工智能(AGI)在醫(yī)療行業(yè)中又一強(qiáng)大可能性。
總之,本全面基準(zhǔn)測(cè)試研究對(duì)于 LLM 作為全球放射科醫(yī)生的寶貴工具的采用做出了重要貢獻(xiàn),推進(jìn)了全球 LLM 社區(qū),尤其是在放射學(xué)、醫(yī)療領(lǐng)域的發(fā)展,為 AGI 在醫(yī)療領(lǐng)域的進(jìn)一步實(shí)踐、發(fā)展提供了重要啟示。