《自然》期刊:上海交通大學(xué)與上海人工智能研究所聯(lián)合推出醫(yī)學(xué)多語(yǔ)言模型 精華
隨著大型語(yǔ)言模型(LLMs)的快速發(fā)展,醫(yī)學(xué)領(lǐng)域的應(yīng)用也取得了顯著進(jìn)展。但是大多數(shù)現(xiàn)有的醫(yī)學(xué)語(yǔ)言模型主要集中在英語(yǔ)語(yǔ)言環(huán)境中,限制了其在非英語(yǔ)國(guó)家和地區(qū)的應(yīng)用潛力。為了填補(bǔ)這一空白,來(lái)自上海交大和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)研發(fā)了一個(gè)開(kāi)源的、多語(yǔ)言的醫(yī)學(xué)語(yǔ)言模型,旨在為全球多語(yǔ)言用戶(hù)提供高質(zhì)量的醫(yī)學(xué)支持。
這個(gè)醫(yī)學(xué)模型的主要貢獻(xiàn)包括三個(gè)方面。研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為MMedC的大規(guī)模多語(yǔ)言醫(yī)學(xué)語(yǔ)料庫(kù),包含約255億個(gè)標(biāo)記,涵蓋六種主要語(yǔ)言。團(tuán)隊(duì)提出了一個(gè)名為MMedBench的多語(yǔ)言醫(yī)學(xué)多選問(wèn)答基準(zhǔn),用于評(píng)估不同語(yǔ)言模型在醫(yī)學(xué)領(lǐng)域的表現(xiàn)。最后,團(tuán)隊(duì)評(píng)估了多種開(kāi)源大型語(yǔ)言模型,并通過(guò)自回歸訓(xùn)練進(jìn)一步提升了這些模型在多語(yǔ)言醫(yī)學(xué)問(wèn)答任務(wù)中的表現(xiàn),最終模型MMed-Llama 3在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。
這項(xiàng)研究由上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)共同完成。主要成員包括Pengcheng Qiu, Chaoyi Wu, Xiaoman Zhang , Weixiong Lin, Haicheng Wang, Ya Zhang , Yanfeng Wang,Weidi Xie。研究團(tuán)隊(duì)主要致力于人工智能和自然語(yǔ)言處理領(lǐng)域的研究,特別是在多語(yǔ)言模型和醫(yī)學(xué)應(yīng)用方面有著豐富的經(jīng)驗(yàn)和顯著的貢獻(xiàn)。他們通過(guò)構(gòu)建大規(guī)模多語(yǔ)言語(yǔ)料庫(kù)和基準(zhǔn)測(cè)試,推動(dòng)了多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型的發(fā)展,為全球醫(yī)學(xué)研究和臨床實(shí)踐提供了重要的技術(shù)支持。
他們的技術(shù)論文于9 月 27 日發(fā)表在《自然》期刊Nature communications上,展示了研究團(tuán)隊(duì)在多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型構(gòu)建方面的最新成果。為了促進(jìn)進(jìn)一步的研究,團(tuán)隊(duì)公開(kāi)了MMedC數(shù)據(jù)集和MMedBench基準(zhǔn)數(shù)據(jù),未受版權(quán)保護(hù)的部分已存儲(chǔ)在Hugging Face上,受版權(quán)保護(hù)的部分提供了詳細(xì)列表供研究人員自行獲取。此外,源代碼和模型權(quán)重也在GitHub和Hugging Face上公開(kāi)發(fā)布,方便其他研究人員進(jìn)行復(fù)現(xiàn)和擴(kuò)展研究。
圖 1:貢獻(xiàn)概述。a圖中展示了研究團(tuán)隊(duì)提出的大規(guī)模多語(yǔ)言醫(yī)學(xué)語(yǔ)料庫(kù) (MMedC),包含 255 億個(gè) token,涵蓋六種主要語(yǔ)言,從四個(gè)數(shù)據(jù)源收集。b圖中展示了研究團(tuán)隊(duì)全面的多語(yǔ)言醫(yī)學(xué)基準(zhǔn) (MMedBench) 的組成,該基準(zhǔn)通過(guò)匯總不同語(yǔ)言的醫(yī)學(xué)問(wèn)答案例并提示 GPT-4 提供理由句子而構(gòu)建。MMedBench 能夠在零樣本或微調(diào)設(shè)置下對(duì)不同 LLM 的多選擇準(zhǔn)確率和理由生成能力進(jìn)行評(píng)估。c線圖顯示了研究團(tuán)隊(duì) MMedBench 上各種 LLM 的最終多選擇準(zhǔn)確率,其中我們的最終模型 MMed-Llama 3 在所有現(xiàn)有開(kāi)源 LLM 中表現(xiàn)出色。d比較欄進(jìn)一步詳細(xì)說(shuō)明了 MMedLM 2 與 InternLM 2 或 MMed-Llama 3 與 Llama 3 進(jìn)行比較時(shí),多項(xiàng)選擇準(zhǔn)確性和推理生成能力的提升??紤]到研究團(tuán)隊(duì)的模型與其基礎(chǔ)模型之間的主要區(qū)別在于對(duì) MMedC 的自回歸訓(xùn)練,這種比較凸顯了研究團(tuán)隊(duì)所貢獻(xiàn)的醫(yī)學(xué)專(zhuān)用多語(yǔ)言語(yǔ)料庫(kù)的重要性。源數(shù)據(jù)以源數(shù)據(jù)文件的形式提供。
數(shù)據(jù)集構(gòu)建
MMedC多語(yǔ)言醫(yī)學(xué)語(yǔ)料庫(kù)是一個(gè)包含約255億個(gè)標(biāo)記的大規(guī)模數(shù)據(jù)集,涵蓋了六種主要語(yǔ)言:英語(yǔ)、中文、日語(yǔ)、法語(yǔ)、俄語(yǔ)和西班牙語(yǔ)。數(shù)據(jù)來(lái)源主要包括四個(gè)方面:首先,研究團(tuán)隊(duì)從通用的大規(guī)模多語(yǔ)言語(yǔ)料庫(kù)中篩選出醫(yī)學(xué)相關(guān)內(nèi)容,這些語(yǔ)料庫(kù)如CommonCrawl,包含了大量的網(wǎng)頁(yè)數(shù)據(jù)。其次,團(tuán)隊(duì)收集了大量的醫(yī)學(xué)教科書(shū),這些教科書(shū)經(jīng)過(guò)嚴(yán)格的出版流程,確保了內(nèi)容的質(zhì)量。第三,團(tuán)隊(duì)爬取了一些醫(yī)學(xué)相關(guān)的網(wǎng)站,包括醫(yī)學(xué)百科全書(shū)、醫(yī)學(xué)咨詢(xún)平臺(tái)和醫(yī)學(xué)新聞網(wǎng)站。最后,團(tuán)隊(duì)還整合了一些現(xiàn)有的小規(guī)模多語(yǔ)言醫(yī)學(xué)語(yǔ)料庫(kù),如Wikipedia、百度百科和UFAL醫(yī)學(xué)語(yǔ)料庫(kù)。
圖2:MMedC統(tǒng)計(jì)結(jié)果。a MMedC 收錄語(yǔ)言在世界各地的分布(此地圖僅用于演示,與政治無(wú)關(guān))。地圖顯示我們收集的語(yǔ)料庫(kù)可以覆蓋全球大多數(shù)主要國(guó)家。b每種語(yǔ)言的 Token 分布。條形圖顯示了不同語(yǔ)言的詳細(xì) token 數(shù)量。c四個(gè)來(lái)源對(duì)我們 MMedC 的六種語(yǔ)言的貢獻(xiàn)。?;鶊D顯示了四個(gè)考慮的數(shù)據(jù)源如何對(duì)不同語(yǔ)言做出貢獻(xiàn),即過(guò)濾內(nèi)容、醫(yī)學(xué)教科書(shū)、醫(yī)學(xué)網(wǎng)站和小規(guī)模語(yǔ)料庫(kù)。源數(shù)據(jù)以源數(shù)據(jù)文件的形式提供。
為了確保數(shù)據(jù)的質(zhì)量和相關(guān)性,研究團(tuán)隊(duì)采用了一系列數(shù)據(jù)過(guò)濾和處理技術(shù)。對(duì)于從通用語(yǔ)料庫(kù)中篩選醫(yī)學(xué)相關(guān)內(nèi)容,團(tuán)隊(duì)使用了啟發(fā)式算法,通過(guò)關(guān)鍵詞匹配和密度計(jì)算來(lái)確定醫(yī)學(xué)相關(guān)文本。具體來(lái)說(shuō),團(tuán)隊(duì)為每種語(yǔ)言選擇了200個(gè)醫(yī)學(xué)相關(guān)術(shù)語(yǔ),通過(guò)關(guān)鍵詞匹配和密度計(jì)算來(lái)篩選出醫(yī)學(xué)相關(guān)的文本。對(duì)于醫(yī)學(xué)教科書(shū),團(tuán)隊(duì)使用了光學(xué)字符識(shí)別(OCR)技術(shù),將書(shū)籍內(nèi)容轉(zhuǎn)換為文本,并排除封面、目錄和附錄等非必要頁(yè)面。對(duì)于醫(yī)學(xué)網(wǎng)站,團(tuán)隊(duì)爬取了醫(yī)學(xué)百科全書(shū)、醫(yī)學(xué)咨詢(xún)平臺(tái)和醫(yī)學(xué)新聞網(wǎng)站,確保數(shù)據(jù)的多樣性和時(shí)效性。
MMedC語(yǔ)料庫(kù)包含約255億個(gè)標(biāo)記,覆蓋六種主要語(yǔ)言:英語(yǔ)、中文、日語(yǔ)、法語(yǔ)、俄語(yǔ)和西班牙語(yǔ)。具體來(lái)說(shuō),英語(yǔ)數(shù)據(jù)約為4B個(gè)標(biāo)記,中文數(shù)據(jù)約為1.1B個(gè)標(biāo)記,俄語(yǔ)數(shù)據(jù)約為0.4B個(gè)標(biāo)記,法語(yǔ)數(shù)據(jù)約為0.3B個(gè)標(biāo)記,日語(yǔ)數(shù)據(jù)約為0.1B個(gè)標(biāo)記,西班牙語(yǔ)數(shù)據(jù)約為0.05B個(gè)標(biāo)記。通過(guò)多種數(shù)據(jù)來(lái)源和嚴(yán)格的數(shù)據(jù)處理技術(shù),MMedC語(yǔ)料庫(kù)為多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型的訓(xùn)練提供了豐富而高質(zhì)量的數(shù)據(jù)支持。
MMedBench是一個(gè)綜合的多語(yǔ)言醫(yī)學(xué)問(wèn)答基準(zhǔn),旨在評(píng)估模型在不同語(yǔ)言醫(yī)學(xué)領(lǐng)域的表現(xiàn)。研究團(tuán)隊(duì)首先收集了現(xiàn)有的多語(yǔ)言醫(yī)學(xué)多選問(wèn)答基準(zhǔn)數(shù)據(jù)集,包括MedQA、IgakuQA、FrenchMedMCQA、RuMedDaNet和Head-QA。這些數(shù)據(jù)集涵蓋了英語(yǔ)、簡(jiǎn)體中文、日語(yǔ)、法語(yǔ)、俄語(yǔ)和西班牙語(yǔ)。為了增強(qiáng)數(shù)據(jù)集的多樣性和復(fù)雜性,團(tuán)隊(duì)使用GPT-4生成了每個(gè)問(wèn)題的解釋?zhuān)⑦M(jìn)行了嚴(yán)格的人類(lèi)驗(yàn)證,以確保解釋的正確性和邏輯性。
圖3:MMedBench的統(tǒng)計(jì)結(jié)果。a條形圖顯示了 MMedBench 的訓(xùn)練和測(cè)試集上的基礎(chǔ)統(tǒng)計(jì)數(shù)字。術(shù)語(yǔ)“平均 tokens”表示其中各種成分中每個(gè)樣本的平均 token 長(zhǎng)度?!癛ationale”表示答案中的理由句子。“Option”表示選擇列表中的選項(xiàng)描述,“question”表示問(wèn)題句子。然后術(shù)語(yǔ)“Prop. of multi-option”表示問(wèn)題中有多個(gè)正確選項(xiàng)的比例,“Prop. of single-option”表示答案中只有一個(gè)選項(xiàng)的比例。最后術(shù)語(yǔ)“Number of QA pair”表示訓(xùn)練或測(cè)試分割中有多少個(gè) QA 對(duì)。b統(tǒng)計(jì)直方圖顯示了 MMedBench 測(cè)試分割中的主題分布,涵蓋了從普通和專(zhuān)科醫(yī)學(xué)到基礎(chǔ)醫(yī)學(xué)等廣泛的醫(yī)學(xué)方面。這使 MedQA 能夠全面衡量醫(yī)學(xué)模型的性能。源數(shù)據(jù)以源數(shù)據(jù)文件的形式提供。
在生成問(wèn)答對(duì)的過(guò)程中,研究團(tuán)隊(duì)首先收集了現(xiàn)有的多語(yǔ)言醫(yī)學(xué)多選問(wèn)答數(shù)據(jù)集,并使用GPT-4生成每個(gè)問(wèn)題的解釋。具體來(lái)說(shuō),團(tuán)隊(duì)將問(wèn)題、選項(xiàng)和正確答案輸入GPT-4,指示其生成詳細(xì)的解釋。生成的解釋隨后經(jīng)過(guò)人工審核,確保其與正確答案一致,并清晰表達(dá)邏輯。為了控制人工審核的成本,團(tuán)隊(duì)隨機(jī)選擇了每種語(yǔ)言的200個(gè)測(cè)試樣本進(jìn)行審核,最終生成了1136個(gè)人工審核的樣本用于解釋評(píng)估。
MMedBench數(shù)據(jù)集包含53,566個(gè)問(wèn)答對(duì),涵蓋21個(gè)醫(yī)學(xué)領(lǐng)域,包括內(nèi)科、藥理學(xué)、精神病學(xué)、微生物學(xué)、生理學(xué)、病理學(xué)、免疫學(xué)、婦產(chǎn)科、公共衛(wèi)生、血液學(xué)、外科、急診醫(yī)學(xué)、骨科、神經(jīng)學(xué)、解剖學(xué)、醫(yī)學(xué)遺傳學(xué)、放射學(xué)、皮膚病學(xué)和內(nèi)分泌學(xué)等。數(shù)據(jù)集分為45,048個(gè)訓(xùn)練對(duì)和8,518個(gè)測(cè)試對(duì),提供了豐富的多語(yǔ)言醫(yī)學(xué)問(wèn)答數(shù)據(jù),用于評(píng)估和訓(xùn)練多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型。
模型訓(xùn)練與評(píng)估
自回歸訓(xùn)練方法
在構(gòu)建多語(yǔ)言醫(yī)學(xué)模型的過(guò)程中,自回歸訓(xùn)練方法是關(guān)鍵的一環(huán)。自回歸訓(xùn)練的主要目標(biāo)是通過(guò)預(yù)測(cè)下一個(gè)標(biāo)記來(lái)優(yōu)化模型,使其能夠生成連貫且上下文相關(guān)的文本。在具體的訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)將醫(yī)學(xué)文本視為一系列標(biāo)記,通過(guò)優(yōu)化每個(gè)標(biāo)記的預(yù)測(cè)概率來(lái)實(shí)現(xiàn)訓(xùn)練目標(biāo)。
為了處理大規(guī)模的多語(yǔ)言醫(yī)學(xué)數(shù)據(jù),團(tuán)隊(duì)采用了分段處理的方法,將文本分割成每段2048個(gè)標(biāo)記的塊,并設(shè)置512個(gè)標(biāo)記的重疊邊界。這種方法不僅提高了訓(xùn)練效率,還確保了上下文信息的連貫性。由于模型參數(shù)數(shù)量龐大,無(wú)法在單個(gè)GPU上運(yùn)行,團(tuán)隊(duì)采用了完全分片數(shù)據(jù)并行(FSDP)策略,將模型分布在多個(gè)GPU上進(jìn)行訓(xùn)練。此外,團(tuán)隊(duì)還使用了BF16數(shù)據(jù)類(lèi)型和梯度檢查點(diǎn)技術(shù),以?xún)?yōu)化內(nèi)存使用和計(jì)算效率。
在具體的訓(xùn)練設(shè)置中,對(duì)于InternLM模型,團(tuán)隊(duì)設(shè)定了全局批量大小為512,學(xué)習(xí)率為2e-5;對(duì)于BLOOM模型,設(shè)定了全局批量大小為512,學(xué)習(xí)率為8e-6。整個(gè)訓(xùn)練過(guò)程在八個(gè)A100 GPU上進(jìn)行,訓(xùn)練了20,000次迭代,耗時(shí)約20天。
微調(diào)方法
在自回歸訓(xùn)練之后,團(tuán)隊(duì)進(jìn)一步對(duì)模型進(jìn)行了微調(diào),以提升其在特定任務(wù)上的表現(xiàn)。微調(diào)方法主要分為參數(shù)高效微調(diào)(PEFT)和全量微調(diào)兩種。
參數(shù)高效微調(diào)(PEFT)是一種在低計(jì)算資源場(chǎng)景下優(yōu)化模型性能的方法。團(tuán)隊(duì)采用了最具代表性的LoRA方法,僅微調(diào)模型的一小部分參數(shù),從而在保持計(jì)算資源消耗較低的情況下,顯著提升模型性能。在具體的訓(xùn)練設(shè)置中,團(tuán)隊(duì)使用了默認(rèn)推薦的rank 16,并采用與全量微調(diào)相似的訓(xùn)練設(shè)置。
全量微調(diào)則是對(duì)模型的所有參數(shù)進(jìn)行微調(diào),是一種更常規(guī)的做法。在全量微調(diào)過(guò)程中,團(tuán)隊(duì)同樣采用了FSDP策略、BF16數(shù)據(jù)類(lèi)型和梯度檢查點(diǎn)技術(shù),以?xún)?yōu)化內(nèi)存使用和計(jì)算效率。全局批量大小設(shè)定為128,學(xué)習(xí)率為1e-6。
基準(zhǔn)測(cè)試與結(jié)果分析
在多語(yǔ)言問(wèn)答任務(wù)的評(píng)估中,研究團(tuán)隊(duì)采用了三種不同的評(píng)估設(shè)置:零樣本評(píng)估、參數(shù)高效微調(diào)評(píng)估和全量微調(diào)評(píng)估。
在零樣本評(píng)估中,團(tuán)隊(duì)直接測(cè)試現(xiàn)成的大型語(yǔ)言模型(LLMs),無(wú)需進(jìn)一步訓(xùn)練。這種方法能夠快速評(píng)估模型在未見(jiàn)過(guò)的數(shù)據(jù)上的表現(xiàn),特別適用于評(píng)估模型的泛化能力。然而,零樣本評(píng)估的結(jié)果顯示,盡管一些閉源模型如GPT-4表現(xiàn)出色,但開(kāi)源模型在多語(yǔ)言醫(yī)學(xué)問(wèn)答任務(wù)中的表現(xiàn)相對(duì)較差。
為了更好地評(píng)估模型之間的性能差異,團(tuán)隊(duì)采用了參數(shù)高效微調(diào)(PEFT)的方法。通過(guò)微調(diào)模型的一小部分參數(shù),團(tuán)隊(duì)在低計(jì)算資源的情況下顯著提升了模型性能。LoRA方法在這方面表現(xiàn)尤為突出,使得模型在多語(yǔ)言問(wèn)答任務(wù)中的表現(xiàn)得到了顯著提升。
全量微調(diào)是對(duì)模型的所有參數(shù)進(jìn)行微調(diào),這是一種更常規(guī)的做法。通過(guò)全量微調(diào),團(tuán)隊(duì)能夠最大程度地優(yōu)化模型在特定任務(wù)上的表現(xiàn)。結(jié)果顯示,經(jīng)過(guò)全量微調(diào)的模型在多語(yǔ)言問(wèn)答任務(wù)中的表現(xiàn)顯著優(yōu)于零樣本和參數(shù)高效微調(diào)的模型,特別是MMed-Llama 3在多語(yǔ)言和英語(yǔ)基準(zhǔn)上的表現(xiàn)尤為突出。
在生成解釋能力的評(píng)估中,研究團(tuán)隊(duì)采用了多種自動(dòng)化評(píng)估指標(biāo)和人工評(píng)分標(biāo)準(zhǔn),以全面衡量模型的表現(xiàn)。
團(tuán)隊(duì)使用了BLEU、ROUGE和BERT-score等經(jīng)典的文本相似度評(píng)估方法。BLEU主要關(guān)注n-gram的精確度,ROUGE則結(jié)合了召回率和精確度,而B(niǎo)ERT-score利用預(yù)訓(xùn)練的BERT模型提取高層語(yǔ)義特征,通過(guò)余弦相似度計(jì)算文本相似度。這些指標(biāo)能夠量化模型生成的解釋與參考解釋之間的相似度,從而評(píng)估模型的解釋生成能力。
為了進(jìn)一步評(píng)估模型的解釋生成能力,團(tuán)隊(duì)還進(jìn)行了人工評(píng)分。評(píng)估標(biāo)準(zhǔn)包括準(zhǔn)確性、推理能力和內(nèi)部知識(shí)的整合能力。通過(guò)對(duì)六個(gè)代表性模型的50個(gè)樣本進(jìn)行評(píng)分,結(jié)果顯示,MMed-Llama 3在人工評(píng)分和GPT-4評(píng)分中均取得最高分,表現(xiàn)優(yōu)于其他模型。這表明MMed-Llama 3不僅在多語(yǔ)言問(wèn)答任務(wù)中表現(xiàn)出色,其生成的解釋也具有較高的質(zhì)量和邏輯性。
圖4:模型評(píng)級(jí)的比較分析。a分?jǐn)?shù)條表示不同指標(biāo)下的排名分?jǐn)?shù)。BLEU 評(píng)分表示根據(jù) BLEU 分?jǐn)?shù)排名計(jì)算出的評(píng)分分?jǐn)?shù)。人工評(píng)分是指人工提供的排名,而 GPT-4 評(píng)分是指 GPT-4 生成的排名。b擬合線表示人工評(píng)分結(jié)果與不同自動(dòng)指標(biāo)之間的相關(guān)性。τ是 Kendall 秩相關(guān)系數(shù),而k是擬合線的斜率。源數(shù)據(jù)以源數(shù)據(jù)文件的形式提供。
在英語(yǔ)基準(zhǔn)測(cè)試中,研究團(tuán)隊(duì)使用了四個(gè)廣泛認(rèn)可的多選問(wèn)答基準(zhǔn)數(shù)據(jù)集,以評(píng)估模型在英語(yǔ)醫(yī)學(xué)領(lǐng)域的表現(xiàn)。
團(tuán)隊(duì)選擇了MedQA、PubMedQA、MedMCQA和MMLU-Medicine四個(gè)數(shù)據(jù)集。MedQA基于USMLE考試,PubMedQA基于PubMed摘要,MedMCQA包含大量高質(zhì)量的醫(yī)學(xué)問(wèn)題,MMLU-Medicine則涵蓋多個(gè)醫(yī)學(xué)學(xué)科。這些數(shù)據(jù)集提供了豐富的測(cè)試樣本,用于全面評(píng)估模型在英語(yǔ)醫(yī)學(xué)問(wèn)答任務(wù)中的表現(xiàn)。
結(jié)果顯示,MMed-Llama 3在這些英語(yǔ)基準(zhǔn)測(cè)試中表現(xiàn)出色,特別是在MedQA、MedMCQA和PubMedQA數(shù)據(jù)集上取得了顯著的性能提升。相比其他開(kāi)源模型,MMed-Llama 3在多項(xiàng)指標(biāo)上均表現(xiàn)優(yōu)異,甚至在某些任務(wù)上接近或超過(guò)了GPT-4的表現(xiàn)。
研究影響與應(yīng)用前景
多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型的構(gòu)建對(duì)通用醫(yī)學(xué)人工智能(GMAI)的發(fā)展具有重要意義。GMAI致力于開(kāi)發(fā)能夠直接應(yīng)用于廣泛醫(yī)療場(chǎng)景的多模態(tài)人工智能模型,其中大型語(yǔ)言模型(LLMs)常作為人機(jī)交互的接口。通過(guò)引入多語(yǔ)言支持,醫(yī)學(xué)多語(yǔ)言模型能夠充分利用全球范圍內(nèi)的數(shù)據(jù)源,擴(kuò)展可用的多模態(tài)訓(xùn)練數(shù)據(jù),從而提高其他模態(tài)的表示質(zhì)量。這不僅有助于提升模型的整體性能,還能促進(jìn)醫(yī)學(xué)人工智能在全球范圍內(nèi)的應(yīng)用和普及。
現(xiàn)有的LLMs在醫(yī)學(xué)領(lǐng)域的一個(gè)主要問(wèn)題是幻覺(jué),即生成的內(nèi)容可能包含事實(shí)錯(cuò)誤。為了解決這一問(wèn)題,檢索增強(qiáng)生成技術(shù)被提出,通過(guò)從外部知識(shí)庫(kù)中檢索事實(shí)信息,來(lái)減少生成內(nèi)容中的錯(cuò)誤。然而,目前大多數(shù)檢索增強(qiáng)生成技術(shù)主要集中在英語(yǔ)語(yǔ)言環(huán)境中,限制了其在其他語(yǔ)言中的應(yīng)用。多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型的開(kāi)發(fā)可以顯著改善檢索過(guò)程,豐富潛在的知識(shí)庫(kù),從而提高生成內(nèi)容的準(zhǔn)確性和可靠性。這對(duì)于醫(yī)學(xué)領(lǐng)域尤為重要,因?yàn)闇?zhǔn)確的醫(yī)學(xué)信息對(duì)于診斷和治療至關(guān)重要。
多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型在臨床實(shí)踐中有著廣泛的應(yīng)用前景。首先,它們可以緩解語(yǔ)言障礙。在許多醫(yī)療系統(tǒng)中,患者和醫(yī)療提供者之間的語(yǔ)言障礙可能導(dǎo)致溝通不暢、誤診和治療不當(dāng)。多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型可以實(shí)現(xiàn)實(shí)時(shí)翻譯和解釋?zhuān)_?;颊吣軌蛴行У乇磉_(dá)癥狀并理解診斷和治療方案,從而提高醫(yī)療服務(wù)的質(zhì)量和效率。
此外,多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型還可以減少文化和法律敏感性。不同國(guó)家和地區(qū)在醫(yī)療互動(dòng)中存在文化和法律差異,理解這些差異可以顯著增強(qiáng)對(duì)醫(yī)學(xué)語(yǔ)言模型的信任,進(jìn)而改善健康結(jié)果。通過(guò)訓(xùn)練模型識(shí)別和處理這些文化和法律差異,可以提高模型在不同文化背景下的適用性和可靠性。
多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型在醫(yī)學(xué)教育中也有著重要的應(yīng)用價(jià)值。特別是在醫(yī)學(xué)教育資源匱乏的地區(qū),這些模型可以提供多語(yǔ)言的教育材料和模擬,幫助標(biāo)準(zhǔn)化醫(yī)學(xué)培訓(xùn),確保全球范圍內(nèi)醫(yī)療服務(wù)的一致性和質(zhì)量。通過(guò)提供高質(zhì)量的教育資源,多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型可以幫助培養(yǎng)更多合格的醫(yī)療專(zhuān)業(yè)人員,提升全球醫(yī)療水平。
潛在局限性與未來(lái)工作
盡管MMedC多語(yǔ)言醫(yī)學(xué)語(yǔ)料庫(kù)在數(shù)據(jù)收集和處理方面進(jìn)行了嚴(yán)格的篩選和過(guò)濾,但由于數(shù)據(jù)主要來(lái)源于網(wǎng)絡(luò)爬取,難免會(huì)存在一些固有的偏見(jiàn)。這些偏見(jiàn)可能會(huì)對(duì)某些弱勢(shì)群體產(chǎn)生不利影響,特別是在醫(yī)學(xué)領(lǐng)域,這種偏見(jiàn)可能會(huì)導(dǎo)致診斷和治療建議的不準(zhǔn)確。未來(lái)的研究需要進(jìn)一步探索更嚴(yán)格和全面的安全控制措施,以減少數(shù)據(jù)集中的潛在偏見(jiàn),確保模型在不同人群中的公平性和可靠性。
雖然研究團(tuán)隊(duì)在模型中引入了生成解釋的能力,以幫助用戶(hù)理解模型的決策過(guò)程,但目前的解釋性仍然存在一定的局限性?,F(xiàn)有的解釋生成方法主要依賴(lài)于模型生成的文本,這些文本可能無(wú)法完全反映模型內(nèi)部的決策邏輯。此外,如何在復(fù)雜的醫(yī)學(xué)場(chǎng)景中提供清晰、準(zhǔn)確且易于理解的解釋?zhuān)匀皇且粋€(gè)亟待解決的問(wèn)題。未來(lái)的研究需要進(jìn)一步探索和開(kāi)發(fā)更具解釋性的模型架構(gòu),如結(jié)合卷積塊或多層感知器(MLP)的解釋性方法,以增強(qiáng)模型的透明度和可解釋性。
MMedC語(yǔ)料庫(kù)涵蓋了六種主要語(yǔ)言,但仍然無(wú)法覆蓋全球所有語(yǔ)言。這限制了模型在某些語(yǔ)言環(huán)境中的應(yīng)用,特別是在一些低資源語(yǔ)言的醫(yī)學(xué)場(chǎng)景中。未來(lái)的研究應(yīng)致力于擴(kuò)展數(shù)據(jù)集的語(yǔ)言覆蓋面,納入更多如德語(yǔ)和阿拉伯語(yǔ)等語(yǔ)言。此外,通過(guò)定義特定的過(guò)濾關(guān)鍵詞,可以從通用爬取數(shù)據(jù)集中高效提取醫(yī)學(xué)相關(guān)內(nèi)容,進(jìn)一步豐富低資源語(yǔ)言的數(shù)據(jù)集。
未來(lái)的研究可以從以下幾個(gè)方面進(jìn)行改進(jìn)和擴(kuò)展。
擴(kuò)展數(shù)據(jù)集的語(yǔ)言覆蓋面:通過(guò)引入更多語(yǔ)言的數(shù)據(jù),特別是低資源語(yǔ)言的數(shù)據(jù),進(jìn)一步提升模型的多語(yǔ)言能力和適用性。
增強(qiáng)模型的解釋性:開(kāi)發(fā)更具解釋性的模型架構(gòu),結(jié)合卷積塊或多層感知器(MLP)的解釋性方法,以提高模型的透明度和用戶(hù)信任度。
減少數(shù)據(jù)集的潛在偏見(jiàn):探索更嚴(yán)格和全面的安全控制措施,減少數(shù)據(jù)集中的潛在偏見(jiàn),確保模型在不同人群中的公平性和可靠性。
結(jié)合檢索增強(qiáng)生成技術(shù):通過(guò)引入檢索增強(qiáng)生成技術(shù),利用外部知識(shí)庫(kù)中的事實(shí)信息,減少模型生成內(nèi)容中的錯(cuò)誤,提高生成內(nèi)容的準(zhǔn)確性和可靠性。
提升模型的臨床應(yīng)用能力:通過(guò)進(jìn)一步優(yōu)化模型的訓(xùn)練和微調(diào)方法,提升模型在臨床實(shí)踐中的應(yīng)用能力,特別是在實(shí)時(shí)翻譯、解釋和醫(yī)學(xué)教育等方面。
通過(guò)這些改進(jìn)和擴(kuò)展,未來(lái)的多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型將能夠更好地服務(wù)于全球醫(yī)療領(lǐng)域,推動(dòng)醫(yī)學(xué)人工智能的發(fā)展,為全球醫(yī)療服務(wù)的提升做出更大的貢獻(xiàn)。
多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型的構(gòu)建不僅推動(dòng)了通用醫(yī)學(xué)人工智能的發(fā)展,還改進(jìn)了檢索增強(qiáng)生成技術(shù),并在臨床實(shí)踐和醫(yī)學(xué)教育中展現(xiàn)了廣泛的應(yīng)用前景。這項(xiàng)研究不僅展示了多語(yǔ)言醫(yī)學(xué)語(yǔ)言模型的潛力,也為未來(lái)的研究和應(yīng)用提供了寶貴的經(jīng)驗(yàn)和參考。(END)
參考資料:https://www.nature.com/articles/s41467-024-52417-z
本文轉(zhuǎn)載自 ??大噬元獸??,作者: FlerkenS
