MedRAG:利用知識圖譜引導(dǎo)推理提升醫(yī)療Copilot的RAG能力 - 新加坡南洋理工等
摘要
檢索增強生成(RAG)是一種適用于檢索敏感電子健康記錄(EHR)的合適技術(shù)。它可以作為醫(yī)療副駕駛員Copilot的關(guān)鍵模塊,幫助減少醫(yī)療從業(yè)者和患者的誤診。然而,現(xiàn)有基于啟發(fā)式的醫(yī)療領(lǐng)域RAG模型的診斷準確性和特異性不足,特別是對于癥狀相似的疾病。本文提出MedRAG,一種通過知識圖譜(KG)引導(dǎo)推理提升的醫(yī)療領(lǐng)域RAG模型,根據(jù)癥狀檢索診斷和治療建議。MedRAG系統(tǒng)地構(gòu)建了一個全面的四層分級診斷知識圖譜,涵蓋各種疾病的關(guān)鍵診斷差異。這些差異與從EHR數(shù)據(jù)庫檢索到的相似EHR動態(tài)整合,并在大型語言模型中進行推理。這一過程使決策支持更加準確和具體,同時也主動提供后續(xù)問題以增強個性化醫(yī)療決策。MedRAG在公共數(shù)據(jù)集DDXPlus和從新加坡陳篤生醫(yī)院收集的私人慢性疼痛診斷數(shù)據(jù)集(CPDD)上進行了評估,其性能與各種現(xiàn)有的RAG方法進行了比較。實驗結(jié)果顯示,利用知識圖譜的信息整合和關(guān)系能力,我們的MedRAG提供了更具體的診斷洞察力,并在降低誤診率方面優(yōu)于最先進的模型。我們的代碼將在??https://github.com/SNOWTEAM2023/MedRAG??上可用。
[2502.04413] MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot
??https://arxiv.org/abs/2502.04413??
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何在醫(yī)療領(lǐng)域中使用檢索增強生成(RAG)技術(shù)來提高診斷的準確性和特異性,特別是對于癥狀相似的疾病。
- 研究難點:該問題的研究難點包括:現(xiàn)有基于啟發(fā)式的RAG模型在處理相似癥狀的疾病時表現(xiàn)不佳,難以提供精確的診斷和個性化的治療建議。
- 相關(guān)工作:該問題的研究相關(guān)工作有:LLMs和RAG在醫(yī)療領(lǐng)域的應(yīng)用,知識圖譜增強LLMs和RAG的研究?,F(xiàn)有的醫(yī)療RAG和LLMs通常依賴于啟發(fā)式方法,導(dǎo)致輸出不準確或模糊,特別是在疾病癥狀相似的情況下。
研究方法
這篇論文提出了MedRAG,一種通過知識圖譜引導(dǎo)推理的RAG模型,用于解決醫(yī)療領(lǐng)域的診斷問題。具體來說,
- 診斷知識圖譜構(gòu)建:首先,系統(tǒng)地構(gòu)建一個四層 hierarchical 診斷知識圖譜,涵蓋各種疾病的臨界診斷差異。通過疾病聚類和層次聚合技術(shù),從EHR數(shù)據(jù)庫中提取潛在診斷和相應(yīng)的癥狀。然后,使用大型語言模型(LLM)增強圖譜,添加關(guān)鍵的診斷差異。
- 診斷差異知識圖譜搜索:通過將患者癥狀分解為臨床特征(如癥狀和位置),并在診斷知識圖譜中進行多級匹配和向上遍歷,識別與輸入患者相關(guān)的關(guān)鍵診斷差異知識圖譜。
- KG引導(dǎo)推理RAG:最后,結(jié)合檢索到的EHR和診斷差異知識圖譜,在大語言模型中進行推理,生成精確的診斷、治療建議和后續(xù)問題。該模塊包括文檔檢索器和KG引導(dǎo)推理LLM引擎。
公式解釋:
- 知識圖譜構(gòu)建過程中,疾病知識圖譜D通過層次聚合生成:
- 診斷差異知識圖譜搜索過程中,通過多級匹配和向上遍歷,識別與患者癥狀最相關(guān)的疾病子類別:
- RAG過程中,結(jié)合檢索到的EHR和診斷差異知識圖譜進行推理:
實驗設(shè)計
- 數(shù)據(jù)集:使用兩個數(shù)據(jù)集進行評估,一個是公共數(shù)據(jù)集DDXPlus,另一個是私人數(shù)據(jù)集CPDD。DDXPlus是一個大規(guī)模合成的EHR數(shù)據(jù)集,包含49種診斷和超過130萬名患者。CPDD是一個專注于慢性疼痛患者的專用EHR數(shù)據(jù)集,包含551名患者和33種診斷。
- 基線模型:與六種其他SOTA RAG模型進行比較,包括Naive RAG+COT、FL-RAG、FS-RAG、FLARE、DRAGIN和SR-RAG。
- 評估指標:使用準確性、特異性和文本生成指標(如BERTScore、BLEU、ROUGE、METEOR)進行評估。此外,還進行了主觀評估,由醫(yī)生根據(jù)Mini-CEX標準對生成的報告進行評分。
結(jié)果與分析
- 定量比較:在CPDD和DDXPlus數(shù)據(jù)集上,MedRAG在多個指標上表現(xiàn)最佳或次優(yōu)。在CPDD數(shù)據(jù)集上,MedRAG在L3指標上比第二好的模型高出11.32%。在DDXPlus數(shù)據(jù)集上,MedRAG在L3指標上比第二好的模型高出1.23%。
- 兼容性、泛化性和適應(yīng)性:在不同的大型語言模型(如Mixtral-8x7B、Qwen-2.5、Llama-3.1-Instruct、GPT-3.5-turbo和GPT-4o)上,MedRAG顯著提高了診斷準確性。特別是對于較小的模型,KG引導(dǎo)推理顯著提升了性能。
- 主動診斷提問機制:通過目標導(dǎo)向的提問,MedRAG逐步收集了更多關(guān)鍵細節(jié),顯著提高了診斷準確性。當(dāng)覆蓋到100%的關(guān)鍵癥狀時,L3準確性從52.83%提高到66.04%。
- 消融研究:評估了不同組件的有效性,結(jié)果表明檢索器和KG引導(dǎo)推理模塊顯著提高了性能。隨機選擇的文檔比沒有文檔的情況表現(xiàn)更好,加入正確的KG增強知識后,噪聲效應(yīng)得到緩解,準確性在所有指標上都有提升。
總體結(jié)論
MedRAG通過整合KG引導(dǎo)推理與RAG模型,顯著提高了醫(yī)療領(lǐng)域的診斷準確性和特異性。系統(tǒng)性地檢索和推理EHR,動態(tài)地結(jié)合關(guān)鍵的診斷差異知識圖譜,提供了更精確的診斷和個性化的治療建議。此外,MedRAG的主動診斷提問機制證明其有效性,能夠向醫(yī)生和患者提供有針對性的問題,增強診斷性能和咨詢效率。公共和私人數(shù)據(jù)集的評估表明,MedRAG在減少相似癥狀疾病的誤診率方面表現(xiàn)優(yōu)異,展示了其在醫(yī)療助手中的潛力。未來工作包括整合多模態(tài)數(shù)據(jù)(如醫(yī)學(xué)影像、生理信號數(shù)據(jù)和血液測試數(shù)據(jù))以進一步提高診斷準確性,并將MedRAG部署到實際的醫(yī)療助手系統(tǒng)中。
論文評價
優(yōu)點與創(chuàng)新
- 系統(tǒng)構(gòu)建四層診斷知識圖譜:MedRAG通過系統(tǒng)構(gòu)建一個四層診斷知識圖譜,涵蓋各種疾病的關(guān)鍵診斷差異,顯著提高了推理能力。
- 增強的RAG方法:提出了一種結(jié)合知識圖譜推理的RAG方法,顯著提高了RAG在做出準確和高度特定診斷決策方面的能力。
- 個性化治療建議和藥物指導(dǎo):不僅支持個性化治療建議,還能在必要時主動生成后續(xù)問題,進一步澄清模糊的患者信息。
- 跨LLM的魯棒性:在各種LLM上展示了強大的泛化能力,并證明了其在生成基于推理的后續(xù)診斷問題方面的有效性。
- 公共和私有數(shù)據(jù)集的綜合評估:在公共數(shù)據(jù)集DDXPlus和私有數(shù)據(jù)集CPDD上的綜合實驗表明,MedRAG在減少相似表現(xiàn)疾病的誤診率方面優(yōu)于現(xiàn)有的RAG模型。
- 主動診斷提問機制:提出了一個優(yōu)化的主動診斷提問機制,能夠在初始輸入缺乏關(guān)鍵信息時,提供有針對性的后續(xù)問題,增強診斷性能。
不足與反思
- 未來工作:計劃通過整合多模態(tài)數(shù)據(jù)(如醫(yī)學(xué)影像、生理信號數(shù)據(jù)和血液測試數(shù)據(jù))來進一步提高診斷準確性,并將MedRAG部署到實際的醫(yī)療輔助系統(tǒng)中進行醫(yī)院測試。
- 用戶體驗改進:為了提高醫(yī)生的使用便利性,計劃將語音識別模塊集成到系統(tǒng)中,使其能夠在咨詢過程中被動地聽取醫(yī)生和患者的對話,并提供實時的后續(xù)問題和相關(guān)解釋。
關(guān)鍵問題及回答
問題1:MedRAG在構(gòu)建診斷知識圖譜時,如何確保圖譜的詳細性和準確性?
MedRAG通過以下步驟確保診斷知識圖譜的詳細性和準確性:
- 疾病聚類:首先,使用疾病聚類技術(shù)將EHR數(shù)據(jù)庫中的疾病統(tǒng)一表示,確保同一疾病的不同形式和表示被歸為一類。
- 層次聚合:通過層次聚合技術(shù),將疾病聚類結(jié)果進一步聚合為更廣泛的類別和子類別,形成四層 hierarchical 診斷知識圖譜。
- 大型語言模型增強:利用大型語言模型(LLM)的語義理解和主題提取能力,對圖譜進行增強,添加關(guān)鍵的診斷差異信息。
- 臨床特征匹配:通過將患者癥狀分解為臨床特征(如癥狀和位置),并在診斷知識圖譜中進行多級匹配和向上遍歷,確保圖譜中包含詳細的疾病特征和診斷差異。
問題2:MedRAG的診斷差異知識圖譜搜索模塊是如何工作的?請詳細描述其過程。
- 癥狀分解:將患者的癥狀描述分解為更詳細的臨床特征,如癥狀和位置。
- 特征匹配:計算每個特征與診斷知識圖譜中節(jié)點(疾病或癥狀)的語義相似度,選擇最相似的特征節(jié)點。
- 多級匹配和向上遍歷:通過多級匹配和向上遍歷,識別與患者癥狀最相關(guān)的疾病子類別。具體來說,計算每個特征節(jié)點到各疾病子類別的最短路徑距離,并通過投票機制確定最相關(guān)的疾病子類別。
- 生成診斷差異知識圖譜:將識別出的關(guān)鍵診斷差異知識圖譜與患者癥狀進行關(guān)聯(lián),形成完整的診斷差異知識圖譜,用于后續(xù)的推理過程。
問題3:MedRAG在不同大型語言模型上的表現(xiàn)如何?其兼容性和適應(yīng)性如何?
MedRAG在不同大型語言模型(LLMs)上均表現(xiàn)出色,證明了其兼容性和適應(yīng)性。具體表現(xiàn)如下:
- 兼容性:MedRAG能夠在多種開源和閉源的大型語言模型(如Mixtral-8x7B、Qwen-2.5、Llama-3.1-Instruct、GPT-3.5-turbo和GPT-4o)上運行,并顯著提高診斷準確性。
- 適應(yīng)性:MedRAG在不同類型的LLMs上均表現(xiàn)出較高的診斷準確性,特別是在使用GPT-4o作為 backbone LLM 時,表現(xiàn)最為出色,顯示出其強大的適應(yīng)性和推理能力。
- 消融研究:通過消融研究評估了不同組件的有效性,結(jié)果表明,引入知識圖譜引導(dǎo)推理顯著提高了MedRAG在不同LLMs上的診斷準確性,特別是在小型模型中效果更為顯著。
附錄
本文轉(zhuǎn)載自??知識圖譜科技??
