面向疾病管理的對(duì)話式人工智能 - Google研究院&DeepMind
摘要
雖然大型語(yǔ)言模型(LLMs)在診斷對(duì)話中顯示出潛力,但它們?cè)谟行Ч芾硗评矸矫娴哪芰Α膊∵M(jìn)展、治療反應(yīng)和安全藥物處方——仍有待進(jìn)一步探索。我們通過(guò)一種新的基于LLMs的代理系統(tǒng)推進(jìn)了之前展示的Articulate Medical Intelligence Explorer(AMIE)的診斷能力,該系統(tǒng)針對(duì)臨床管理和對(duì)話進(jìn)行了優(yōu)化,整合了對(duì)疾病演變、多次患者就診經(jīng)歷、治療反應(yīng)以及藥物處方專業(yè)能力的推理。AMIE在權(quán)威臨床知識(shí)的基礎(chǔ)上進(jìn)行推理,利用Gemini的長(zhǎng)上下文能力,結(jié)合上下文檢索與結(jié)構(gòu)化推理,使其輸出與相關(guān)的最新臨床實(shí)踐指南和藥物配方保持一致。在一項(xiàng)隨機(jī)、盲法的虛擬客觀結(jié)構(gòu)化臨床考試(OSCE)研究中,AMIE與21名初級(jí)保健醫(yī)生進(jìn)行了比較在100個(gè)多診次病例場(chǎng)景中,對(duì)初級(jí)保健醫(yī)生(PCPs)進(jìn)行了測(cè)試,這些場(chǎng)景旨在反映英國(guó)國(guó)家衛(wèi)生與臨床優(yōu)化研究所(NICE)指南和《英國(guó)醫(yī)學(xué)雜志》(BMJ)最佳實(shí)踐指南。由專家醫(yī)生評(píng)估,在管理推理方面,人工智能助理(AMIE)不遜于PCPs,并且在治療的精確性和調(diào)查、以及其與管理計(jì)劃在臨床指南中的對(duì)齊和依據(jù)方面表現(xiàn)更佳。
為了衡量藥物推理能力,我們開(kāi)發(fā)了RxQA,這是一個(gè)基于兩個(gè)國(guó)家藥品目錄(美國(guó)和英國(guó))的多項(xiàng)選擇題基準(zhǔn),并由認(rèn)證藥劑師驗(yàn)證。雖然AMIE和PCPs都能從訪問(wèn)外部藥物信息中受益,但在更高難度的問(wèn)題上,AMIE的表現(xiàn)優(yōu)于PCPs。盡管在實(shí)際應(yīng)用前還需要進(jìn)一步研究,但AMIE在各項(xiàng)評(píng)估中的強(qiáng)勁表現(xiàn)標(biāo)志著在對(duì)話式人工智能作為疾病管理工具方面邁出了重要一步。
??https://arxiv.org/abs/2503.06074??
核心速覽
研究背景
- 研究問(wèn)題:這篇文章要解決的問(wèn)題是如何通過(guò)大型語(yǔ)言模型(LLMs)在疾病管理中進(jìn)行有效的對(duì)話式人工智能(AI)應(yīng)用,特別是在診斷推理和管理推理方面的能力。
- 研究難點(diǎn):該問(wèn)題的研究難點(diǎn)包括:診斷推理雖然重要,但管理推理更為復(fù)雜,涉及疾病的縱向演變、多次患者就診、治療反應(yīng)和藥物處方的專業(yè)能力。此外,現(xiàn)有的研究大多集中在靜態(tài)的非對(duì)話環(huán)境中,缺乏對(duì)動(dòng)態(tài)對(duì)話環(huán)境中的管理推理能力的評(píng)估。
- 相關(guān)工作:該問(wèn)題的研究相關(guān)工作包括:早期的工作主要集中在將決策理論應(yīng)用于醫(yī)學(xué)中,使用貝葉斯推斷和規(guī)則系統(tǒng)來(lái)模擬管理決策;近年來(lái),基于認(rèn)知心理學(xué)的方法被引入到臨床信息的處理和存儲(chǔ)中;LLMs在特定管理任務(wù)中表現(xiàn)出類似人類的能力,但在更廣泛的推理任務(wù)中表現(xiàn)較差。
研究方法
這篇論文提出了一種基于LLMs的代理系統(tǒng),用于優(yōu)化臨床管理和對(duì)話,特別是針對(duì)疾病管理中的管理推理。具體來(lái)說(shuō),
- 對(duì)話代理:該代理與患者進(jìn)行快速、直觀且富有同情心的對(duì)話,并在多次就診中保持持續(xù)的對(duì)話狀態(tài)。對(duì)話代理通過(guò)一系列模型調(diào)用來(lái)生成最終響應(yīng),這些調(diào)用包括計(jì)劃響應(yīng)、生成響應(yīng)和修訂響應(yīng)。
- Mx代理:該代理通過(guò)更廣泛的推理時(shí)間計(jì)算來(lái)規(guī)劃患者的護(hù)理。它連續(xù)分析患者的病例,從權(quán)威臨床知識(shí)庫(kù)中推理出臨床指南,并生成詳細(xì)且結(jié)構(gòu)化的管理計(jì)劃。Mx代理的設(shè)計(jì)優(yōu)化包括粗檢索、結(jié)構(gòu)化生成和鏈?zhǔn)酵评怼?p data-id="p838747a-VDtbuYcK">
- 鏈?zhǔn)酵评恚涸谕评磉^(guò)程中,對(duì)話代理使用一系列模型調(diào)用來(lái)生成最終響應(yīng)。每個(gè)調(diào)用都依賴于對(duì)話歷史、內(nèi)部管理的狀態(tài)以及最新的管理計(jì)劃。
- 長(zhǎng)上下文推理:Mx代理利用Gemini的長(zhǎng)上下文推理能力,通過(guò)在生成過(guò)程中每一步都與上下文數(shù)據(jù)進(jìn)行交互來(lái)實(shí)現(xiàn)豐富的跨文檔推理。
實(shí)驗(yàn)設(shè)計(jì)
- 數(shù)據(jù)收集:實(shí)驗(yàn)使用了模擬的多就診病例場(chǎng)景,這些場(chǎng)景由加拿大和印度的醫(yī)療提供者編寫(xiě),描述了患者病情在三次不同就診中的演變??偣彩褂昧?00個(gè)場(chǎng)景,涵蓋了五個(gè)醫(yī)學(xué)專業(yè)領(lǐng)域。
- 實(shí)驗(yàn)設(shè)計(jì):實(shí)驗(yàn)采用隨機(jī)、盲法設(shè)計(jì)的虛擬客觀結(jié)構(gòu)化臨床考試(OSCE),比較了AMIE和21名初級(jí)保健醫(yī)生(PCP)在100個(gè)多就診病例場(chǎng)景中的表現(xiàn)。每個(gè)場(chǎng)景包括三次文本聊天對(duì)話,分別對(duì)應(yīng)于就診1、2和3,就診間隔約為2天。
- 樣本選擇:實(shí)驗(yàn)涉及21名認(rèn)證PCP和21名經(jīng)過(guò)驗(yàn)證的患者演員,分別來(lái)自印度和加拿大。PCP具有9年的住院醫(yī)師經(jīng)驗(yàn),患者演員完成了每個(gè)場(chǎng)景的兩次就診,一次與AMIE,一次與PCP。
- 參數(shù)配置:Mx代理在實(shí)時(shí)用戶交互約束下優(yōu)化,目標(biāo)響應(yīng)時(shí)間不超過(guò)一分鐘。對(duì)話代理使用Gemini 1.5 Flash作為基礎(chǔ)模型,并通過(guò)模擬的多就診醫(yī)患對(duì)話和其他臨床相關(guān)數(shù)據(jù)集進(jìn)行訓(xùn)練。
結(jié)果與分析
- 管理計(jì)劃質(zhì)量:AMIE的管理計(jì)劃在所有15個(gè)評(píng)估軸和三次就診中至少與PCP的表現(xiàn)相當(dāng)。在初次就診中,AMIE在計(jì)劃的整體適當(dāng)性和提供適當(dāng)?shù)暮罄m(xù)建議方面得分顯著高于PCP。
- 治療和檢查推薦的精確性:AMIE在每次就診結(jié)束時(shí)推薦治療和檢查的精確性均高于PCP。例如,在第一次就診中,AMIE的治療精確性得分為94%,而PCP為67%。
- 臨床指南的使用:AMIE在選擇適用的指南和推薦與指南一致的治療方面表現(xiàn)優(yōu)于PCP。在初次就診中,AMIE選擇適用指南的得分為92%,而PCP為76%。
- 患者演員和專家醫(yī)生的偏好:在51個(gè)獨(dú)特的MXEKF評(píng)估軸組合中,AMIE被患者演員和專家醫(yī)生優(yōu)先選擇的頻率顯著高于PCP,中位數(shù)勝率為42%。
- RxQA藥物推理準(zhǔn)確性:在RxQA基準(zhǔn)測(cè)試中,AMIE在高難度問(wèn)題上的表現(xiàn)顯著優(yōu)于PCP。在閉書(shū)設(shè)置中,AMIE的高難度問(wèn)題準(zhǔn)確率為50.6%,而PCP為41.5%。
總體結(jié)論
這篇論文展示了AMIE在多種管理推理挑戰(zhàn)中的一致性表現(xiàn),能夠在多次就診中生成與認(rèn)證PCP相當(dāng)?shù)墓芾碛?jì)劃。盡管AMIE尚未準(zhǔn)備好用于臨床護(hù)理,但這項(xiàng)研究標(biāo)志著對(duì)話式AI作為疾病管理工具的重要一步。AMIE的精確治療和檢查推薦、指南選擇和一致性表現(xiàn)顯示出其在實(shí)際臨床環(huán)境中的潛力。未來(lái)的研究需要進(jìn)一步驗(yàn)證AMIE在實(shí)際醫(yī)療環(huán)境中的可行性和安全性。
論文評(píng)價(jià)
優(yōu)點(diǎn)與創(chuàng)新
- 優(yōu)化了AMIE的診斷能力:通過(guò)新的基于LLM的代理系統(tǒng),AMIE在臨床管理和對(duì)話方面進(jìn)行了優(yōu)化,結(jié)合了疾病演變、多次患者就診、治療反應(yīng)和藥物處方的專業(yè)能力。
- 利用Gemini的長(zhǎng)上下文能力:AMIE利用Gemini的長(zhǎng)上下文能力,結(jié)合上下文檢索和結(jié)構(gòu)化推理,使其輸出與相關(guān)的最新臨床實(shí)踐指南和藥物配方保持一致。
- 隨機(jī)、盲法的虛擬OSCE研究:通過(guò)隨機(jī)、盲法的虛擬OSCE研究,將AMIE與21名初級(jí)保健醫(yī)生(PCP)在100個(gè)多就診案例場(chǎng)景中進(jìn)行了比較,這些場(chǎng)景涵蓋了英國(guó)NICE指南和BMJ最佳實(shí)踐指南中的決策。
- RxQA藥物推理基準(zhǔn):開(kāi)發(fā)了RxQA,一個(gè)基于兩個(gè)國(guó)家藥物配方(美國(guó)和英國(guó))的多項(xiàng)選擇題基準(zhǔn),并由認(rèn)證藥劑師驗(yàn)證。
- 非劣效性評(píng)估:AMIE在管理推理方面的整體表現(xiàn)不亞于PCP,在治療的精確性和調(diào)查與治療計(jì)劃的一致性方面得分更高。
- 高難度問(wèn)題的優(yōu)勢(shì):在RxQA的高難度問(wèn)題上,AMIE的表現(xiàn)優(yōu)于PCP,尤其是在開(kāi)放書(shū)籍設(shè)置中。
不足與反思
- 患者演員的代表性問(wèn)題:盡管患者演員是醫(yī)學(xué)教育中評(píng)估受訓(xùn)臨床醫(yī)生的黃金標(biāo)準(zhǔn),但它們并不代表臨床護(hù)理。
- 場(chǎng)景構(gòu)建的局限性:臨床場(chǎng)景是構(gòu)建的,意味著它們有明確的答案,并且在評(píng)分上存在可靠性限制。
- 就診間隔時(shí)間的靜態(tài)性:盡管場(chǎng)景在敘述中描述了數(shù)周或數(shù)月的時(shí)間跨度,但實(shí)際就診之間的間隔時(shí)間為1-2天,這可能增加了人類的表現(xiàn)。
- 文本界面的局限性:使用純文本界面進(jìn)行AMIE的用戶界面與實(shí)際的患者護(hù)理存在顯著差異,例如電子提供者訂單輸入系統(tǒng)和藥房實(shí)踐警報(bào)。
- RxQA基準(zhǔn)的局限性:選擇問(wèn)題的過(guò)程可能會(huì)使問(wèn)題偏向于較難的問(wèn)題,并且不一定代表典型實(shí)踐。
- 未來(lái)工作的方向:需要進(jìn)一步的研究來(lái)展示MXEKF在現(xiàn)實(shí)世界中的可靠性和心理測(cè)量特性,并描述其特征。
關(guān)鍵問(wèn)題及回答
問(wèn)題1:AMIE的Mx代理在處理患者病例時(shí)如何進(jìn)行長(zhǎng)上下文推理?
Mx代理利用Gemini的長(zhǎng)上下文推理能力,通過(guò)在生成過(guò)程中每一步都與上下文數(shù)據(jù)進(jìn)行交互來(lái)實(shí)現(xiàn)豐富的跨文檔推理。具體來(lái)說(shuō),Mx代理的設(shè)計(jì)包括以下幾個(gè)步驟:
- 粗檢索:首先,Mx代理使用Gecko 1B文本嵌入構(gòu)建一個(gè)簡(jiǎn)單的檢索器系統(tǒng),索引所有臨床指南文檔。基于生成的查詢和摘要,初步過(guò)濾掉不相關(guān)的文檔。
- 結(jié)構(gòu)化生成:其次,Mx代理生成四個(gè)初步的管理計(jì)劃草案。每個(gè)草案通過(guò)鏈?zhǔn)酵评碓谝粋€(gè)模型調(diào)用中完成,確保生成的內(nèi)容具有結(jié)構(gòu)性和一致性。
- 精細(xì)合并:最后,Mx代理使用最終生成步驟將這些草案合并成一個(gè)最終的管理計(jì)劃。這一過(guò)程結(jié)合了長(zhǎng)上下文推理和多文檔推理,確保生成的管理計(jì)劃全面且細(xì)致。
通過(guò)這種方式,Mx代理能夠在處理復(fù)雜病例時(shí),整合和分析大量的臨床指南和患者信息,生成高質(zhì)量的管理計(jì)劃。
問(wèn)題2:在多就診OSCE研究中,AMIE和PCP在管理計(jì)劃質(zhì)量方面有哪些具體表現(xiàn)差異?
在多就診OSCE研究中,AMIE和PCP在管理計(jì)劃質(zhì)量方面的具體表現(xiàn)差異如下:
- 初次就診:在初次就診中,AMIE在計(jì)劃的整體適當(dāng)性(88% vs. 74%,p=0.019)和提供適當(dāng)?shù)暮罄m(xù)建議(100% vs. 98%,p<0.001)方面得分顯著高于PCP。然而,在后續(xù)就診中,這些差異不再顯著。
- 治療和檢查推薦的精確性:AMIE在每次就診結(jié)束時(shí)推薦治療和檢查的精確性均高于PCP。例如,在第一次就診中,AMIE的治療精確性得分為94%,而PCP為67%;在第二次和第三次就診中,AMIE的檢查精確性也顯著高于PCP。
- 臨床指南的使用:AMIE在選擇適用的指南(92% vs. 76%,p=0.016)和推薦與指南一致的治療(89% vs. 75%,p=0.007)方面表現(xiàn)優(yōu)于PCP。在所有三次就診中,AMIE推薦與指南一致的治療的得分均高于PCP。
- 患者演員和專家醫(yī)生的偏好:在51個(gè)獨(dú)特的MXEKF評(píng)估軸組合中,AMIE被患者演員和專家醫(yī)生優(yōu)先選擇的頻率顯著高于PCP,中位數(shù)勝率為42%。
總體而言,AMIE在初次就診中的表現(xiàn)顯著優(yōu)于PCP,而在后續(xù)就診中,兩者表現(xiàn)相當(dāng)。AMIE在治療和檢查推薦的精確性、臨床指南的使用以及患者和專家的偏好方面均表現(xiàn)出優(yōu)勢(shì)。
問(wèn)題3:RxQA藥物推理基準(zhǔn)測(cè)試的結(jié)果如何顯示AMIE和PCP在高難度問(wèn)題上的表現(xiàn)差異?
在RxQA藥物推理基準(zhǔn)測(cè)試中,AMIE和高難度問(wèn)題上的表現(xiàn)顯著優(yōu)于PCP,具體結(jié)果如下:
- 高難度問(wèn)題:在閉書(shū)設(shè)置中,AMIE的高難度問(wèn)題準(zhǔn)確率為50.6%,而PCP為41.5%(p=0.013);在開(kāi)書(shū)設(shè)置中,AMIE的高難度問(wèn)題準(zhǔn)確率為57.9%,而PCP為47.8%(p<0.001)。這表明AMIE在高難度問(wèn)題上的表現(xiàn)顯著優(yōu)于PCP。
- 低難度問(wèn)題:在閉書(shū)設(shè)置中,AMIE的低難度問(wèn)題準(zhǔn)確率為52.8%,而PCP為46.5%(p=0.147);在開(kāi)書(shū)設(shè)置中,AMIE的低難度問(wèn)題準(zhǔn)確率為73.8%,而PCP為67.4%(p=0.071)。雖然AMIE在低難度問(wèn)題上的表現(xiàn)也優(yōu)于PCP,但差異不如高難度問(wèn)題顯著。
- 外部知識(shí)資源的影響:無(wú)論是高難度還是低難度問(wèn)題,AMIE和PCP在開(kāi)書(shū)設(shè)置中的準(zhǔn)確率均顯著高于閉書(shū)設(shè)置。這表明訪問(wèn)外部知識(shí)資源對(duì)兩者的藥物推理能力都有顯著提升作用。
總體而言,AMIE在高難度問(wèn)題上的表現(xiàn)顯著優(yōu)于PCP,顯示出其在復(fù)雜藥物推理任務(wù)中的潛力。
參考文獻(xiàn):
- 百川智能最新醫(yī)學(xué)大模型論文-利用先進(jìn)的患者模擬器探索醫(yī)療"問(wèn)診-診療"關(guān)系
- 京東開(kāi)源醫(yī)學(xué)大模型“京醫(yī)千詢”Citrus: 利用專家認(rèn)知路徑以支持高級(jí)醫(yī)療決策
- AMG-RAG自適應(yīng)知識(shí)圖譜增強(qiáng)醫(yī)學(xué)問(wèn)答:彌合大模型與動(dòng)態(tài)醫(yī)學(xué)知識(shí)的差距 - 多倫多大學(xué)等
- PatientSeek: 海外首個(gè)基于Deepseek R1的"KG+LLM"結(jié)合的開(kāi)源醫(yī)學(xué)法律推理模型 - WhyHow.AI
- AIPatient:基于EHR和知識(shí)增強(qiáng)大模型智能體工作流的模擬患者-密歇根、斯坦福、哈佛醫(yī)學(xué)院、山大、港大、醫(yī)科院、北大六院等
- 利用大模型提升護(hù)理與老年照護(hù):一個(gè)AI驅(qū)動(dòng)的框架 - 復(fù)旦、上交等
- 護(hù)理臨床智能決策的新穎方法:大語(yǔ)言模型與本地知識(shí)庫(kù)的整合
- Nature - 基于護(hù)理大模型的醫(yī)院門(mén)診接待機(jī)器人和護(hù)士的人機(jī)協(xié)同新范式
- 使用大模型指導(dǎo)患者創(chuàng)建高效全面的臨床護(hù)理信息
- 從“小白”到“專家”:大模型在腫瘤護(hù)理中的潛力探索
- [最新論文]探索大模型在乳腺癌腫瘤學(xué)護(hù)理領(lǐng)域中的應(yīng)用潛力 - 谷歌DeepMind等
- 廈門(mén)·護(hù)理信息大會(huì)|首都醫(yī)科大學(xué)與柯基數(shù)據(jù)合作的NursGPT項(xiàng)目順利啟動(dòng)!
- DrHouse虛擬醫(yī)生: 基于傳感器數(shù)據(jù)和專家知識(shí)賦能的大模型醫(yī)學(xué)診療推理系統(tǒng) - 香港中文大學(xué)等
- AIPatient:基于EHR和知識(shí)增強(qiáng)大模型智能體工作流的模擬患者-密歇根、斯坦福、哈佛醫(yī)學(xué)院、山大、港大、醫(yī)科院、北大六院等
- AIR孵化|Agent Hospital首批AI醫(yī)生上線內(nèi)測(cè)
- 2024醫(yī)學(xué)大模型應(yīng)用及挑戰(zhàn)綜述 - Cornell、Duke、Berkeley、MIT等
- KG4Diagnosis - 知識(shí)圖譜增強(qiáng)的多智能體大模型在醫(yī)學(xué)診斷中的應(yīng)用
- 上海經(jīng)信局衛(wèi)健委等發(fā)布2024年上海市醫(yī)療大模型應(yīng)用示范場(chǎng)景需求列表
- CMAC中國(guó)行-走入“北京人工智能數(shù)據(jù)訓(xùn)練基地”|醫(yī)學(xué)大模型產(chǎn)學(xué)研應(yīng)用落地研討會(huì)
- 再發(fā)布!哈佛醫(yī)學(xué)院又一病理大模型TITAN
- Google DeepMind重磅推出AlphaFold3,預(yù)測(cè)了所有生命分子的結(jié)構(gòu)和相互作用
- 大模型優(yōu)化肝病臨床指南解讀:一種基于RAG的框架 - Nature NPJ
- 斯坦福&哈佛醫(yī)學(xué)院 - MMedAgent,一個(gè)用于醫(yī)療領(lǐng)域的多模態(tài)醫(yī)療AI智能體
- 喜訊|柯基數(shù)據(jù)中標(biāo)兩個(gè)“大模型+醫(yī)學(xué)”國(guó)自然面上項(xiàng)目
- 哈佛醫(yī)學(xué)院&輝瑞推出基于知識(shí)圖譜的復(fù)雜醫(yī)學(xué)問(wèn)答智能體MedAI
- 通過(guò)知識(shí)圖譜自動(dòng)生成和豐富加速醫(yī)學(xué)知識(shí)發(fā)現(xiàn) - 哈佛大學(xué)等
- 醫(yī)療保健和醫(yī)學(xué)領(lǐng)域的大模型綜述 - 斯坦福&加州大學(xué)
- 醫(yī)學(xué)GraphRAG:通過(guò)知識(shí)圖譜檢索增強(qiáng)實(shí)現(xiàn)安全醫(yī)療大語(yǔ)言模型 - 牛津大學(xué)最新論文
- 消除幻覺(jué)的知識(shí)圖譜增強(qiáng)醫(yī)學(xué)大模型 - "Nature"NPJ數(shù)字醫(yī)學(xué)雜志
- Almanac: 一種用于臨床醫(yī)學(xué)的檢索增強(qiáng)RAG大語(yǔ)言模型(2023vs2024版)
- “大模型+知識(shí)圖譜”雙輪驅(qū)動(dòng)的醫(yī)藥數(shù)智化轉(zhuǎn)型新范式-OpenKG TOC專家談
- 醫(yī)學(xué)AI專家Anthropic CEO萬(wàn)字長(zhǎng)文預(yù)測(cè)人工智能將消除癌癥、人類壽命翻倍,世界變得更美好
- 醫(yī)療保健和醫(yī)學(xué)領(lǐng)域的大模型綜述 - 斯坦福&加州大學(xué)
- OpenAI o1模型的醫(yī)學(xué)初步研究:我們離人工智能醫(yī)生更近了嗎?
- 哈佛醫(yī)學(xué)院將生成式人工智能納入課程和臨床實(shí)踐,以培訓(xùn)下一代醫(yī)生
本文轉(zhuǎn)載自??知識(shí)圖譜科技??,作者:Wolfgang
