我們?nèi)绾未_保醫(yī)療保健 AI 有用?
在醫(yī)療保健業(yè)務(wù)的大計劃中,預(yù)測模型所發(fā)揮的作用與驗血、X 射線或 MRI 的作用無異:它們影響有關(guān)干預(yù)是否合適的決策。
“從廣義上講,模型進(jìn)行數(shù)學(xué)運(yùn)算并產(chǎn)生概率估計,幫助醫(yī)生和患者決定是否采取行動,”斯坦福醫(yī)療保健?首席數(shù)據(jù)科學(xué)家和 斯坦福大學(xué) HAI? 教員Nigam Shah表示。但這些概率估計只有在觸發(fā)更有益的決策時才對醫(yī)療保健提供者有用。
“作為一個社區(qū),我認(rèn)為我們被模型的性能所困擾,而不是問這個模型有用嗎?” Shah說。 “我們需要跳出這種模式思考?!?/p>
Shah 的團(tuán)隊是少數(shù)幾個評估醫(yī)院是否有能力基于模型進(jìn)行干預(yù)的醫(yī)療保健研究小組之一,以及干預(yù)措施是否對患者和醫(yī)療機(jī)構(gòu)有益。
“人們越來越擔(dān)心人工智能研究人員正在左右構(gòu)建模型而沒有部署任何東西,”Shah 說。造成這種情況的一個原因是建模者未能進(jìn)行有用性分析,以顯示由模型觸發(fā)的干預(yù)如何以具有成本效益的方式融入醫(yī)院運(yùn)營,同時弊大于利。““如果模型開發(fā)者愿意花時間進(jìn)行這種額外的分析,醫(yī)院也會關(guān)注的?!彼f。
Shah 表示,運(yùn)籌學(xué)、醫(yī)療保健政策和計量經(jīng)濟(jì)學(xué)領(lǐng)域已經(jīng)存在進(jìn)行有用性分析的工具,但醫(yī)療保健領(lǐng)域的模型開發(fā)人員使用它們的速度很慢。他自己的團(tuán)隊試圖通過發(fā)表一些論文來改變這種心態(tài),敦促更多的人評估他們的模型的實用性。其中包括一份JAMA?論文,闡述了建模者考慮有用性的必要性,以及一份研究論文,該論文提出了一個分析預(yù)測模型在醫(yī)療保健中的有用性的框架,并展示了它如何使用現(xiàn)實世界的例子來工作。
“就像醫(yī)院可能在其運(yùn)營中添加的任何新事物一樣,部署新模型必須是值得的,”Shah 說?!坝谐墒斓目蚣軄泶_定模型的價值。現(xiàn)在是建模師使用它們的時候了。”
了解模型、干預(yù)措施以及干預(yù)措施的利弊之間的相互作用
如上圖所示,模型的有用性取決于模型之間的相互作用、它觸發(fā)的干預(yù)以及干預(yù)的利弊,Shah 說。
首先,這個模型——它經(jīng)常得到最大的關(guān)注——應(yīng)該擅長預(yù)測它應(yīng)該預(yù)測的任何東西,無論是病人再入院的風(fēng)險還是患糖尿病的風(fēng)險。此外,Shah 說,它必須是公平的,這意味著它產(chǎn)生的預(yù)測同樣適用于所有人,無論種族、民族、國籍或性別如何;而且必須可以從一個醫(yī)院站點(diǎn)推廣到另一個醫(yī)院站點(diǎn)],或者至少對當(dāng)?shù)蒯t(yī)院人口做出可靠的預(yù)測;此外,它還應(yīng)該是可解釋的。
其次,醫(yī)療機(jī)構(gòu)必須根據(jù)測試或模型制定關(guān)于何時以及如何進(jìn)行干預(yù)的政策,以及關(guān)于誰負(fù)責(zé)干預(yù)的決定。他們還必須有能力(足夠的人員、材料或其他資源)進(jìn)行干預(yù)。
Shah表示,制定關(guān)于是否或如何以特定方式干預(yù)以響應(yīng)模型的政策會影響健康公平。談到公平,Shah 表示,“研究人員花了太多的時間關(guān)注一個模型是否對所有人都同樣準(zhǔn)確,而沒有足夠的時間關(guān)注干預(yù)是否會讓所有人平等受益——盡管我們試圖解決的大多數(shù)不公平現(xiàn)象都來自后者?!?/p>
例如,預(yù)測哪些病人在預(yù)約時不會出現(xiàn),如果它的預(yù)測對所有種族和民族群體都一樣準(zhǔn)確,那么它本身可能并不不公平,但如何干預(yù)的選擇——是否重復(fù)預(yù)約時間或提供交通支持以幫助人們到達(dá)預(yù)約地點(diǎn)——可能會對不同群體的人產(chǎn)生不同的影響。
第三,干預(yù)的利大于弊。Shah說,任何干預(yù)都可能產(chǎn)生積極和消極的后果。因此,模型預(yù)測的有用性將取決于它所觸發(fā)的干預(yù)措施的利弊。
要了解這種相互作用,請考慮一個常用的預(yù)測模型:動脈粥樣硬化性心血管疾病 (ASCVD) 風(fēng)險方程,它依賴于九個主要數(shù)據(jù)點(diǎn)(包括年齡、性別、種族、總膽固醇、低密度脂蛋白/高密度脂蛋白膽固醇、血壓、吸煙病史、糖尿病狀態(tài)和抗高血壓藥物的使用)來計算患者 10 年心臟病發(fā)作或中風(fēng)的風(fēng)險。Shah 說,對 ASCVD 風(fēng)險方程的充實有用性分析將考慮上圖的三個部分,并發(fā)現(xiàn)它是有用的。
首先,該模型被廣泛認(rèn)為對心臟病具有高度預(yù)測性,并且還具有公平性、可推廣性和可解釋性。其次,大多數(shù)醫(yī)療機(jī)構(gòu)通過遵循標(biāo)準(zhǔn)政策進(jìn)行干預(yù)關(guān)于開他汀類藥物的風(fēng)險水平,并且有足夠的干預(yù)能力,因為他汀類藥物廣泛可用。最后,對他汀類藥物使用的危害/益處分析表明,大多數(shù)人從他汀類藥物中受益,盡管有些患者不能忍受他們的副作用。
模型有用性分析的一個例子:高級護(hù)理計劃
上面的 ASCVD 示例雖然具有說明性,但可能是最簡單的預(yù)測模型之一。但預(yù)測模型有可能觸發(fā)干預(yù)措施,從而以更復(fù)雜的方式擾亂醫(yī)療保健工作流程,并且某些干預(yù)措施的利弊可能不太清楚。
為了解決這個問題, Shah 和他的同事開發(fā)了一個框架來測試預(yù)測模型在實踐中是否有用。他們使用觸發(fā)稱為高級護(hù)理計劃(ACP)的干預(yù)的模型演示了該框架。
ACP 通常提供給即將結(jié)束生命的患者,涉及對未來可能發(fā)生的情況以及患者失去能力時的愿望進(jìn)行公開和誠實的討論。這些對話不僅讓患者對自己的生活有一種控制感,而且還降低了醫(yī)療成本,提高了醫(yī)生的士氣,有時甚至提高了患者的生存率。
Shah 在斯坦福的團(tuán)隊開發(fā)了一個模型,可以預(yù)測哪些住院病人可能在未來 12 個月內(nèi)死亡。我們的目標(biāo)是:確定哪些患者可能從 ACP 中受益。在確保該模型可以很好地預(yù)測死亡率并且公平、可解釋和可靠之后,該團(tuán)隊進(jìn)行了兩項額外的分析,以確定該模型觸發(fā)的干預(yù)是否有用。
第一個是成本效益分析,發(fā)現(xiàn)成功的干預(yù)(向模型正確識別為可能受益的患者提供 ACP)將節(jié)省約 8,400 美元,同時對不需要 ACP 的人進(jìn)行干預(yù)(即模型錯誤)將花費(fèi)大約 3,300 美元?!霸谶@種情況下,非常粗略地說,即使我們只對了三分之一,我們也會收支平衡,”Shah 說。
但分析并沒有就此停止?!盀榱斯?jié)省那些承諾的 8,400 美元,我們實際上必須執(zhí)行一個工作流程,例如,在 48 小時內(nèi)涉及 21 個步驟、三個人和七個交接,”Shah 說?!澳敲?,在現(xiàn)實生活中,我們能做到嗎?”
為了回答這個問題,該團(tuán)隊模擬了 500 個住院日的干預(yù),以評估醫(yī)療服務(wù)提供因素,如人員有限或時間不足(由于患者出院)將如何影響干預(yù)的益處。他們還量化了增加住院人員與在門診提供 ACP 相比的相對收益。結(jié)果:擁有門診選項可確保實現(xiàn)更多預(yù)期收益。“我們只需要跟進(jìn)一半的出院患者即可獲得 75% 的效用,這非常好,”Shah 說。
這項工作表明,即使你有一個非常好的模型和一個非常好的干預(yù),只有當(dāng)你也有能力提供干預(yù)時,一個模型才會有用,Shah 說。雖然事后來看可能會讓這個結(jié)果看起來很直觀,但 Shah 說,當(dāng)時情況并非如此?!叭绻覀儧]有完成這項研究,斯坦福醫(yī)院可能剛剛擴(kuò)大了提供 ACP 的住院能力,盡管它的成本效益不是很高。”
Shah 的團(tuán)隊用于分析模型、干預(yù)措施以及干預(yù)措施的利弊之間相互作用的框架可以幫助確定在實踐中有用的預(yù)測模型?!爸辽伲U邞?yīng)該進(jìn)行某種分析,以確定他們的模型是否會提示有用的干預(yù)措施,”Shah 說?!斑@將是一個開始?!?/p>