新研究:醫(yī)用AI評(píng)估精神分裂新患者治療效果近乎盲猜
1月12日消息,一項(xiàng)最新研究發(fā)現(xiàn),用于協(xié)助醫(yī)生治療精神分裂癥患者的計(jì)算機(jī)算法不能很好適應(yīng)之前開發(fā)過程中未見過的新鮮數(shù)據(jù)。因此這種醫(yī)用人工智能在評(píng)估未曾接觸過的患者的治療效果時(shí),表現(xiàn)十分糟糕。
這些醫(yī)用工具利用人工智能來發(fā)現(xiàn)大數(shù)據(jù)集中的特征,并預(yù)測(cè)個(gè)體對(duì)特定治療的反應(yīng),這是精準(zhǔn)醫(yī)療的核心。醫(yī)療保健專業(yè)人員希望使用這種工具為每位患者量身定制治療方案。在一篇發(fā)表在《科學(xué)》雜志上的文章中,研究人員指出,人工智能模型可以高度準(zhǔn)確地預(yù)測(cè)訓(xùn)練樣本中所涉及患者的治療結(jié)果。但是,在處理之前未見過的患者數(shù)據(jù)時(shí),該模型的性能會(huì)顯著下降,甚至只比隨機(jī)猜測(cè)略高。
為了確保精準(zhǔn)醫(yī)療的有效性,預(yù)測(cè)模型需要在不同情況下保持穩(wěn)定準(zhǔn)確性,并將偏差或隨機(jī)結(jié)果出現(xiàn)的可能性降至最低。
“這是一個(gè)人們還沒有意識(shí)到的大問題,”研究報(bào)告的合著者、康涅狄格州紐黑文耶魯大學(xué)精神病學(xué)家亞當(dāng)·切克魯?shù)拢ˋdam Chekroud)表示?!斑@項(xiàng)研究基本上證明了算法仍需要在多個(gè)樣本上進(jìn)行測(cè)試?!?/p>
算法的準(zhǔn)確性
研究人員評(píng)估了一種通常用于精神病預(yù)測(cè)模型的算法。他們使用了五項(xiàng)抗精神病藥物臨床試驗(yàn)的數(shù)據(jù),涉及北美、亞洲、歐洲和非洲1513名被診斷患有精神分裂癥的志愿者。這些試驗(yàn)在2004年至2009年間進(jìn)行,測(cè)量志愿者服用三種抗精神病藥物中的一種之前以及四周后的癥狀。
研究團(tuán)隊(duì)用數(shù)據(jù)集訓(xùn)練算法,來預(yù)測(cè)患者經(jīng)過四周抗精神病藥物治療后的癥狀改善程度。首先,研究人員在開發(fā)算法的試驗(yàn)中測(cè)試了算法的準(zhǔn)確性,將預(yù)測(cè)結(jié)果與試驗(yàn)中記錄的實(shí)際效果進(jìn)行比較,發(fā)現(xiàn)準(zhǔn)確率很高。
然后,他們使用了多種方法來評(píng)估這一人工智能模型分析新數(shù)據(jù)的準(zhǔn)確性。研究人員用一個(gè)臨床試驗(yàn)的數(shù)據(jù)子集訓(xùn)練模型,然后將其應(yīng)用于同一試驗(yàn)的另一個(gè)數(shù)據(jù)子集。他們還用一次試驗(yàn)或一組試驗(yàn)的所有數(shù)據(jù)訓(xùn)練算法,然后通過其他臨床試驗(yàn)數(shù)據(jù)測(cè)試模型性能。
結(jié)果發(fā)現(xiàn),人工智能模型在這些測(cè)試中表現(xiàn)不佳,當(dāng)應(yīng)用于未經(jīng)訓(xùn)練的數(shù)據(jù)集時(shí),模型產(chǎn)生的預(yù)測(cè)似乎幾乎是隨機(jī)的。研究團(tuán)隊(duì)使用不同的預(yù)測(cè)算法重復(fù)進(jìn)行,但得到的結(jié)果都差不多。
更好的測(cè)試
這項(xiàng)研究的作者表示,他們的發(fā)現(xiàn)凸顯出臨床預(yù)測(cè)模型應(yīng)該如何在大型數(shù)據(jù)集上進(jìn)行嚴(yán)格測(cè)試,確保它們的可靠性。一項(xiàng)對(duì)308個(gè)精神病預(yù)后臨床預(yù)測(cè)模型的系統(tǒng)評(píng)測(cè)發(fā)現(xiàn),只有大約20%的模型在開發(fā)所用樣本之外的數(shù)據(jù)集上進(jìn)行了驗(yàn)證。
“我們應(yīng)該更像研發(fā)藥物那樣思考模型開發(fā),”切克魯?shù)抡f。他解釋說,許多藥物在早期臨床試驗(yàn)中表現(xiàn)不錯(cuò),但在后期階段就會(huì)出現(xiàn)問題?!拔覀儽仨殗?yán)格遵守如何開發(fā)以及測(cè)試這些算法的原則,不能只做一次就認(rèn)為這是真的?!保ǔ匠剑?/p>