為什么信不過(guò)AI看???數(shù)據(jù)集小、可靠性差,AI醫(yī)療任重道遠(yuǎn)
近年來(lái),AI 在醫(yī)療診斷中的應(yīng)用受到了越來(lái)越多的關(guān)注,也出現(xiàn)了一些實(shí)際的應(yīng)用場(chǎng)景,如藥物篩選、AI 診斷。但似乎正確的 AI 醫(yī)療診斷難以實(shí)現(xiàn),這是哪些原因造成的呢?本文探討并匯總了人們對(duì) AI 醫(yī)療診斷的一些獨(dú)到見(jiàn)解。
AI 與醫(yī)療融合作為近年來(lái)興起的一種新領(lǐng)域,具有巨大的發(fā)展?jié)摿ΑS糜卺t(yī)療的 AI 算法正在不斷涌現(xiàn),在看到領(lǐng)域前景的同時(shí),我們也發(fā)現(xiàn)了一些問(wèn)題。
例如,為了協(xié)助醫(yī)生篩查潛在新冠患者,AI 領(lǐng)域的研究者們研發(fā)了多種機(jī)器學(xué)習(xí)算法,以根據(jù)胸部 X 光片和 CT 圖像快速準(zhǔn)確地檢測(cè)和預(yù)測(cè)新冠肺炎。然而,劍橋大學(xué)的一項(xiàng)研究發(fā)現(xiàn):這些算法存在嚴(yán)重的算法缺陷和偏見(jiàn),無(wú)法用于實(shí)際的臨床應(yīng)用。
實(shí)際上,致力于 AI 與醫(yī)療融合的研究者并不在少數(shù),也有很多項(xiàng)目為此投資,但該領(lǐng)域仍然存在一些實(shí)際問(wèn)題。近日,Reddit 上的一篇帖子將 AI 醫(yī)療與 AlphaZero 進(jìn)行了對(duì)比,引發(fā)了關(guān)于 AI 醫(yī)療問(wèn)題的諸多討論。
數(shù)據(jù)集小、需要認(rèn)證、容錯(cuò)成本高……
有網(wǎng)友從數(shù)據(jù)集大小、人機(jī)交互、認(rèn)證和容錯(cuò)成本四個(gè)方面與 DeepMind 的 AlphaZero 進(jìn)行了全方位的對(duì)比,指出了現(xiàn)有 AI 醫(yī)療診斷系統(tǒng)存在的一些基本問(wèn)題。
首先,醫(yī)療數(shù)據(jù)集一般不太大,這是醫(yī)生注釋成本高昂造成的。此外,醫(yī)療過(guò)程也非常緩慢。例如,一臺(tái)核磁共振機(jī)器每小時(shí)最多只能進(jìn)行兩次掃描,每天至多 48 次,每年不到 20000 次。如果存在 20 種疾病,分?jǐn)傁聛?lái)每種疾病只能得到 1000 張掃描圖像。如果想要從多家醫(yī)院收集數(shù)據(jù),每家醫(yī)院走流程都可能花費(fèi)數(shù)月時(shí)間,并且研究人員也沒(méi)有大把的時(shí)間來(lái)填寫(xiě)不同的表格。相比之下,AlphaZero 的數(shù)據(jù)收集就容易多了,只需要進(jìn)行游戲,每小時(shí)就能生成數(shù)百萬(wàn)個(gè)數(shù)據(jù)。
關(guān)于這一點(diǎn),有其他用戶深表贊同。ta 曾見(jiàn)過(guò)一個(gè) MRI 數(shù)據(jù)集,首先由 3 個(gè)醫(yī)生進(jìn)行標(biāo)注,然后由領(lǐng)域?qū)<抑匦聶z查,這一過(guò)程就需要大量的時(shí)間。
其次是人機(jī)交互方面,至少在可預(yù)見(jiàn)的未來(lái),醫(yī)療診斷系統(tǒng)需要人類醫(yī)生的參與。所以,除了進(jìn)行預(yù)測(cè)之外,醫(yī)療診斷系統(tǒng)還應(yīng)該輸出置信度、其他可能的結(jié)果以及任何有用的輔助信息。在很大程度上,如何正確處理這些仍是一個(gè)未解決的問(wèn)題。而 AlphaZero 只需要輸出單一動(dòng)作就行了。
再次,認(rèn)證。你需要向決策者或醫(yī)療許可委員會(huì)「證明」醫(yī)療診斷系統(tǒng)有效。目前,解釋神經(jīng)網(wǎng)絡(luò)仍是一個(gè)懸而未決的問(wèn)題,一些人甚至質(zhì)疑是否存在解釋的可能。AlphaZero 不需要任何批準(zhǔn)認(rèn)可,只需在游戲服務(wù)器上部署或者找人類玩家測(cè)試就行了。
最后,容錯(cuò)成本。如果醫(yī)療診斷系統(tǒng)出錯(cuò)了,研發(fā)者可能會(huì)面臨數(shù)百萬(wàn)美元的索賠。因此,你必須保證系統(tǒng)運(yùn)行正確。AlphaZero 在圍棋游戲中輸了,那真是太糟糕了,僅此而已。
醫(yī)療診斷不是「一錘子買賣」
除了數(shù)據(jù)集大小、醫(yī)療認(rèn)證、容錯(cuò)成本等這些宏觀的問(wèn)題,有網(wǎng)友還提到了另一個(gè)問(wèn)題。不同情況的病患可能在診斷圖像上呈現(xiàn)出完全相同的癥狀,因此醫(yī)療診斷系統(tǒng)有時(shí)可能會(huì)做出誤判。
此外,不同機(jī)器或不同成像裝置生成圖像的分布有時(shí)大不相同,在一臺(tái)機(jī)器上正常運(yùn)行的算法可能完全不適用于另一臺(tái)機(jī)器。可解釋性也是一個(gè)問(wèn)題。即使你的算法給出了正確的醫(yī)療結(jié)果,醫(yī)生也往往會(huì)詢問(wèn)算法如何給出結(jié)論的。
的確,診斷是一個(gè)極其困難的 AI 或 ML 問(wèn)題。病患的情況遠(yuǎn)不止一種,也會(huì)出現(xiàn)不同的癥狀。因此,除了醫(yī)療診斷系統(tǒng)的初次診斷之外,還需要為進(jìn)一步診斷、治療方案、預(yù)后以及康健日程等提供智能支持。
作為與健康安全息息相關(guān)的領(lǐng)域,AI 醫(yī)療的可靠性是最重要的一個(gè)問(wèn)題,但卻經(jīng)常被忽略。即使是病理樣本分析,也常常存在一定程度的不確定性。僅對(duì)圖像加標(biāo)簽會(huì)引入各種偏見(jiàn)。即使經(jīng)過(guò)多位專家達(dá)成共識(shí),結(jié)果也會(huì)是如此,并且這還會(huì)導(dǎo)致成本的成倍增加。
醫(yī)療保健方面的問(wèn)題非常復(fù)雜,AI 目前更適用于日常生活,而不是提供醫(yī)療上的最終診斷和預(yù)測(cè)。有位醫(yī)生網(wǎng)友表示:「在 AI 醫(yī)療領(lǐng)域發(fā)表的大部分論文是完全沒(méi)有用的,但這些研究提供了很多可能性。未來(lái)幾年,這一領(lǐng)域中炒作宣傳的泡沫將會(huì)破裂,并且將會(huì)由相關(guān)法規(guī)提高臨床實(shí)踐中引入 AI 工具的門(mén)檻。目前,已經(jīng)有一些產(chǎn)品獲得了 EU 或 FDA 支持,但尚不存在臨床支持。」
看來(lái),將 AI 真正用于醫(yī)療還有很長(zhǎng)的路要走。
參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/mkol81/why_are_correct_ai_medical_diagnoses_seemingly_so/
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】