自新冠疫情爆發(fā)以來,世界各地的研究團(tuán)隊(duì)開發(fā)了各種 AI 工具來幫助檢測新冠病毒或者對新冠病毒的感染情況進(jìn)行預(yù)測。
但是很不幸,來自荷蘭馬斯特里赫特大學(xué)和英國劍橋大學(xué)的兩個(gè)研究團(tuán)隊(duì)分別獨(dú)立對 232 種和 415 種 AI 工具進(jìn)行測試,發(fā)現(xiàn)這一共 647 種工具沒有一個(gè)適合臨床使用,有些甚至還會有害。
產(chǎn)生這個(gè)結(jié)果主要與訓(xùn)練 AI 模型的數(shù)據(jù)質(zhì)量有關(guān)。開發(fā)者采用的數(shù)據(jù)集里面往往摻雜了一些無效信息或錯(cuò)誤信息,導(dǎo)致 AI 工具學(xué)會了錯(cuò)誤的判斷方法。而開發(fā)者往往不具備醫(yī)學(xué)的專業(yè)知識,這使他們很難發(fā)現(xiàn)其中的錯(cuò)誤。
有專家認(rèn)為,只有通過開發(fā)者與臨床醫(yī)生的通力合作才能盡可能的避免這種錯(cuò)誤產(chǎn)生。另外,還有專家呼吁對于此類全球突發(fā)的衛(wèi)生健康事件應(yīng)該做好“數(shù)據(jù)共享”,以便各國能夠充分應(yīng)對。
一、共 647 種 AI 工具被測試,均不適合臨床使用
2020 年 3 月,COVID-19 開始襲擊歐洲,但那時(shí)的人們?nèi)藗儗Υ酥跎?,這讓歐洲的醫(yī)院陷入了一場危機(jī)。荷蘭馬斯特里赫特大學(xué)流行病學(xué)家 Laure Wynants 一直在研究流行病的預(yù)測工具,她說:“醫(yī)生真的不知道如何管理這些患者。”
專家們認(rèn)為機(jī)器學(xué)習(xí)算法能夠根據(jù)此前的數(shù)據(jù)進(jìn)行訓(xùn)練,并幫助醫(yī)生對患者做出診斷,那么將會有大量生命被拯救。Laure Wynants 稱:“在這件事上 AI 可以證明其實(shí)用性,我對此抱有希望。”
世界各地的研究團(tuán)隊(duì)加緊進(jìn)行研究,尤其是 AI 社區(qū)緊急開了發(fā)各種軟件。許多人認(rèn)為這些軟件可以讓醫(yī)院更快地診斷或分診患者,為抗擊疫情的前線提供支持。但是,數(shù)百種檢測工具被開發(fā)出來,卻沒有一個(gè)真正的產(chǎn)生作用。
今年 6 月,英國國家數(shù)據(jù)科學(xué)和人工智能中心圖靈研究所發(fā)布了一份報(bào)告,總結(jié)了其在 2020 年底舉辦的一系列研討會上討論的內(nèi)容,這些研討會中達(dá)成的一項(xiàng)明確共識是:AI 工具在抗擊新冠疫情的戰(zhàn)斗中幾乎沒有產(chǎn)生任何實(shí)質(zhì)性的影響。兩個(gè)研究團(tuán)隊(duì)圍繞著這些 AI 工具分別進(jìn)行的兩項(xiàng)研究得到的結(jié)果支持了這個(gè)結(jié)論。
Laure Wynants 和她的同事研究了 232 種用來預(yù)測或診斷新冠肺炎患者的算法,結(jié)果發(fā)現(xiàn)都不適合臨床使用,只有兩個(gè)算法可能在未來會對臨床上的檢測有所幫助。這項(xiàng)研究結(jié)果以一篇評論文章的形式發(fā)表在英國醫(yī)學(xué)雜志(British Medical Journal)上,到現(xiàn)在這篇文章仍在隨著新工具的發(fā)布和研究者對現(xiàn)有工具的測試而進(jìn)行更新。
對于這樣的結(jié)果 Laure Wynants 說道:“這十分令人震驚。我?guī)е@樣的擔(dān)憂開始了這項(xiàng)工作,但是這個(gè)結(jié)果超出了我的預(yù)想,讓我非??謶?。”
▲ 荷蘭馬斯特里赫特大學(xué)流行病學(xué)家 Laure Wynants
劍橋大學(xué)機(jī)器學(xué)習(xí)研究員 Derek Driggs 及其同事進(jìn)行的另一項(xiàng)研究結(jié)果也得出了相同的結(jié)論。該團(tuán)隊(duì)利用深度學(xué)習(xí)模型診斷新冠肺炎,并讓 AI 通過胸部 X 射線和 CT 掃描來預(yù)測患者的患病風(fēng)險(xiǎn)。他們研究了 415 種已經(jīng)公開的 AI 工具,但是結(jié)果和 Laure Wynants 的發(fā)現(xiàn)一致,沒有一個(gè)工具適合臨床使用。
這項(xiàng)研究結(jié)果被發(fā)表在 Nature Machine Intelligence 上,論文題目為《使用機(jī)器學(xué)習(xí)通過胸片和 CT 掃描檢測和預(yù)測 COVID-19 的常見缺陷和建議(Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans)》。
Derek Driggs 正在研究一種機(jī)器學(xué)習(xí)工具,希望能夠在新冠疫情流行期間幫助醫(yī)生,他說:“這次的疫情是一次對 AI 和醫(yī)學(xué)的重大考驗(yàn),不過我認(rèn)為我們沒有通過這個(gè)考驗(yàn)。”
盡管結(jié)果如此,Laure Wynants 和 Derek Driggs 仍相信 AI 有潛力為醫(yī)生提供幫助,同時(shí)他們也擔(dān)心以錯(cuò)誤的方式構(gòu)建的 AI 工具不僅不會產(chǎn)生幫助甚至還會有害,因?yàn)檫@樣可能會使醫(yī)生做出錯(cuò)誤的診斷或低估患者的病情。
Derek Driggs 稱,關(guān)于機(jī)器學(xué)習(xí)模型以及它的作用有很多炒作,人們對它們不切實(shí)際的期望促使這些工具被提前投入使用。Laure Wynants 和 Derek Driggs 研究的數(shù)百種 AI 工具中的一部分已經(jīng)被一些醫(yī)院所使用,而有些正在被私人開發(fā)商四處兜售。“我擔(dān)心他們可能傷害了病人。”Laure Wynants 說。
新冠疫情讓很多研究人員清楚的看到他們需要改變 AI 工具的構(gòu)建方式。Laure Wynants 談道:“新冠疫情的流行讓這個(gè)問題成為了人們關(guān)注的焦點(diǎn)。”
二、訓(xùn)練 AI 的數(shù)據(jù)錯(cuò)誤太多,讓 AI 學(xué)習(xí)結(jié)果出偏差
研究人員發(fā)現(xiàn),這些 AI 工具出現(xiàn)的問題很多都與開發(fā)者用來開發(fā)工具的數(shù)據(jù)質(zhì)量有關(guān)。在新冠疫情蔓延期間,通常是治療新冠肺炎的醫(yī)生收集和共享關(guān)于這一疾病的信息,包括醫(yī)學(xué)掃描圖像。而這些信息和數(shù)據(jù)是工具開發(fā)者唯一可用的公共數(shù)據(jù)集,這意味著很多是使用錯(cuò)誤標(biāo)記的數(shù)據(jù)或未知來源的數(shù)據(jù)構(gòu)建的。
Derek Driggs 強(qiáng)調(diào)了這個(gè)他稱作“Frankenstei”數(shù)據(jù)集的問題,這些數(shù)據(jù)集是從多個(gè)來源拼接在一起的,可能包含重復(fù)項(xiàng)。這意味著某些工具最終進(jìn)行測試的數(shù)據(jù)可能與它們訓(xùn)練時(shí)使用的數(shù)據(jù)相同,讓它們看起來比實(shí)際上更加準(zhǔn)確。
開發(fā)者還有可能混淆了某些數(shù)據(jù)集的來源,這可能會錯(cuò)過一些影響模型訓(xùn)練結(jié)果的重要特征。比如有些人在不知不覺中使用了一個(gè)數(shù)據(jù)集,其中包含沒有感染過新冠病毒的兒童的胸部掃描圖,并將這些作為非新冠病毒感染病例的示例。結(jié)果 AI 學(xué)會的是如何識別兒童,而不是識別新冠病毒。
Derek Driggs 的小組嘗試使用一個(gè)數(shù)據(jù)集來訓(xùn)練自己的模型,該數(shù)據(jù)集中包含患者躺下和站起來時(shí)的混合掃描。由于躺下進(jìn)行掃描的患者更有可能患有重病,因此 AI 錯(cuò)誤地學(xué)會了從一個(gè)人的站立或躺下來預(yù)測患病嚴(yán)重程度。
還有一種情況,研究者發(fā)現(xiàn)一些 AI 會對某些醫(yī)院用來標(biāo)記掃描結(jié)果的文本字體產(chǎn)生反應(yīng),結(jié)果來自接收重癥患者醫(yī)院的字體成為了預(yù)測新冠肺炎患病風(fēng)險(xiǎn)的指標(biāo)。
事后看來,這些錯(cuò)誤似乎很容易被發(fā)現(xiàn),如果開發(fā)者知道它們,也可以通過調(diào)整模型來進(jìn)行修復(fù)。但是,許多工具要么是由缺乏醫(yī)學(xué)專業(yè)知識的 AI 研究員開發(fā)的,他們很難從中發(fā)現(xiàn)數(shù)據(jù)缺陷;要么是由缺乏數(shù)學(xué)技能的醫(yī)學(xué)研究人員開發(fā)的,他們很難用專業(yè)知識來彌補(bǔ)這些數(shù)據(jù)缺陷。
Derek Driggs 還提到了一個(gè)更微妙的錯(cuò)誤,那就是合并偏差(incorporation bias),或者說是數(shù)據(jù)集被標(biāo)注時(shí)引入的偏差。例如,許多醫(yī)學(xué)掃描是根據(jù)放射科醫(yī)生對于它們是否顯示出新冠病毒的判斷來標(biāo)記的,但是這會將一些醫(yī)生的偏見嵌入或合并到數(shù)據(jù)集中。Derek Driggs 說,用 PCR 測試的結(jié)果來標(biāo)記醫(yī)學(xué)掃描會比僅聽醫(yī)生的意見要好得多,但是在醫(yī)院里往往沒那么多時(shí)間去統(tǒng)計(jì)這些細(xì)節(jié)。
Laure Wynants 稱這些已知的錯(cuò)誤并沒有阻止其中一些工具被匆忙投入臨床實(shí)踐,目前尚不清楚哪些正在被使用,也不知道它們被如何使用。醫(yī)院有時(shí)會說他們僅將工具用于研究目的,這讓研究者很難評估醫(yī)生對這些 AI 工具的依賴程度。
Laure Wynants 曾要求一家銷售深度學(xué)習(xí)算法的公司分享有關(guān)其方法的信息,但是并沒有得到回應(yīng)。后來她從與這家公司有關(guān)的研究人員那里得到了幾個(gè)已經(jīng)發(fā)表了的模型,不出任何意外,這些模型都有著很高的偏見風(fēng)險(xiǎn)。
“我們實(shí)際上并不知道這家公司都做了哪些工作。甚至一些醫(yī)院還與醫(yī)療 AI 的供應(yīng)商簽了保密協(xié)議。”Laure Wynants 說。當(dāng)她問醫(yī)生使用的什么算法或軟件時(shí),會被告知醫(yī)院不允許醫(yī)生將這些說出去。
三、AI 開發(fā)者要與臨床醫(yī)生合作,專家呼吁“數(shù)據(jù)共享”
更加完善的數(shù)據(jù)可能會對解決這個(gè)問題有所幫助,但是在危機(jī)時(shí)期,這個(gè)要求很難做到。Derek Driggs 稱,更重要的是要充分利用已經(jīng)擁有的數(shù)據(jù)集,應(yīng)該讓 AI 開發(fā)團(tuán)隊(duì)與臨床醫(yī)生進(jìn)行更多合作。開發(fā)者要分享他們的模型,并公開他們是如何訓(xùn)練這些模型的,以便其他人可以測試它們并以此為基礎(chǔ)來正確的使用。
“這是我們現(xiàn)在能夠做到的幾件事,它們可能會解決我們發(fā)現(xiàn)的 50% 的問題。”Derek Driggs 說。
總部位于倫敦的全球健康研究慈善機(jī)構(gòu) Wellcome Trust 的臨床技術(shù)團(tuán)隊(duì)負(fù)責(zé)人 Bilal Mateen 說,如果格式標(biāo)準(zhǔn)化,獲取數(shù)據(jù)也更加容易。
Laure Wynants、Derek Driggs 和 Bilal Mateen 都發(fā)現(xiàn)的一個(gè)問題是,大多數(shù)開發(fā)者都急于開發(fā)自己的模型,而不是和他人合作或改進(jìn)現(xiàn)有模型。這樣造成的結(jié)果是全世界的開發(fā)者集體努力創(chuàng)造出了數(shù)百種無用的工具,而不是共同創(chuàng)造出幾種經(jīng)過訓(xùn)練和測試的工具。
Laure Wynants 說:“這些模型非常相似,它們都使用了幾乎相同的技術(shù),只是進(jìn)行了稍微的調(diào)整,輸入幾乎相同的數(shù)據(jù),并且犯了幾乎同樣的錯(cuò)誤。”
“從某種意義上說這是研究領(lǐng)域的老毛病了。學(xué)術(shù)研究人員幾乎沒有任何動機(jī)去分享工作經(jīng)驗(yàn)或驗(yàn)證現(xiàn)有結(jié)果。將技術(shù)從實(shí)驗(yàn)室工作臺帶到病床邊的最后一英里是沒有回報(bào)的。”Bilal Mateen 說。
為了解決這個(gè)問題,世界衛(wèi)生組織正在考慮簽訂一份緊急數(shù)據(jù)共享協(xié)議,該協(xié)議將在國際健康危機(jī)期間生效。這會讓研究人員更容易地跨境共享數(shù)據(jù)。在 6 月份英國舉行 G7 峰會之前,來自參與國的領(lǐng)先科學(xué)團(tuán)體也呼吁“準(zhǔn)備好數(shù)據(jù)”,為未來的突發(fā)衛(wèi)生事件做好準(zhǔn)備。
這樣的呼吁聽起來有點(diǎn)含糊不清,并且?guī)в兄唤z一廂情愿的想法。在新冠疫情爆發(fā)之前,這類共享數(shù)據(jù)的舉措已經(jīng)停滯。
Bilal Mateen 認(rèn)為,新冠疫情讓很多事情重新提上了議程。他說:“除非我們都認(rèn)同在解決共享數(shù)據(jù)這一問題之前要先克服數(shù)據(jù)不能共享背后的難題,否則我們注定要重復(fù)同樣的錯(cuò)誤。如果這樣的錯(cuò)誤再次發(fā)生,將是不可接受的,忘記這次全球疫情的教訓(xùn)是對逝者的不尊重。”
結(jié)語:AI 在抗疫大戰(zhàn)中暴露短板
新冠疫情是一場席卷全球的災(zāi)難。抗擊新冠疫情不是某個(gè)人、某個(gè)團(tuán)體或某個(gè)國家的責(zé)任,而是全人類都要參與的一場斗爭。
這場斗爭中,AI 被寄予了厚望,眾多研究團(tuán)隊(duì)參與其中開發(fā)各種 AI 工具,希望能夠幫助醫(yī)生來檢測和診斷新冠。但是事實(shí)證明,這些 AI 工具并沒有起到真正有效的作用。不過,這并不能否定 AI 在疾病診斷方面的潛力。
要讓 AI 實(shí)現(xiàn)對新冠病毒的檢測,一方面需要更加準(zhǔn)確完善的數(shù)據(jù)集對它進(jìn)行訓(xùn)練,另一方面也需要 AI 工具的開發(fā)者與醫(yī)學(xué)領(lǐng)域的專家進(jìn)行合作,以便能夠更加有效的發(fā)現(xiàn)其中存在的漏洞。
此外應(yīng)對此類全球的健康危機(jī)還需要各國共同創(chuàng)造出一個(gè)開放的研究環(huán)境,讓各類相關(guān)的研究數(shù)據(jù)能夠更加自由的在各國的科研團(tuán)體之間流動,這樣才能讓研究成果更加有效的用于對疾病的抗?fàn)幹小?/p>