帝國(guó)理工:如何用 AI 解決 80% ??漆t(yī)生擔(dān)憂的心律裝置移植手術(shù)難題
倫敦帝國(guó)理工學(xué)院的研究人員開發(fā)了一種基于AI的軟件,目前,這款軟件被稱為PPMnn(起搏器神經(jīng)網(wǎng)絡(luò)), 用于識(shí)別起搏器或者除顫器的制造商和型號(hào)。該研究結(jié)果發(fā)表在美國(guó)心臟病學(xué)會(huì)(JACC):臨床電生理學(xué)雜志上。這篇論文介紹了基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)的開發(fā)、驗(yàn)證和有效性。
背景
全世界每年有超過(guò)一百萬(wàn)人進(jìn)行心律裝置的移植手術(shù),在移植過(guò)程中,醫(yī)護(hù)人員通常是通過(guò)一些算法來(lái)輔助自己識(shí)別設(shè)備的X圖像,進(jìn)而確定起搏器或除顫器的制造商和型號(hào)。但即使是最有效的算法,識(shí)別也不存在缺陷,而一旦錯(cuò)誤就會(huì)導(dǎo)致病情延誤。
事實(shí)上,多達(dá)80%的心臟相關(guān)??漆t(yī)生報(bào)告說(shuō)他們“經(jīng)常”難以識(shí)別設(shè)備。
研究人員對(duì)來(lái)自5家生產(chǎn)廠家的45種型號(hào)的1676臺(tái)設(shè)備的X光圖像進(jìn)行提取。利用1451幅圖像作為訓(xùn)練集,建立了卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行分類。測(cè)試集還包含其余的225幅圖像,每種型號(hào)包括5個(gè)樣本,并將神經(jīng)網(wǎng)絡(luò)識(shí)別設(shè)備的能力與心臟病專家進(jìn)行了比較。
結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)對(duì)制造商設(shè)備的識(shí)別準(zhǔn)確率為99.6%(95%置信區(qū)間:97.5 ~ 100),對(duì)型號(hào)的識(shí)別準(zhǔn)確率為96.4%(95%置信區(qū)間:93.1 ~ 98.5)。5名心臟病專家對(duì)制造商識(shí)別正確率的均值為72.0%(范圍為62.2% ~ 88.9%),無(wú)法進(jìn)行型號(hào)識(shí)別。可以看出,基于神經(jīng)網(wǎng)絡(luò)識(shí)別的能力明顯優(yōu)于所有心臟病專家。
方法
數(shù)據(jù)提取
在本研究中,數(shù)據(jù)集是選取1998年2月至2018年5月期間在 Imperial College Healthcare NHS Trust醫(yī)療保健中心植入的心率儀的圖像。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要足夠多的類別樣例,每一類至少包括25幅圖像,包括便攜式和部門AP/PA胸片,不包括側(cè)位胸片。從連續(xù)病例患者中提取圖像,每個(gè)型號(hào)最多提取40張圖像,以最小化類不平衡。從每張X光圖像中,分割出一個(gè)比設(shè)備稍大的正方形區(qū)域,該區(qū)域提高了網(wǎng)絡(luò)的信噪比。然后將這些裁剪后的圖像調(diào)整為224×224像素,并進(jìn)行歸一化,得到0到1之間的像素值。在提取過(guò)程中注意,在某些情況下,如果制造商引進(jìn)一種新型號(hào)時(shí),在X光圖像上沒有檢測(cè)到變化,這可能只是設(shè)備軟件上的一個(gè)更新,或者是部件外觀上幾乎相同無(wú)法區(qū)分。
是從45類中隨機(jī)分配5張圖片作為“測(cè)試集”,這在網(wǎng)絡(luò)的任何訓(xùn)練階段都不會(huì)用到,在最終驗(yàn)證準(zhǔn)確性時(shí)才會(huì)使用。
剩下的“訓(xùn)練集”用于訓(xùn)練網(wǎng)絡(luò),分為兩個(gè)不同階段:一是決定使用哪個(gè)底層網(wǎng)絡(luò)(包括結(jié)構(gòu)特征,如層的數(shù)量和大小)以及訓(xùn)練的快慢(稱為 “學(xué)習(xí)率”)。這些卷積神經(jīng)網(wǎng)絡(luò)類似于人類大腦的層次結(jié)構(gòu)組織,解決圖像分類問題;第二階段是調(diào)整權(quán)重的詳細(xì)過(guò)程,以對(duì)起搏器進(jìn)行分類。這兩個(gè)階段都使用了訓(xùn)練集,但方式不同。
在網(wǎng)絡(luò)訓(xùn)練階段 (如圖1所示),每種神經(jīng)網(wǎng)絡(luò)候選模型都從75%的訓(xùn)練集中學(xué)習(xí),并正確預(yù)測(cè)剩余25%的訓(xùn)練集。如此重復(fù)4次,這樣所有的訓(xùn)練集都輪流扮演了兩個(gè)角色。這個(gè)過(guò)程被稱為“4次交叉驗(yàn)證”。
第二階段,基于上一個(gè)階段選擇的神經(jīng)網(wǎng)絡(luò)模型開始,但是使用整個(gè)訓(xùn)練集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到最終的神經(jīng)網(wǎng)絡(luò)模型。
這個(gè)訓(xùn)練好的網(wǎng)絡(luò)模型向“測(cè)試集”公開,“測(cè)試集”始終保持獨(dú)立,以評(píng)估其正確分類制造商和型號(hào)的能力。
該研究獲得了衛(wèi)生研究管理局(集成研究應(yīng)用系統(tǒng)標(biāo)識(shí)249461)的監(jiān)管批準(zhǔn)。
卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)與訓(xùn)練
我們?cè)u(píng)估了五種不同的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(DenseNet、Inception V3、VGGNet、ResNet和Xception),在對(duì)整個(gè)模型進(jìn)行再訓(xùn)練時(shí),使用ImageNet上訓(xùn)練得到的權(quán)值對(duì)所有網(wǎng)絡(luò)進(jìn)行初始化。
對(duì)于每個(gè)網(wǎng)絡(luò),輸出層設(shè)置為45個(gè)密集連接的神經(jīng)元(對(duì)應(yīng)每個(gè)設(shè)備型號(hào)1個(gè))。使用交叉熵?fù)p失函數(shù)對(duì)其中16幅圖像進(jìn)行損失計(jì)算,并使用ADADELTA優(yōu)化器更新權(quán)重。損失是用來(lái)評(píng)估網(wǎng)絡(luò)性能和改進(jìn)網(wǎng)絡(luò)性能的技術(shù)指標(biāo)。損失比簡(jiǎn)單的錯(cuò)誤率(準(zhǔn)確度的倒數(shù))更敏感,因?yàn)橐@得滿分(零損失),網(wǎng)絡(luò)對(duì)每個(gè)心臟起搏器圖像的正確預(yù)測(cè)達(dá)到100%。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是一個(gè)自動(dòng)調(diào)整權(quán)值以使損失最小化的過(guò)程,直到損失函數(shù)達(dá)到穩(wěn)定。使用Tensorflow和Keras機(jī)器學(xué)習(xí)框架的Python編程語(yǔ)言進(jìn)行編程。
可視化
對(duì)每個(gè)例子進(jìn)行處理以提供特征映射,其中梯度較高的像素對(duì)應(yīng)于正確的類(突出顯示對(duì)網(wǎng)絡(luò)決策貢獻(xiàn)較大的像素),這可以使用Keras-vis軟件完成 。
借助算法的專家測(cè)試
將225張圖像的測(cè)試集提供給5名心臟病專家(其中兩個(gè)是電生理學(xué)家),同時(shí)提供心律儀識(shí)別算法CaRDIA-X(3)。該算法只針對(duì)制造商進(jìn)行區(qū)分,而不能識(shí)別特定的型號(hào)。對(duì)于每一幅圖像,都已知是起搏器、除顫器還是循環(huán)記錄器。
我們要求評(píng)分者將每種設(shè)備分類為Biotronik、Boston Scientific、Medtronic、Sorin或St. Jude Medical。
統(tǒng)計(jì)分析
對(duì)比測(cè)試神經(jīng)網(wǎng)絡(luò)和借助CaRDIA-X算法的專家對(duì)制造商分類的結(jié)果。采用McNemar檢驗(yàn)進(jìn)行評(píng)估,p值0.05作為統(tǒng)計(jì)特征閾值。參照每位專家的評(píng)估結(jié)果計(jì)算精度均值。
精確度定義為測(cè)試集中正確分類的圖像數(shù)量除以測(cè)試集中圖像的總數(shù)。精確度的置信區(qū)間使用二項(xiàng)式方法計(jì)算。對(duì)于大小不相等的制造商類別,也計(jì)算F1分?jǐn)?shù),定義為精度和召回率的平均值的兩倍,范圍在0和1之間。
使用費(fèi)希爾精確檢驗(yàn),對(duì)網(wǎng)絡(luò)的準(zhǔn)確性進(jìn)行了不同子組的評(píng)估。韋爾奇不等方差t檢驗(yàn)通過(guò)計(jì)算每張圖像的拉普拉斯方差來(lái)評(píng)估部門和便攜式x線片在圖像清晰度方面的差異,采用R軟件進(jìn)行統(tǒng)計(jì)分析。
結(jié)果
數(shù)據(jù)集
數(shù)據(jù)集總共包括來(lái)自1575名患者的1676張不同設(shè)備的圖像。盡管有66種不同的設(shè)備型號(hào),但其中一些在視覺上是無(wú)法區(qū)分的,這可能只是設(shè)備中軟件的變化。型號(hào)組共有45個(gè),其中278張X光圖像來(lái)自便攜式設(shè)備,其余1398臺(tái)為部門AP。
測(cè)試集45種型號(hào)中每種型號(hào)由5個(gè)樣本組成,總共225個(gè)樣本。
(左)條形圖顯示了識(shí)別5個(gè)人類報(bào)告者和神經(jīng)網(wǎng)絡(luò)中的設(shè)備制造商的比較準(zhǔn)確性。p值是指中位數(shù)和人類評(píng)分之上的神經(jīng)網(wǎng)絡(luò)的優(yōu)越性。(右)混淆矩陣顯示網(wǎng)絡(luò)在預(yù)測(cè)正確的設(shè)備制造商時(shí)的準(zhǔn)確性。BIO = Biotronik; BOS = Boston Scientific; MDT =美敦力; SOR =索林; STJ = St. Jude。
階段1:不同神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能比較
對(duì)于所有的網(wǎng)絡(luò)模型,經(jīng)過(guò)階段1的訓(xùn)練后,網(wǎng)絡(luò)的性能都達(dá)到了一個(gè)穩(wěn)定狀態(tài),損失函數(shù)也下降到一個(gè)平穩(wěn)水平。VGGNet的準(zhǔn)確率為4.4%,Xception的準(zhǔn)確率為91.1%。
階段一的結(jié)論是為第2階段選擇Xception架構(gòu)打下基礎(chǔ),并預(yù)先指定訓(xùn)練的epoch為15。然后第二階段從一個(gè)全新的Xception神經(jīng)網(wǎng)絡(luò)開始,使用1451張完整的訓(xùn)練集進(jìn)行訓(xùn)練。使用第二階段生成的最終神經(jīng)網(wǎng)絡(luò)對(duì)“測(cè)試集”數(shù)據(jù)進(jìn)行測(cè)試驗(yàn)證。
階段2: “測(cè)試集”驗(yàn)證神經(jīng)網(wǎng)絡(luò)性能
最終的神經(jīng)網(wǎng)絡(luò)識(shí)別設(shè)備制造商的準(zhǔn)確率為99.6%,對(duì)應(yīng)的F1得分為0.996。性能如圖1所示。錯(cuò)誤分類的圖像是Medtronic Adapta設(shè)備被誤認(rèn)為Sorin Reply設(shè)備。
不可避免地,識(shí)別模型組(而不僅僅是制造商)的性能較低,準(zhǔn)確率為96.4% (95% CI: 93.1 ~ 98.5), F1評(píng)分為0.964分。值得注意的是,在其中的8個(gè)預(yù)測(cè)中,正確的型號(hào)是前3個(gè)預(yù)測(cè)中的1個(gè)。因此,通常描述為“前3名”的準(zhǔn)確率為99.6% (95% CI: 97.5到100.0)。
便攜式X光圖像的型號(hào)識(shí)別準(zhǔn)確率為89.5% (95% CI: 75.2 - 97.1),而部門X線圖像的準(zhǔn)確率為97.9% (95% CI: 94.6 - 99.4)(兩組間差異p = 0.029)。然而,制造商分類錯(cuò)誤是部門X光圖像。起搏器組準(zhǔn)確率為95.0% (95% CI: 90.4 - 97.8),ICDs組準(zhǔn)確率為96.4% (95% CI: 87.5 - 99.6%)(兩組間差異p = 1.00),準(zhǔn)確率在不同廠家之間差異不顯著(p = 0.954)。
與醫(yī)學(xué)專家的性能進(jìn)行比較
五名心臟病專家使用CaRDIA-X算法對(duì)5家制造商的225張測(cè)試集圖像進(jìn)行分類。他們的準(zhǔn)確率從62.3%到88.9%不等,平均準(zhǔn)確率為72.0%,神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率顯著高于專家。
可視化分析
在另一項(xiàng)探索性分析中,我們對(duì)測(cè)試集中的每張圖像都生成了特征圖,顯示它們所描述的心率儀的特征,就類似于臨床醫(yī)學(xué)中疾病的病征。
圖3顯示了包含2個(gè)不同型號(hào)的4幅圖像,圖4表明AT500設(shè)備的特征映射,顯示圍繞該設(shè)備特有的環(huán)形電路板組件。
討論
這是利用人工智能從X光圖像中識(shí)別心律裝置的研究。該神經(jīng)網(wǎng)絡(luò)在識(shí)別設(shè)備制造商方面具有更高的準(zhǔn)確性。對(duì)于從未見過(guò)的圖像,該網(wǎng)絡(luò)識(shí)別設(shè)備制造商的準(zhǔn)確率為99.6%,對(duì)應(yīng)的專家識(shí)別準(zhǔn)確率為62.3%到88.9%。
臨床應(yīng)用
在一些臨床應(yīng)用中,使用更快的、可靠的(至少和心臟病專家一樣)工具會(huì)大有用處。醫(yī)生用它從一個(gè)簡(jiǎn)單的胸片快速評(píng)估心臟設(shè)備的性質(zhì)。因?yàn)橹挥刑囟ǖ闹圃焐滩拍芘c病人的設(shè)備通信,知道帶哪個(gè)程序員來(lái)可以節(jié)省寶貴的臨床時(shí)間,這樣可以在緊急情況下快速訪問設(shè)備,提供緊急治療。
機(jī)器學(xué)習(xí):特征圖
在圖3中,大多數(shù)人包括心臟病專家,都很難區(qū)分起搏器的兩種模型。然而,神經(jīng)網(wǎng)絡(luò)不僅能準(zhǔn)確地區(qū)分它們,特征圖還能突出區(qū)分它們最明顯的特征。此外,一旦這個(gè)顯著的特性被指出來(lái)(圖4),就很容易區(qū)分。
網(wǎng)絡(luò)架構(gòu)極大地影響性能
表2顯示了不同神經(jīng)網(wǎng)絡(luò)架構(gòu)的性能水平,VGGNet在這項(xiàng)任務(wù)上的表現(xiàn)很差。ResNet設(shè)計(jì)了“殘差連接”,這種方法使原始圖像可用于網(wǎng)絡(luò)的所有后續(xù)層。GoogLeNet Inception使用“1×1卷積”在層之間壓縮信息,大大降低網(wǎng)絡(luò)的復(fù)雜性。性能較好的設(shè)計(jì)是Xception,它廣泛使用了這兩種創(chuàng)新“殘差連接”和“1×1卷積”。
局限性
該神經(jīng)網(wǎng)絡(luò)可以識(shí)別英國(guó)地區(qū)常用的設(shè)備,無(wú)法適應(yīng)所有的設(shè)備。當(dāng)然,該網(wǎng)絡(luò)能夠不斷地?cái)U(kuò)展,訓(xùn)練神經(jīng)網(wǎng)絡(luò)只需要新設(shè)備的25個(gè)樣本。
有時(shí)候,神經(jīng)網(wǎng)絡(luò)也會(huì)得出錯(cuò)誤的結(jié)論。盡管網(wǎng)絡(luò)選擇的正確率在96.4%。但(巧合的是)在99.6%的情況下,正確的型號(hào)是前3個(gè)預(yù)測(cè)中的1個(gè)。
所有的神經(jīng)網(wǎng)絡(luò)都有“過(guò)度擬合”的風(fēng)險(xiǎn)。我們?cè)噲D以兩種方式將過(guò)度擬合的風(fēng)險(xiǎn)降至更小。首先,網(wǎng)絡(luò)的性能被定義為在未經(jīng)過(guò)訓(xùn)練的“測(cè)試集”上的準(zhǔn)確性。其次,網(wǎng)絡(luò)中包括各種“正規(guī)化”方法,例如丟失和權(quán)重衰減。
讓神經(jīng)網(wǎng)絡(luò),從“工作臺(tái)走到病床邊”的部署可能很困難,因?yàn)樵谧o(hù)理時(shí)并不總是需要很大的處理能力。通過(guò)提供任何人都可以使用的在線Web門戶,我們可以緩解這種情況。
結(jié)論
本研究證明卷積神經(jīng)網(wǎng)絡(luò)能夠從X光片上準(zhǔn)確識(shí)別心律裝置的制造商和型號(hào)。此外,它的性能顯著超過(guò)使用流程圖的心臟病專家。
醫(yī)學(xué)能力:機(jī)器學(xué)習(xí)和人工智能在醫(yī)學(xué)領(lǐng)域,特別是在醫(yī)學(xué)圖像分析領(lǐng)域,得到了迅速的發(fā)展。我們的方法會(huì)加速患者的診斷和治療。本文也表明了神經(jīng)網(wǎng)絡(luò)越來(lái)越多的處理大量的醫(yī)學(xué)數(shù)據(jù)(整個(gè)衛(wèi)生保健系統(tǒng)),以及未來(lái)病人護(hù)理可能會(huì)越來(lái)越多地依賴計(jì)算機(jī)輔助決策。
成果轉(zhuǎn)化:將機(jī)器學(xué)習(xí)的成果從計(jì)算機(jī)實(shí)驗(yàn)室轉(zhuǎn)化為現(xiàn)實(shí)應(yīng)用往往是困難的。通過(guò)研究,我們提供了一個(gè)在線教育門戶網(wǎng)站,醫(yī)生可以在線與網(wǎng)絡(luò)互動(dòng)。與以往一樣,在將神經(jīng)網(wǎng)絡(luò)部署為有效工具之前,進(jìn)一步的臨床研究對(duì)于評(píng)估網(wǎng)絡(luò)的準(zhǔn)確性至關(guān)重要。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。