突破傳統(tǒng):AI如何應對心電圖中的長尾挑戰(zhàn)?
近日,上海交通大學、上海人工智能實驗室和上海交通大學附屬瑞金醫(yī)院聯(lián)合團隊發(fā)布基于異常檢測預訓練的心電長尾診斷模型。
- 論文鏈接:http://arxiv.org/abs/2408.17154
- 論文標題:Self-supervised Anomaly Detection Pretraining Enhances Long-tail ECG Diagnosis
研究背景
隨著醫(yī)療技術的不斷進步,使用無創(chuàng)手段來準確診斷心臟疾病變得尤為重要。在這些手段中,心電圖(ECG)因其低成本和廣泛使用的特點,被認為是診斷心臟健康的關鍵工具。然而,分析 ECG 數(shù)據(jù)面臨著一個重大挑戰(zhàn):數(shù)據(jù)的長尾分布。這意味著大部分 AI 技術雖然能有效檢測常見的心臟病,但對于稀有或非典型的異常往往難以察覺。這些未被識別的異常(如室上性心動過速、室顫和高級房室傳導阻滯)可能是心源性休克和猝死等致命事件的前兆。因此,開發(fā)能夠處理這些罕見異常的 AI 模型至關重要。
為了應對這些挑戰(zhàn),上海交通大學、上海人工智能實驗室和上海交通大學附屬瑞金醫(yī)院的研究團隊提出了首個基于異常檢測預訓練的心電長尾診斷模型,并在以下三個方面做出了顯著貢獻:
- 創(chuàng)新性方法:該研究首次將自監(jiān)督異常檢測引入為預訓練方式,模擬專業(yè)醫(yī)生的診斷流程,成功開發(fā)出具有長尾診斷能力的心電 AI 模型,大幅提升了對常見及稀有心臟疾病的診斷準確性。
- 嚴謹?shù)臄?shù)據(jù)驗證:研究團隊在一個大規(guī)模的臨床 ECG 記錄數(shù)據(jù)集上對模型進行了嚴格驗證。該數(shù)據(jù)集包含了 2012 年至 2021 年期間在上海真實醫(yī)院環(huán)境中收集的超過一百萬份 ECG 樣本,涵蓋了 116 種不同的 ECG 類型。經(jīng)過異常檢測預訓練的模型在 ECG 診斷及異常檢測 / 定位的內(nèi)部和外部評估中均展現(xiàn)了顯著的整體準確性提升。尤其是在處理稀有 ECG 類型時,該模型實現(xiàn)了 94.7% 的 AUROC、92.2% 的靈敏度和 92.5% 的特異性,明顯優(yōu)于傳統(tǒng)方法,并顯著縮小了與常見 ECG 類型診斷性能之間的差距。
- 前瞻性臨床驗證:在前瞻性驗證中,采用該模型輔助診斷的心臟病醫(yī)生相比于單獨工作的醫(yī)生,診斷準確率提高了 6.7%,診斷完整性提升了 11.8%,診斷時間減少了 32%。這些結果表明,將異常檢測預訓練集成到 ECG 分析中,具有極大的潛力來解決臨床診斷中長尾數(shù)據(jù)分布的挑戰(zhàn)。
接下來將從數(shù)據(jù)、方法與實驗結果三個方面介紹原文細節(jié)。
數(shù)據(jù)介紹
本研究使用了一個涵蓋從 2012 年至 2021 年期間上海真實醫(yī)院數(shù)據(jù)的大規(guī)模心電圖(ECG)數(shù)據(jù)集,總共包含 1089367 個樣本。每個樣本不僅包括心電圖信號圖像,還包含一個詳細的診斷摘要,記錄了特定的異常情況。數(shù)據(jù)集中涵蓋了從常見到罕見的 116 種心電異常類型。例如,房室傳導阻滯是一種較常見的類型,有數(shù)萬個樣本;而雙室肥大則是一種非常罕見的異常,僅有極少的樣本。這種明顯的長尾分布突出了研究中的挑戰(zhàn)。
圖一:心電類型長尾分布情況
這 116 種心電圖類型可以大致分為三類:疾病分類、非特異性特征以及信號采集。研究團隊收集了截至 2020 年的所有心電圖記錄,共計 416,951 個正常心電圖和 482,976 個異常心電圖,并將其用于模型訓練。為有效評估模型在長尾分布場景下的分類性能,研究團隊在 2021 年的心電圖數(shù)據(jù)上進行了內(nèi)部驗證,驗證數(shù)據(jù)包括 94,304 個正常心電圖和 95,136 個異常心電圖。為進一步測試模型的適應性,團隊根據(jù)心電圖類型的出現(xiàn)頻率將驗證集劃分為三種不同的測試集:常見類型、不常見類型和罕見類型。
圖二:數(shù)據(jù)集具體類型,年齡性別分布,與外部驗證的開源數(shù)據(jù)集 PTB-XL 對比
方法介紹
本研究提出了一個新穎的兩階段框架,將 ECG 診斷轉(zhuǎn)化為一個細粒度、長尾分類問題。首先,框架通過異常檢測預訓練階段來定位心電圖中的異常區(qū)域,這有助于后續(xù)分類任務的集中和精確執(zhí)行?;A假設是,預訓練通過專注于區(qū)分正常和異常信號,使模型能夠更有效地識別罕見異常的特征,進而提升模型在長尾數(shù)據(jù)分布上的表現(xiàn)。分類組件無縫集成到預訓練的異常檢測模型中,作為一個額外分類頭,確保一個統(tǒng)一的診斷流程,模擬專家心臟病學家所進行的全面、逐步分析。
該框架的核心創(chuàng)新在于,設計了一種專門針對 ECG 信號的新型掩碼和恢復技術,用于自監(jiān)督異常檢測預訓練。該框架的核心組件是多尺度交叉注意力模塊,大大增強了模型在整合全局與局部信號特征方面的能力。與現(xiàn)有主要聚焦于時間序列分析的異常檢測方法不同,本研究還整合了 QRS 和 QT 間期等關鍵 ECG 參數(shù)以及年齡、性別等人口統(tǒng)計因素,這些因素對于準確理解個體心臟狀況至關重要。通過這種綜合集成,該框架能夠更細致地解讀 ECG 信號,減少個體差異對診斷的影響,從而顯著提升診斷的準確性。
圖三:提出的兩階段 ECG 診斷框架仿照醫(yī)生的診斷流程,包括兩個主要步驟,即自監(jiān)督的心電圖異常檢測預訓練和基于預訓練的異常檢測模型微調(diào)分類器
實驗結果
(1)內(nèi)部驗證
實驗結果顯示,使用簡單的監(jiān)督分類方法時,隨著 ECG 類型從常見轉(zhuǎn)為稀有,模型性能顯著下降。然而,當引入基于預訓練的異常檢測模型(使用正常 ECG 數(shù)據(jù)進行訓練)后,這種性能下降得到了明顯緩解。在實驗中,研究團隊通過兩種設置(1. 固定異常檢測模型,僅微調(diào)分類器,2. 聯(lián)合訓練異常檢測模型和分類器)對模型進行了評估,結果顯示,無論哪種設置,模型在處理所有數(shù)據(jù)子集時的指標均有所改善,尤其是在應對長尾稀有數(shù)據(jù)時表現(xiàn)尤為突出。
表一:心電診斷內(nèi) / 外部驗證結果
除了評估總體診斷性能外,確保模型在關鍵人口特征上的公平性也至關重要,尤其是在臨床應用中,不同年齡組和性別之間的診斷準確性需要保持一致。實驗結果顯示,男性和女性之間的診斷性能基本相當。在所有測試數(shù)據(jù)中,不同年齡組的診斷性能也相對一致,雖然在 10 歲以下和 90 歲以上患者中的表現(xiàn)略低,但在 10 歲至 90 歲之間的年齡組中,模型的 AUROC 和特異性均保持在 90% 以上。
圖四:長尾類型的診斷結果,診斷公平性與異常定位效果
在異常檢測性能評估上,研究團隊提出的方法在大多數(shù)評價指標上均優(yōu)于現(xiàn)有方法,涵蓋所有測試數(shù)據(jù)集。具體來說,該方法實現(xiàn)了 91.2% 的 AUROC,83.7% 的 F1 分數(shù),84.2% 的敏感性,83.0% 的特異性,以及在固定 90% 召回率下 75.6% 的精度,顯著超越了其他競爭方法。該模型對細微信號模式變化的敏感性更高,能夠比真實情況中的廣泛標注更精確地定位異常。這些精準定位為潛在異常提供了寶貴的見解,從而為醫(yī)療從業(yè)者提供了顯著支持。
表二:心電異常檢測與定位實驗結果
(2)外部驗證
研究團隊使用歐洲的開源心電數(shù)據(jù)集 PTB-XL 對研究方法和基線模型進行了外部驗證。與內(nèi)部數(shù)據(jù)集相比,該數(shù)據(jù)集在年齡分布、信號采集質(zhì)量和心電圖信號類型方面存在顯著差異。通過線性探測將本方法應用于外部驗證數(shù)據(jù)集時,聯(lián)合訓練的異常檢測模型與分類器實現(xiàn)了最高的診斷準確性。值得注意的是,在線性探測過程中,只有分類器的最終線性層參與了訓練,而其余模型參數(shù)則保持不變。
(3)前瞻驗證
為了嚴格評估模型在真實臨床環(huán)境中的表現(xiàn),研究團隊在不進行微調(diào)的情況下,將模型部署在醫(yī)院環(huán)境中,設置了 AI 輔助診斷組和對照組,通過對比兩組醫(yī)生的診斷準確率、診斷效率和結論完整度,來驗證 AI 模型輔助診斷對心臟病專家診斷過程的影響。每份心電圖都由至少三位心臟病專家在不同條件下進行評估:
a. 心臟病專家 A 的任務是在盡可能短的時間內(nèi)提供診斷結論,模擬緊急情況下需要快速決策的場景。
b. 心臟病專家 B 在沒有時間限制的情況下獨立進行診斷,代表常規(guī)診斷流程。
c. 心臟病專家 C 在 AI 模型的輔助下進行診斷,模型為每個病例提供了五種最有可能的異常類型作為參考。
在時間限制下,心臟病專家的診斷準確性較低,心臟病專家 A 的結論不夠全面,主要集中于識別關鍵疾病。相比之下,在沒有時間限制的情況下,心臟病專家 B 的診斷全面性和準確性都有顯著提升。AI 方法的優(yōu)勢在于分析一份心電圖只需 0.055 秒,速度大約是人類急診診斷時間的 1000 倍。除了速度優(yōu)勢外,AI 方法還實現(xiàn)了 81.9% 的診斷準確率,明顯優(yōu)于未使用輔助工具的人類 67.7% 的診斷準確率。當結合臨床實踐時,AI 輔助的心臟病專家診斷準確率達到了 84.0%,比未使用輔助工具的診斷提高了 6.7%。此外,診斷效率顯著提高,平均診斷時間縮短了 36 秒。AI 系統(tǒng)還提供了更詳細的信號模式和節(jié)律分析,特別是在識別 T 波變化和竇性心動過速等細微變化方面,使 11.8% 的心電圖結論更加全面,從而提升了診斷結果的整體質(zhì)量。
圖五:前瞻驗證中,診斷準確率,結論完整性與診斷時間對比
在臨床診斷中,尤其是面對長尾異常,心臟病專家在時間限制或經(jīng)驗不足的情況下,容易出現(xiàn)誤診,通常表現(xiàn)為較高的特異性(>99%)但敏感性卻非常低(<50%)。將 AI 整合到診斷過程中,顯著減少了這些誤診,提高了對罕見異常的檢測能力,并突出了關鍵的信號模式。當 AI 作為輔助工具使用時,心臟病專家在處理長尾數(shù)據(jù)時的敏感性從 46.9% 提高到 71.4%,同時特異性仍保持在 99.7% 的高水平。這表明 AI 在增強臨床決策,特別是在具有挑戰(zhàn)性的診斷場景中,展現(xiàn)出了巨大的潛力。
表三:前瞻驗證中,常見與長尾心電類型的診斷敏感性,特異性對比
研究價值
作為首個基于異常檢測預訓練的心電長尾診斷模型,該研究在以下幾個方面展現(xiàn)了其重要價值:
- 臨床應用的巨大潛力:通過異常檢測預訓練,該模型能夠以遠超經(jīng)驗豐富的心臟病專家的速度,提供準確且全面的診斷結果。這表明,AI 輔助系統(tǒng)在臨床診斷中具有廣闊的應用前景,無論是在緊急情況下還是常規(guī) ECG 評估中,均能發(fā)揮重要作用。
- 減輕長尾分布影響的能力:異常檢測預訓練通過識別可能的異常特征偏差,使模型能夠集中關注特定異常區(qū)域,從而更精確地分類不同類型的異常。這種方法促進了對各種稀有異常的高效學習,有效應對了不平衡的長尾異常分布帶來的挑戰(zhàn)。
- 提供可解釋且信息豐富的定位結果:除了提升診斷性能外,異常檢測預訓練還具備一個關鍵優(yōu)勢,即能夠精確定位異常。這為模型的診斷決策提供了清晰且易于理解的解釋,有助于醫(yī)療從業(yè)者更好地理解診斷結果。
- 臨床診斷模型的公平性:該研究模型在男性和女性之間,以及 10 至 90 歲各年齡組中的診斷效果相當。這些發(fā)現(xiàn)強調(diào)了在臨床實踐中,考慮人口統(tǒng)計因素以提升診斷準確性和公平性的重要性。進一步研究有助于揭示這些年齡和性別差異的機制,從而開發(fā)改善所有患者群體健康結果的策略。
- 可擴展的 ECG 診斷框架:該框架專為解決 ECG 數(shù)據(jù)的長尾分布問題而設計,并經(jīng)過對 116 種不同 ECG 類型的細致訓練。這種全面覆蓋確保了模型能夠適應臨床實踐中遇到的幾乎所有 ECG 類型,使其在多樣化數(shù)據(jù)集中的適應性和通用性得到了高度保障。