3類嚴(yán)重程度,6級(jí)不確定性!德州大學(xué)等首創(chuàng)全新胸部X光數(shù)據(jù)集,登IEEE TMI
相比于普通圖像分類,醫(yī)學(xué)診斷具有兩點(diǎn)特殊的性質(zhì):1.不確定性;2.病情發(fā)展程度。
正如圖1報(bào)告所示,醫(yī)生的描述中往往會(huì)涉及到相關(guān)癥狀的嚴(yán)重程度和可能性。然而現(xiàn)有的醫(yī)學(xué)數(shù)據(jù)庫往往直接模仿自然圖像,僅僅提供有無的Binary或者疾病的分類的Multiple Label,嚴(yán)重忽略了具有重要臨床意義的因素。
圖1 放射學(xué)報(bào)告中關(guān)于疾病不確定性和嚴(yán)重程度的描述(疾病用紅色字體標(biāo)出,嚴(yán)重程度用綠色高亮,不確定性用藍(lán)色高亮)
基于胸部X光(CXR)檢查這種廣泛應(yīng)用于篩查和診斷多種疾病的臨床成像方法,德州大學(xué)阿靈頓分校、NIH、理化學(xué)研究所、東京大學(xué)以及日本國(guó)立癌癥研究中心的研究人員首次提出了提出了一個(gè)包含了疾病的嚴(yán)重程度和不確定性的全新的數(shù)據(jù)集。
論文鏈接:https://ieeexplore.ieee.org/abstract/document/10632161
數(shù)據(jù)集下載:https://github.com/MengRes/Uncertain-Label.git
數(shù)據(jù)集Physionet:https://physionet.org/content/cad-chest/1.0/
此外,他們還提出了一種解剖結(jié)構(gòu)感知的多關(guān)系圖學(xué)習(xí)方法,用于改進(jìn)CXR疾病分類。
論文已經(jīng)被IEEE Transactions on Medical Imaging(TMI)接收。
文章的主要貢獻(xiàn)包括:
1. 提出一個(gè)包含疾病嚴(yán)重程度和不確定性的數(shù)據(jù)集。
2. 提出了一種使用醫(yī)學(xué)知識(shí)的多關(guān)系圖學(xué)習(xí)方法用于CXR疾病分類。
數(shù)據(jù)集
診斷疾病的嚴(yán)重程度在臨床診斷中至關(guān)重要,超越了疾病類別存在或不存在的二元分類。
在MIMIC-CXR數(shù)據(jù)集中(最大的胸片數(shù)據(jù)集之一)以及隨附的放射學(xué)報(bào)告,疾病嚴(yán)重程度的描述(例如圖1中的「small pleural effusion」或「mild cardiomegaly」)很常見。據(jù)了解,之前沒有研究解決報(bào)告的疾病嚴(yán)重程度的問題。
其次,由于胸片的基本復(fù)雜性和難度,對(duì)醫(yī)生的疾病不確定性進(jìn)行建模非常重要。放射科醫(yī)生經(jīng)常在臨床記錄中使用「可能」、「不排除」和「也許」等術(shù)語在臨床記錄中表明不同程度的不確定性。大多數(shù)先前的研究將這種不確定性視為負(fù)面類別,這可能會(huì)誤導(dǎo)臨床決策。
團(tuán)隊(duì)使用了基于規(guī)則的提取方法從放射學(xué)報(bào)告中提取疾病的名稱,嚴(yán)重程度和不確定性信息。
對(duì)于疾病名稱,列出每一種疾病可能使用的表述,對(duì)于疾病嚴(yán)重程度,列出了表示嚴(yán)重程度的詞語,并將嚴(yán)重程度量化為輕度(mild),中度(moderate)和嚴(yán)重(sever)三個(gè)等級(jí),如表1所示。
對(duì)于疾病的不確定性,團(tuán)隊(duì)與醫(yī)生合作,制定了不同的不確定性詞語與標(biāo)簽值的映射,將不同的嚴(yán)重程度對(duì)應(yīng)于不同的標(biāo)簽值,對(duì)疾病的描述越肯定,標(biāo)簽值越高,如表2所示。
表1 表示疾病嚴(yán)重程度的詞語
表2 表示疾病不確定性的詞語
團(tuán)隊(duì)邀請(qǐng)經(jīng)驗(yàn)豐富的醫(yī)生來評(píng)估被提取的標(biāo)簽的準(zhǔn)確性,并向醫(yī)生提供了500份隨機(jī)選擇的放射學(xué)報(bào)告及其相應(yīng)提取的疾病,嚴(yán)重程度和不確定性標(biāo)簽。根據(jù)醫(yī)生的反饋統(tǒng)計(jì)了標(biāo)簽的準(zhǔn)確性,如表3所示。
表3 提取的標(biāo)簽的準(zhǔn)確性評(píng)估
方法
團(tuán)隊(duì)在上述提取的標(biāo)簽上使用圖網(wǎng)絡(luò)對(duì)疾病分類。根據(jù)醫(yī)生提供的醫(yī)學(xué)知識(shí),構(gòu)建了三種圖網(wǎng)絡(luò)關(guān)系,分別為spatial graph(表示解剖學(xué)結(jié)構(gòu)之間的關(guān)系),semantic graph(疾病之間的關(guān)系)和implicit graph(表示潛在的關(guān)系)。
在spatial graph中,每個(gè)解剖學(xué)結(jié)構(gòu)作為一個(gè)節(jié)點(diǎn),通過根據(jù)解剖學(xué)結(jié)之間的空間關(guān)系決定其之間邊的連接。
在semantic graph中,邊的連接則基于疾病之間的關(guān)系(如圖2所示)。團(tuán)隊(duì)利用基于圖的Grad-CAM方法來獲取最后一層類別的特定權(quán)重。
使用上述權(quán)重,為每個(gè)節(jié)點(diǎn)計(jì)算每個(gè)異常類型的熱圖值。熱圖是表示節(jié)點(diǎn)特征對(duì)特定類別預(yù)測(cè)貢獻(xiàn)的二維表示。對(duì)每個(gè)節(jié)點(diǎn),根據(jù)熱圖值進(jìn)行排序,并選擇最高值(top-1)和次高值(top-2)。
這些值對(duì)應(yīng)于可能在該節(jié)點(diǎn)發(fā)生的異常。如果節(jié)點(diǎn)i和節(jié)點(diǎn)j的top-1標(biāo)簽在知識(shí)圖中是相連的,則在兩個(gè)節(jié)點(diǎn)之間建立邊,Ase1(i, j) = 1,否則Ase1(i, j) = 0。同樣的方法用于構(gòu)建Ase2矩陣,表示節(jié)點(diǎn)的top-2標(biāo)簽之間的語義關(guān)系。
在implicit graph中,解剖學(xué)結(jié)構(gòu)之間互相連接。模型的結(jié)構(gòu)如圖2所示,具體介紹見論文。
圖2 疾病之間的關(guān)系:心臟肥大會(huì)損害心臟有效泵血的能力,這種損害會(huì)進(jìn)一步加劇因肺充血而引起的肺水腫,然后充血會(huì)將液體推入胸膜腔,而這種液體的積聚會(huì)導(dǎo)致胸腔積液
圖3 方法的網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)
團(tuán)隊(duì)在提取的標(biāo)簽上進(jìn)行實(shí)驗(yàn)并和其他方法比較,結(jié)果如表4所示。
模型通過二元標(biāo)簽和不確定標(biāo)簽進(jìn)行訓(xùn)練,記為Ours(0-1)和Ours(Uncertain)。
為了更深入地研究方法的性能,團(tuán)隊(duì)進(jìn)行了消融研究。每個(gè)實(shí)驗(yàn)都針對(duì)具有二元標(biāo)簽和不確定標(biāo)簽的spatial graph、semantic graph和implicit graph進(jìn)行單獨(dú)訓(xùn)練。
表4 與其他方法的比較結(jié)果
將疾病感興趣區(qū)域與在ResNet-50模型上使用Grad-CAM生成結(jié)果進(jìn)行比較。從報(bào)告中提取異常區(qū)域如下圖所示。
可以發(fā)現(xiàn),放射學(xué)報(bào)告顯示雙側(cè)下肺(左下肺和右下肺)出現(xiàn)混濁。
此外,右肺的混濁可能代表肺炎。ResNet-50模型在不透明和肺炎的情況下重點(diǎn)關(guān)注右下肺、右中肺和心臟區(qū)域。
從報(bào)告中可以發(fā)現(xiàn)心臟區(qū)域沒有異常,而左下肺的疾病被遺漏,使得Grad-CAM結(jié)果不太準(zhǔn)確。新模型同時(shí)關(guān)注左下肺和右下肺,并且比ResNet-50 方法表現(xiàn)更好。
圖4 報(bào)告中的異常描述以紅色突出顯示,從文本中提取的異常和位置在報(bào)告下方提供
其中,(a)和(c)是ResNet-50模型中Grad-CAM獲得的異常感興趣區(qū)域;(b)和(d)是通過新方法獲得的感興趣的節(jié)點(diǎn)。
在結(jié)果中,每個(gè)邊界框?qū)?yīng)一個(gè)解剖區(qū)域的節(jié)點(diǎn),紅色邊界框是關(guān)注度最高的節(jié)點(diǎn),黃色邊界框?qū)?yīng)與紅色邊界框密切相關(guān)的節(jié)點(diǎn)。綠色箭頭表示節(jié)點(diǎn)之間的連接。
結(jié)論
在本研究中,作者探討了在臨床環(huán)境中,CXR疾病診斷中涉及的疾病嚴(yán)重性和不確定性問題。
為了解決這一問題,他們采用基于規(guī)則的方法,從放射學(xué)報(bào)告中提取反映疾病嚴(yán)重程度和不確定性的標(biāo)簽。
在此基礎(chǔ)上,利用融合醫(yī)學(xué)知識(shí)的圖神經(jīng)網(wǎng)絡(luò)對(duì)疾病的嚴(yán)重程度和不確定性進(jìn)行預(yù)測(cè)。