AI「癌癥神探」降臨:準(zhǔn)確度近100%,醫(yī)生也自嘆不如!
逆天!新型AI識別癌癥,近100%精準(zhǔn)度碾壓醫(yī)生。
AI在醫(yī)學(xué)領(lǐng)域越來越厲害啦!有一種新研發(fā)的AI,診斷癌癥的本事比專業(yè)醫(yī)生還牛。
在不久的將來,用AI識別癌癥或許會成為常見的事。
包括澳大利亞Charles Darwin大學(xué)(CDU)在內(nèi)的國際科研團(tuán)隊,搞出一個叫ECgMPL的模型。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S2666990025000059?via%3Dihub
ECgMPL專門分析細(xì)胞和組織的微觀圖像,用來查子宮內(nèi)膜癌。子宮內(nèi)膜癌是常見的生殖系統(tǒng)腫瘤之一,而這個AI模型的準(zhǔn)確率高達(dá)99.26%!
研究人員還發(fā)現(xiàn),這個模型經(jīng)過調(diào)整,還能診斷很多其他疾病,如結(jié)直腸癌、口腔癌。
CDU的Asif Karim博士參與了這項研究,他表示,ECgMLP模型的準(zhǔn)確率高達(dá)99.26%,比現(xiàn)在用的那些診斷方法都強(qiáng),計算速度還特別快。
通過消融研究、自注意力機(jī)制,再加上高效的訓(xùn)練,這個模型在很多組織病理學(xué)數(shù)據(jù)集上都能很好地發(fā)揮作用,是臨床診斷子宮內(nèi)膜癌的得力助手。
這個經(jīng)過大量數(shù)據(jù)訓(xùn)練的AI模型,在查看微觀掃描圖像(也就是組織病理學(xué)圖像)的時候,能把圖像變得更清晰,這樣就能發(fā)現(xiàn)癌癥早期的癥狀。
有些微小變化醫(yī)生用眼睛很難發(fā)現(xiàn),但AI模型一下子就能找到。
現(xiàn)在,醫(yī)生診斷的準(zhǔn)確率大概在78.91%到80.93%之間。
子宮內(nèi)膜癌如果能早點(diǎn)發(fā)現(xiàn),是可以治療的,患者的五年預(yù)后效果也不錯。但要是癌細(xì)胞擴(kuò)散到子宮外面,治療起來就麻煩了。所以,及時診斷對挽救患者生命特別重要。
訓(xùn)練所用數(shù)據(jù)集的樣本圖像,展示了正常子宮內(nèi)膜(NE)、子宮內(nèi)膜息肉(EP)、子宮內(nèi)膜增生(EH)和子宮內(nèi)膜腺癌(EA)
現(xiàn)在,美國已經(jīng)有超過60萬人得過子宮內(nèi)膜癌??茖W(xué)家發(fā)現(xiàn),ECgMLP的用途可不只是診斷子宮內(nèi)膜癌。
澳大利亞ACU的副教授Niusha Shafiabady表示,用同樣的辦法,還能又快又準(zhǔn)地查其他病,這樣病人就能得到更好的治療。
他們用這個模型測試了好多不同的組織病理學(xué)圖像數(shù)據(jù),發(fā)現(xiàn)它查結(jié)直腸癌的準(zhǔn)確率能達(dá)到98.57%,查乳腺癌的準(zhǔn)確率是98.20%,查口腔癌的準(zhǔn)確率也有97.34%。
不過,這個AI模型可不是要搶醫(yī)生的「飯碗」。
它是和癌癥專家一起合作,幫醫(yī)生更準(zhǔn)確地診斷病情,還能看看治療的效果好不好。
用這個模型診斷癌癥,速度更快、容易實(shí)現(xiàn),成本也更低。
Shafiabady補(bǔ)充道,這項研究的AI模型可以作為軟件系統(tǒng)的大腦,協(xié)助醫(yī)生進(jìn)行癌癥診斷的決策。
研究人員強(qiáng)調(diào):「早點(diǎn)發(fā)現(xiàn)、準(zhǔn)確診斷子宮內(nèi)膜癌,對治療和控制病情非常關(guān)鍵。用深度學(xué)習(xí)算法分析組織病理學(xué)圖像,在診斷子宮內(nèi)膜癌方面,不管是準(zhǔn)確率還是處理速度,表現(xiàn)都特別好?!?/span>
構(gòu)建ECgMLP
ECgMLP模型的構(gòu)建離不開高質(zhì)量的數(shù)據(jù)集。
研究團(tuán)隊收集了新鮮的子宮內(nèi)膜標(biāo)本,由三位具有十多年病理學(xué)實(shí)踐經(jīng)驗(yàn)的病理學(xué)家在光學(xué)顯微鏡下仔細(xì)檢查組織學(xué)切片,一致選擇具有診斷結(jié)果的代表性蘇木精-伊紅(H&E)切片。
這些切片通過Mixotic掃描儀數(shù)字化,以10倍或20倍放大倍數(shù)捕獲為高分辨率圖像,再用Olympus ImageView從原始全切片圖像中提取病變或健康組織的組織病理學(xué)區(qū)域。
最終形成的數(shù)據(jù)集包含3302張jpeg格式的圖像,分為子宮內(nèi)膜腺癌、子宮內(nèi)膜增生、子宮內(nèi)膜息肉和正常子宮內(nèi)膜4類,每類又包含不同數(shù)量的圖像和亞型。
這個數(shù)據(jù)集為模型的訓(xùn)練和優(yōu)化提供了堅實(shí)的基礎(chǔ)。
圖像預(yù)處理
圖像預(yù)處理是 ECgMLP 模型的重要環(huán)節(jié),它直接影響到后續(xù)分析的準(zhǔn)確性。
研究采用了多種預(yù)處理技術(shù),包括歸一化、α-β變換和非局部均值(NLM)去噪算法。
歸一化通過將圖像的像素值縮放到0到1之間,使不同圖像具有可比性,便于從不同光照條件下捕獲的圖像中一致地提取特征。
其公式為
,這種標(biāo)準(zhǔn)化為后續(xù)的分析提供了的基礎(chǔ)。
α-β技術(shù)則通過調(diào)整像素值來優(yōu)化視覺對比度。α參數(shù)控制圖像的對比度,β參數(shù)控制亮度。
在本研究中,α值設(shè)為1.0,β值設(shè)為2,這一設(shè)置顯著增強(qiáng)了組織和細(xì)胞結(jié)構(gòu)邊界的可見性,同時保持了可接受的信號質(zhì)量,PSNR值始終高于33dB。
NLM去噪技術(shù)通過比較圖像中的小像素塊并找到相似塊,用相似塊的平均值替換噪聲塊,有效地去除了噪聲,同時保留了關(guān)鍵的邊緣信息和組織紋理。
其公式為
,這一技術(shù)為后續(xù)的準(zhǔn)確分析提供了清晰的圖像數(shù)據(jù)。
圖像分割
圖像分割是從圖像中提取感興趣區(qū)域(ROI)的關(guān)鍵技術(shù),ECgMLP模型采用了基于分水嶺算法的多步驟分割方法。
該過程從二值閾值化開始,通過最小化前景和背景兩類的類內(nèi)方差確定閾值,將像素分為前景和背景。
接著進(jìn)行形態(tài)學(xué)閉運(yùn)算,使用2×2內(nèi)核去除前景區(qū)域中的小孔和間隙;然后進(jìn)行距離變換,獲得每個像素到最近背景像素的距離圖;再進(jìn)行膨脹操作,擴(kuò)展前景區(qū)域。
應(yīng)用閾值處理,確定前景區(qū)域;通過從確定背景中減去確定前景得到未知區(qū)域;將原始圖像和標(biāo)記與分水嶺算法結(jié)合,實(shí)現(xiàn)圖像的精準(zhǔn)分割。
光度增強(qiáng)
為了提高模型的泛化能力,研究對訓(xùn)練集和驗(yàn)證集應(yīng)用了光度增強(qiáng)技術(shù)。
通過對圖像進(jìn)行亮度、對比度、色調(diào)、飽和度的變化以及模糊處理等多種修改,創(chuàng)建了具有不同視覺特征的原始圖像的新版本。
總共應(yīng)用了10種光度增強(qiáng)技術(shù),例如調(diào)整亮度水平、改變對比度、利用CLAHE增強(qiáng)圖像特征、調(diào)整色調(diào)和飽和度以及應(yīng)用高斯模糊等。
這樣增加了訓(xùn)練數(shù)據(jù)的多樣性,提高了模型的泛化能力。
創(chuàng)新的ECgMLP架構(gòu)
ECgMLP模型基于gMLP架構(gòu)構(gòu)建,gMLP架構(gòu)結(jié)合了MLP和Transformer的優(yōu)勢。
每一層由一個MLP塊和一個門控機(jī)制組成,門控機(jī)制調(diào)節(jié)信息流,使模型能夠選擇關(guān)注不同的輸入組件,MLP塊則負(fù)責(zé)提取高級特征。
ECgMLP模型在此基礎(chǔ)上進(jìn)行了針對性的優(yōu)化。
形狀為[64×64×3]的圖像首先輸入到輸入層,經(jīng)過數(shù)據(jù)增強(qiáng)層增加訓(xùn)練樣本數(shù)量并減少過擬合,增強(qiáng)后的數(shù)據(jù)由形狀為[128×128×3]的補(bǔ)丁組成。
補(bǔ)丁通過補(bǔ)丁層重塑為[256×192],再經(jīng)過全連接層提取特征。
模型包含多個順序的gMLP 層,gMLP層由多個子層組成,子層混合使用MLP和門控機(jī)制生成有信息的表示。
每個gMLP層的輸出作為下一層的輸入,經(jīng)過層歸一化和全局平均池化1D層處理后,最后通過具有4個輸出單元的全連接層進(jìn)行最終預(yù)測,對應(yīng)子宮內(nèi)膜癌的四個類別。
在訓(xùn)練過程中,使用AdamW優(yōu)化器,包括權(quán)重衰減正則化,并采用稀疏分類交叉熵?fù)p失和準(zhǔn)確率指標(biāo)進(jìn)行評估,還使用了學(xué)習(xí)率調(diào)度來提高收斂性。
此外,在gMLP層中使用ELU激活函數(shù)代替ReLU,提高了模型的穩(wěn)定性。
ECgMLP的卓越性能
消融研究
通過改變網(wǎng)絡(luò)的層架構(gòu)、訓(xùn)練參數(shù)和超參數(shù),如圖像大小、權(quán)重衰減、批量大小、隨機(jī)失活率等,深入研究不同因素對模型準(zhǔn)確率的影響。
研究發(fā)現(xiàn),6個ECgMLP模塊實(shí)現(xiàn)了98.61%的最佳準(zhǔn)確率,但出于實(shí)際原因選擇4個模塊,此時準(zhǔn)確率為98.52%。全局最大池化的準(zhǔn)確率達(dá)到98.74%,高于全局平均池化的98.52%。
AdamW作為優(yōu)化器表現(xiàn)最為準(zhǔn)確,準(zhǔn)確率為98.52%;激活函數(shù)中ELU的準(zhǔn)確率最高,達(dá)到99.26%;學(xué)習(xí)率為 0.003時選擇準(zhǔn)確率最高。
多指標(biāo)評估
使用多種指標(biāo)對ECgMLP模型的性能進(jìn)行評估,結(jié)果顯示該模型表現(xiàn)卓越。
學(xué)習(xí)曲線展示了模型訓(xùn)練過程中的良好表現(xiàn),隨著訓(xùn)練的進(jìn)行,損失下降且準(zhǔn)確率上升,表明模型有效地從數(shù)據(jù)中學(xué)習(xí),沒有過擬合的跡象,預(yù)測性能不斷增強(qiáng)。
Confusion Matrix顯示整個數(shù)據(jù)集中只有少數(shù)圖像被誤分類,這意味著模型能夠很好地對圖像進(jìn)行正確分類,準(zhǔn)確識別不同類別的子宮內(nèi)膜組織。
ROC曲線下面積(AUC)為完美的1.00,表明模型區(qū)分不同類別的能力極強(qiáng),在不同的分類標(biāo)準(zhǔn)下都表現(xiàn)出色。
通過10折交叉驗(yàn)證,模型的準(zhǔn)確率在不同的數(shù)據(jù)分割中保持在98.99%至99.26%之間,證明了模型的穩(wěn)定性和泛化能力,在不同類型的數(shù)據(jù)上都能表現(xiàn)出持續(xù)的高性能。
泛化能力驗(yàn)證
為了評估ECgMLP模型的泛化能力,研究團(tuán)隊在多個涵蓋不同癌癥類型的外部組織病理學(xué)圖像數(shù)據(jù)集上進(jìn)行測試。
結(jié)果顯示,模型在這些數(shù)據(jù)集上都實(shí)現(xiàn)了較高的準(zhǔn)確率(>97%),證明了其對不同組織學(xué)圖像分布具有可靠的泛化能力。
即使在原始領(lǐng)域之外,ECgMLP模型也具有先進(jìn)的性能,這為其在更廣泛的醫(yī)學(xué)領(lǐng)域應(yīng)用奠定了堅實(shí)的基礎(chǔ)。