基于分層自監(jiān)督學(xué)習(xí)將視覺Transformer擴展到千兆像素圖像
本文經(jīng)計算機視覺研究院公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
Vision Transformers (ViT) 及其多尺度和分層變體已成功地捕獲圖像表示,但它們的使用通常被研究用于低分辨率圖像(例如256×256、384×384)。
1 概括
對于計算病理學(xué)中的千兆像素全玻片成像 (WSI),WSI在20倍放大倍率下可大至150000×150000像素,并在不同分辨率下呈現(xiàn)視覺標記的層次結(jié)構(gòu):從捕獲單個細胞的16×16圖像到4096×4096圖像表征組織微環(huán)境內(nèi)的相互作用。
研究者引入了一種新的ViT架構(gòu),稱為分層圖像金字塔變換器 (HIPT),它利用WSI中固有的自然分層結(jié)構(gòu),使用兩個級別的自監(jiān)督學(xué)習(xí)來學(xué)習(xí)高分辨率圖像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096圖像和104M 256×256圖像對33種癌癥類型進行了預(yù)訓(xùn)練。在9個幻燈片級任務(wù)上對HIPT表示進行基準測試,并證明:
- 具有分層預(yù)訓(xùn)練的HIPT優(yōu)于當前非常先進的癌癥分型和生存預(yù)測方法;
2) 自監(jiān)督ViT能夠?qū)χ匾臍w納建模關(guān)于腫瘤微環(huán)境中表型的層次結(jié)構(gòu)的偏見。
2 主要框架
整張幻燈片圖像(WSI)的層次結(jié)構(gòu)。左邊:與自然圖像不同,由于WSI具有固定的比例,因此存在不同圖像分辨率的視覺標記的層次結(jié)構(gòu)。右邊:除了將單個256×256圖像表示為256 [16×16]標記的序列外,還可以將這些256×256圖像視為4096中更大的、不相交的[256×256]標記序列的一部分4096×4096區(qū)域。
HIPT 架構(gòu)
受在自然語言處理中使用分層表示的啟發(fā),其中嵌入可以在字符、單詞、句子和段落級別聚合以形成文檔表示,在x16單元格、x256補丁、x4096區(qū)域級以形成幻燈片表示。為了在每個階段對視覺概念之間的重要依賴關(guān)系進行建模,將Transformer自注意力調(diào)整為置換等變聚合層。請注意,由于使用x256標記修補x4096區(qū)域的復(fù)雜性與使用x16標記修補x256圖像的復(fù)雜性相同,可以使用類似的自監(jiān)督ViT技術(shù)為低分辨率圖像預(yù)訓(xùn)練高分辨率圖像的聚合層。
Multi-Head Self-Attention Visualization of SelfSupervised ViTs
對于浸潤性導(dǎo)管癌(IDC),展示了ViT256-16和ViT4096-256的自監(jiān)督可視化,分別在x256和x4096區(qū)域上進行了預(yù)訓(xùn)練。對于x256補丁,ViT256-16能夠描繪x16 tokens中的基質(zhì)、細胞和“空白”存在。對于x4096區(qū)域,ViT4096-256描繪了粗粒度的形態(tài)特征,例如腫瘤巢及其周圍的促纖維增生(松散)基質(zhì)。
3 實驗
HIPT中的Hierarchical Attention Maps
ViT256-16 DINO Pretraining
Hierarchical Attention Maps for Colorectal Cancer (CRC)