拓?fù)鋽?shù)據(jù)分析TDA,有望打破人工智能黑箱的神奇算法
本文介紹了拓?fù)鋽?shù)據(jù)分析(TDA)的基本原理,給出了案例展示,并指出該方法可以高效地進(jìn)行可視化分析,有望為人工智能黑箱提供可解釋性。近日,中科大潘建偉團(tuán)隊在光量子處理器上成功運(yùn)行了 TDA 方法,量子版本的 TDA 能夠?qū)崿F(xiàn)對經(jīng)典*** TDA 算法的指數(shù)級加速。
機(jī)器學(xué)習(xí)和人工智能都是「黑箱」技術(shù)——這是使用機(jī)器學(xué)習(xí)、人工智能進(jìn)行數(shù)據(jù)研究遭受的批評之一。雖然它們能自動提供有用的答案,但是卻不能給人類提供可解讀的輸出。因此,我們往往不能了解它們在做什么,又是如何做到的。
Ayasdi 對這個問題提出了解決方法,其中利用了該公司的核心技術(shù)——拓?fù)鋽?shù)據(jù)分析(TDA)。該方法能夠提供強(qiáng)有力的、具有詳細(xì)解釋的輸出。然而,在這篇文章中,我們將把工作擴(kuò)展到目前 TDA 的「比較」方法之外。當(dāng)前的方法使用的拓?fù)渚W(wǎng)絡(luò)由數(shù)據(jù)集的數(shù)據(jù)點(diǎn)(行)構(gòu)建。在這項(xiàng)新的工作中,Ayasdi 將特征(列)也融合在網(wǎng)絡(luò)當(dāng)中,據(jù)此展示了一個改進(jìn)的、易解釋的結(jié)果。
首先介紹一下該解釋方法的工作原理。
假設(shè)我們有一個數(shù)據(jù)集,并且在其中已經(jīng)辨別出了一些子組。這些子組可能是數(shù)據(jù)的一個組成部分(例如,某種疾病有許多不同的形式,比如炎癥性腸病,或該數(shù)據(jù)含有一個幸存者/非幸存者的信息),或者說,這些子組是由行集合的某拓?fù)淠P屯ㄟ^分割或熱點(diǎn)分析創(chuàng)建的。
如果選擇其中的兩個子組,Ayasdi 技術(shù)允許研究者根據(jù)他們的 Kolmogorov-Smirnov 分?jǐn)?shù)(KS 分?jǐn)?shù))生成特征列表。每個特征有兩個分布——每個子組各有一個分布。KS 分?jǐn)?shù)衡量兩個子組之間的差異。與本結(jié)構(gòu)相關(guān)的也就是標(biāo)準(zhǔn)統(tǒng)計意義上的 P 值。
其解釋是,排列在***位的變量是最能區(qū)分兩個子組的變量,而其余的特征是按其區(qū)分能力排列的。因此,解釋機(jī)制的輸出是一個有序的特征表。通常,通過查看列表能獲得有用的解釋,即,是何因素導(dǎo)致了不同子組之間的區(qū)別。

然而,該列表解釋起來往往很復(fù)雜。就像 Google 搜索后會得到一長串回復(fù)一樣,人們很可能會發(fā)現(xiàn)列表頂部分布不成比例,較低的響應(yīng)又不為人們所關(guān)注。我們怎樣才能進(jìn)一步提高這些「比較列表」的透明度和可理解性呢?
重要的是,要記住,Ayasdi 構(gòu)造的拓?fù)淠P图俣ńo出了一個數(shù)據(jù)矩陣,以及數(shù)據(jù)集行的差異性或距離函數(shù)。通常,該距離函數(shù)是歐幾里得距離,但是也可以選擇其他距離函數(shù),例如相關(guān)距離、各種角度距離等。獲得數(shù)據(jù)矩陣 M 后,人們可以將它轉(zhuǎn)置為一個新的矩陣 M^T。其中,初始矩陣的列是轉(zhuǎn)置矩陣的行,反之亦然,如下圖所示。
在完成這個操作之后,可以為 M^T 矩陣的行集合(即原始矩陣 M 的列)構(gòu)建拓?fù)淠P汀T诩现?,人們可以選擇不同的距離函數(shù)。我們不會深入討論這一點(diǎn),但總而言之,對任何數(shù)據(jù)矩陣行的通用可選項(xiàng)對于這個新矩陣也適用。
現(xiàn)在,假設(shè)我們有一個數(shù)據(jù)矩陣 M,以及在上述數(shù)據(jù)集中的一個子組 G。該子組可能通過先驗(yàn)信息得來,也可能通過在 M 矩陣中行的拓?fù)淠P头指畹脕?。對于矩?M 中的每一列 c_i(即轉(zhuǎn)置矩陣 M^T 的每一行),我們現(xiàn)在可以計算子組 G 中每一行的均值,即 c_i 的平均值。
我們將把它記為 fi,G。當(dāng)這個數(shù)字包含 i 時,我們在 M^T 的行集合上獲得一個函數(shù)。因此,再次重申,M 矩陣中的行的一個子組將在 M^T 的行集合上產(chǎn)生一個函數(shù)。Ayasdi 拓?fù)淠P偷墓δ苤皇?,通過對應(yīng)于節(jié)點(diǎn)的行,能夠利用數(shù)據(jù)矩陣的行函數(shù)的平均值對拓?fù)淠P偷墓?jié)點(diǎn)進(jìn)行著色。這對于了解數(shù)據(jù)屬性而言是一個非常有用的方法。尤其地,我們現(xiàn)在可以利用 M^T 矩陣的行集合中子組 G 的著色情況,查看該組的特征。
請看下例。
荷蘭癌癥研究所(NKI)構(gòu)建了一個數(shù)據(jù)集,其中包括來自 272 名乳腺癌患者采樣的微陣列分析。本案例中的微陣列分析提供了為研究篩選的一組基因中每個基因的 mRNA 表達(dá)水平。從這些基因中,我們選擇了 1500 個表達(dá)水平最高的基因。我們得到一個 272 x 1500 的矩陣,其中 1500 列對應(yīng)于數(shù)據(jù)集中具有最大方差的 1500 個基因,272 行對應(yīng)于樣本總量。對于這個數(shù)據(jù)集,數(shù)據(jù)矩陣中行集合的拓?fù)浞治鲆呀?jīng)在 [1] 和 [2] 中進(jìn)行了。
我們的拓?fù)淠P驼故救缦隆?/p>
上圖表明,拓?fù)淠P桶ㄒ粋€很長的「樹干」部分,然后分裂成兩個「小枝」。在數(shù)據(jù)集中,存在一個名為 eventdeath 的二進(jìn)制變量。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結(jié)構(gòu)相對應(yīng)。一種方法是通過變量 eventdeath 的平均值進(jìn)行著色。其結(jié)果如下所示。
我們可以看到,上面的「小枝」呈深藍(lán)色。這表明 eventdeath 變量值低,實(shí)際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節(jié)點(diǎn)幾乎完全由無法存活的患者組成。我們希望理解這種現(xiàn)象,看看數(shù)據(jù)中的哪些特征與「小枝」的產(chǎn)生有關(guān),從而了解變量 eventdeath 的迥異行為。為此,我們可以從拓?fù)淠P椭羞x擇多種不同的子組。
在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表征為與其他兩組差異最大的組(根據(jù)組間距離進(jìn)行確定)。如上所述,基于這三個組,我們可以在 1500 個特征上創(chuàng)建 3 個函數(shù)。
如果我們建立一組特征的拓?fù)淠P?,我們可以用每個函數(shù)的平均值來給它著色。下面的三張圖片展示了其結(jié)果。
在比較 A 組和 B 組著色情況時,我們發(fā)現(xiàn)其差異十分顯著。A 組著色后,某個區(qū)域呈亮紅色,而 B 組著色后相應(yīng)區(qū)域呈亮藍(lán)色。結(jié)果可見下圖。左側(cè)的模型是 A 組著色,右側(cè)模型是 B 組著色。
組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍(lán)色(小固相區(qū)域除外)。組 II 恰好相反,在 A 組中為藍(lán)色,在 B 組中為紅色。這些組可能與高雌激素受體表達(dá)有關(guān),其中在組 I 中呈正相關(guān),在組 II 中呈負(fù)相關(guān)。眾所周知,雌激素受體表達(dá)是乳腺癌存活與否的「強(qiáng)信號」。如果我們比較所有三組(如下圖):
我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍(lán)色區(qū)域面積較小,下面區(qū)域的紅色較弱。在左側(cè)的「島」上,C 組也顯示出比 A 、B 組更強(qiáng)的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強(qiáng)紅色塊將是非常有意思的。此外,研究哪些基因參與了左側(cè)「島」的表達(dá)也很有趣。了解這些基因組需要使用各種基于網(wǎng)絡(luò)的生物學(xué)通路分析的工具。
總而言之,我們已經(jīng)展示了如何對數(shù)據(jù)集中的特征空間使用拓?fù)浣#皇抢眯屑现苯訌臄?shù)據(jù)集尋找洞察。具有超過 4 個特征的數(shù)據(jù)集不能直接使用標(biāo)準(zhǔn)圖形技術(shù)直觀地理解,但是具有成百上千個特征的數(shù)據(jù)集通過這種方式理解起來卻很容易。該方法能直接識別行為一致的特征組,這通常在基因組和更普遍的生物學(xué)數(shù)據(jù)的分析中存在。
參考文獻(xiàn)
[1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).
[2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013).