轉(zhuǎn)換機(jī)器學(xué)習(xí):面向多學(xué)科問(wèn)題,構(gòu)建機(jī)器學(xué)習(xí)新生態(tài)
機(jī)器學(xué)習(xí)方法在生命、物理、社會(huì)經(jīng)濟(jì)等復(fù)雜系統(tǒng)的應(yīng)用日漸頻繁。如何針對(duì)特定任務(wù)選取合適的機(jī)器學(xué)習(xí)方法,如何綜合利用各類機(jī)器學(xué)習(xí)方法并各取其所長(zhǎng),成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)問(wèn)題。近日發(fā)表在 PNAS 的一項(xiàng)研究開(kāi)發(fā)了一種名為轉(zhuǎn)換機(jī)器學(xué)習(xí)的方法,能夠綜合利用多個(gè)相關(guān)任務(wù)的數(shù)據(jù)及多種學(xué)習(xí)方法,提取編碼于訓(xùn)練模型中不同來(lái)源的先驗(yàn)知識(shí),尤其適用于藥物設(shè)計(jì)等對(duì)可解釋性有強(qiáng)需求的科學(xué)研究領(lǐng)域。更具有普適性的是,轉(zhuǎn)換機(jī)器學(xué)習(xí)提出了機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)構(gòu)建的新思路,學(xué)習(xí)任務(wù)、實(shí)例、方法、預(yù)測(cè)結(jié)果及元學(xué)習(xí)能夠相互促進(jìn),共同提升機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中所有任務(wù)的性能和可解釋性。
論文題目:
Transformational machine learning: Learning how to learn from many related scientific problems
論文鏈接:
https://www.pnas.org/content/118/49/e2108013118
目 錄
摘要
意義
1. 轉(zhuǎn)換機(jī)器學(xué)習(xí)簡(jiǎn)介
2. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與其它方法的對(duì)比
3. 轉(zhuǎn)換機(jī)器學(xué)習(xí)可改進(jìn)原有算法
4. 轉(zhuǎn)換機(jī)器學(xué)習(xí)的可解釋性
5. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的對(duì)比
6. 構(gòu)建機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng)
7. 數(shù)據(jù)集,代碼與模型的開(kāi)源
翻譯名詞對(duì)照
幾乎所有的機(jī)器學(xué)習(xí)都基于內(nèi)生 (intrinsic) 特征來(lái)表征訓(xùn)練數(shù)據(jù)。當(dāng)存在多個(gè)相關(guān)的機(jī)器學(xué)習(xí)任務(wù) (問(wèn)題) 時(shí),可以先在目標(biāo)任務(wù)外的其余任務(wù)上訓(xùn)練機(jī)器學(xué)習(xí)模型,將內(nèi)生特征轉(zhuǎn)化為外生 (extrinsic) 特征,并用訓(xùn)練后的機(jī)器學(xué)習(xí)模型在目標(biāo)實(shí)例上進(jìn)行預(yù)測(cè),產(chǎn)生新的表征,我們稱其為 轉(zhuǎn)換機(jī)器學(xué)習(xí) (transformational machine learning,TML) 。轉(zhuǎn)換機(jī)器學(xué)習(xí)與遷移學(xué)習(xí) (TL) 、多任務(wù)學(xué)習(xí) (MTL) 和疊加學(xué)習(xí) (stacking) 密切相關(guān),并具有協(xié)同作用,可用來(lái)改進(jìn)任何非線性的機(jī)器學(xué)習(xí)。我們使用最重要的幾類非線性機(jī)器學(xué)習(xí)來(lái)評(píng)價(jià)轉(zhuǎn)換機(jī)器學(xué)習(xí):隨機(jī)森林 (RF) 、梯度提升機(jī) (XGB) 、支持向量機(jī) (SVM) 、k-最近鄰 (KNN) 、神經(jīng)網(wǎng)絡(luò) (NN) 。為了保證評(píng)價(jià)的通用性和魯棒性,我們利用了來(lái)自藥物設(shè)計(jì)、基因表達(dá)預(yù)測(cè)和機(jī)器學(xué)習(xí)算法選擇這三個(gè)科學(xué)領(lǐng)域的數(shù)千個(gè)機(jī)器學(xué)習(xí)問(wèn)題。
我們發(fā)現(xiàn),轉(zhuǎn)換機(jī)器學(xué)習(xí)在所有領(lǐng)域均顯著提高了所有機(jī)器學(xué)習(xí)的預(yù)測(cè)性能 (平均提高4% 至50%) ,并且轉(zhuǎn)換機(jī)器學(xué)習(xí)識(shí)別出的特征通常優(yōu)于內(nèi)生特征。轉(zhuǎn)換機(jī)器學(xué)習(xí)作為可解釋的機(jī)器學(xué)習(xí),還能夠增加科學(xué)認(rèn)識(shí)。在藥物設(shè)計(jì)中,我們發(fā)現(xiàn)轉(zhuǎn)換機(jī)器學(xué)習(xí)提供了關(guān)于藥物靶標(biāo)特異性、藥物間關(guān)系以及蛋白質(zhì)靶標(biāo)間關(guān)系的新知。轉(zhuǎn)換機(jī)器學(xué)習(xí)創(chuàng)建了一種基于生態(tài)系統(tǒng)的機(jī)器學(xué)習(xí)方法,在這種方法中,新的任務(wù)、實(shí)例、預(yù)測(cè)等相互協(xié)同,以提高預(yù)測(cè)性能。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,目標(biāo)是開(kāi)發(fā)能從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算系統(tǒng)。在有監(jiān)督機(jī)器學(xué)習(xí)中,機(jī)器學(xué)習(xí)系統(tǒng)從有標(biāo)簽的數(shù)據(jù)中,得到一個(gè)可泛化的預(yù)測(cè)未知數(shù)據(jù)標(biāo)簽的模型。數(shù)據(jù)通常用直接描述實(shí)例的特征來(lái)表征。例如,在藥物設(shè)計(jì)中,機(jī)器學(xué)習(xí)會(huì)將藥物的分子結(jié)構(gòu)作為特征。在存在多個(gè)相關(guān)機(jī)器學(xué)習(xí)問(wèn)題的情況下,可以使用一種不同類型的特性,即通過(guò)機(jī)器學(xué)習(xí)模型對(duì)其它問(wèn)題下的數(shù)據(jù)做出預(yù)測(cè),我們稱之為轉(zhuǎn)換機(jī)器學(xué)習(xí)。我們表明,當(dāng)應(yīng)用于科學(xué)問(wèn)題時(shí),該范式會(huì)帶來(lái)更好的預(yù)測(cè)性和可理解性。
1. 轉(zhuǎn)換機(jī)器學(xué)習(xí)簡(jiǎn)介
機(jī)器學(xué)習(xí)開(kāi)發(fā)從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算系統(tǒng)。它在科學(xué)領(lǐng)域的應(yīng)用有著悠久的歷史[1-4],最早的一種機(jī)器學(xué)習(xí)程序是 Meta-Denral,它使用機(jī)器學(xué)習(xí)來(lái)改進(jìn)質(zhì)譜數(shù)據(jù)分析[5]。機(jī)器學(xué)習(xí)對(duì)科學(xué)的重要性已被廣泛認(rèn)可,且正被用于幾乎所有的科學(xué)領(lǐng)域,例如藥物發(fā)現(xiàn)[6]、有機(jī)合成規(guī)劃[7]、材料科學(xué)[8]、醫(yī)學(xué)[9]等。
大多數(shù)機(jī)器學(xué)習(xí)使用特征元組表征訓(xùn)練數(shù)據(jù),例如,數(shù)據(jù)可以放到單個(gè)表中,每一行代表一個(gè)實(shí)例,每一列代表一個(gè)特征。實(shí)例的特征也可稱為屬性 (attributes) 。目前,實(shí)例的特征幾乎都是內(nèi)生屬性。例如,如果某人希望了解一種藥物的藥理活性,那么藥物的分子結(jié)構(gòu)就是該實(shí)例有用的屬性。通常,選擇一個(gè)特征作為預(yù)測(cè)值,其它屬性則提供用于預(yù)測(cè)的信息。如果待預(yù)測(cè)的屬性是標(biāo)簽,那么這是判別/分類任務(wù);如果待預(yù)測(cè)的屬性是實(shí)數(shù),那么這是回歸問(wèn)題。該研究主要討論回歸問(wèn)題。
當(dāng)存在多個(gè)相關(guān)的機(jī)器學(xué)習(xí)任務(wù)時(shí),外生特征也可能被用到:使用在其余任務(wù)上訓(xùn)練的機(jī)器學(xué)習(xí),來(lái)對(duì)目標(biāo)實(shí)例進(jìn)行預(yù)測(cè) 。我們稱之為轉(zhuǎn)換機(jī)器學(xué)習(xí)。轉(zhuǎn)換機(jī)器學(xué)習(xí)將基于內(nèi)生屬性的表征,轉(zhuǎn)換為基于其余模型預(yù)測(cè)值的外生表征。我們接下來(lái)會(huì)論述,轉(zhuǎn)換機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)和疊加學(xué)習(xí)有密切的協(xié)同關(guān)系。它使得模型可以利用在其余相關(guān)任務(wù)中學(xué)到的的知識(shí),而不必從頭開(kāi)始學(xué)習(xí)。因此,轉(zhuǎn)換機(jī)器學(xué)習(xí)屬于元學(xué)習(xí) (meta learning) 的范式,可改進(jìn)任何非線性的機(jī)器學(xué)習(xí)算法,尤其適用于存在許多相關(guān)小型學(xué)習(xí)任務(wù)的場(chǎng)景。
直觀地說(shuō),以識(shí)別多種動(dòng)物的學(xué)習(xí)任務(wù)為例。如果需要識(shí)別多種動(dòng)物,并且還有待添加的物種,那么相比采用一個(gè)大型分類器而言,對(duì)每個(gè)物種都采用獨(dú)立的分類器更合理。標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法采用內(nèi)生特征 (例如動(dòng)物是否有皮毛、皮毛的大?。?/span> 來(lái)訓(xùn)練分類器。轉(zhuǎn)換機(jī)器學(xué)習(xí)則是先采用標(biāo)準(zhǔn)方法 (圖1A左) 學(xué)習(xí)各種動(dòng)物的預(yù)測(cè)模型,并使用基于這些模型的預(yù)測(cè)結(jié)果表征各種動(dòng)物。比如,在通過(guò)標(biāo)準(zhǔn)方法獲得類馬程度、類貓程度、類兔程度等表征后,再以此訓(xùn)練 (元) 機(jī)器學(xué)習(xí)模型 (圖1A右) 。轉(zhuǎn)換機(jī)器學(xué)習(xí)適用于所有機(jī)器學(xué)習(xí)任務(wù)共享一組內(nèi)生特征和目標(biāo)變量的領(lǐng)域,而這在科學(xué)研究中很普遍,例如在藥物設(shè)計(jì)中,需要將化合物的分子表征與靶標(biāo) (蛋白質(zhì)) 相匹配 (圖1B) 。 轉(zhuǎn)換機(jī)器學(xué)習(xí)的有效性在于利用了編碼于先前訓(xùn)練模型中關(guān)于世界規(guī)律的知識(shí)。
圖1A. 標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)在預(yù)測(cè)動(dòng)物物種上的對(duì)比。通過(guò)三個(gè)機(jī)器學(xué)習(xí)任務(wù)的實(shí)例來(lái)闡述轉(zhuǎn)換機(jī)器學(xué)習(xí):預(yù)測(cè)動(dòng)物是驢、貓還是兔。標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)以內(nèi)生特征,如體型、耳朵、是否可食用來(lái)構(gòu)建預(yù)測(cè)模型:驢( ),兔( ),貓( )。將內(nèi)生特征輸入模型兔( ),輸出動(dòng)物為兔子的概率。這三個(gè)模型的結(jié)果會(huì)作為訓(xùn)練轉(zhuǎn)換機(jī)器學(xué)習(xí)的外生特征。直覺(jué)上,可以看到轉(zhuǎn)換機(jī)器學(xué)習(xí)的表征是有意義的,因?yàn)橥煤腕H有相似之處,都有長(zhǎng)耳朵,兔和貓的相似處在于體型都小且可愛(ài)。因此轉(zhuǎn)換后的外生表征能夠捕捉原始描述所不涉及的特征,例如是否可愛(ài)、眼睛是否位于頭部?jī)蓚?cè)(兔和驢共有的特征)。
圖1B. QSAR(結(jié)構(gòu)-活性定量關(guān)系)學(xué)習(xí)。QSAR預(yù)測(cè)模型給定一個(gè)靶標(biāo)(通常是蛋白質(zhì))以及一系列化合物(小分子)及其對(duì)應(yīng)活性(如抑制特定蛋白),以此學(xué)習(xí)從化合物分子表征到活性的映射。
圖1C. 標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)在QSAR上的對(duì)比。使用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí),每個(gè)靶標(biāo)和多種藥物的內(nèi)生特征關(guān)聯(lián),例如是否包含特定的分子群,以此訓(xùn)練模型建立從分子表征到活性的映射。
2. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與其他方法的對(duì)比
轉(zhuǎn)換機(jī)器學(xué)習(xí)與其它機(jī)器學(xué)習(xí)方法有非常相似的地方。然而,具體的轉(zhuǎn)換機(jī)器學(xué)習(xí)概念之前沒(méi)有被系統(tǒng)性的地評(píng)價(jià)過(guò)。
轉(zhuǎn)換機(jī)器學(xué)習(xí)與 多任務(wù)學(xué)習(xí) [10]非常相似。多任務(wù)學(xué)習(xí)是“一種以相關(guān)任務(wù)的訓(xùn)練數(shù)據(jù)中包含的領(lǐng)域信息為歸納基準(zhǔn),從而提高泛化能力的歸納遷移方法”。在多任務(wù)學(xué)習(xí)中,相關(guān)問(wèn)題 (任務(wù)) 是被同時(shí)學(xué)習(xí)的,目的是利用問(wèn)題之間的相似性來(lái)提高預(yù)測(cè)性能。多任務(wù)學(xué)習(xí)以共享表征并行訓(xùn)練,來(lái)達(dá)成該目標(biāo);從每個(gè)任務(wù)所學(xué)到的知識(shí)可以幫助其它任務(wù)學(xué)得更好[10]。多任務(wù)學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)之間有兩個(gè)主要區(qū)別:多任務(wù)學(xué)習(xí)的訓(xùn)練通常是并行的,而轉(zhuǎn)換機(jī)器學(xué)習(xí)通常逐個(gè)進(jìn)行訓(xùn)練;轉(zhuǎn)換機(jī)器學(xué)習(xí)在各個(gè)任務(wù)間共享數(shù)據(jù)表征,而多任務(wù)學(xué)習(xí)則使用單一模型。
轉(zhuǎn)換機(jī)器學(xué)習(xí)還與 遷移學(xué)習(xí) [13]有密切的關(guān)聯(lián)。遷移學(xué)習(xí)將信息從特定來(lái)源的問(wèn)題轉(zhuǎn)移為特定目標(biāo)的問(wèn)題。遷移學(xué)習(xí)的思想是從一個(gè)或多個(gè)源領(lǐng)域提取知識(shí),并在數(shù)據(jù)稀缺的目標(biāo)領(lǐng)域復(fù)用這些知識(shí),從而在目標(biāo)領(lǐng)域建立性能更好的學(xué)習(xí)模型。但是遷移學(xué)習(xí)通常不同于轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)檫w移學(xué)習(xí)只針對(duì)一個(gè)源任務(wù),而轉(zhuǎn)換機(jī)器學(xué)習(xí)需要應(yīng)對(duì)多源任務(wù)。遷移學(xué)習(xí)已成功應(yīng)用于藥物設(shè)計(jì),幾個(gè)前瞻性的應(yīng)用證明了其有效性[15]。
轉(zhuǎn)換機(jī)器學(xué)習(xí)與 疊加學(xué)習(xí) [16,17]也非常相似,后者是一種集成機(jī)器學(xué)習(xí)算法。疊加學(xué)習(xí)結(jié)合多種算法,以獲得比單獨(dú)使用任何一種算法更好的預(yù)測(cè)性能。在疊加多個(gè)基準(zhǔn)模型時(shí),首先訓(xùn)練基準(zhǔn)模型,然后使用基準(zhǔn)模型的輸出訓(xùn)練元模型。轉(zhuǎn)換機(jī)器學(xué)習(xí)和疊加學(xué)習(xí)的主要區(qū)別在于,轉(zhuǎn)換機(jī)器學(xué)習(xí)的訓(xùn)練是在一大組相關(guān)任務(wù)上進(jìn)行,每個(gè)任務(wù)對(duì)應(yīng)的訓(xùn)練集可能不同。而在疊加學(xué)習(xí)中,不同的基準(zhǔn)模型通常針對(duì)同一個(gè)任務(wù)進(jìn)行訓(xùn)練。
3. 轉(zhuǎn)換機(jī)器學(xué)習(xí)可改進(jìn)原有算法
轉(zhuǎn)換機(jī)器學(xué)習(xí)適用于任何非線性機(jī)器學(xué)習(xí)的改進(jìn)。為了評(píng)價(jià)轉(zhuǎn)換機(jī)器學(xué)習(xí),我們選擇了5種機(jī)器學(xué)習(xí)[1-4]:隨機(jī)森林 (RF) [21]、梯度增強(qiáng)算法 (XGB) [22]、支持向量機(jī) (SVM) [23]、k-最近鄰 (KNN) [3]和神經(jīng)網(wǎng)絡(luò) (NN) [3,4]。為了確保評(píng)價(jià)的普遍性和魯棒性,我們利用了來(lái)自三類重要科學(xué)問(wèn)題——藥物發(fā)現(xiàn) (QSAR 學(xué)習(xí),即定量構(gòu)效關(guān)系) 、類基因表達(dá)的預(yù)測(cè) (跨越不同組織類型和藥物治療) 、元機(jī)器學(xué)習(xí) (預(yù)測(cè)機(jī)器學(xué)習(xí)方法解決問(wèn)題的效果) ——的數(shù)千個(gè)機(jī)器學(xué)習(xí)任務(wù)。
對(duì)于每一種機(jī)器學(xué)習(xí)方法和每一個(gè)問(wèn)題領(lǐng)域,我們比較了轉(zhuǎn)換機(jī)器學(xué)習(xí)和基準(zhǔn)機(jī)器學(xué)習(xí)算法的表現(xiàn)。我們研究了兩種形式的預(yù)測(cè)改進(jìn):強(qiáng)改進(jìn)和聯(lián)合改進(jìn)。強(qiáng)改進(jìn)即使用新的轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,得出的預(yù)測(cè)優(yōu)于使用基于基準(zhǔn) (內(nèi)生) 特征的得出預(yù)測(cè)。聯(lián)合改進(jìn)即以基準(zhǔn)特征作為新的轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,以提高預(yù)測(cè)性能。為了增強(qiáng)轉(zhuǎn)換機(jī)器學(xué)習(xí)預(yù)測(cè)性能,我們使用了最簡(jiǎn)單的疊加方法:組合預(yù)測(cè)結(jié)果。我們發(fā)現(xiàn),轉(zhuǎn)換機(jī)器學(xué)習(xí)在三個(gè)領(lǐng)域中均顯著提高了所有方法的平均預(yù)測(cè)性能 (提高幅度從4% 到50%) ,即針對(duì)新的外生特征訓(xùn)練的模型通常優(yōu)于針對(duì)內(nèi)生特征訓(xùn)練的模型 (表1) 。
表1. 預(yù)測(cè)結(jié)果,表中數(shù)值為均方根誤差(RMSE)。加粗的數(shù)值為某應(yīng)用場(chǎng)景下的最優(yōu)結(jié)果。基準(zhǔn)結(jié)果使用標(biāo)準(zhǔn)內(nèi)生表征及對(duì)應(yīng)的機(jī)器學(xué)習(xí)算法得出的結(jié)果。轉(zhuǎn)換機(jī)器學(xué)習(xí)使用外生表征得出結(jié)果。均方根誤差為各應(yīng)用領(lǐng)域中數(shù)千次任務(wù)的平均值。我們測(cè)試了兩種疊加方式:最小二乘法(convex squares)(非負(fù)最?。┖蛶X回歸(ridge regression)。我們使用了兩種顯著性檢驗(yàn):t 檢驗(yàn)和 Wilcoxon 檢驗(yàn)。兩種方法都檢驗(yàn)了標(biāo)準(zhǔn)方法與轉(zhuǎn)換機(jī)器學(xué)習(xí)之間均方根誤差的差異是否顯著(p< 0.05),前者檢驗(yàn)了兩種方法的均方根誤差中位數(shù)是否存在統(tǒng)計(jì)上的差異,后者檢驗(yàn)了兩種方法的均方根誤差平均數(shù)是否存在統(tǒng)計(jì)上的差異。
幾乎所有的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法都被應(yīng)用于 QSAR 問(wèn)題[23] ,但是仍未發(fā)現(xiàn)一種最好的方法[24,25]。 QSAR非常適合應(yīng)用轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)樗幬锓肿颖碚骺梢酝ㄟ^(guò)相關(guān)的靶蛋白而相互關(guān)聯(lián) 。例如,在小鼠和人類中抑制二氫葉酸還原酶 (DHFR ) 的問(wèn)題是相似的,因?yàn)閮烧哂邢嗨频呐潴w結(jié)合位點(diǎn)[活性中心][26],而且它們涉及的分子相同或相關(guān)[26 -28]。為了評(píng)價(jià)用于 QSAR 學(xué)習(xí)的轉(zhuǎn)換機(jī)器學(xué)習(xí),我們使用了2219個(gè) QSAR 問(wèn)題[24,25]。QSAR 基準(zhǔn) (內(nèi)生) 表征是1024位的分子指紋表征,這已經(jīng)被證明是有效的[25]。對(duì)于每種基準(zhǔn)機(jī)器學(xué)習(xí)算法 (RF,SVM,k-NN 和 NN) ,我們使用先前訓(xùn)練的模型所預(yù)測(cè)的化合物活性,獲得轉(zhuǎn)換機(jī)器學(xué)習(xí)的外生特征。然后使用基準(zhǔn)機(jī)器學(xué)習(xí)方法訓(xùn)練 QSAR 模型。在所有方法中,轉(zhuǎn)換機(jī)器學(xué)習(xí)預(yù)測(cè)效果均優(yōu)于基準(zhǔn)算法。有關(guān)結(jié)果見(jiàn)表1。我們發(fā)現(xiàn)總體結(jié)果最好的是疊加了梯度提升機(jī)的轉(zhuǎn)換機(jī)器學(xué)習(xí)模型,其結(jié)果相較于基準(zhǔn)梯度提升機(jī)提升了7%,其次是疊加了神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換機(jī)器學(xué)習(xí)模型。值得注意的是,該數(shù)據(jù)集已被廣泛研究[18種學(xué)習(xí)方法和6種分子表征[25]] ,并且轉(zhuǎn)換機(jī)器學(xué)習(xí)顯著優(yōu)于之前的最佳結(jié)果。
對(duì)于第二個(gè)問(wèn)題領(lǐng)域,我們使用了基于集成網(wǎng)絡(luò)的細(xì)胞特征數(shù)據(jù)庫(kù) (LINCS) [29] ,它描述了在118050個(gè)實(shí)驗(yàn)條件下測(cè)量的978個(gè)標(biāo)志性人類基因的表達(dá)水平。我們將機(jī)器學(xué)習(xí)任務(wù)看作是在給定實(shí)驗(yàn)條件 (細(xì)胞類型、藥物和劑量) 下,為每個(gè)基因建立一個(gè)能夠預(yù)測(cè)其表達(dá)水平的模型。 基因表達(dá)預(yù)測(cè)問(wèn)題也適合轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)榇嬖诨蜷g關(guān)系 (同源性、共同信號(hào)通路等) 和實(shí)驗(yàn)條件間關(guān)系 (藥物相似性等) ,可用于提高預(yù)測(cè)性能。使用與 QSAR 問(wèn)題相同的方法,我們使用隨機(jī)森林、支持向量機(jī)、k-最近鄰和神經(jīng)網(wǎng)絡(luò)進(jìn)行了比較評(píng)價(jià),比較了使用內(nèi)生表征和轉(zhuǎn)換機(jī)器學(xué)習(xí)表征的模型,結(jié)果見(jiàn)表1。所有方法中,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)的模型都優(yōu)于基準(zhǔn)機(jī)器學(xué)習(xí)。我們發(fā)現(xiàn),隨機(jī)森林的總體結(jié)果提升最大,相比基準(zhǔn)提升了4% ,其次提升較大的是梯度提升機(jī)和支持向量機(jī)模型。
第三個(gè)評(píng)價(jià)問(wèn)題領(lǐng)域來(lái)自機(jī)器學(xué)習(xí), 其基本問(wèn)題是選擇適用于新任務(wù)的最佳機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)是解決該問(wèn)題的一個(gè)有效途徑,這被稱為元機(jī)器學(xué)習(xí) 。機(jī)器學(xué)習(xí)模型的任務(wù)是:給定訓(xùn)練數(shù)據(jù)的特征 (例如訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分布) ,學(xué)習(xí)一個(gè)用于預(yù)測(cè)機(jī)器學(xué)習(xí)算法在新任務(wù) (給定特定的任務(wù)) 上性能的元模型。這一場(chǎng)景也適合轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)闄C(jī)器學(xué)習(xí)任務(wù)可以通過(guò)具有類似的數(shù)據(jù)分布和數(shù)據(jù)屬性 (如缺失值) 或包含由相似過(guò)程生成的數(shù)據(jù)而發(fā)生關(guān)聯(lián)。從 OpenML[31]中,我們對(duì)351個(gè)任務(wù)和53個(gè)機(jī)器學(xué)習(xí)方法進(jìn)行了10840個(gè)評(píng)價(jià),產(chǎn)生了351個(gè)元學(xué)習(xí)任務(wù),結(jié)果見(jiàn)表1。在所有方法中,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的算法都優(yōu)于基準(zhǔn)機(jī)器學(xué)習(xí)算法。總體來(lái)看,提升最大的是使用轉(zhuǎn)換機(jī)器學(xué)習(xí)的隨機(jī)森林,相比使用內(nèi)生特征的算法提高了50% 。使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的梯度提升機(jī)也比基準(zhǔn)算法有相似程度的提升,對(duì)于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò),使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征后,性能也有提升。對(duì)于 k-最近鄰,疊加轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的效果最好。相比之前描述的場(chǎng)景,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,預(yù)測(cè)性能提高的百分比要大得多。這可能是因?yàn)樵?/span> (內(nèi)生) 特征對(duì)訓(xùn)練數(shù)據(jù)集的描述較差,而轉(zhuǎn)換機(jī)器學(xué)習(xí)特征編碼了更多關(guān)于算法在不同任務(wù)中的隱含信息。此外,相比之前的場(chǎng)景,預(yù)測(cè)性能的實(shí)驗(yàn)噪音較小。
4. 轉(zhuǎn)換機(jī)器學(xué)習(xí)的可解釋性
機(jī)器學(xué)習(xí)的一個(gè)越來(lái)越重要的分支是可解釋的人工智能,因?yàn)樵谠S多應(yīng)用 (例如醫(yī)學(xué)或金融) 中,有必要使預(yù)測(cè)具有可理解性。在科學(xué)領(lǐng)域,可解釋的機(jī)器學(xué)習(xí)預(yù)測(cè)模型會(huì)帶來(lái)科學(xué)新知。機(jī)器學(xué)習(xí)模型的可理解性取決于模型的簡(jiǎn)單性,及模型表征與人類概念間的密切程度。概念結(jié)構(gòu)的標(biāo)準(zhǔn)理論起源于亞里士多德,以定義和解釋概念間存在充分必要條件為基礎(chǔ)。 轉(zhuǎn)換機(jī)器學(xué)習(xí)模型的可解釋性基于相似概念存在多種可替換的學(xué)習(xí)方法 [33,34]。
在藥物設(shè)計(jì)領(lǐng)域利用隨機(jī)森林模型,我們說(shuō)明了轉(zhuǎn)換機(jī)器學(xué)習(xí)模型能夠以三種方式產(chǎn)生科學(xué)新知。首先,我們闡明了如何使用轉(zhuǎn)換機(jī)器學(xué)習(xí)模型為特定藥物靶標(biāo) H. sapiens DHFR 的 QSAR 預(yù)測(cè)提供解釋。表2列出了對(duì) H. sapiens DHFR 藥物活性預(yù)測(cè)最重要的10個(gè)特征 (基準(zhǔn)模型) 。正如所料,該列表中還有其它 DFHR 靶標(biāo)的模型。但有趣的是,這些模型是細(xì)菌 ( L. casei,E. coli ,和 M. avium ) 的模型,而不是哺乳動(dòng)物的模型。這三個(gè)細(xì)菌的 DHFR 模型對(duì)人類 DHFR 的預(yù)測(cè)有所貢獻(xiàn),其中 L. casei 的DHFR最像人類,而 E. coli 和 M. avium 的DHFR 明顯不同,因?yàn)镋. coli DHFR 與甲氧芐氨嘧啶抗生素結(jié)合緊密,而 M. avium 的 DHFR 具有耐藥性。這些信息有助于設(shè)計(jì)人類 DHFR 抑制劑,以更好地治療癌癥。表2中的其它特征也提供了類似的洞見(jiàn)。
表2. 預(yù)測(cè)人類 DHFR活性最佳的十種模型
轉(zhuǎn)換機(jī)器學(xué)習(xí)也可以通過(guò)聚類 (非監(jiān)督學(xué)習(xí)) 提供科學(xué)新知?;瘜W(xué)信息學(xué)中一個(gè)基本問(wèn)題是估計(jì)化合物之間的相似性。標(biāo)準(zhǔn)方法基于化學(xué)結(jié)構(gòu)的相似性來(lái)估計(jì)化合物間的相似性,比如根據(jù)分子指紋和圖相似性上的 Tanimoto (Jaccard) 系數(shù)距離估計(jì)。然而,當(dāng)比較藥物時(shí),功能相似性而不是結(jié)構(gòu)相似性更受關(guān)注[15]。功能相似性可以使用實(shí)驗(yàn)積累的信息來(lái)度量,這些信息被編碼于 QSAR 模型中,可用于預(yù)測(cè)藥物針對(duì)靶標(biāo)的活性 (圖2A) 。該預(yù)測(cè)結(jié)果可用于計(jì)算藥物和它們藥理特征間的距離。圖2B使用轉(zhuǎn)換機(jī)器學(xué)習(xí),將美國(guó)食品藥物管理局 (FDA) 批準(zhǔn)的藥物聚類成三簇。盡管這些化合物的藥理學(xué)關(guān)系很復(fù)雜,但這些藥品都與血清素和多巴胺受體相互作用有關(guān)??梢允褂棉D(zhuǎn)換機(jī)器學(xué)習(xí)對(duì)這一相互作用進(jìn)行預(yù)測(cè),并將其用于聚類??梢愿鶕?jù)聚類后化合物的相對(duì)位置,預(yù)測(cè)不同化合物的藥理學(xué)特征。
圖2.(A)轉(zhuǎn)換機(jī)器學(xué)習(xí)在聚類分析中的應(yīng)用 ,通過(guò)對(duì)藥物分子進(jìn)行表征來(lái)對(duì)藥物聚類。在這些表征中,每個(gè)元素都是藥物對(duì)其中一個(gè)靶標(biāo)(問(wèn)題)的預(yù)測(cè)值。
(B)通過(guò)化合物在 QSAR 靶標(biāo)的預(yù)測(cè)活性對(duì)化合物聚類。該圖顯示了獲得 FDA 批準(zhǔn)的化合物(顏色代表簇)的聚類,以及三個(gè)密切相關(guān)的簇和放大的單簇。
(C)通過(guò)化學(xué)表征對(duì)藥物靶標(biāo)聚類。該圖顯示了 FDA 批準(zhǔn)的藥物的蛋白質(zhì)靶標(biāo)的整體聚類(顏色代表簇)和一個(gè)單簇的放大部分。
我們應(yīng)用類似的方法來(lái)估計(jì)蛋白質(zhì)靶標(biāo)相似性這一生物信息學(xué)問(wèn)題 (圖2C) 。該任務(wù)的標(biāo)準(zhǔn)方法是使用序列對(duì)比估計(jì)進(jìn)化距離。然而,在大多數(shù)問(wèn)題中,最重要的不是進(jìn)化距離,而是蛋白質(zhì)活性位點(diǎn)的功能相似性。我們可以使用轉(zhuǎn)換機(jī)器學(xué)習(xí) QSAR 模型中積累的信息估計(jì)功能相似性。我們刻畫(huà)了每一個(gè)靶標(biāo)的藥物活性預(yù)測(cè),即 FDA 批準(zhǔn)的化合物對(duì)靶標(biāo)的活性預(yù)測(cè)。和化合物相似性預(yù)測(cè)一樣,我們認(rèn)為藥物設(shè)計(jì)的聚類比傳統(tǒng)的進(jìn)化距離提供了更多的洞見(jiàn),因?yàn)樗腔诎袠?biāo)對(duì)化合物的實(shí)證響應(yīng)得出的。QSAR 相似性預(yù)測(cè)模型識(shí)別出的一個(gè)有趣的蛋白質(zhì) (藥物靶標(biāo)) 團(tuán)簇如圖2C 所示。盡管這一組蛋白質(zhì)沒(méi)有任何明顯的結(jié)構(gòu)相似性,但這些 (哺乳動(dòng)物) 蛋白質(zhì)的功能與新陳代謝控制有著明確的關(guān)聯(lián)。
5. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的對(duì)比
將轉(zhuǎn)換機(jī)器學(xué)習(xí)與當(dāng)前最重要的機(jī)器學(xué)習(xí)算法——深度神經(jīng)網(wǎng)絡(luò) (DNNs) [35]進(jìn)行比較是很有啟發(fā)性的。DNN 的輸入是典型的空間結(jié)構(gòu)或順序結(jié)構(gòu),輸入結(jié)構(gòu)的先驗(yàn)知識(shí)被編碼于網(wǎng)絡(luò)結(jié)構(gòu)。DNN 的成功在于它能夠利用多個(gè)神經(jīng)網(wǎng)絡(luò)層和大量數(shù)據(jù),學(xué)習(xí)如何將較差的輸入表征 (如圖像像素值) 映射到豐富和有效的潛在表征。這是通過(guò)使用可微學(xué)習(xí)模型和端到端學(xué)習(xí)來(lái)實(shí)現(xiàn)的。改善較差輸入表征的能力,使 DNN 能夠在原先被證明不適合機(jī)器學(xué)習(xí)的領(lǐng)域取得成功:例如在圍棋[36]等游戲中擊敗世界冠軍,比人類專家更好地診斷皮膚癌[9]。 從 DNN 的成功中得到的一個(gè)關(guān)鍵經(jīng)驗(yàn)是,利用機(jī)器學(xué)習(xí)能夠增強(qiáng)機(jī)器學(xué)習(xí)的表征,而這正是轉(zhuǎn)換機(jī)器學(xué)習(xí)所做的事情 。DNN最適用于有大量可用于訓(xùn)練良好表征的數(shù)據(jù),并且不要求所用符號(hào)模型適于人類認(rèn)知的問(wèn)題。而大多數(shù)科學(xué)問(wèn)題領(lǐng)域都不滿足這些標(biāo)準(zhǔn)。
標(biāo)準(zhǔn) DNN 算法在需要處理多任務(wù)問(wèn)題時(shí),需要學(xué)習(xí)包含所有問(wèn)題的單一大型模型。與轉(zhuǎn)換機(jī)器學(xué)習(xí)相比,DNN 問(wèn)題間的關(guān)系和訓(xùn)練數(shù)據(jù)間的關(guān)系都不是以轉(zhuǎn)換特征的形式外顯化的。對(duì)于多任務(wù)問(wèn)題,轉(zhuǎn)換機(jī)器學(xué)習(xí)還具有支持增量機(jī)器學(xué)習(xí)的優(yōu)勢(shì):如果添加新數(shù)據(jù)或新任務(wù),那么無(wú)需重新學(xué)習(xí)任務(wù)模型。雖然轉(zhuǎn)換機(jī)器學(xué)習(xí)增加了一些額外的計(jì)算代價(jià),但是與 DNN 學(xué)習(xí)相比,轉(zhuǎn)換機(jī)器學(xué)習(xí)的額外代價(jià)很低。
6. 構(gòu)建機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng)
機(jī)器學(xué)習(xí)的傳統(tǒng)方法是將每個(gè)學(xué)習(xí)任務(wù)看作一個(gè)單獨(dú)的問(wèn)題。隨著多任務(wù)學(xué)習(xí)[10]、 遷移學(xué)習(xí) [13]、終身學(xué)習(xí) (life-long learning) [37]等方面的進(jìn)展,這種觀點(diǎn)開(kāi)始發(fā)生變化。 轉(zhuǎn)換機(jī)器學(xué)習(xí)使我們對(duì)作為生態(tài)系統(tǒng)的機(jī)器學(xué)習(xí)有了更廣闊的視野。在這個(gè)生態(tài)系統(tǒng)中,學(xué)習(xí)任務(wù)、學(xué)習(xí)實(shí)例、機(jī)器學(xué)習(xí)方法、機(jī)器學(xué)習(xí)預(yù)測(cè)、元機(jī)器學(xué)習(xí)方法等等都能夠協(xié)同作用,以提升生態(tài)系統(tǒng)中所有任務(wù)的性能和可解釋性 。增加更多的訓(xùn)練數(shù)據(jù),不僅能夠改進(jìn)特定任務(wù)的模型 (使用特征選擇、集成學(xué)習(xí)、疊加學(xué)習(xí)、轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等) ,還能改進(jìn)所有其它使用特定任務(wù)模型的模型 (轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等) 。與此類似,添加了新任務(wù)能夠擴(kuò)展轉(zhuǎn)換后的表征,從而可通過(guò)轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等方式改進(jìn)所有其它任務(wù)的模型。添加新的機(jī)器學(xué)習(xí)或元機(jī)器學(xué)習(xí)方法,那么所有的任務(wù)模型都會(huì)得到改進(jìn)。在這樣一個(gè)機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中,隨著新知識(shí)的增加,預(yù)測(cè)性能將逐步提高[38]。因?yàn)閬?lái)自許多不同來(lái)源的先驗(yàn)知識(shí)被用于所有預(yù)測(cè)任務(wù)中[38],預(yù)測(cè)也將更加可靠。
在機(jī)器學(xué)習(xí)領(lǐng)域,人們對(duì) 機(jī)器學(xué)習(xí)的自動(dòng)化 越來(lái)越感興趣,并且存在許多或免費(fèi)或商業(yè)的系統(tǒng),這些系統(tǒng)能夠自動(dòng)進(jìn)行機(jī)器學(xué)習(xí)以解決新的問(wèn)題。例如,Auto-WEKA 和 Auto-sklearn [39]通過(guò)搜索可能的機(jī)器學(xué)習(xí)方法和超參數(shù)空間來(lái)優(yōu)化機(jī)器學(xué)習(xí)的預(yù)測(cè)性能。然而,目前還沒(méi)有一個(gè)機(jī)器學(xué)習(xí)自動(dòng)化系統(tǒng),能夠發(fā)現(xiàn)一個(gè)有價(jià)值的機(jī)器學(xué)習(xí)新技巧,例如dropout、疊加等。盡管目前有越來(lái)越多將科學(xué)發(fā)現(xiàn)自動(dòng)化的人工智能系統(tǒng)[40] ,但這些系統(tǒng)高度依賴機(jī)器學(xué)習(xí),而很少有工作將人工智能發(fā)現(xiàn)系統(tǒng)應(yīng)用于機(jī)器學(xué)習(xí)。發(fā)展能夠發(fā)現(xiàn)重要機(jī)器學(xué)習(xí)新技巧的機(jī)器學(xué)習(xí)系統(tǒng),將改變機(jī)器學(xué)習(xí)和整個(gè)世界。
7. 數(shù)據(jù)集,代碼與模型的開(kāi)源
為實(shí)現(xiàn)可重復(fù)性,本文所涉及的數(shù)千個(gè)數(shù)據(jù)集 (QSAR,LINCS,Metalearning) ,代碼的鏈接 (TML,RF,XGB,SVM,k-NN,NN) ,以及包括所有決策樹(shù)的約50000個(gè)隨機(jī)森林模型都可以在開(kāi)放科學(xué)平臺(tái) (Open Science Platform,OSP) 的知識(shí)共享許可協(xié)議數(shù)據(jù)庫(kù)中獲得:https://osf.io/vbn5u/??偣灿屑s100 GB 的壓縮數(shù)據(jù)。 很少有機(jī)器學(xué)習(xí)項(xiàng)目能將如此多的可重復(fù)數(shù)據(jù)放到網(wǎng)上 。為了最大化其附加價(jià)值,我們遵循了公開(kāi)數(shù)字對(duì)象的FAIR原則 (Findability,Accessibility,Interoperability,and Reusability,即可發(fā)現(xiàn),可訪問(wèn),可互操作,可重用) [41]。
翻譯名詞對(duì)照
TL:transfer learning,遷移學(xué)習(xí)
MTL:multitask learning,多任務(wù)學(xué)習(xí)
RF:random forests,隨機(jī)森林
XGB:gradient boosting machine,梯度增強(qiáng)機(jī)
SVM:support vector machine,支持向量機(jī)
KNN:k-nearest neighbors,k-最近鄰
NN:neural network,神經(jīng)網(wǎng)絡(luò)
DNN:deep neural network,深度神經(jīng)網(wǎng)絡(luò)
QSAR:Quantitative structure–activity relationship,定量構(gòu)效關(guān)系