自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

轉(zhuǎn)換機(jī)器學(xué)習(xí):面向多學(xué)科問(wèn)題,構(gòu)建機(jī)器學(xué)習(xí)新生態(tài)

人工智能 機(jī)器學(xué)習(xí)
近日發(fā)表在 PNAS 的一項(xiàng)研究開(kāi)發(fā)了一種名為轉(zhuǎn)換機(jī)器學(xué)習(xí)的方法,能夠綜合利用多個(gè)相關(guān)任務(wù)的數(shù)據(jù)及多種學(xué)習(xí)方法,提取編碼于訓(xùn)練模型中不同來(lái)源的先驗(yàn)知識(shí),尤其適用于藥物設(shè)計(jì)等對(duì)可解釋性有強(qiáng)需求的科學(xué)研究領(lǐng)域。

機(jī)器學(xué)習(xí)方法在生命、物理、社會(huì)經(jīng)濟(jì)等復(fù)雜系統(tǒng)的應(yīng)用日漸頻繁。如何針對(duì)特定任務(wù)選取合適的機(jī)器學(xué)習(xí)方法,如何綜合利用各類機(jī)器學(xué)習(xí)方法并各取其所長(zhǎng),成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)問(wèn)題。近日發(fā)表在 PNAS 的一項(xiàng)研究開(kāi)發(fā)了一種名為轉(zhuǎn)換機(jī)器學(xué)習(xí)的方法,能夠綜合利用多個(gè)相關(guān)任務(wù)的數(shù)據(jù)及多種學(xué)習(xí)方法,提取編碼于訓(xùn)練模型中不同來(lái)源的先驗(yàn)知識(shí),尤其適用于藥物設(shè)計(jì)等對(duì)可解釋性有強(qiáng)需求的科學(xué)研究領(lǐng)域。更具有普適性的是,轉(zhuǎn)換機(jī)器學(xué)習(xí)提出了機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)構(gòu)建的新思路,學(xué)習(xí)任務(wù)、實(shí)例、方法、預(yù)測(cè)結(jié)果及元學(xué)習(xí)能夠相互促進(jìn),共同提升機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中所有任務(wù)的性能和可解釋性。

論文題目:

Transformational machine learning: Learning how to learn from many related scientific problems

論文鏈接:

https://www.pnas.org/content/118/49/e2108013118

 

摘要

意義

1. 轉(zhuǎn)換機(jī)器學(xué)習(xí)簡(jiǎn)介

2. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與其它方法的對(duì)比

3. 轉(zhuǎn)換機(jī)器學(xué)習(xí)可改進(jìn)原有算法

4. 轉(zhuǎn)換機(jī)器學(xué)習(xí)的可解釋性

5. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的對(duì)比

6. 構(gòu)建機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng)

7. 數(shù)據(jù)集,代碼與模型的開(kāi)源

翻譯名詞對(duì)照

幾乎所有的機(jī)器學(xué)習(xí)都基于內(nèi)生 (intrinsic) 特征來(lái)表征訓(xùn)練數(shù)據(jù)。當(dāng)存在多個(gè)相關(guān)的機(jī)器學(xué)習(xí)任務(wù) (問(wèn)題) 時(shí),可以先在目標(biāo)任務(wù)外的其余任務(wù)上訓(xùn)練機(jī)器學(xué)習(xí)模型,將內(nèi)生特征轉(zhuǎn)化為外生 (extrinsic) 特征,并用訓(xùn)練后的機(jī)器學(xué)習(xí)模型在目標(biāo)實(shí)例上進(jìn)行預(yù)測(cè),產(chǎn)生新的表征,我們稱其為 轉(zhuǎn)換機(jī)器學(xué)習(xí) (transformational machine learning,TML) 。轉(zhuǎn)換機(jī)器學(xué)習(xí)與遷移學(xué)習(xí) (TL) 、多任務(wù)學(xué)習(xí) (MTL) 和疊加學(xué)習(xí) (stacking) 密切相關(guān),并具有協(xié)同作用,可用來(lái)改進(jìn)任何非線性的機(jī)器學(xué)習(xí)。我們使用最重要的幾類非線性機(jī)器學(xué)習(xí)來(lái)評(píng)價(jià)轉(zhuǎn)換機(jī)器學(xué)習(xí):隨機(jī)森林 (RF) 、梯度提升機(jī) (XGB) 、支持向量機(jī) (SVM) 、k-最近鄰 (KNN) 、神經(jīng)網(wǎng)絡(luò) (NN) 。為了保證評(píng)價(jià)的通用性和魯棒性,我們利用了來(lái)自藥物設(shè)計(jì)、基因表達(dá)預(yù)測(cè)和機(jī)器學(xué)習(xí)算法選擇這三個(gè)科學(xué)領(lǐng)域的數(shù)千個(gè)機(jī)器學(xué)習(xí)問(wèn)題。

我們發(fā)現(xiàn),轉(zhuǎn)換機(jī)器學(xué)習(xí)在所有領(lǐng)域均顯著提高了所有機(jī)器學(xué)習(xí)的預(yù)測(cè)性能 (平均提高4% 至50%) ,并且轉(zhuǎn)換機(jī)器學(xué)習(xí)識(shí)別出的特征通常優(yōu)于內(nèi)生特征。轉(zhuǎn)換機(jī)器學(xué)習(xí)作為可解釋的機(jī)器學(xué)習(xí),還能夠增加科學(xué)認(rèn)識(shí)。在藥物設(shè)計(jì)中,我們發(fā)現(xiàn)轉(zhuǎn)換機(jī)器學(xué)習(xí)提供了關(guān)于藥物靶標(biāo)特異性、藥物間關(guān)系以及蛋白質(zhì)靶標(biāo)間關(guān)系的新知。轉(zhuǎn)換機(jī)器學(xué)習(xí)創(chuàng)建了一種基于生態(tài)系統(tǒng)的機(jī)器學(xué)習(xí)方法,在這種方法中,新的任務(wù)、實(shí)例、預(yù)測(cè)等相互協(xié)同,以提高預(yù)測(cè)性能。

機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,目標(biāo)是開(kāi)發(fā)能從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算系統(tǒng)。在有監(jiān)督機(jī)器學(xué)習(xí)中,機(jī)器學(xué)習(xí)系統(tǒng)從有標(biāo)簽的數(shù)據(jù)中,得到一個(gè)可泛化的預(yù)測(cè)未知數(shù)據(jù)標(biāo)簽的模型。數(shù)據(jù)通常用直接描述實(shí)例的特征來(lái)表征。例如,在藥物設(shè)計(jì)中,機(jī)器學(xué)習(xí)會(huì)將藥物的分子結(jié)構(gòu)作為特征。在存在多個(gè)相關(guān)機(jī)器學(xué)習(xí)問(wèn)題的情況下,可以使用一種不同類型的特性,即通過(guò)機(jī)器學(xué)習(xí)模型對(duì)其它問(wèn)題下的數(shù)據(jù)做出預(yù)測(cè),我們稱之為轉(zhuǎn)換機(jī)器學(xué)習(xí)。我們表明,當(dāng)應(yīng)用于科學(xué)問(wèn)題時(shí),該范式會(huì)帶來(lái)更好的預(yù)測(cè)性和可理解性。

1. 轉(zhuǎn)換機(jī)器學(xué)習(xí)簡(jiǎn)介

機(jī)器學(xué)習(xí)開(kāi)發(fā)從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算系統(tǒng)。它在科學(xué)領(lǐng)域的應(yīng)用有著悠久的歷史[1-4],最早的一種機(jī)器學(xué)習(xí)程序是 Meta-Denral,它使用機(jī)器學(xué)習(xí)來(lái)改進(jìn)質(zhì)譜數(shù)據(jù)分析[5]。機(jī)器學(xué)習(xí)對(duì)科學(xué)的重要性已被廣泛認(rèn)可,且正被用于幾乎所有的科學(xué)領(lǐng)域,例如藥物發(fā)現(xiàn)[6]、有機(jī)合成規(guī)劃[7]、材料科學(xué)[8]、醫(yī)學(xué)[9]等。

大多數(shù)機(jī)器學(xué)習(xí)使用特征元組表征訓(xùn)練數(shù)據(jù),例如,數(shù)據(jù)可以放到單個(gè)表中,每一行代表一個(gè)實(shí)例,每一列代表一個(gè)特征。實(shí)例的特征也可稱為屬性 (attributes) 。目前,實(shí)例的特征幾乎都是內(nèi)生屬性。例如,如果某人希望了解一種藥物的藥理活性,那么藥物的分子結(jié)構(gòu)就是該實(shí)例有用的屬性。通常,選擇一個(gè)特征作為預(yù)測(cè)值,其它屬性則提供用于預(yù)測(cè)的信息。如果待預(yù)測(cè)的屬性是標(biāo)簽,那么這是判別/分類任務(wù);如果待預(yù)測(cè)的屬性是實(shí)數(shù),那么這是回歸問(wèn)題。該研究主要討論回歸問(wèn)題。

當(dāng)存在多個(gè)相關(guān)的機(jī)器學(xué)習(xí)任務(wù)時(shí),外生特征也可能被用到:使用在其余任務(wù)上訓(xùn)練的機(jī)器學(xué)習(xí),來(lái)對(duì)目標(biāo)實(shí)例進(jìn)行預(yù)測(cè) 。我們稱之為轉(zhuǎn)換機(jī)器學(xué)習(xí)。轉(zhuǎn)換機(jī)器學(xué)習(xí)將基于內(nèi)生屬性的表征,轉(zhuǎn)換為基于其余模型預(yù)測(cè)值的外生表征。我們接下來(lái)會(huì)論述,轉(zhuǎn)換機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)和疊加學(xué)習(xí)有密切的協(xié)同關(guān)系。它使得模型可以利用在其余相關(guān)任務(wù)中學(xué)到的的知識(shí),而不必從頭開(kāi)始學(xué)習(xí)。因此,轉(zhuǎn)換機(jī)器學(xué)習(xí)屬于元學(xué)習(xí) (meta learning) 的范式,可改進(jìn)任何非線性的機(jī)器學(xué)習(xí)算法,尤其適用于存在許多相關(guān)小型學(xué)習(xí)任務(wù)的場(chǎng)景。

直觀地說(shuō),以識(shí)別多種動(dòng)物的學(xué)習(xí)任務(wù)為例。如果需要識(shí)別多種動(dòng)物,并且還有待添加的物種,那么相比采用一個(gè)大型分類器而言,對(duì)每個(gè)物種都采用獨(dú)立的分類器更合理。標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法采用內(nèi)生特征 (例如動(dòng)物是否有皮毛、皮毛的大?。?/span> 來(lái)訓(xùn)練分類器。轉(zhuǎn)換機(jī)器學(xué)習(xí)則是先采用標(biāo)準(zhǔn)方法 (圖1A左) 學(xué)習(xí)各種動(dòng)物的預(yù)測(cè)模型,并使用基于這些模型的預(yù)測(cè)結(jié)果表征各種動(dòng)物。比如,在通過(guò)標(biāo)準(zhǔn)方法獲得類馬程度、類貓程度、類兔程度等表征后,再以此訓(xùn)練 (元) 機(jī)器學(xué)習(xí)模型 (圖1A右) 。轉(zhuǎn)換機(jī)器學(xué)習(xí)適用于所有機(jī)器學(xué)習(xí)任務(wù)共享一組內(nèi)生特征和目標(biāo)變量的領(lǐng)域,而這在科學(xué)研究中很普遍,例如在藥物設(shè)計(jì)中,需要將化合物的分子表征與靶標(biāo) (蛋白質(zhì)) 相匹配 (圖1B) 。 轉(zhuǎn)換機(jī)器學(xué)習(xí)的有效性在于利用了編碼于先前訓(xùn)練模型中關(guān)于世界規(guī)律的知識(shí)。

圖1A. 標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)在預(yù)測(cè)動(dòng)物物種上的對(duì)比。通過(guò)三個(gè)機(jī)器學(xué)習(xí)任務(wù)的實(shí)例來(lái)闡述轉(zhuǎn)換機(jī)器學(xué)習(xí):預(yù)測(cè)動(dòng)物是驢、貓還是兔。標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)以內(nèi)生特征,如體型、耳朵、是否可食用來(lái)構(gòu)建預(yù)測(cè)模型:驢( ),兔( ),貓( )。將內(nèi)生特征輸入模型兔( ),輸出動(dòng)物為兔子的概率。這三個(gè)模型的結(jié)果會(huì)作為訓(xùn)練轉(zhuǎn)換機(jī)器學(xué)習(xí)的外生特征。直覺(jué)上,可以看到轉(zhuǎn)換機(jī)器學(xué)習(xí)的表征是有意義的,因?yàn)橥煤腕H有相似之處,都有長(zhǎng)耳朵,兔和貓的相似處在于體型都小且可愛(ài)。因此轉(zhuǎn)換后的外生表征能夠捕捉原始描述所不涉及的特征,例如是否可愛(ài)、眼睛是否位于頭部?jī)蓚?cè)(兔和驢共有的特征)。

圖1B. QSAR(結(jié)構(gòu)-活性定量關(guān)系)學(xué)習(xí)。QSAR預(yù)測(cè)模型給定一個(gè)靶標(biāo)(通常是蛋白質(zhì))以及一系列化合物(小分子)及其對(duì)應(yīng)活性(如抑制特定蛋白),以此學(xué)習(xí)從化合物分子表征到活性的映射。

圖1C. 標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)在QSAR上的對(duì)比。使用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí),每個(gè)靶標(biāo)和多種藥物的內(nèi)生特征關(guān)聯(lián),例如是否包含特定的分子群,以此訓(xùn)練模型建立從分子表征到活性的映射。

2. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與其他方法的對(duì)比

轉(zhuǎn)換機(jī)器學(xué)習(xí)與其它機(jī)器學(xué)習(xí)方法有非常相似的地方。然而,具體的轉(zhuǎn)換機(jī)器學(xué)習(xí)概念之前沒(méi)有被系統(tǒng)性的地評(píng)價(jià)過(guò)。

轉(zhuǎn)換機(jī)器學(xué)習(xí)與 多任務(wù)學(xué)習(xí) [10]非常相似。多任務(wù)學(xué)習(xí)是“一種以相關(guān)任務(wù)的訓(xùn)練數(shù)據(jù)中包含的領(lǐng)域信息為歸納基準(zhǔn),從而提高泛化能力的歸納遷移方法”。在多任務(wù)學(xué)習(xí)中,相關(guān)問(wèn)題 (任務(wù)) 是被同時(shí)學(xué)習(xí)的,目的是利用問(wèn)題之間的相似性來(lái)提高預(yù)測(cè)性能。多任務(wù)學(xué)習(xí)以共享表征并行訓(xùn)練,來(lái)達(dá)成該目標(biāo);從每個(gè)任務(wù)所學(xué)到的知識(shí)可以幫助其它任務(wù)學(xué)得更好[10]。多任務(wù)學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)之間有兩個(gè)主要區(qū)別:多任務(wù)學(xué)習(xí)的訓(xùn)練通常是并行的,而轉(zhuǎn)換機(jī)器學(xué)習(xí)通常逐個(gè)進(jìn)行訓(xùn)練;轉(zhuǎn)換機(jī)器學(xué)習(xí)在各個(gè)任務(wù)間共享數(shù)據(jù)表征,而多任務(wù)學(xué)習(xí)則使用單一模型。

轉(zhuǎn)換機(jī)器學(xué)習(xí)還與 遷移學(xué)習(xí) [13]有密切的關(guān)聯(lián)。遷移學(xué)習(xí)將信息從特定來(lái)源的問(wèn)題轉(zhuǎn)移為特定目標(biāo)的問(wèn)題。遷移學(xué)習(xí)的思想是從一個(gè)或多個(gè)源領(lǐng)域提取知識(shí),并在數(shù)據(jù)稀缺的目標(biāo)領(lǐng)域復(fù)用這些知識(shí),從而在目標(biāo)領(lǐng)域建立性能更好的學(xué)習(xí)模型。但是遷移學(xué)習(xí)通常不同于轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)檫w移學(xué)習(xí)只針對(duì)一個(gè)源任務(wù),而轉(zhuǎn)換機(jī)器學(xué)習(xí)需要應(yīng)對(duì)多源任務(wù)。遷移學(xué)習(xí)已成功應(yīng)用于藥物設(shè)計(jì),幾個(gè)前瞻性的應(yīng)用證明了其有效性[15]。

轉(zhuǎn)換機(jī)器學(xué)習(xí)與 疊加學(xué)習(xí) [16,17]也非常相似,后者是一種集成機(jī)器學(xué)習(xí)算法。疊加學(xué)習(xí)結(jié)合多種算法,以獲得比單獨(dú)使用任何一種算法更好的預(yù)測(cè)性能。在疊加多個(gè)基準(zhǔn)模型時(shí),首先訓(xùn)練基準(zhǔn)模型,然后使用基準(zhǔn)模型的輸出訓(xùn)練元模型。轉(zhuǎn)換機(jī)器學(xué)習(xí)和疊加學(xué)習(xí)的主要區(qū)別在于,轉(zhuǎn)換機(jī)器學(xué)習(xí)的訓(xùn)練是在一大組相關(guān)任務(wù)上進(jìn)行,每個(gè)任務(wù)對(duì)應(yīng)的訓(xùn)練集可能不同。而在疊加學(xué)習(xí)中,不同的基準(zhǔn)模型通常針對(duì)同一個(gè)任務(wù)進(jìn)行訓(xùn)練。

3. 轉(zhuǎn)換機(jī)器學(xué)習(xí)可改進(jìn)原有算法

轉(zhuǎn)換機(jī)器學(xué)習(xí)適用于任何非線性機(jī)器學(xué)習(xí)的改進(jìn)。為了評(píng)價(jià)轉(zhuǎn)換機(jī)器學(xué)習(xí),我們選擇了5種機(jī)器學(xué)習(xí)[1-4]:隨機(jī)森林 (RF) [21]、梯度增強(qiáng)算法 (XGB) [22]、支持向量機(jī) (SVM) [23]、k-最近鄰 (KNN) [3]和神經(jīng)網(wǎng)絡(luò) (NN) [3,4]。為了確保評(píng)價(jià)的普遍性和魯棒性,我們利用了來(lái)自三類重要科學(xué)問(wèn)題——藥物發(fā)現(xiàn) (QSAR 學(xué)習(xí),即定量構(gòu)效關(guān)系) 、類基因表達(dá)的預(yù)測(cè) (跨越不同組織類型和藥物治療) 、元機(jī)器學(xué)習(xí) (預(yù)測(cè)機(jī)器學(xué)習(xí)方法解決問(wèn)題的效果) ——的數(shù)千個(gè)機(jī)器學(xué)習(xí)任務(wù)。

對(duì)于每一種機(jī)器學(xué)習(xí)方法和每一個(gè)問(wèn)題領(lǐng)域,我們比較了轉(zhuǎn)換機(jī)器學(xué)習(xí)和基準(zhǔn)機(jī)器學(xué)習(xí)算法的表現(xiàn)。我們研究了兩種形式的預(yù)測(cè)改進(jìn):強(qiáng)改進(jìn)和聯(lián)合改進(jìn)。強(qiáng)改進(jìn)即使用新的轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,得出的預(yù)測(cè)優(yōu)于使用基于基準(zhǔn) (內(nèi)生) 特征的得出預(yù)測(cè)。聯(lián)合改進(jìn)即以基準(zhǔn)特征作為新的轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,以提高預(yù)測(cè)性能。為了增強(qiáng)轉(zhuǎn)換機(jī)器學(xué)習(xí)預(yù)測(cè)性能,我們使用了最簡(jiǎn)單的疊加方法:組合預(yù)測(cè)結(jié)果。我們發(fā)現(xiàn),轉(zhuǎn)換機(jī)器學(xué)習(xí)在三個(gè)領(lǐng)域中均顯著提高了所有方法的平均預(yù)測(cè)性能 (提高幅度從4% 到50%) ,即針對(duì)新的外生特征訓(xùn)練的模型通常優(yōu)于針對(duì)內(nèi)生特征訓(xùn)練的模型 (表1) 。

表1. 預(yù)測(cè)結(jié)果,表中數(shù)值為均方根誤差(RMSE)。加粗的數(shù)值為某應(yīng)用場(chǎng)景下的最優(yōu)結(jié)果。基準(zhǔn)結(jié)果使用標(biāo)準(zhǔn)內(nèi)生表征及對(duì)應(yīng)的機(jī)器學(xué)習(xí)算法得出的結(jié)果。轉(zhuǎn)換機(jī)器學(xué)習(xí)使用外生表征得出結(jié)果。均方根誤差為各應(yīng)用領(lǐng)域中數(shù)千次任務(wù)的平均值。我們測(cè)試了兩種疊加方式:最小二乘法(convex squares)(非負(fù)最?。┖蛶X回歸(ridge regression)。我們使用了兩種顯著性檢驗(yàn):t 檢驗(yàn)和 Wilcoxon 檢驗(yàn)。兩種方法都檢驗(yàn)了標(biāo)準(zhǔn)方法與轉(zhuǎn)換機(jī)器學(xué)習(xí)之間均方根誤差的差異是否顯著(p< 0.05),前者檢驗(yàn)了兩種方法的均方根誤差中位數(shù)是否存在統(tǒng)計(jì)上的差異,后者檢驗(yàn)了兩種方法的均方根誤差平均數(shù)是否存在統(tǒng)計(jì)上的差異。

幾乎所有的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法都被應(yīng)用于 QSAR 問(wèn)題[23] ,但是仍未發(fā)現(xiàn)一種最好的方法[24,25]。 QSAR非常適合應(yīng)用轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)樗幬锓肿颖碚骺梢酝ㄟ^(guò)相關(guān)的靶蛋白而相互關(guān)聯(lián) 。例如,在小鼠和人類中抑制二氫葉酸還原酶 (DHFR ) 的問(wèn)題是相似的,因?yàn)閮烧哂邢嗨频呐潴w結(jié)合位點(diǎn)[活性中心][26],而且它們涉及的分子相同或相關(guān)[26 -28]。為了評(píng)價(jià)用于 QSAR 學(xué)習(xí)的轉(zhuǎn)換機(jī)器學(xué)習(xí),我們使用了2219個(gè) QSAR 問(wèn)題[24,25]。QSAR 基準(zhǔn) (內(nèi)生) 表征是1024位的分子指紋表征,這已經(jīng)被證明是有效的[25]。對(duì)于每種基準(zhǔn)機(jī)器學(xué)習(xí)算法 (RF,SVM,k-NN 和 NN) ,我們使用先前訓(xùn)練的模型所預(yù)測(cè)的化合物活性,獲得轉(zhuǎn)換機(jī)器學(xué)習(xí)的外生特征。然后使用基準(zhǔn)機(jī)器學(xué)習(xí)方法訓(xùn)練 QSAR 模型。在所有方法中,轉(zhuǎn)換機(jī)器學(xué)習(xí)預(yù)測(cè)效果均優(yōu)于基準(zhǔn)算法。有關(guān)結(jié)果見(jiàn)表1。我們發(fā)現(xiàn)總體結(jié)果最好的是疊加了梯度提升機(jī)的轉(zhuǎn)換機(jī)器學(xué)習(xí)模型,其結(jié)果相較于基準(zhǔn)梯度提升機(jī)提升了7%,其次是疊加了神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換機(jī)器學(xué)習(xí)模型。值得注意的是,該數(shù)據(jù)集已被廣泛研究[18種學(xué)習(xí)方法和6種分子表征[25]] ,并且轉(zhuǎn)換機(jī)器學(xué)習(xí)顯著優(yōu)于之前的最佳結(jié)果。

對(duì)于第二個(gè)問(wèn)題領(lǐng)域,我們使用了基于集成網(wǎng)絡(luò)的細(xì)胞特征數(shù)據(jù)庫(kù) (LINCS) [29] ,它描述了在118050個(gè)實(shí)驗(yàn)條件下測(cè)量的978個(gè)標(biāo)志性人類基因的表達(dá)水平。我們將機(jī)器學(xué)習(xí)任務(wù)看作是在給定實(shí)驗(yàn)條件 (細(xì)胞類型、藥物和劑量) 下,為每個(gè)基因建立一個(gè)能夠預(yù)測(cè)其表達(dá)水平的模型。 基因表達(dá)預(yù)測(cè)問(wèn)題也適合轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)榇嬖诨蜷g關(guān)系 (同源性、共同信號(hào)通路等) 和實(shí)驗(yàn)條件間關(guān)系 (藥物相似性等) ,可用于提高預(yù)測(cè)性能。使用與 QSAR 問(wèn)題相同的方法,我們使用隨機(jī)森林、支持向量機(jī)、k-最近鄰和神經(jīng)網(wǎng)絡(luò)進(jìn)行了比較評(píng)價(jià),比較了使用內(nèi)生表征和轉(zhuǎn)換機(jī)器學(xué)習(xí)表征的模型,結(jié)果見(jiàn)表1。所有方法中,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)的模型都優(yōu)于基準(zhǔn)機(jī)器學(xué)習(xí)。我們發(fā)現(xiàn),隨機(jī)森林的總體結(jié)果提升最大,相比基準(zhǔn)提升了4% ,其次提升較大的是梯度提升機(jī)和支持向量機(jī)模型。

第三個(gè)評(píng)價(jià)問(wèn)題領(lǐng)域來(lái)自機(jī)器學(xué)習(xí), 其基本問(wèn)題是選擇適用于新任務(wù)的最佳機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)是解決該問(wèn)題的一個(gè)有效途徑,這被稱為元機(jī)器學(xué)習(xí) 。機(jī)器學(xué)習(xí)模型的任務(wù)是:給定訓(xùn)練數(shù)據(jù)的特征 (例如訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分布) ,學(xué)習(xí)一個(gè)用于預(yù)測(cè)機(jī)器學(xué)習(xí)算法在新任務(wù) (給定特定的任務(wù)) 上性能的元模型。這一場(chǎng)景也適合轉(zhuǎn)換機(jī)器學(xué)習(xí),因?yàn)闄C(jī)器學(xué)習(xí)任務(wù)可以通過(guò)具有類似的數(shù)據(jù)分布和數(shù)據(jù)屬性 (如缺失值) 或包含由相似過(guò)程生成的數(shù)據(jù)而發(fā)生關(guān)聯(lián)。從 OpenML[31]中,我們對(duì)351個(gè)任務(wù)和53個(gè)機(jī)器學(xué)習(xí)方法進(jìn)行了10840個(gè)評(píng)價(jià),產(chǎn)生了351個(gè)元學(xué)習(xí)任務(wù),結(jié)果見(jiàn)表1。在所有方法中,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的算法都優(yōu)于基準(zhǔn)機(jī)器學(xué)習(xí)算法。總體來(lái)看,提升最大的是使用轉(zhuǎn)換機(jī)器學(xué)習(xí)的隨機(jī)森林,相比使用內(nèi)生特征的算法提高了50% 。使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的梯度提升機(jī)也比基準(zhǔn)算法有相似程度的提升,對(duì)于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò),使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征后,性能也有提升。對(duì)于 k-最近鄰,疊加轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的效果最好。相比之前描述的場(chǎng)景,使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征,預(yù)測(cè)性能提高的百分比要大得多。這可能是因?yàn)樵?/span> (內(nèi)生) 特征對(duì)訓(xùn)練數(shù)據(jù)集的描述較差,而轉(zhuǎn)換機(jī)器學(xué)習(xí)特征編碼了更多關(guān)于算法在不同任務(wù)中的隱含信息。此外,相比之前的場(chǎng)景,預(yù)測(cè)性能的實(shí)驗(yàn)噪音較小。

4. 轉(zhuǎn)換機(jī)器學(xué)習(xí)的可解釋性

機(jī)器學(xué)習(xí)的一個(gè)越來(lái)越重要的分支是可解釋的人工智能,因?yàn)樵谠S多應(yīng)用 (例如醫(yī)學(xué)或金融) 中,有必要使預(yù)測(cè)具有可理解性。在科學(xué)領(lǐng)域,可解釋的機(jī)器學(xué)習(xí)預(yù)測(cè)模型會(huì)帶來(lái)科學(xué)新知。機(jī)器學(xué)習(xí)模型的可理解性取決于模型的簡(jiǎn)單性,及模型表征與人類概念間的密切程度。概念結(jié)構(gòu)的標(biāo)準(zhǔn)理論起源于亞里士多德,以定義和解釋概念間存在充分必要條件為基礎(chǔ)。 轉(zhuǎn)換機(jī)器學(xué)習(xí)模型的可解釋性基于相似概念存在多種可替換的學(xué)習(xí)方法 [33,34]。

在藥物設(shè)計(jì)領(lǐng)域利用隨機(jī)森林模型,我們說(shuō)明了轉(zhuǎn)換機(jī)器學(xué)習(xí)模型能夠以三種方式產(chǎn)生科學(xué)新知。首先,我們闡明了如何使用轉(zhuǎn)換機(jī)器學(xué)習(xí)模型為特定藥物靶標(biāo) H. sapiens DHFR 的 QSAR 預(yù)測(cè)提供解釋。表2列出了對(duì) H. sapiens DHFR 藥物活性預(yù)測(cè)最重要的10個(gè)特征 (基準(zhǔn)模型) 。正如所料,該列表中還有其它 DFHR 靶標(biāo)的模型。但有趣的是,這些模型是細(xì)菌  L. casei,E. coli ,和 M. avium  的模型,而不是哺乳動(dòng)物的模型。這三個(gè)細(xì)菌的 DHFR 模型對(duì)人類 DHFR 的預(yù)測(cè)有所貢獻(xiàn),其中 L. casei 的DHFR最像人類,而 E. coli  M. avium 的DHFR 明顯不同,因?yàn)镋. coli DHFR 與甲氧芐氨嘧啶抗生素結(jié)合緊密,而 M. avium 的 DHFR 具有耐藥性。這些信息有助于設(shè)計(jì)人類 DHFR 抑制劑,以更好地治療癌癥。表2中的其它特征也提供了類似的洞見(jiàn)。

表2. 預(yù)測(cè)人類 DHFR活性最佳的十種模型

轉(zhuǎn)換機(jī)器學(xué)習(xí)也可以通過(guò)聚類 (非監(jiān)督學(xué)習(xí)) 提供科學(xué)新知?;瘜W(xué)信息學(xué)中一個(gè)基本問(wèn)題是估計(jì)化合物之間的相似性。標(biāo)準(zhǔn)方法基于化學(xué)結(jié)構(gòu)的相似性來(lái)估計(jì)化合物間的相似性,比如根據(jù)分子指紋和圖相似性上的 Tanimoto (Jaccard) 系數(shù)距離估計(jì)。然而,當(dāng)比較藥物時(shí),功能相似性而不是結(jié)構(gòu)相似性更受關(guān)注[15]。功能相似性可以使用實(shí)驗(yàn)積累的信息來(lái)度量,這些信息被編碼于 QSAR 模型中,可用于預(yù)測(cè)藥物針對(duì)靶標(biāo)的活性 (圖2A) 。該預(yù)測(cè)結(jié)果可用于計(jì)算藥物和它們藥理特征間的距離。圖2B使用轉(zhuǎn)換機(jī)器學(xué)習(xí),將美國(guó)食品藥物管理局 (FDA) 批準(zhǔn)的藥物聚類成三簇。盡管這些化合物的藥理學(xué)關(guān)系很復(fù)雜,但這些藥品都與血清素和多巴胺受體相互作用有關(guān)??梢允褂棉D(zhuǎn)換機(jī)器學(xué)習(xí)對(duì)這一相互作用進(jìn)行預(yù)測(cè),并將其用于聚類??梢愿鶕?jù)聚類后化合物的相對(duì)位置,預(yù)測(cè)不同化合物的藥理學(xué)特征。


圖2.(A)轉(zhuǎn)換機(jī)器學(xué)習(xí)在聚類分析中的應(yīng)用 ,通過(guò)對(duì)藥物分子進(jìn)行表征來(lái)對(duì)藥物聚類。在這些表征中,每個(gè)元素都是藥物對(duì)其中一個(gè)靶標(biāo)(問(wèn)題)的預(yù)測(cè)值。

(B)通過(guò)化合物在 QSAR 靶標(biāo)的預(yù)測(cè)活性對(duì)化合物聚類。該圖顯示了獲得 FDA 批準(zhǔn)的化合物(顏色代表簇)的聚類,以及三個(gè)密切相關(guān)的簇和放大的單簇。

(C)通過(guò)化學(xué)表征對(duì)藥物靶標(biāo)聚類。該圖顯示了 FDA 批準(zhǔn)的藥物的蛋白質(zhì)靶標(biāo)的整體聚類(顏色代表簇)和一個(gè)單簇的放大部分。

我們應(yīng)用類似的方法來(lái)估計(jì)蛋白質(zhì)靶標(biāo)相似性這一生物信息學(xué)問(wèn)題 (圖2C) 。該任務(wù)的標(biāo)準(zhǔn)方法是使用序列對(duì)比估計(jì)進(jìn)化距離。然而,在大多數(shù)問(wèn)題中,最重要的不是進(jìn)化距離,而是蛋白質(zhì)活性位點(diǎn)的功能相似性。我們可以使用轉(zhuǎn)換機(jī)器學(xué)習(xí) QSAR 模型中積累的信息估計(jì)功能相似性。我們刻畫(huà)了每一個(gè)靶標(biāo)的藥物活性預(yù)測(cè),即 FDA 批準(zhǔn)的化合物對(duì)靶標(biāo)的活性預(yù)測(cè)。和化合物相似性預(yù)測(cè)一樣,我們認(rèn)為藥物設(shè)計(jì)的聚類比傳統(tǒng)的進(jìn)化距離提供了更多的洞見(jiàn),因?yàn)樗腔诎袠?biāo)對(duì)化合物的實(shí)證響應(yīng)得出的。QSAR 相似性預(yù)測(cè)模型識(shí)別出的一個(gè)有趣的蛋白質(zhì) (藥物靶標(biāo)) 團(tuán)簇如圖2C 所示。盡管這一組蛋白質(zhì)沒(méi)有任何明顯的結(jié)構(gòu)相似性,但這些 (哺乳動(dòng)物) 蛋白質(zhì)的功能與新陳代謝控制有著明確的關(guān)聯(lián)。

5. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的對(duì)比

將轉(zhuǎn)換機(jī)器學(xué)習(xí)與當(dāng)前最重要的機(jī)器學(xué)習(xí)算法——深度神經(jīng)網(wǎng)絡(luò) (DNNs) [35]進(jìn)行比較是很有啟發(fā)性的。DNN 的輸入是典型的空間結(jié)構(gòu)或順序結(jié)構(gòu),輸入結(jié)構(gòu)的先驗(yàn)知識(shí)被編碼于網(wǎng)絡(luò)結(jié)構(gòu)。DNN 的成功在于它能夠利用多個(gè)神經(jīng)網(wǎng)絡(luò)層和大量數(shù)據(jù),學(xué)習(xí)如何將較差的輸入表征 (如圖像像素值) 映射到豐富和有效的潛在表征。這是通過(guò)使用可微學(xué)習(xí)模型和端到端學(xué)習(xí)來(lái)實(shí)現(xiàn)的。改善較差輸入表征的能力,使 DNN 能夠在原先被證明不適合機(jī)器學(xué)習(xí)的領(lǐng)域取得成功:例如在圍棋[36]等游戲中擊敗世界冠軍,比人類專家更好地診斷皮膚癌[9]。 從 DNN 的成功中得到的一個(gè)關(guān)鍵經(jīng)驗(yàn)是,利用機(jī)器學(xué)習(xí)能夠增強(qiáng)機(jī)器學(xué)習(xí)的表征,而這正是轉(zhuǎn)換機(jī)器學(xué)習(xí)所做的事情 。DNN最適用于有大量可用于訓(xùn)練良好表征的數(shù)據(jù),并且不要求所用符號(hào)模型適于人類認(rèn)知的問(wèn)題。而大多數(shù)科學(xué)問(wèn)題領(lǐng)域都不滿足這些標(biāo)準(zhǔn)。

標(biāo)準(zhǔn) DNN 算法在需要處理多任務(wù)問(wèn)題時(shí),需要學(xué)習(xí)包含所有問(wèn)題的單一大型模型。與轉(zhuǎn)換機(jī)器學(xué)習(xí)相比,DNN 問(wèn)題間的關(guān)系和訓(xùn)練數(shù)據(jù)間的關(guān)系都不是以轉(zhuǎn)換特征的形式外顯化的。對(duì)于多任務(wù)問(wèn)題,轉(zhuǎn)換機(jī)器學(xué)習(xí)還具有支持增量機(jī)器學(xué)習(xí)的優(yōu)勢(shì):如果添加新數(shù)據(jù)或新任務(wù),那么無(wú)需重新學(xué)習(xí)任務(wù)模型。雖然轉(zhuǎn)換機(jī)器學(xué)習(xí)增加了一些額外的計(jì)算代價(jià),但是與 DNN 學(xué)習(xí)相比,轉(zhuǎn)換機(jī)器學(xué)習(xí)的額外代價(jià)很低。

6. 構(gòu)建機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng)

機(jī)器學(xué)習(xí)的傳統(tǒng)方法是將每個(gè)學(xué)習(xí)任務(wù)看作一個(gè)單獨(dú)的問(wèn)題。隨著多任務(wù)學(xué)習(xí)[10]、 遷移學(xué)習(xí) [13]、終身學(xué)習(xí) (life-long learning) [37]等方面的進(jìn)展,這種觀點(diǎn)開(kāi)始發(fā)生變化。 轉(zhuǎn)換機(jī)器學(xué)習(xí)使我們對(duì)作為生態(tài)系統(tǒng)的機(jī)器學(xué)習(xí)有了更廣闊的視野。在這個(gè)生態(tài)系統(tǒng)中,學(xué)習(xí)任務(wù)、學(xué)習(xí)實(shí)例、機(jī)器學(xué)習(xí)方法、機(jī)器學(xué)習(xí)預(yù)測(cè)、元機(jī)器學(xué)習(xí)方法等等都能夠協(xié)同作用,以提升生態(tài)系統(tǒng)中所有任務(wù)的性能和可解釋性 。增加更多的訓(xùn)練數(shù)據(jù),不僅能夠改進(jìn)特定任務(wù)的模型 (使用特征選擇、集成學(xué)習(xí)、疊加學(xué)習(xí)、轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等) ,還能改進(jìn)所有其它使用特定任務(wù)模型的模型 (轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等) 。與此類似,添加了新任務(wù)能夠擴(kuò)展轉(zhuǎn)換后的表征,從而可通過(guò)轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等方式改進(jìn)所有其它任務(wù)的模型。添加新的機(jī)器學(xué)習(xí)或元機(jī)器學(xué)習(xí)方法,那么所有的任務(wù)模型都會(huì)得到改進(jìn)。在這樣一個(gè)機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中,隨著新知識(shí)的增加,預(yù)測(cè)性能將逐步提高[38]。因?yàn)閬?lái)自許多不同來(lái)源的先驗(yàn)知識(shí)被用于所有預(yù)測(cè)任務(wù)中[38],預(yù)測(cè)也將更加可靠。

在機(jī)器學(xué)習(xí)領(lǐng)域,人們對(duì) 機(jī)器學(xué)習(xí)的自動(dòng)化 越來(lái)越感興趣,并且存在許多或免費(fèi)或商業(yè)的系統(tǒng),這些系統(tǒng)能夠自動(dòng)進(jìn)行機(jī)器學(xué)習(xí)以解決新的問(wèn)題。例如,Auto-WEKA 和 Auto-sklearn [39]通過(guò)搜索可能的機(jī)器學(xué)習(xí)方法和超參數(shù)空間來(lái)優(yōu)化機(jī)器學(xué)習(xí)的預(yù)測(cè)性能。然而,目前還沒(méi)有一個(gè)機(jī)器學(xué)習(xí)自動(dòng)化系統(tǒng),能夠發(fā)現(xiàn)一個(gè)有價(jià)值的機(jī)器學(xué)習(xí)新技巧,例如dropout、疊加等。盡管目前有越來(lái)越多將科學(xué)發(fā)現(xiàn)自動(dòng)化的人工智能系統(tǒng)[40] ,但這些系統(tǒng)高度依賴機(jī)器學(xué)習(xí),而很少有工作將人工智能發(fā)現(xiàn)系統(tǒng)應(yīng)用于機(jī)器學(xué)習(xí)。發(fā)展能夠發(fā)現(xiàn)重要機(jī)器學(xué)習(xí)新技巧的機(jī)器學(xué)習(xí)系統(tǒng),將改變機(jī)器學(xué)習(xí)和整個(gè)世界。

7. 數(shù)據(jù)集,代碼與模型的開(kāi)源

為實(shí)現(xiàn)可重復(fù)性,本文所涉及的數(shù)千個(gè)數(shù)據(jù)集 (QSAR,LINCS,Metalearning) ,代碼的鏈接 (TML,RF,XGB,SVM,k-NN,NN) ,以及包括所有決策樹(shù)的約50000個(gè)隨機(jī)森林模型都可以在開(kāi)放科學(xué)平臺(tái) (Open Science Platform,OSP) 的知識(shí)共享許可協(xié)議數(shù)據(jù)庫(kù)中獲得:https://osf.io/vbn5u/??偣灿屑s100 GB 的壓縮數(shù)據(jù)。 很少有機(jī)器學(xué)習(xí)項(xiàng)目能將如此多的可重復(fù)數(shù)據(jù)放到網(wǎng)上 。為了最大化其附加價(jià)值,我們遵循了公開(kāi)數(shù)字對(duì)象的FAIR原則 (Findability,Accessibility,Interoperability,and Reusability,即可發(fā)現(xiàn),可訪問(wèn),可互操作,可重用) [41]。

翻譯名詞對(duì)照

TL:transfer learning,遷移學(xué)習(xí)

MTL:multitask learning,多任務(wù)學(xué)習(xí)

RF:random forests,隨機(jī)森林

XGB:gradient boosting machine,梯度增強(qiáng)機(jī)

SVM:support vector machine,支持向量機(jī)

KNN:k-nearest neighbors,k-最近鄰

NN:neural network,神經(jīng)網(wǎng)絡(luò)

DNN:deep neural network,深度神經(jīng)網(wǎng)絡(luò)

QSAR:Quantitative structure–activity relationship,定量構(gòu)效關(guān)系

責(zé)任編輯:張燕妮 來(lái)源: 集智俱樂(lè)部
相關(guān)推薦

2019-03-08 09:28:42

Google 開(kāi)源技術(shù)

2022-03-15 09:00:00

機(jī)器學(xué)習(xí)軟件開(kāi)發(fā)MLOps

2021-11-19 17:22:43

TensorFlow模型機(jī)器學(xué)習(xí)

2017-07-07 14:41:13

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)JavaScript

2022-08-09 13:44:37

機(jī)器學(xué)習(xí)PySpark M數(shù)據(jù)分析

2021-11-02 09:40:50

TensorFlow機(jī)器學(xué)習(xí)人工智能

2020-11-24 10:21:14

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-11-17 17:28:29

機(jī)器學(xué)習(xí)技術(shù)人工智能

2025-03-04 08:00:00

機(jī)器學(xué)習(xí)Rust開(kāi)發(fā)

2021-04-12 10:46:15

人工智能機(jī)器學(xué)習(xí)

2021-03-15 11:35:28

人工智能機(jī)器學(xué)習(xí)

2019-12-04 15:08:04

AWS亞馬遜機(jī)器學(xué)習(xí)

2015-04-14 10:40:31

云計(jì)算機(jī)器學(xué)習(xí)

2017-05-05 09:56:08

神經(jīng)網(wǎng)絡(luò)模型繪畫(huà)

2021-12-13 09:14:06

清單管理數(shù)據(jù)集

2017-02-25 20:32:36

2021-05-26 16:21:59

亞馬遜云科技機(jī)器學(xué)習(xí)

2024-03-04 08:00:00

PythonOrange3機(jī)器學(xué)習(xí)

2017-07-13 11:20:30

機(jī)器學(xué)習(xí)業(yè)務(wù)問(wèn)題MVP

2017-07-21 13:45:48

機(jī)器學(xué)習(xí)分類器MVP模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)