自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="qi1zs"><li id="qi1zs"><dfn id="qi1zs"></dfn></li></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

轉(zhuǎn)換機(jī)器學(xué)習(xí)：面向多學(xué)科問(wèn)題，構(gòu)建機(jī)器學(xué)習(xí)新生態(tài)

作者：?Ivan Olier 2022-02-08 09:55:19

人工智能機(jī)器學(xué)習(xí)

近日發(fā)表在 PNAS 的一項(xiàng)研究開(kāi)發(fā)了一種名為轉(zhuǎn)換機(jī)器學(xué)習(xí)的方法，能夠綜合利用多個(gè)相關(guān)任務(wù)的數(shù)據(jù)及多種學(xué)習(xí)方法，提取編碼于訓(xùn)練模型中不同來(lái)源的先驗(yàn)知識(shí)，尤其適用于藥物設(shè)計(jì)等對(duì)可解釋性有強(qiáng)需求的科學(xué)研究領(lǐng)域。

機(jī)器學(xué)習(xí)方法在生命、物理、社會(huì)經(jīng)濟(jì)等復(fù)雜系統(tǒng)的應(yīng)用日漸頻繁。如何針對(duì)特定任務(wù)選取合適的機(jī)器學(xué)習(xí)方法，如何綜合利用各類機(jī)器學(xué)習(xí)方法并各取其所長(zhǎng)，成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)問(wèn)題。近日發(fā)表在 PNAS 的一項(xiàng)研究開(kāi)發(fā)了一種名為轉(zhuǎn)換機(jī)器學(xué)習(xí)的方法，能夠綜合利用多個(gè)相關(guān)任務(wù)的數(shù)據(jù)及多種學(xué)習(xí)方法，提取編碼于訓(xùn)練模型中不同來(lái)源的先驗(yàn)知識(shí)，尤其適用于藥物設(shè)計(jì)等對(duì)可解釋性有強(qiáng)需求的科學(xué)研究領(lǐng)域。更具有普適性的是，轉(zhuǎn)換機(jī)器學(xué)習(xí)提出了機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)構(gòu)建的新思路，學(xué)習(xí)任務(wù)、實(shí)例、方法、預(yù)測(cè)結(jié)果及元學(xué)習(xí)能夠相互促進(jìn)，共同提升機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中所有任務(wù)的性能和可解釋性。

論文題目：

Transformational machine learning: Learning how to learn from many related scientific problems

論文鏈接：

https://www.pnas.org/content/118/49/e2108013118

目錄

摘要

意義

1. 轉(zhuǎn)換機(jī)器學(xué)習(xí)簡(jiǎn)介

2. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與其它方法的對(duì)比

3. 轉(zhuǎn)換機(jī)器學(xué)習(xí)可改進(jìn)原有算法

4. 轉(zhuǎn)換機(jī)器學(xué)習(xí)的可解釋性

5. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的對(duì)比

6. 構(gòu)建機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng)

7. 數(shù)據(jù)集，代碼與模型的開(kāi)源

翻譯名詞對(duì)照

幾乎所有的機(jī)器學(xué)習(xí)都基于內(nèi)生（intrinsic）特征來(lái)表征訓(xùn)練數(shù)據(jù)。當(dāng)存在多個(gè)相關(guān)的機(jī)器學(xué)習(xí)任務(wù) （問(wèn)題）時(shí)，可以先在目標(biāo)任務(wù)外的其余任務(wù)上訓(xùn)練機(jī)器學(xué)習(xí)模型，將內(nèi)生特征轉(zhuǎn)化為外生（extrinsic）特征，并用訓(xùn)練后的機(jī)器學(xué)習(xí)模型在目標(biāo)實(shí)例上進(jìn)行預(yù)測(cè)，產(chǎn)生新的表征，我們稱其為 轉(zhuǎn)換機(jī)器學(xué)習(xí) （transformational machine learning，TML）。轉(zhuǎn)換機(jī)器學(xué)習(xí)與遷移學(xué)習(xí) （TL）、多任務(wù)學(xué)習(xí) （MTL）和疊加學(xué)習(xí) （stacking）密切相關(guān)，并具有協(xié)同作用，可用來(lái)改進(jìn)任何非線性的機(jī)器學(xué)習(xí)。我們使用最重要的幾類非線性機(jī)器學(xué)習(xí)來(lái)評(píng)價(jià)轉(zhuǎn)換機(jī)器學(xué)習(xí)：隨機(jī)森林（RF）、梯度提升機(jī) （XGB）、支持向量機(jī) （SVM）、k-最近鄰（KNN）、神經(jīng)網(wǎng)絡(luò) （NN）。為了保證評(píng)價(jià)的通用性和魯棒性，我們利用了來(lái)自藥物設(shè)計(jì)、基因表達(dá)預(yù)測(cè)和機(jī)器學(xué)習(xí)算法選擇這三個(gè)科學(xué)領(lǐng)域的數(shù)千個(gè)機(jī)器學(xué)習(xí)問(wèn)題。

我們發(fā)現(xiàn)，轉(zhuǎn)換機(jī)器學(xué)習(xí)在所有領(lǐng)域均顯著提高了所有機(jī)器學(xué)習(xí)的預(yù)測(cè)性能（平均提高4% 至50%），并且轉(zhuǎn)換機(jī)器學(xué)習(xí)識(shí)別出的特征通常優(yōu)于內(nèi)生特征。轉(zhuǎn)換機(jī)器學(xué)習(xí)作為可解釋的機(jī)器學(xué)習(xí)，還能夠增加科學(xué)認(rèn)識(shí)。在藥物設(shè)計(jì)中，我們發(fā)現(xiàn)轉(zhuǎn)換機(jī)器學(xué)習(xí)提供了關(guān)于藥物靶標(biāo)特異性、藥物間關(guān)系以及蛋白質(zhì)靶標(biāo)間關(guān)系的新知。轉(zhuǎn)換機(jī)器學(xué)習(xí)創(chuàng)建了一種基于生態(tài)系統(tǒng)的機(jī)器學(xué)習(xí)方法，在這種方法中，新的任務(wù)、實(shí)例、預(yù)測(cè)等相互協(xié)同，以提高預(yù)測(cè)性能。

機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支，目標(biāo)是開(kāi)發(fā)能從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算系統(tǒng)。在有監(jiān)督機(jī)器學(xué)習(xí)中，機(jī)器學(xué)習(xí)系統(tǒng)從有標(biāo)簽的數(shù)據(jù)中，得到一個(gè)可泛化的預(yù)測(cè)未知數(shù)據(jù)標(biāo)簽的模型。數(shù)據(jù)通常用直接描述實(shí)例的特征來(lái)表征。例如，在藥物設(shè)計(jì)中，機(jī)器學(xué)習(xí)會(huì)將藥物的分子結(jié)構(gòu)作為特征。在存在多個(gè)相關(guān)機(jī)器學(xué)習(xí)問(wèn)題的情況下，可以使用一種不同類型的特性，即通過(guò)機(jī)器學(xué)習(xí)模型對(duì)其它問(wèn)題下的數(shù)據(jù)做出預(yù)測(cè)，我們稱之為轉(zhuǎn)換機(jī)器學(xué)習(xí)。我們表明，當(dāng)應(yīng)用于科學(xué)問(wèn)題時(shí)，該范式會(huì)帶來(lái)更好的預(yù)測(cè)性和可理解性。

1. 轉(zhuǎn)換機(jī)器學(xué)習(xí)簡(jiǎn)介

機(jī)器學(xué)習(xí)開(kāi)發(fā)從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算系統(tǒng)。它在科學(xué)領(lǐng)域的應(yīng)用有著悠久的歷史[1-4]，最早的一種機(jī)器學(xué)習(xí)程序是 Meta-Denral，它使用機(jī)器學(xué)習(xí)來(lái)改進(jìn)質(zhì)譜數(shù)據(jù)分析[5]。機(jī)器學(xué)習(xí)對(duì)科學(xué)的重要性已被廣泛認(rèn)可，且正被用于幾乎所有的科學(xué)領(lǐng)域，例如藥物發(fā)現(xiàn)[6]、有機(jī)合成規(guī)劃[7]、材料科學(xué)[8]、醫(yī)學(xué)[9]等。

大多數(shù)機(jī)器學(xué)習(xí)使用特征元組表征訓(xùn)練數(shù)據(jù)，例如，數(shù)據(jù)可以放到單個(gè)表中，每一行代表一個(gè)實(shí)例，每一列代表一個(gè)特征。實(shí)例的特征也可稱為屬性（attributes）。目前，實(shí)例的特征幾乎都是內(nèi)生屬性。例如，如果某人希望了解一種藥物的藥理活性，那么藥物的分子結(jié)構(gòu)就是該實(shí)例有用的屬性。通常，選擇一個(gè)特征作為預(yù)測(cè)值，其它屬性則提供用于預(yù)測(cè)的信息。如果待預(yù)測(cè)的屬性是標(biāo)簽，那么這是判別/分類任務(wù)；如果待預(yù)測(cè)的屬性是實(shí)數(shù)，那么這是回歸問(wèn)題。該研究主要討論回歸問(wèn)題。

當(dāng)存在多個(gè)相關(guān)的機(jī)器學(xué)習(xí)任務(wù)時(shí)，外生特征也可能被用到：使用在其余任務(wù)上訓(xùn)練的機(jī)器學(xué)習(xí)，來(lái)對(duì)目標(biāo)實(shí)例進(jìn)行預(yù)測(cè) 。我們稱之為轉(zhuǎn)換機(jī)器學(xué)習(xí)。轉(zhuǎn)換機(jī)器學(xué)習(xí)將基于內(nèi)生屬性的表征，轉(zhuǎn)換為基于其余模型預(yù)測(cè)值的外生表征。我們接下來(lái)會(huì)論述，轉(zhuǎn)換機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)和疊加學(xué)習(xí)有密切的協(xié)同關(guān)系。它使得模型可以利用在其余相關(guān)任務(wù)中學(xué)到的的知識(shí)，而不必從頭開(kāi)始學(xué)習(xí)。因此，轉(zhuǎn)換機(jī)器學(xué)習(xí)屬于元學(xué)習(xí) （meta learning）的范式，可改進(jìn)任何非線性的機(jī)器學(xué)習(xí)算法，尤其適用于存在許多相關(guān)小型學(xué)習(xí)任務(wù)的場(chǎng)景。

直觀地說(shuō)，以識(shí)別多種動(dòng)物的學(xué)習(xí)任務(wù)為例。如果需要識(shí)別多種動(dòng)物，并且還有待添加的物種，那么相比采用一個(gè)大型分類器而言，對(duì)每個(gè)物種都采用獨(dú)立的分類器更合理。標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法采用內(nèi)生特征（例如動(dòng)物是否有皮毛、皮毛的大?。?/span> 來(lái)訓(xùn)練分類器。轉(zhuǎn)換機(jī)器學(xué)習(xí)則是先采用標(biāo)準(zhǔn)方法（圖1A左）學(xué)習(xí)各種動(dòng)物的預(yù)測(cè)模型，并使用基于這些模型的預(yù)測(cè)結(jié)果表征各種動(dòng)物。比如，在通過(guò)標(biāo)準(zhǔn)方法獲得類馬程度、類貓程度、類兔程度等表征后，再以此訓(xùn)練（元）機(jī)器學(xué)習(xí)模型（圖1A右）。轉(zhuǎn)換機(jī)器學(xué)習(xí)適用于所有機(jī)器學(xué)習(xí)任務(wù)共享一組內(nèi)生特征和目標(biāo)變量的領(lǐng)域，而這在科學(xué)研究中很普遍，例如在藥物設(shè)計(jì)中，需要將化合物的分子表征與靶標(biāo) （蛋白質(zhì)）相匹配（圖1B）。轉(zhuǎn)換機(jī)器學(xué)習(xí)的有效性在于利用了編碼于先前訓(xùn)練模型中關(guān)于世界規(guī)律的知識(shí)。

圖1A. 標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)在預(yù)測(cè)動(dòng)物物種上的對(duì)比。通過(guò)三個(gè)機(jī)器學(xué)習(xí)任務(wù)的實(shí)例來(lái)闡述轉(zhuǎn)換機(jī)器學(xué)習(xí)：預(yù)測(cè)動(dòng)物是驢、貓還是兔。標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)以內(nèi)生特征，如體型、耳朵、是否可食用來(lái)構(gòu)建預(yù)測(cè)模型：驢( )，兔( )，貓( )。將內(nèi)生特征輸入模型兔( )，輸出動(dòng)物為兔子的概率。這三個(gè)模型的結(jié)果會(huì)作為訓(xùn)練轉(zhuǎn)換機(jī)器學(xué)習(xí)的外生特征。直覺(jué)上，可以看到轉(zhuǎn)換機(jī)器學(xué)習(xí)的表征是有意義的，因?yàn)橥煤腕H有相似之處，都有長(zhǎng)耳朵，兔和貓的相似處在于體型都小且可愛(ài)。因此轉(zhuǎn)換后的外生表征能夠捕捉原始描述所不涉及的特征，例如是否可愛(ài)、眼睛是否位于頭部?jī)蓚?cè)（兔和驢共有的特征）。

圖1B. QSAR（結(jié)構(gòu)-活性定量關(guān)系）學(xué)習(xí)。QSAR預(yù)測(cè)模型給定一個(gè)靶標(biāo)（通常是蛋白質(zhì)）以及一系列化合物（小分子）及其對(duì)應(yīng)活性（如抑制特定蛋白），以此學(xué)習(xí)從化合物分子表征到活性的映射。

圖1C. 標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)在QSAR上的對(duì)比。使用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)，每個(gè)靶標(biāo)和多種藥物的內(nèi)生特征關(guān)聯(lián)，例如是否包含特定的分子群，以此訓(xùn)練模型建立從分子表征到活性的映射。

2. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與其他方法的對(duì)比

轉(zhuǎn)換機(jī)器學(xué)習(xí)與其它機(jī)器學(xué)習(xí)方法有非常相似的地方。然而，具體的轉(zhuǎn)換機(jī)器學(xué)習(xí)概念之前沒(méi)有被系統(tǒng)性的地評(píng)價(jià)過(guò)。

轉(zhuǎn)換機(jī)器學(xué)習(xí)與 多任務(wù)學(xué)習(xí) [10]非常相似。多任務(wù)學(xué)習(xí)是“一種以相關(guān)任務(wù)的訓(xùn)練數(shù)據(jù)中包含的領(lǐng)域信息為歸納基準(zhǔn)，從而提高泛化能力的歸納遷移方法”。在多任務(wù)學(xué)習(xí)中，相關(guān)問(wèn)題（任務(wù)）是被同時(shí)學(xué)習(xí)的，目的是利用問(wèn)題之間的相似性來(lái)提高預(yù)測(cè)性能。多任務(wù)學(xué)習(xí)以共享表征并行訓(xùn)練，來(lái)達(dá)成該目標(biāo)；從每個(gè)任務(wù)所學(xué)到的知識(shí)可以幫助其它任務(wù)學(xué)得更好[10]。多任務(wù)學(xué)習(xí)和轉(zhuǎn)換機(jī)器學(xué)習(xí)之間有兩個(gè)主要區(qū)別：多任務(wù)學(xué)習(xí)的訓(xùn)練通常是并行的，而轉(zhuǎn)換機(jī)器學(xué)習(xí)通常逐個(gè)進(jìn)行訓(xùn)練；轉(zhuǎn)換機(jī)器學(xué)習(xí)在各個(gè)任務(wù)間共享數(shù)據(jù)表征，而多任務(wù)學(xué)習(xí)則使用單一模型。

轉(zhuǎn)換機(jī)器學(xué)習(xí)還與 遷移學(xué)習(xí) [13]有密切的關(guān)聯(lián)。遷移學(xué)習(xí)將信息從特定來(lái)源的問(wèn)題轉(zhuǎn)移為特定目標(biāo)的問(wèn)題。遷移學(xué)習(xí)的思想是從一個(gè)或多個(gè)源領(lǐng)域提取知識(shí)，并在數(shù)據(jù)稀缺的目標(biāo)領(lǐng)域復(fù)用這些知識(shí)，從而在目標(biāo)領(lǐng)域建立性能更好的學(xué)習(xí)模型。但是遷移學(xué)習(xí)通常不同于轉(zhuǎn)換機(jī)器學(xué)習(xí)，因?yàn)檫w移學(xué)習(xí)只針對(duì)一個(gè)源任務(wù)，而轉(zhuǎn)換機(jī)器學(xué)習(xí)需要應(yīng)對(duì)多源任務(wù)。遷移學(xué)習(xí)已成功應(yīng)用于藥物設(shè)計(jì)，幾個(gè)前瞻性的應(yīng)用證明了其有效性[15]。

轉(zhuǎn)換機(jī)器學(xué)習(xí)與 疊加學(xué)習(xí) [16,17]也非常相似，后者是一種集成機(jī)器學(xué)習(xí)算法。疊加學(xué)習(xí)結(jié)合多種算法，以獲得比單獨(dú)使用任何一種算法更好的預(yù)測(cè)性能。在疊加多個(gè)基準(zhǔn)模型時(shí)，首先訓(xùn)練基準(zhǔn)模型，然后使用基準(zhǔn)模型的輸出訓(xùn)練元模型。轉(zhuǎn)換機(jī)器學(xué)習(xí)和疊加學(xué)習(xí)的主要區(qū)別在于，轉(zhuǎn)換機(jī)器學(xué)習(xí)的訓(xùn)練是在一大組相關(guān)任務(wù)上進(jìn)行，每個(gè)任務(wù)對(duì)應(yīng)的訓(xùn)練集可能不同。而在疊加學(xué)習(xí)中，不同的基準(zhǔn)模型通常針對(duì)同一個(gè)任務(wù)進(jìn)行訓(xùn)練。

3. 轉(zhuǎn)換機(jī)器學(xué)習(xí)可改進(jìn)原有算法

轉(zhuǎn)換機(jī)器學(xué)習(xí)適用于任何非線性機(jī)器學(xué)習(xí)的改進(jìn)。為了評(píng)價(jià)轉(zhuǎn)換機(jī)器學(xué)習(xí)，我們選擇了5種機(jī)器學(xué)習(xí)[1-4]：隨機(jī)森林（RF） [21]、梯度增強(qiáng)算法（XGB） [22]、支持向量機(jī) （SVM） [23]、k-最近鄰（KNN） [3]和神經(jīng)網(wǎng)絡(luò) （NN） [3,4]。為了確保評(píng)價(jià)的普遍性和魯棒性，我們利用了來(lái)自三類重要科學(xué)問(wèn)題——藥物發(fā)現(xiàn) （QSAR 學(xué)習(xí)，即定量構(gòu)效關(guān)系）、類基因表達(dá)的預(yù)測(cè) （跨越不同組織類型和藥物治療）、元機(jī)器學(xué)習(xí) （預(yù)測(cè)機(jī)器學(xué)習(xí)方法解決問(wèn)題的效果） ——的數(shù)千個(gè)機(jī)器學(xué)習(xí)任務(wù)。

對(duì)于每一種機(jī)器學(xué)習(xí)方法和每一個(gè)問(wèn)題領(lǐng)域，我們比較了轉(zhuǎn)換機(jī)器學(xué)習(xí)和基準(zhǔn)機(jī)器學(xué)習(xí)算法的表現(xiàn)。我們研究了兩種形式的預(yù)測(cè)改進(jìn)：強(qiáng)改進(jìn)和聯(lián)合改進(jìn)。強(qiáng)改進(jìn)即使用新的轉(zhuǎn)換機(jī)器學(xué)習(xí)特征，得出的預(yù)測(cè)優(yōu)于使用基于基準(zhǔn) （內(nèi)生）特征的得出預(yù)測(cè)。聯(lián)合改進(jìn)即以基準(zhǔn)特征作為新的轉(zhuǎn)換機(jī)器學(xué)習(xí)特征，以提高預(yù)測(cè)性能。為了增強(qiáng)轉(zhuǎn)換機(jī)器學(xué)習(xí)預(yù)測(cè)性能，我們使用了最簡(jiǎn)單的疊加方法：組合預(yù)測(cè)結(jié)果。我們發(fā)現(xiàn)，轉(zhuǎn)換機(jī)器學(xué)習(xí)在三個(gè)領(lǐng)域中均顯著提高了所有方法的平均預(yù)測(cè)性能（提高幅度從4% 到50%），即針對(duì)新的外生特征訓(xùn)練的模型通常優(yōu)于針對(duì)內(nèi)生特征訓(xùn)練的模型（表1）。

表1. 預(yù)測(cè)結(jié)果，表中數(shù)值為均方根誤差（RMSE）。加粗的數(shù)值為某應(yīng)用場(chǎng)景下的最優(yōu)結(jié)果。基準(zhǔn)結(jié)果使用標(biāo)準(zhǔn)內(nèi)生表征及對(duì)應(yīng)的機(jī)器學(xué)習(xí)算法得出的結(jié)果。轉(zhuǎn)換機(jī)器學(xué)習(xí)使用外生表征得出結(jié)果。均方根誤差為各應(yīng)用領(lǐng)域中數(shù)千次任務(wù)的平均值。我們測(cè)試了兩種疊加方式：最小二乘法（convex squares）（非負(fù)最?。┖蛶X回歸（ridge regression）。我們使用了兩種顯著性檢驗(yàn)：t 檢驗(yàn)和 Wilcoxon 檢驗(yàn)。兩種方法都檢驗(yàn)了標(biāo)準(zhǔn)方法與轉(zhuǎn)換機(jī)器學(xué)習(xí)之間均方根誤差的差異是否顯著（p< 0.05），前者檢驗(yàn)了兩種方法的均方根誤差中位數(shù)是否存在統(tǒng)計(jì)上的差異，后者檢驗(yàn)了兩種方法的均方根誤差平均數(shù)是否存在統(tǒng)計(jì)上的差異。

幾乎所有的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法都被應(yīng)用于 QSAR 問(wèn)題[23] ，但是仍未發(fā)現(xiàn)一種最好的方法[24,25]。 QSAR非常適合應(yīng)用轉(zhuǎn)換機(jī)器學(xué)習(xí)，因?yàn)樗幬锓肿颖碚骺梢酝ㄟ^(guò)相關(guān)的靶蛋白而相互關(guān)聯(lián) 。例如，在小鼠和人類中抑制二氫葉酸還原酶（DHFR ）的問(wèn)題是相似的，因?yàn)閮烧哂邢嗨频呐潴w結(jié)合位點(diǎn)[活性中心][26]，而且它們涉及的分子相同或相關(guān)[26 -28]。為了評(píng)價(jià)用于 QSAR 學(xué)習(xí)的轉(zhuǎn)換機(jī)器學(xué)習(xí)，我們使用了2219個(gè) QSAR 問(wèn)題[24,25]。QSAR 基準(zhǔn) （內(nèi)生）表征是1024位的分子指紋表征，這已經(jīng)被證明是有效的[25]。對(duì)于每種基準(zhǔn)機(jī)器學(xué)習(xí)算法（RF，SVM，k-NN 和 NN），我們使用先前訓(xùn)練的模型所預(yù)測(cè)的化合物活性，獲得轉(zhuǎn)換機(jī)器學(xué)習(xí)的外生特征。然后使用基準(zhǔn)機(jī)器學(xué)習(xí)方法訓(xùn)練 QSAR 模型。在所有方法中，轉(zhuǎn)換機(jī)器學(xué)習(xí)預(yù)測(cè)效果均優(yōu)于基準(zhǔn)算法。有關(guān)結(jié)果見(jiàn)表1。我們發(fā)現(xiàn)總體結(jié)果最好的是疊加了梯度提升機(jī)的轉(zhuǎn)換機(jī)器學(xué)習(xí)模型，其結(jié)果相較于基準(zhǔn)梯度提升機(jī)提升了7%，其次是疊加了神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換機(jī)器學(xué)習(xí)模型。值得注意的是，該數(shù)據(jù)集已被廣泛研究[18種學(xué)習(xí)方法和6種分子表征[25]] ，并且轉(zhuǎn)換機(jī)器學(xué)習(xí)顯著優(yōu)于之前的最佳結(jié)果。

對(duì)于第二個(gè)問(wèn)題領(lǐng)域，我們使用了基于集成網(wǎng)絡(luò)的細(xì)胞特征數(shù)據(jù)庫(kù) （LINCS） [29] ，它描述了在118050個(gè)實(shí)驗(yàn)條件下測(cè)量的978個(gè)標(biāo)志性人類基因的表達(dá)水平。我們將機(jī)器學(xué)習(xí)任務(wù)看作是在給定實(shí)驗(yàn)條件（細(xì)胞類型、藥物和劑量）下，為每個(gè)基因建立一個(gè)能夠預(yù)測(cè)其表達(dá)水平的模型。基因表達(dá)預(yù)測(cè)問(wèn)題也適合轉(zhuǎn)換機(jī)器學(xué)習(xí)，因?yàn)榇嬖诨蜷g關(guān)系（同源性、共同信號(hào)通路等） 和實(shí)驗(yàn)條件間關(guān)系 （藥物相似性等），可用于提高預(yù)測(cè)性能。使用與 QSAR 問(wèn)題相同的方法，我們使用隨機(jī)森林、支持向量機(jī)、k-最近鄰和神經(jīng)網(wǎng)絡(luò)進(jìn)行了比較評(píng)價(jià)，比較了使用內(nèi)生表征和轉(zhuǎn)換機(jī)器學(xué)習(xí)表征的模型，結(jié)果見(jiàn)表1。所有方法中，使用轉(zhuǎn)換機(jī)器學(xué)習(xí)的模型都優(yōu)于基準(zhǔn)機(jī)器學(xué)習(xí)。我們發(fā)現(xiàn)，隨機(jī)森林的總體結(jié)果提升最大，相比基準(zhǔn)提升了4% ，其次提升較大的是梯度提升機(jī)和支持向量機(jī)模型。

第三個(gè)評(píng)價(jià)問(wèn)題領(lǐng)域來(lái)自機(jī)器學(xué)習(xí)，其基本問(wèn)題是選擇適用于新任務(wù)的最佳機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)是解決該問(wèn)題的一個(gè)有效途徑，這被稱為元機(jī)器學(xué)習(xí) 。機(jī)器學(xué)習(xí)模型的任務(wù)是：給定訓(xùn)練數(shù)據(jù)的特征（例如訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分布），學(xué)習(xí)一個(gè)用于預(yù)測(cè)機(jī)器學(xué)習(xí)算法在新任務(wù) （給定特定的任務(wù)）上性能的元模型。這一場(chǎng)景也適合轉(zhuǎn)換機(jī)器學(xué)習(xí)，因?yàn)闄C(jī)器學(xué)習(xí)任務(wù)可以通過(guò)具有類似的數(shù)據(jù)分布和數(shù)據(jù)屬性（如缺失值）或包含由相似過(guò)程生成的數(shù)據(jù)而發(fā)生關(guān)聯(lián)。從 OpenML[31]中，我們對(duì)351個(gè)任務(wù)和53個(gè)機(jī)器學(xué)習(xí)方法進(jìn)行了10840個(gè)評(píng)價(jià)，產(chǎn)生了351個(gè)元學(xué)習(xí)任務(wù)，結(jié)果見(jiàn)表1。在所有方法中，使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的算法都優(yōu)于基準(zhǔn)機(jī)器學(xué)習(xí)算法。總體來(lái)看，提升最大的是使用轉(zhuǎn)換機(jī)器學(xué)習(xí)的隨機(jī)森林，相比使用內(nèi)生特征的算法提高了50% 。使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的梯度提升機(jī)也比基準(zhǔn)算法有相似程度的提升，對(duì)于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)，使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征后，性能也有提升。對(duì)于 k-最近鄰，疊加轉(zhuǎn)換機(jī)器學(xué)習(xí)特征的效果最好。相比之前描述的場(chǎng)景，使用轉(zhuǎn)換機(jī)器學(xué)習(xí)特征，預(yù)測(cè)性能提高的百分比要大得多。這可能是因?yàn)樵?/span> （內(nèi)生）特征對(duì)訓(xùn)練數(shù)據(jù)集的描述較差，而轉(zhuǎn)換機(jī)器學(xué)習(xí)特征編碼了更多關(guān)于算法在不同任務(wù)中的隱含信息。此外，相比之前的場(chǎng)景，預(yù)測(cè)性能的實(shí)驗(yàn)噪音較小。

4. 轉(zhuǎn)換機(jī)器學(xué)習(xí)的可解釋性

機(jī)器學(xué)習(xí)的一個(gè)越來(lái)越重要的分支是可解釋的人工智能，因?yàn)樵谠S多應(yīng)用（例如醫(yī)學(xué)或金融）中，有必要使預(yù)測(cè)具有可理解性。在科學(xué)領(lǐng)域，可解釋的機(jī)器學(xué)習(xí)預(yù)測(cè)模型會(huì)帶來(lái)科學(xué)新知。機(jī)器學(xué)習(xí)模型的可理解性取決于模型的簡(jiǎn)單性，及模型表征與人類概念間的密切程度。概念結(jié)構(gòu)的標(biāo)準(zhǔn)理論起源于亞里士多德，以定義和解釋概念間存在充分必要條件為基礎(chǔ)。轉(zhuǎn)換機(jī)器學(xué)習(xí)模型的可解釋性基于相似概念存在多種可替換的學(xué)習(xí)方法 [33,34]。

在藥物設(shè)計(jì)領(lǐng)域利用隨機(jī)森林模型，我們說(shuō)明了轉(zhuǎn)換機(jī)器學(xué)習(xí)模型能夠以三種方式產(chǎn)生科學(xué)新知。首先，我們闡明了如何使用轉(zhuǎn)換機(jī)器學(xué)習(xí)模型為特定藥物靶標(biāo) H. sapiens DHFR 的 QSAR 預(yù)測(cè)提供解釋。表2列出了對(duì) H. sapiens DHFR 藥物活性預(yù)測(cè)最重要的10個(gè)特征（基準(zhǔn)模型）。正如所料，該列表中還有其它 DFHR 靶標(biāo)的模型。但有趣的是，這些模型是細(xì)菌（ L. casei，E. coli ，和 M. avium ）的模型，而不是哺乳動(dòng)物的模型。這三個(gè)細(xì)菌的 DHFR 模型對(duì)人類 DHFR 的預(yù)測(cè)有所貢獻(xiàn)，其中 L. casei 的DHFR最像人類，而 E. coli 和 M. avium 的DHFR 明顯不同，因?yàn)镋. coli DHFR 與甲氧芐氨嘧啶抗生素結(jié)合緊密，而 M. avium 的 DHFR 具有耐藥性。這些信息有助于設(shè)計(jì)人類 DHFR 抑制劑，以更好地治療癌癥。表2中的其它特征也提供了類似的洞見(jiàn)。

表2. 預(yù)測(cè)人類 DHFR活性最佳的十種模型

轉(zhuǎn)換機(jī)器學(xué)習(xí)也可以通過(guò)聚類（非監(jiān)督學(xué)習(xí)）提供科學(xué)新知?；瘜W(xué)信息學(xué)中一個(gè)基本問(wèn)題是估計(jì)化合物之間的相似性。標(biāo)準(zhǔn)方法基于化學(xué)結(jié)構(gòu)的相似性來(lái)估計(jì)化合物間的相似性，比如根據(jù)分子指紋和圖相似性上的 Tanimoto （Jaccard）系數(shù)距離估計(jì)。然而，當(dāng)比較藥物時(shí)，功能相似性而不是結(jié)構(gòu)相似性更受關(guān)注[15]。功能相似性可以使用實(shí)驗(yàn)積累的信息來(lái)度量，這些信息被編碼于 QSAR 模型中，可用于預(yù)測(cè)藥物針對(duì)靶標(biāo)的活性（圖2A）。該預(yù)測(cè)結(jié)果可用于計(jì)算藥物和它們藥理特征間的距離。圖2B使用轉(zhuǎn)換機(jī)器學(xué)習(xí)，將美國(guó)食品藥物管理局（FDA）批準(zhǔn)的藥物聚類成三簇。盡管這些化合物的藥理學(xué)關(guān)系很復(fù)雜，但這些藥品都與血清素和多巴胺受體相互作用有關(guān)?？梢允褂棉D(zhuǎn)換機(jī)器學(xué)習(xí)對(duì)這一相互作用進(jìn)行預(yù)測(cè)，并將其用于聚類?？梢愿鶕?jù)聚類后化合物的相對(duì)位置，預(yù)測(cè)不同化合物的藥理學(xué)特征。

圖2.（A）轉(zhuǎn)換機(jī)器學(xué)習(xí)在聚類分析中的應(yīng)用，通過(guò)對(duì)藥物分子進(jìn)行表征來(lái)對(duì)藥物聚類。在這些表征中，每個(gè)元素都是藥物對(duì)其中一個(gè)靶標(biāo)（問(wèn)題）的預(yù)測(cè)值。

（B）通過(guò)化合物在 QSAR 靶標(biāo)的預(yù)測(cè)活性對(duì)化合物聚類。該圖顯示了獲得 FDA 批準(zhǔn)的化合物（顏色代表簇）的聚類，以及三個(gè)密切相關(guān)的簇和放大的單簇。

（C）通過(guò)化學(xué)表征對(duì)藥物靶標(biāo)聚類。該圖顯示了 FDA 批準(zhǔn)的藥物的蛋白質(zhì)靶標(biāo)的整體聚類（顏色代表簇）和一個(gè)單簇的放大部分。

我們應(yīng)用類似的方法來(lái)估計(jì)蛋白質(zhì)靶標(biāo)相似性這一生物信息學(xué)問(wèn)題（圖2C）。該任務(wù)的標(biāo)準(zhǔn)方法是使用序列對(duì)比估計(jì)進(jìn)化距離。然而，在大多數(shù)問(wèn)題中，最重要的不是進(jìn)化距離，而是蛋白質(zhì)活性位點(diǎn)的功能相似性。我們可以使用轉(zhuǎn)換機(jī)器學(xué)習(xí) QSAR 模型中積累的信息估計(jì)功能相似性。我們刻畫(huà)了每一個(gè)靶標(biāo)的藥物活性預(yù)測(cè)，即 FDA 批準(zhǔn)的化合物對(duì)靶標(biāo)的活性預(yù)測(cè)。和化合物相似性預(yù)測(cè)一樣，我們認(rèn)為藥物設(shè)計(jì)的聚類比傳統(tǒng)的進(jìn)化距離提供了更多的洞見(jiàn)，因?yàn)樗腔诎袠?biāo)對(duì)化合物的實(shí)證響應(yīng)得出的。QSAR 相似性預(yù)測(cè)模型識(shí)別出的一個(gè)有趣的蛋白質(zhì) （藥物靶標(biāo)）團(tuán)簇如圖2C 所示。盡管這一組蛋白質(zhì)沒(méi)有任何明顯的結(jié)構(gòu)相似性，但這些（哺乳動(dòng)物）蛋白質(zhì)的功能與新陳代謝控制有著明確的關(guān)聯(lián)。

5. 轉(zhuǎn)換機(jī)器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)的對(duì)比

將轉(zhuǎn)換機(jī)器學(xué)習(xí)與當(dāng)前最重要的機(jī)器學(xué)習(xí)算法——深度神經(jīng)網(wǎng)絡(luò) （DNNs） [35]進(jìn)行比較是很有啟發(fā)性的。DNN 的輸入是典型的空間結(jié)構(gòu)或順序結(jié)構(gòu)，輸入結(jié)構(gòu)的先驗(yàn)知識(shí)被編碼于網(wǎng)絡(luò)結(jié)構(gòu)。DNN 的成功在于它能夠利用多個(gè)神經(jīng)網(wǎng)絡(luò)層和大量數(shù)據(jù)，學(xué)習(xí)如何將較差的輸入表征（如圖像像素值）映射到豐富和有效的潛在表征。這是通過(guò)使用可微學(xué)習(xí)模型和端到端學(xué)習(xí)來(lái)實(shí)現(xiàn)的。改善較差輸入表征的能力，使 DNN 能夠在原先被證明不適合機(jī)器學(xué)習(xí)的領(lǐng)域取得成功：例如在圍棋[36]等游戲中擊敗世界冠軍，比人類專家更好地診斷皮膚癌[9]。從 DNN 的成功中得到的一個(gè)關(guān)鍵經(jīng)驗(yàn)是，利用機(jī)器學(xué)習(xí)能夠增強(qiáng)機(jī)器學(xué)習(xí)的表征，而這正是轉(zhuǎn)換機(jī)器學(xué)習(xí)所做的事情。DNN最適用于有大量可用于訓(xùn)練良好表征的數(shù)據(jù)，并且不要求所用符號(hào)模型適于人類認(rèn)知的問(wèn)題。而大多數(shù)科學(xué)問(wèn)題領(lǐng)域都不滿足這些標(biāo)準(zhǔn)。

標(biāo)準(zhǔn) DNN 算法在需要處理多任務(wù)問(wèn)題時(shí)，需要學(xué)習(xí)包含所有問(wèn)題的單一大型模型。與轉(zhuǎn)換機(jī)器學(xué)習(xí)相比，DNN 問(wèn)題間的關(guān)系和訓(xùn)練數(shù)據(jù)間的關(guān)系都不是以轉(zhuǎn)換特征的形式外顯化的。對(duì)于多任務(wù)問(wèn)題，轉(zhuǎn)換機(jī)器學(xué)習(xí)還具有支持增量機(jī)器學(xué)習(xí)的優(yōu)勢(shì)：如果添加新數(shù)據(jù)或新任務(wù)，那么無(wú)需重新學(xué)習(xí)任務(wù)模型。雖然轉(zhuǎn)換機(jī)器學(xué)習(xí)增加了一些額外的計(jì)算代價(jià)，但是與 DNN 學(xué)習(xí)相比，轉(zhuǎn)換機(jī)器學(xué)習(xí)的額外代價(jià)很低。

6. 構(gòu)建機(jī)器學(xué)習(xí)的生態(tài)系統(tǒng)

機(jī)器學(xué)習(xí)的傳統(tǒng)方法是將每個(gè)學(xué)習(xí)任務(wù)看作一個(gè)單獨(dú)的問(wèn)題。隨著多任務(wù)學(xué)習(xí)[10]、遷移學(xué)習(xí) [13]、終身學(xué)習(xí) （life-long learning） [37]等方面的進(jìn)展，這種觀點(diǎn)開(kāi)始發(fā)生變化。轉(zhuǎn)換機(jī)器學(xué)習(xí)使我們對(duì)作為生態(tài)系統(tǒng)的機(jī)器學(xué)習(xí)有了更廣闊的視野。在這個(gè)生態(tài)系統(tǒng)中，學(xué)習(xí)任務(wù)、學(xué)習(xí)實(shí)例、機(jī)器學(xué)習(xí)方法、機(jī)器學(xué)習(xí)預(yù)測(cè)、元機(jī)器學(xué)習(xí)方法等等都能夠協(xié)同作用，以提升生態(tài)系統(tǒng)中所有任務(wù)的性能和可解釋性。增加更多的訓(xùn)練數(shù)據(jù)，不僅能夠改進(jìn)特定任務(wù)的模型（使用特征選擇、集成學(xué)習(xí)、疊加學(xué)習(xí)、轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等），還能改進(jìn)所有其它使用特定任務(wù)模型的模型（轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等）。與此類似，添加了新任務(wù)能夠擴(kuò)展轉(zhuǎn)換后的表征，從而可通過(guò)轉(zhuǎn)換機(jī)器學(xué)習(xí)、二階轉(zhuǎn)換機(jī)器學(xué)習(xí)等方式改進(jìn)所有其它任務(wù)的模型。添加新的機(jī)器學(xué)習(xí)或元機(jī)器學(xué)習(xí)方法，那么所有的任務(wù)模型都會(huì)得到改進(jìn)。在這樣一個(gè)機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)中，隨著新知識(shí)的增加，預(yù)測(cè)性能將逐步提高[38]。因?yàn)閬?lái)自許多不同來(lái)源的先驗(yàn)知識(shí)被用于所有預(yù)測(cè)任務(wù)中[38]，預(yù)測(cè)也將更加可靠。

在機(jī)器學(xué)習(xí)領(lǐng)域，人們對(duì) 機(jī)器學(xué)習(xí)的自動(dòng)化 越來(lái)越感興趣，并且存在許多或免費(fèi)或商業(yè)的系統(tǒng)，這些系統(tǒng)能夠自動(dòng)進(jìn)行機(jī)器學(xué)習(xí)以解決新的問(wèn)題。例如，Auto-WEKA 和 Auto-sklearn [39]通過(guò)搜索可能的機(jī)器學(xué)習(xí)方法和超參數(shù)空間來(lái)優(yōu)化機(jī)器學(xué)習(xí)的預(yù)測(cè)性能。然而，目前還沒(méi)有一個(gè)機(jī)器學(xué)習(xí)自動(dòng)化系統(tǒng)，能夠發(fā)現(xiàn)一個(gè)有價(jià)值的機(jī)器學(xué)習(xí)新技巧，例如dropout、疊加等。盡管目前有越來(lái)越多將科學(xué)發(fā)現(xiàn)自動(dòng)化的人工智能系統(tǒng)[40] ，但這些系統(tǒng)高度依賴機(jī)器學(xué)習(xí)，而很少有工作將人工智能發(fā)現(xiàn)系統(tǒng)應(yīng)用于機(jī)器學(xué)習(xí)。發(fā)展能夠發(fā)現(xiàn)重要機(jī)器學(xué)習(xí)新技巧的機(jī)器學(xué)習(xí)系統(tǒng)，將改變機(jī)器學(xué)習(xí)和整個(gè)世界。

7. 數(shù)據(jù)集，代碼與模型的開(kāi)源

為實(shí)現(xiàn)可重復(fù)性，本文所涉及的數(shù)千個(gè)數(shù)據(jù)集（QSAR，LINCS，Metalearning），代碼的鏈接（TML，RF，XGB，SVM，k-NN，NN），以及包括所有決策樹(shù)的約50000個(gè)隨機(jī)森林模型都可以在開(kāi)放科學(xué)平臺(tái) （Open Science Platform，OSP）的知識(shí)共享許可協(xié)議數(shù)據(jù)庫(kù)中獲得：https://osf.io/vbn5u/?？偣灿屑s100 GB 的壓縮數(shù)據(jù)。 很少有機(jī)器學(xué)習(xí)項(xiàng)目能將如此多的可重復(fù)數(shù)據(jù)放到網(wǎng)上 。為了最大化其附加價(jià)值，我們遵循了公開(kāi)數(shù)字對(duì)象的FAIR原則（Findability，Accessibility，Interoperability，and Reusability，即可發(fā)現(xiàn)，可訪問(wèn)，可互操作，可重用） [41]。

翻譯名詞對(duì)照

TL：transfer learning，遷移學(xué)習(xí)

MTL：multitask learning，多任務(wù)學(xué)習(xí)

RF：random forests，隨機(jī)森林

XGB：gradient boosting machine，梯度增強(qiáng)機(jī)

SVM：support vector machine，支持向量機(jī)

KNN：k-nearest neighbors，k-最近鄰

NN：neural network，神經(jīng)網(wǎng)絡(luò)

DNN：deep neural network，深度神經(jīng)網(wǎng)絡(luò)

QSAR：Quantitative structure–activity relationship，定量構(gòu)效關(guān)系

責(zé)任編輯：張燕妮來(lái)源：集智俱樂(lè)部

機(jī)器學(xué)習(xí)數(shù)據(jù)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="gdp8r"></sub>

<blockquote id="gdp8r"></blockquote>