阿斯利康利用基于PyTorch的算法發(fā)現(xiàn)新藥物
譯文【51CTO.com快譯】自2017年推出以來(lái),F(xiàn)acebook的機(jī)器學(xué)習(xí)框架PyTorch已得到很好的利用,應(yīng)用廣泛,從支持Elon Musk的自動(dòng)駕駛汽車(chē)到驅(qū)動(dòng)機(jī)器人耕種項(xiàng)目,不一而足。
現(xiàn)在制藥公司阿斯利康(AstraZeneca)透露了其內(nèi)部工程師團(tuán)隊(duì)如何利用PyTorch,同樣重要的是簡(jiǎn)化和加快藥物發(fā)現(xiàn)。
阿斯利康的技術(shù)將PyTorch與微軟Azure機(jī)器學(xué)習(xí)相結(jié)合,可以梳理大量數(shù)據(jù),對(duì)于藥物、疾病、基因、蛋白質(zhì)或分子之間的復(fù)雜關(guān)系有一番新的了解。
這番了解可用于饋送給算法,算法進(jìn)而可以為某種疾病推薦許多藥物靶標(biāo),供科學(xué)家在實(shí)驗(yàn)室進(jìn)行測(cè)試。
這種方法便于在藥物發(fā)現(xiàn)之類(lèi)的領(lǐng)域取得巨大進(jìn)展,迄今為止,該領(lǐng)域一直基于昂貴且耗時(shí)的反復(fù)試驗(yàn)方法。
為了研制出對(duì)付某種疾病的新藥,科學(xué)家通常要在實(shí)驗(yàn)室測(cè)試不同的蛋白質(zhì)設(shè)計(jì)和組合,直至找到可行的解決方案,這就是為什么從藥物設(shè)計(jì)到準(zhǔn)備上市需要10到15年的時(shí)間。另一方面,阿斯利康的算法可以更快地確定科學(xué)家應(yīng)針對(duì)某種疾病尋找的十大藥物靶標(biāo)。
將自動(dòng)化應(yīng)用于藥物發(fā)現(xiàn)尤其有用,因?yàn)榭茖W(xué)家可以訪(fǎng)問(wèn)以幫助開(kāi)展研究的數(shù)據(jù)量每年急劇增長(zhǎng)。分析每天越來(lái)越龐大的數(shù)據(jù)庫(kù)以了解它們?nèi)绾螢樗幬锇l(fā)現(xiàn)提供信息,實(shí)際上成了一項(xiàng)超人才能完成的任務(wù)。
阿斯利康的機(jī)器學(xué)習(xí)工程師Gavin Edwards告訴ZDNet:“每年,可供研究人員使用的科學(xué)信息和數(shù)據(jù)的絕對(duì)量在增長(zhǎng)。通過(guò)利用AI和機(jī)器學(xué)習(xí)工具(比如PyTorch和Azure),我們就能迅速提取、整合和解讀來(lái)自多個(gè)來(lái)源的信息,旨在比我們手動(dòng)分析這些數(shù)據(jù)更迅速地得到更準(zhǔn)確的科學(xué)結(jié)論。”
許多可用數(shù)據(jù)是非結(jié)構(gòu)化文本,這時(shí)候PyTorch有了用武之地。Facebook開(kāi)發(fā)的這個(gè)軟件包基于Python編程語(yǔ)言,是一種開(kāi)源機(jī)器學(xué)習(xí)庫(kù),尤其適用于在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理(NLP)等領(lǐng)域處理密集數(shù)據(jù)科學(xué)任務(wù)的開(kāi)發(fā)人員。
阿斯利康的NLP團(tuán)隊(duì)使用PyTorch來(lái)定義和訓(xùn)練生物醫(yī)學(xué)文本挖掘算法,這種算法可以遍歷數(shù)據(jù),查找模式和趨勢(shì),并最終確定可用信息的結(jié)構(gòu)。
然后數(shù)據(jù)饋入到知識(shí)圖中,知識(shí)圖可以智能地將零星的信息連接起來(lái),以便可以將每個(gè)數(shù)據(jù)點(diǎn)置于上下文中來(lái)研究。圖用起來(lái)就像信息網(wǎng)絡(luò),不僅能反映每個(gè)數(shù)據(jù)的屬性(基因、蛋白質(zhì)、疾病和化合物),還能反映不同類(lèi)別之間的關(guān)系。
換句話(huà)說(shuō),知識(shí)圖全面地組織所有可用的科學(xué)數(shù)據(jù)。阿斯利康的工程師隨后利用微軟Azure機(jī)器學(xué)習(xí)的計(jì)算功能,使用知識(shí)圖來(lái)訓(xùn)練向科學(xué)家推薦新藥物靶標(biāo)的算法。
Edwards說(shuō):“我們將公共領(lǐng)域的研究和內(nèi)部研究結(jié)合到對(duì)復(fù)雜信息輕松編碼的圖中。通過(guò)在此基礎(chǔ)上使用機(jī)器學(xué)習(xí),我們可以訓(xùn)練機(jī)器學(xué)習(xí)模型,這些模型可以推薦新穎的藥物靶標(biāo),并有助于為管道決策提供信息。”
對(duì)于在實(shí)驗(yàn)室不懈地嘗試新藥物設(shè)計(jì)的科學(xué)家而言,用于藥物發(fā)現(xiàn)的推薦算法無(wú)疑聽(tīng)起來(lái)可以節(jié)省大量時(shí)間。但是Edwards及其團(tuán)隊(duì)還希望,他們?cè)趧?chuàng)建的知識(shí)圖可幫助研究人員找到新的聯(lián)系,探索新的路徑,并測(cè)試未經(jīng)證實(shí)的理論,又不浪費(fèi)太多時(shí)間。
可以縮小數(shù)點(diǎn)知識(shí)圖以便詳細(xì)查看問(wèn)題的某個(gè)方面,也可以擴(kuò)展知識(shí)圖以便提供跨不同研究分支的更廣泛視圖。因此,研究人員就能輕松獲得未利用的信息,這些信息可以為其項(xiàng)目帶來(lái)更多價(jià)值。
Edwards說(shuō):“我們的知識(shí)圖使研究人員可以提出有關(guān)基因、疾病、藥物和安全信息等方面的關(guān)鍵問(wèn)題,幫助識(shí)別藥物靶標(biāo)并確定優(yōu)先級(jí)。而且,隨著我們的數(shù)據(jù)和知識(shí)越來(lái)越豐富,我們的圖會(huì)隨之龐大,這意味著每個(gè)新試驗(yàn)都將得益于以前學(xué)到的知識(shí)。”
對(duì)于Edwards來(lái)說(shuō),這項(xiàng)技術(shù)的應(yīng)用范圍可能很大。在全球疫情持續(xù)不斷的情況下,這無(wú)疑是個(gè)好消息。
原文標(biāo)題:AstraZeneca is using PyTorch-powered algorithms to discover new drugs,作者:Daphne Leprince-Ringuet
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】