自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

醫(yī)藥探索中的人工智能

譯文 精選
人工智能
本文探討了TypeD崔皓B幫助科學(xué)家們實(shí)現(xiàn)醫(yī)學(xué)上的下一個(gè)突破,并且會(huì)通過(guò)指導(dǎo)性的代碼例子和視覺(jué)效果展示結(jié)果。

譯者 | 崔皓

審校 | 孫淑娟

開(kāi)篇

本文探討了TypeDB幫助科學(xué)家們實(shí)現(xiàn)醫(yī)學(xué)上的下一個(gè)突破,并且會(huì)通過(guò)指導(dǎo)性的代碼例子和視覺(jué)效果展示結(jié)果。

生物技術(shù)領(lǐng)域存在大量的炒作都集中于革命性藥物發(fā)現(xiàn)上。畢竟,過(guò)去十年是該領(lǐng)域的黃金時(shí)代。與之前的十年相比,2012年到2021年這段時(shí)間批準(zhǔn)的新藥增加了73%--比之前的十年增加了25%。這些藥物包括治療癌癥的免疫療法、基因療法,當(dāng)然還有科威德疫苗。從這些方面可以看出制藥業(yè)做得很好。

但其呈現(xiàn)的趨勢(shì)也越來(lái)越令人擔(dān)憂。藥物發(fā)現(xiàn)的成本和風(fēng)險(xiǎn)正變得令人望而卻步。截至到當(dāng)前,新藥推向市場(chǎng)的平均費(fèi)用在10億至30億美元,平均時(shí)間在12至18年。同時(shí),一種新藥的平均價(jià)格已經(jīng)從2007年的2千美元飆升到2021年的18萬(wàn)美元。

這就是為什么許多人把希望寄托在人工智能(AI)(如統(tǒng)計(jì)機(jī)器學(xué)習(xí))上,以幫助加速新藥的開(kāi)發(fā),從早期目標(biāo)識(shí)別到試驗(yàn)。雖然已經(jīng)利用各種機(jī)器學(xué)習(xí)算法確定了一些化合物,但這些化合物仍處于早期發(fā)現(xiàn)或臨床前的開(kāi)發(fā)階段。人工智能徹底改變藥物發(fā)現(xiàn)的承諾仍然是令人興奮但尚未實(shí)現(xiàn)的承諾。

什么是人工智能?

為了實(shí)現(xiàn)這一承諾,理解人工智能的真正含義就顯得至關(guān)重要了。近年來(lái),人工智能這個(gè)詞已經(jīng)成為相當(dāng)熱門(mén)的詞匯,沒(méi)有多少技術(shù)含量。那么,什么才是真正的人工智能?

人工智能,作為一個(gè)學(xué)術(shù)領(lǐng)域,從20世紀(jì)50年代起就已經(jīng)存在了,隨著時(shí)間的推移,分支成各種類(lèi)型,代表不同的學(xué)習(xí)方式。佩德羅-多明戈斯教授在《算法大師》一書(shū)中對(duì)這些類(lèi)型進(jìn)行了描述(他稱它們?yōu)?"部落"):連接主義者、符號(hào)主義者、進(jìn)化主義者、貝葉斯主義者和模擬主義者。

在過(guò)去的十年里,貝葉斯主義者和連接主義者受到了公眾的廣泛關(guān)注,而符號(hào)主義者則不同。符號(hào)學(xué)派在進(jìn)行邏輯推理的規(guī)則集的基礎(chǔ)上,創(chuàng)造出真實(shí)的世界表征。符號(hào)人工智能系統(tǒng)沒(méi)有其他類(lèi)型的人工智能所享有的巨大宣傳,但它們擁有其他類(lèi)型所缺乏的獨(dú)特而重要的能力:自動(dòng)推理和知識(shí)表示。

對(duì)生物醫(yī)學(xué)知識(shí)的表現(xiàn)

事實(shí)上,知識(shí)表現(xiàn)的問(wèn)題正是藥物發(fā)現(xiàn)中最大的問(wèn)題之一?,F(xiàn)有的數(shù)據(jù)庫(kù)軟件,如關(guān)系數(shù)據(jù)庫(kù)或圖形數(shù)據(jù)庫(kù),很難準(zhǔn)確地表示和理解生物學(xué)錯(cuò)綜復(fù)雜的問(wèn)題。

藥物探索所表述的問(wèn)題很好地說(shuō)明了要為不同的生物醫(yī)學(xué)數(shù)據(jù)源(如Uniprot或Disgenet)建立統(tǒng)一的模型。在數(shù)據(jù)庫(kù)層面,這意味著創(chuàng)建數(shù)據(jù)模型(有些人可能把這些稱為本體),描述無(wú)數(shù)復(fù)雜的實(shí)體和關(guān)系,如蛋白質(zhì)、基因、藥物、疾病、相互作用等之間的關(guān)系。

這就是TypeDB,一個(gè)開(kāi)源的數(shù)據(jù)庫(kù)軟件,旨在實(shí)現(xiàn)的目標(biāo)--使開(kāi)發(fā)者能夠創(chuàng)建高度復(fù)雜領(lǐng)域的真實(shí)表現(xiàn),計(jì)算機(jī)可以利用它來(lái)獲得洞察力。

TypeDB的類(lèi)型系統(tǒng)是基于實(shí)體關(guān)系的概念,代表了TypeDB中存儲(chǔ)的數(shù)據(jù)。這使得它足以捕捉復(fù)雜的生物醫(yī)學(xué)領(lǐng)域知識(shí)(通過(guò)類(lèi)型推理、嵌套關(guān)系、超關(guān)系、規(guī)則推理等),使科學(xué)家獲得洞察力并加速藥物開(kāi)發(fā)時(shí)間。

一家大型制藥公司的例子說(shuō)明了這一點(diǎn),該公司使用語(yǔ)義網(wǎng)標(biāo)準(zhǔn)為一個(gè)疾病網(wǎng)絡(luò)建模奮斗了五年多,但在遷移到TypeDB之后,僅用三周時(shí)間就成功實(shí)現(xiàn)了這一目標(biāo)。

例如,一個(gè)用TypeQL(TypeDB的查詢語(yǔ)言)編寫(xiě)的、描述蛋白質(zhì)、基因和疾病的生物醫(yī)學(xué)模型看起來(lái)如下:

define 

protein sub entity,
owns uniprot-id,
plays protein-disease-association:protein,
plays encode:encoded-protein;

gene sub entity,
owns entrez-id,
plays gene-disease-association:gene,
plays encode:encoding-gene;

disease sub entity,
owns disease-name,
plays gene-disease-association:disease,
plays protein-disease-association:disease;

encode sub relation,
relates encoded-protein,
relates encoding-gene;

protein-disease-association sub relation,
relates protein,
relates disease;

gene-disease-association sub relation,
relates gene,
relates disease;

uniprot-id sub attribute, value string;
entrez-id sub attribute, value string;
disease-name sub attribute, value string;

關(guān)于一個(gè)完整的工作實(shí)例,可以在Github上找到一個(gè)開(kāi)源的生物醫(yī)學(xué)知識(shí)圖。這是從各種著名的生物醫(yī)學(xué)資源加載數(shù)據(jù),如Uniprot、Disgenet、Reactome和其他。

有了存儲(chǔ)在TypeDB中的數(shù)據(jù),你可以運(yùn)行查詢,問(wèn)一些問(wèn)題,如:哪些藥物會(huì)與SARS病毒有關(guān)的基因相互作用?

為了回答這個(gè)問(wèn)題,我們可以使用TypeQL中的以下查詢。

match 
$virus isa virus, has virus-name "SARS";
$gene isa gene;
$drug isa drug;
($virus, $gene) isa gene-virus-association;
($gene, $drug) isa drug-gene-interaction;

運(yùn)行這個(gè)將使TypeDB返回符合查詢條件的數(shù)據(jù)。并可以在TypeDB Studio中可視化,如下所示,這將有助于了解哪些相關(guān)藥物可能值得進(jìn)一步調(diào)查。

通過(guò)自動(dòng)推理,TypeDB也可以推斷出數(shù)據(jù)庫(kù)中不存在的知識(shí)。這是通過(guò)編寫(xiě)規(guī)則來(lái)完成的,這些規(guī)則構(gòu)成了TypeDB中模式的一部分。例如,一個(gè)規(guī)則可以推斷出一個(gè)基因和一種疾病之間的關(guān)聯(lián),如果該基因編碼的蛋白質(zhì)與該疾病有關(guān)。這樣的規(guī)則將被寫(xiě)成:

rule inference-example:
when {
(encoding-gene: $gene, encoded-protein: $protein) isa encode;
(protein: $protein, disease: $disease) isa protein-disease-association;
} then {
(gene: $gene, disease: $disease) isa gene-disease-association;
};

然后,如果我們要插入以下數(shù)據(jù):

TypeDB將能夠推斷出基因和疾病之間的聯(lián)系,即使沒(méi)有插入到數(shù)據(jù)庫(kù)中。在這種情況下,以下關(guān)系基因-疾病-關(guān)聯(lián)將被推斷出來(lái)。

match
$gene isa gene, has gene-id "2";
$disease isa disease, has disease-name $dn; ;
(gene: $gene, disease: $disease) isa gene-disease-assocation;

通過(guò)機(jī)器學(xué)習(xí)加速目標(biāo)探索

有了TypeDB對(duì)生物醫(yī)學(xué)數(shù)據(jù)(符號(hào))進(jìn)行表示,再加上機(jī)器學(xué)習(xí)的上下文知識(shí)就可以讓整個(gè)系統(tǒng)變得更加強(qiáng)大,從而增強(qiáng)洞察力。例如,可以通過(guò)藥物探索管道發(fā)現(xiàn)有希望的目標(biāo)。

尋找有希望的目標(biāo)的方法是使用鏈接預(yù)測(cè)算法。TypeDB的規(guī)則引擎允許這樣的ML模型執(zhí)行,該模型通過(guò)推理推斷對(duì)事實(shí)進(jìn)行學(xué)習(xí)。這意味著從對(duì)平面的、無(wú)背景的數(shù)據(jù)學(xué)習(xí)轉(zhuǎn)向?qū)ν评淼?、有背景的知識(shí)學(xué)習(xí)。其中一個(gè)好處是,根據(jù)領(lǐng)域的邏輯規(guī)則,預(yù)測(cè)可以被概括到訓(xùn)練數(shù)據(jù)的范圍之外,并減少所需的訓(xùn)練數(shù)據(jù)量。

這樣一個(gè)藥物發(fā)現(xiàn)的工作流程如下:

1. 查詢TypeDB,創(chuàng)建上下文知識(shí)的子圖,利用TypeDB的全部表達(dá)能力。

2. 將子圖轉(zhuǎn)化為嵌入(embedding),并將這些嵌入到圖學(xué)習(xí)算法中。

3. 預(yù)測(cè)結(jié)果(例如,作為基因-疾病關(guān)聯(lián)之間的概率分?jǐn)?shù))可以被插入TypeDB,并用于驗(yàn)證/優(yōu)先考慮某些目標(biāo)。

有了數(shù)據(jù)庫(kù)中的這些預(yù)測(cè),我們可以提出更高層次的問(wèn)題,利用這些預(yù)測(cè)與數(shù)據(jù)庫(kù)中更廣泛的背景知識(shí)。比如說(shuō):什么是最有可能成為黑色素瘤的基因目標(biāo),這些基因編碼的蛋白質(zhì)在黑色素細(xì)胞中如何表達(dá)?

用TypeQL寫(xiě),這個(gè)問(wèn)題看起來(lái)如下:

match 
$gene isa gene, has gene-id $gene-id;
$protein isa protein;
$cell isa cell, has cell-type "melanocytes";
$disease isa disease, has disease-name "melanoma";
($gene, $protein) isa encode;
($protein, $cell) isa expression;
($gene, $disease) isa gene-disease-association, has prob $p;
get $gene-id; sort desc $p;

這個(gè)查詢的結(jié)果將是一個(gè)按概率分?jǐn)?shù)排序的基因列表(如圖學(xué)習(xí)者預(yù)測(cè)的):

{$gid "TOPGENE" isa gene-id;}
{$gid "BESTGENE" isa gene-id;}
{$gid "OTHERTARGET" isa gene-id;}
...

然后,我們可以進(jìn)一步研究這些基因,例如通過(guò)了解每個(gè)基因的生物學(xué)背景。比方說(shuō),我們想知道TOPGENE基因編碼的蛋白質(zhì)所處的組織。我們可以寫(xiě)下面的查詢。

match 
$gene isa gene, has gene-id $gene-id; $gene-id "TOPGENE";
$protein isa protein;
$tissue isa tissue, has name $name;
$rel1 ($gene, $protein);
$rel2 ($protein, $tissue);

在TypeDB Studio中可視化的結(jié)果,可以顯示這個(gè)基因編碼的蛋白質(zhì)在結(jié)腸、心臟和肝臟中的表達(dá):

結(jié)論

世界迫切需要?jiǎng)?chuàng)造治療破壞性疾病的解決方案,希望通過(guò)人工智能的創(chuàng)新建立一個(gè)更健康的世界,在這個(gè)世界中每種疾病都可以被治療。人工智能作用于藥物探索仍處于起步階段,但是如果一旦實(shí)現(xiàn)將會(huì)讓生物學(xué)釋放出新的創(chuàng)新浪潮,并使21世紀(jì)真正成為屬于它的紀(jì)元。

在這篇文章中,我們看了TypeDB是如何實(shí)現(xiàn)生物醫(yī)學(xué)知識(shí)的符號(hào)化表示,以及如何改善ML來(lái)為藥物探索做出貢獻(xiàn)的。在藥物探索中應(yīng)用人工智能的科學(xué)家們使用TypeDB來(lái)分析疾病網(wǎng)絡(luò),更好地理解生物醫(yī)學(xué)研究的復(fù)雜性,并發(fā)現(xiàn)新的和突破性的治療方式。

譯者介紹

崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開(kāi)發(fā)和架構(gòu)經(jīng)驗(yàn),10年分布式架構(gòu)經(jīng)驗(yàn)。

原文標(biāo)題:Artificial Intelligence in Drug Discovery,作者:Tomás Sabat

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2021-01-27 11:56:45

AIops人工智能AI

2018-05-28 11:41:39

AR

2022-07-22 18:47:30

AIOmniverse

2022-06-27 10:36:43

工業(yè)4.0人工智能

2024-10-31 08:00:00

云原生人工智能機(jī)器學(xué)習(xí)

2023-08-30 14:08:44

人工智能機(jī)器人

2022-01-20 08:25:42

數(shù)字營(yíng)銷(xiāo)人工智能AI

2021-10-04 15:36:27

人工智能機(jī)器學(xué)習(xí)工具

2022-01-19 11:38:55

人工智能數(shù)字營(yíng)銷(xiāo)技術(shù)

2023-08-27 00:04:59

2022-04-08 10:09:40

人工智能神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)

2021-01-05 15:39:30

人工智能科學(xué)技術(shù)

2024-04-12 11:35:17

人工智能機(jī)器人

2023-10-17 10:20:23

2021-06-10 10:13:39

醫(yī)療保健人工智能AI

2021-11-04 08:00:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2019-02-14 09:10:52

人工智能AI

2017-04-11 11:49:00

人工智能

2021-11-11 14:49:42

人工智能AI

2021-08-22 15:09:02

人工智能機(jī)器技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)