AI為人類開藥方:準(zhǔn)確預(yù)測9000名癌癥患者適用藥物!成果登上Nature子刊,出自華人團(tuán)隊(duì)
只需一個(gè)AI,9808名癌癥患者對藥物的臨床反應(yīng),全能預(yù)測。
而且結(jié)果和臨床觀察表現(xiàn)一致。
這就是由紐約市立大學(xué)Lei Xie團(tuán)隊(duì)帶來的最新成果CODE-AE(context-aware deconfounding autoencoder)。
它提出一種新型的上下文自編碼模型,可以預(yù)測不同患者對藥物的特異性反應(yīng)。
這將對新藥開發(fā)和臨床試驗(yàn)產(chǎn)生重大影響。
要知道,傳統(tǒng)模式下一種新藥開發(fā)、試驗(yàn)、完全上市,中間需要近10年的時(shí)間,消耗的資金也空前龐大,動輒就是10億美元。
周期會如此之長,是因?yàn)樾滤幵谌梭w內(nèi)的反應(yīng)難以預(yù)測,往往需要反復(fù)試驗(yàn)進(jìn)行測試。
而如果AI能夠利用數(shù)據(jù)進(jìn)行預(yù)測,將大幅縮短新藥上市時(shí)間,降低成本。
目前,該研究登上Nature子刊《Nature Machine Intelligence》。
簡單來說,CODE-AE是利用新藥在體外細(xì)胞驗(yàn)證上的數(shù)據(jù),來預(yù)測藥物在人體身上會產(chǎn)生的反應(yīng)。
這樣就避免了AI模型訓(xùn)練對患者臨床數(shù)據(jù)的依賴。
過去AI在臨床反應(yīng)預(yù)測上效果一直不算好的最大原因,便是想要收集海量、連續(xù)臨床反應(yīng)數(shù)據(jù)實(shí)在是太難了。
從機(jī)制上來看,研究人員將藥物生物標(biāo)志物分為了源域(source domain)和目標(biāo)域(target domain)。
源域表示和測試樣本不同的領(lǐng)域,但是有豐富的監(jiān)督信息,在這里可以理解為體外細(xì)胞驗(yàn)證的數(shù)據(jù)。
目標(biāo)域是測試樣本所在的領(lǐng)域,無標(biāo)簽或只有少量標(biāo)簽,也就是患者數(shù)據(jù)。
將不同領(lǐng)域的數(shù)據(jù)特征映射到同一個(gè)特征空間,使其在該空間中的距離盡可能近。
于是在特征空間中對源域訓(xùn)練的目標(biāo)函數(shù),就可以遷移到目標(biāo)域,提高目標(biāo)域上的準(zhǔn)確率。
放在該研究背景下,源域和目標(biāo)域都是藥物生物標(biāo)志物的數(shù)據(jù)特征,即藥物靶標(biāo)的數(shù)據(jù)特征。
具體來看模型框架,主要分為三個(gè)部分:預(yù)訓(xùn)練、微調(diào)和推理。
預(yù)訓(xùn)練主要用了自監(jiān)督學(xué)習(xí),構(gòu)建一個(gè)特征編碼模塊,將體外細(xì)胞數(shù)據(jù)和患者數(shù)據(jù)的未標(biāo)記基因表達(dá)譜,映射到嵌入空間中。這樣一來可以把一些混雜因素排除掉,讓兩種數(shù)據(jù)的潛入分布一致,以消除系統(tǒng)偏差。
微調(diào)階段,是在預(yù)訓(xùn)練的基礎(chǔ)上再加一個(gè)監(jiān)督模型,并利用已經(jīng)標(biāo)記的體外細(xì)胞數(shù)據(jù)來進(jìn)行訓(xùn)練。
最后在推理階段,先從預(yù)訓(xùn)練中獲得的患者去歧對其嵌入,然后再利用調(diào)優(yōu)后的模型,來預(yù)測患者對藥物的反應(yīng)。
在這種模式下,CODE-AE具備兩個(gè)特點(diǎn)。
第一,它可以提取不連貫樣本中的常見生物信號和私有表示,從而排除掉由于數(shù)據(jù)模式不同帶來的干擾。
第二,將藥物響應(yīng)信號和混雜因素分離后,還可以實(shí)現(xiàn)局部對齊。
總結(jié)來看,CODE-AE可以理解為在標(biāo)記和無標(biāo)記數(shù)據(jù)的非相干數(shù)據(jù)模式嵌入空間中,選擇唯一特征的過程。
為了論證模型的有效性,研究人員對9808位癌癥患者的藥物適用情況進(jìn)行預(yù)測。
如果模型對患者情況預(yù)測出的位點(diǎn)結(jié)果,和他使用的藥物靶點(diǎn)有關(guān),就證明預(yù)測是正確的。
然后,研究人員將患者分為100個(gè)聚類,將59種藥物也分為30個(gè)聚類。
通過這種分析方法,可以讓具有相似藥物反應(yīng)譜的患者被分在一起。
在此,我們以肺鱗狀細(xì)胞癌患者(LSCC)和非小細(xì)胞肺癌患者(NSCLC)的聚類為例。
在59種藥物中,LSCC最敏感的藥物為吉非替尼、AICAR和吉西他濱。
其中吉非替尼、AICAR的作用靶點(diǎn)都是一種表皮生長因子受體(EGFR),吉西他濱常被用于沒有EGFR突變的非小細(xì)胞肺癌治療。
論文表示,和這些藥物作用模式一致,CODE-AE發(fā)現(xiàn)使用吉非替尼、AICAR的患者,藥物反應(yīng)圖譜相似。
也就是說,CODE-AE發(fā)現(xiàn)了患者治療的正確靶點(diǎn),即可以預(yù)測適用藥物。
如上研究團(tuán)隊(duì)來自紐約市立大學(xué)。
通訊作者為Lei Xie,他本科畢業(yè)于中國科學(xué)技術(shù)大學(xué)高分子物理專業(yè)。
碩士畢業(yè)于羅格斯大學(xué)計(jì)算機(jī)科學(xué)專業(yè);博士同在羅格斯大學(xué),但拿的是化學(xué)系學(xué)位。
據(jù)了解,該研究團(tuán)隊(duì)下一步將開發(fā)CODE-AE對新藥臨床反應(yīng)在濃度、代謝方面的預(yù)測功能。
研究人員表示,該AI模型還有可能被調(diào)整為用于預(yù)測藥物對人體的副作用影響。
值得一提的是,Nature子刊《Nature Machine Intelligence》專門關(guān)注人工智能和生命科學(xué)跨學(xué)科應(yīng)用研究,每年收錄論文平均數(shù)量在60篇左右。
論文地址:https://www.nature.com/articles/s42256-022-00541-0
參考鏈接:https://phys.org/news/2022-10-ai-accurately-human-response-drug.html