機(jī)器學(xué)習(xí)發(fā)現(xiàn)自閉癥中“非編碼突變”的秘密
一項(xiàng)***研究表明,在自閉癥當(dāng)中,基因之間發(fā)生的自發(fā)突變擁有與固有基因相等的重要作用。
這項(xiàng)研究被發(fā)表在5月27日的《自然——遺傳學(xué)》當(dāng)中,這也是***項(xiàng)研究這些“非編碼”突變對(duì)自閉癥患者全基因組影響的研究。
過去三年當(dāng)中,眾多團(tuán)隊(duì)都在對(duì)自閉癥患者DNA的基因內(nèi)部以及不同基因之間關(guān)系進(jìn)行測(cè)序。然而,對(duì)基因之間數(shù)十萬種突變進(jìn)行分類則幾乎是一項(xiàng)不可能完成的任務(wù),特別是考慮到研究人員對(duì)這些基因片段本身就知之甚少。
此次新研究通過利用機(jī)器學(xué)習(xí)方法克服了這一挑戰(zhàn)。研究人員創(chuàng)建了一種算法,能夠預(yù)測(cè)特定的非編碼突變是否會(huì)產(chǎn)生某種基因表達(dá)。其根據(jù)每次突變的可能性為每個(gè)突變分配一個(gè)評(píng)分,用以表示其有害性程度。
論文聯(lián)合作者、新澤西州普林斯頓大學(xué)綜合基因組學(xué)教授Olga Troyanskaya表示,“其中采取的獨(dú)特方法在于,我們不僅僅是在計(jì)算突變,同時(shí)也利用基于深度學(xué)習(xí)的框架研究突變的影響。事實(shí)證明,基因突變也有重要與不重要之分,而且引發(fā)的效果也不盡相同。”
專家們表示,這項(xiàng)研究的優(yōu)勢(shì)在于其能夠觀察整個(gè)基因組中的自發(fā)性突變。
并未參與此項(xiàng)研究的芝加哥大學(xué)遺傳學(xué)助理教授Xin He表示,此前對(duì)非編碼突變的分析工作主要集中在特定區(qū)域,且通常是那些與基因***為接近的區(qū)域。
他指出,“在本次研究中,面向的則是全基因組,我們可以看到一個(gè)明確的區(qū)別性信號(hào)。這也代表著一種令人印象深刻的結(jié)果。”
約束性條件:
Troyanskaya的團(tuán)隊(duì)和她的同事們分析了來自1790個(gè)家庭的7097個(gè)全基因組,這些家庭都有一個(gè)孩子患有自閉癥,但同時(shí)父母以及至少一個(gè)兄弟姐妹則未罹患自閉癥。他們?cè)谧蚤]癥兒童當(dāng)中發(fā)現(xiàn)了成千上萬種自發(fā)性突變,但這些突變基本也出現(xiàn)在了未患自閉癥的兄弟姐妹當(dāng)中。他們創(chuàng)建的算法預(yù)測(cè)了突變破壞控制基因表達(dá)的基因組區(qū)域的可能性。
在此之后,該研究小組搜索了人類基因突變數(shù)據(jù)庫(kù),檢查是否存在任何與醫(yī)學(xué)狀況有關(guān)的突變,或者其是否同樣出現(xiàn)在對(duì)照組當(dāng)中。他們匯總?cè)肯嚓P(guān)信息,以便為每一種突變生成影響評(píng)分。
研究人員發(fā)現(xiàn),自閉癥兒童的非編碼突變平均影響評(píng)分確實(shí)高于未患疾病的兄弟姐妹。
總體而言,此項(xiàng)分析表明,這種突變導(dǎo)致4.3%的患兒罹患自閉癥;相比之下,基因之內(nèi)的有害突變則占比5.4%。
該小組還評(píng)估了突變對(duì)于信使RNA(mRNA)的影響。集合RNA屬于基因與蛋白質(zhì)之間的中介。他們發(fā)現(xiàn),在自閉癥兒童當(dāng)中,破壞mRNA的突變比影響DNA的突變具有更大的實(shí)際影響。
并未參與此項(xiàng)研究的華盛頓州立大學(xué)斯波坎生物醫(yī)學(xué)院醫(yī)學(xué)科學(xué)助理教授Lucia Peixoto表示,“這是一項(xiàng)值得跟進(jìn)的有趣事實(shí)。我認(rèn)為很多研究人員并未把RNA處理視為自閉癥的一大重要因素。”
研究人員發(fā)現(xiàn),最接近自閉癥兒童高影響非編碼突變的基因往往具有直接影響腦組織的表達(dá)。
并未參與此項(xiàng)研究的英國(guó)牛津生物科學(xué)企業(yè)Genomics公司***科學(xué)官Jeffrey Barrett表示,“很高興看到有諸多證據(jù)支持這一觀點(diǎn),即通過影響正在發(fā)育的大腦當(dāng)中的非編碼調(diào)控元素,確實(shí)有望解決自閉癥以及其它神經(jīng)發(fā)育障礙類疾病。”
鄰近基因也傾向于參與自閉癥中的病變過程,例如神經(jīng)元信號(hào)傳導(dǎo)或基因調(diào)控。這一途徑與編碼基因突變?cè)斐傻钠茐耐耆嗤?/p>
該小組還評(píng)估了高影響突變對(duì)培養(yǎng)細(xì)胞中基因表達(dá)的影響。他們發(fā)現(xiàn),在大多數(shù)情況下,突變似乎都改變了基因的實(shí)際表達(dá)。
這一名為DeepSEA的算法目前已可在線獲取。Troyanskaya及其同事正在將他們發(fā)現(xiàn)的方法應(yīng)用于患有其他疾病的個(gè)體全基因組研究,包括先天性心臟病。