ChatGPT啟發(fā),谷歌DeepMind預(yù)測7100萬基因突變!AI破譯人類基因遺傳登Science
蛋白質(zhì)預(yù)測模型AlphaFold在AI界掀起海嘯級巨浪后,Alpha家族又迎來新貴。
今天,Google DeepMind發(fā)布了全新AI模型——AlphaMissense,能夠預(yù)測出7100萬「錯義突變」。
具體講,AlphaMissense成功預(yù)測出的89%「錯義突變」中,57%是致病性,32%是良性的。
論文地址:https://www.science.org/doi/10.1126/science.adg7492
而僅有0.1%的變異,能被人類專家確認(rèn)。
為了研究人員更好了解其可能產(chǎn)生的影響,谷歌還將這份千萬級「錯義突變」所有目錄公開。
一直以來,發(fā)現(xiàn)根本病因是人類遺傳學(xué)面臨的最大挑戰(zhàn)之一。
而錯義突變是可以影響「人類蛋白質(zhì)」功能的基因突變,會導(dǎo)致囊性纖維化、鐮狀細(xì)胞貧血、癌癥等疾病。
AlphaMissense的誕生展示了AI在醫(yī)學(xué)領(lǐng)域,特別是在遺傳學(xué)中的巨大潛力。
它對于理解遺傳變異與疾病關(guān)系,開發(fā)針對性的藥物治療等都具有重要意義。
繼AlphaFold之后,AlphaMissense或?qū)⒊蔀樽阋愿淖兪澜绲腁I,有望攻克人類遺傳學(xué)難題!
什么是「錯義突變」?
錯義突變(missense variant),是生物醫(yī)學(xué)和分子生物學(xué)領(lǐng)域中用于描述蛋白質(zhì)編碼基因中的一種基因突變:
DNA中單個字母的替換,會導(dǎo)致蛋白質(zhì)中產(chǎn)生不同的氨基酸。
如果把DNA想象成一種語言,那么一個字母的替換就可以改變一個單詞,并完全改變句子的意思。
在這種情況下,DNA的改變會導(dǎo)致氨基酸的變化,從而影響蛋白質(zhì)的功能。
而普通人身上攜帶的錯義突變超過9000多種。
一般而言,這些錯義突變大多是良性的,對人體幾乎沒有影響。但其余少數(shù)則具有致病性,會嚴(yán)重破壞蛋白質(zhì)的功能。
錯義突變可用于罕見遺傳病的診斷,因為少數(shù)甚至單個錯義突變就可能直接致病。
此外,它們對于研究復(fù)雜疾?。ū热鏸i型糖尿病)也很重要,這類疾病可能是由多種不同類型的基因變異共同引起的。
因此,對錯義突變進行分類是了解哪些蛋白質(zhì)變化可能導(dǎo)致疾病的重要一步。
在已出現(xiàn)的人類400多萬個錯義突變中,只有2%被專家標(biāo)注為致病性或良性。
這僅占所有可能的7100萬個錯義突變的0.1%左右。
其余的突變因為缺乏相關(guān)影響的實驗或臨床數(shù)據(jù),被歸類為「意義不明的突變」。
但有了AlphaMissense,我們得到了迄今為止最清晰的突變影響圖像:
AlphaMissense可以對89%的突變進行分類,其閾值在已知疾病突變數(shù)據(jù)庫中的精確度為90%。
基于AlphaFold打造,靈感來自ChatGPT大模型
那么,AlphaMissense究竟如何構(gòu)建的?
AlphaFold、AlphaFold 2自發(fā)布以來,已經(jīng)從氨基酸序列預(yù)測了科學(xué)界已知幾乎所有蛋白質(zhì)的結(jié)構(gòu),超過2億+蛋白質(zhì)。
對此,谷歌研究人員基于AlphaFold(以下簡稱AF),對模型進行改編,由此可以預(yù)測改變蛋白質(zhì)單個氨基酸的錯義突變的致病性。
簡單講,AlphaMissense整個運作原理是:將一個氨基酸序列作為輸入,并預(yù)測序列中給定位置所有可能的單一氨基酸變化的致病性。
為了訓(xùn)出AlphaMissense模型,需要分兩階段進行:
第一階段
訓(xùn)練一個與AF一樣的神經(jīng)網(wǎng)絡(luò)。這種神經(jīng)網(wǎng)絡(luò)的靈感來自像ChatGPT這樣的大模型。
通過預(yù)測多重序列比對(MSA)中隨機位置掩碼的氨基酸身份,能夠進行單鏈結(jié)構(gòu)預(yù)測,以及蛋白質(zhì)語言建模。
研究人員對AF進行了一些小的架構(gòu)修改,并增加了蛋白質(zhì)語言建模的損失權(quán)重,同時仍然實現(xiàn)了與AF相當(dāng)?shù)慕Y(jié)構(gòu)預(yù)測性能。
在預(yù)訓(xùn)練之后,掩碼語言建模頭已經(jīng)可以通過計算參考氨基酸和替代氨基酸概率之間的對數(shù)似然比,來用于變異效應(yīng)預(yù)測,正如MSA Transformer和進化比例建模(EMS)中所做的那樣。
事實證明,這些神經(jīng)網(wǎng)絡(luò)擅長預(yù)測蛋白質(zhì)結(jié)構(gòu)和設(shè)計新蛋白質(zhì),尤其對變異預(yù)測很有用,因為它們已經(jīng)知道哪些序列是可信的,哪些不是。
第二階段
這個階段,研究人員對模型在人類蛋白質(zhì)上進行微調(diào),并為MSA第二行中設(shè)置突變序列,增加變異致病性分類目標(biāo)。
然后,按照按PrimateAI的方法,去標(biāo)注人類和靈長類群體這種的突變。
常見的突變被視為良性,從未見過的突變被視為致病性突變。
一旦模型開始在驗證集上過度擬合(2526個ClinVar變異,每個基因良性和致病性變異數(shù)相等),研究人員就停止訓(xùn)練。
不過,AlphaMissense不會預(yù)測突變后蛋白質(zhì)結(jié)構(gòu)的變化,或?qū)Φ鞍踪|(zhì)穩(wěn)定性的其他影響。
而是,它利用AlphaFold對結(jié)構(gòu)的「直覺」來識別蛋白質(zhì)中可能發(fā)生的致病突變。
具體來說,利用相關(guān)蛋白質(zhì)序列數(shù)據(jù)庫和突變的結(jié)構(gòu)上下文信息,生成一個0到1之間的連續(xù)分?jǐn)?shù),來近似評估突變的致病概率。
該連續(xù)分?jǐn)?shù)允許用戶根據(jù)自己的準(zhǔn)確性要求,選擇閾值將突變分類為致病性或良性。
AlphaMissense如何對人類錯義突變進行分類
在實驗評估中,AlphaMissense在廣泛的遺傳和實驗基準(zhǔn)中實現(xiàn)了最先進的預(yù)測,而這一切都不需要對此類數(shù)據(jù)進行明確的訓(xùn)練。
在對來自ClinVar的變異進行分類時,AlphaMissense優(yōu)于其他計算方法。ClinVar是一個關(guān)于人類變異與疾病關(guān)系的公共數(shù)據(jù)檔案庫。
AlphaMissense也是預(yù)測實驗室結(jié)果最準(zhǔn)確的方法,這表明它與衡量致病性的不同方法是一致的。
AlphaMissense在預(yù)測錯義變體效應(yīng)方面優(yōu)于其他計算方法
AI改變遺傳學(xué)
一年前,谷歌DeepMind發(fā)布了使用AlphaFold預(yù)測的2億個蛋白質(zhì)結(jié)構(gòu)。
這一舉措幫助了全球數(shù)百萬科學(xué)家加速研究,并為新的發(fā)現(xiàn)鋪平了道路。
現(xiàn)在,以AlphaFold為基礎(chǔ)的AlphaMissense,通過對DNA的溯源,進一步加深了全世界對蛋白質(zhì)的了解。
同樣的,轉(zhuǎn)化這項研究的關(guān)鍵步驟是與科學(xué)界合作。
谷歌DeenpMind一直與英格蘭基因組學(xué)組織合作,探索AlphaMissense的預(yù)測如何幫助研究罕見病的遺傳學(xué)。
英格蘭基因組研究所將AlphaMissense的研究結(jié)果與之前匯總的已知人類突變致病性數(shù)據(jù)進行了交叉對比。
評估結(jié)果與AlphaMissense的預(yù)測一致,這為AlphaMissense提供真實世界的基準(zhǔn)。
谷歌DeepMind公開了錯義突變的查詢表,并且分享了19,000多種人類蛋白質(zhì)中所有可能的2.16億個單氨基酸序列置換的擴展預(yù)測。
公開的數(shù)據(jù)中還包含了每個基因的平均預(yù)測值,類似于衡量一個基因的進化限制,表明該基因?qū)ι矬w生存的重要性。
AlphaMissense預(yù)測的示例疊加在AlphaFold預(yù)測的結(jié)構(gòu)上
(紅色=預(yù)測為致病,藍(lán)色=預(yù)測為良性,灰色=不確定)
左圖:β-血紅蛋白亞基(HBB 蛋白)。這種蛋白質(zhì)的變異可導(dǎo)致鐮狀細(xì)胞性貧血。
右圖:囊性纖維化跨膜傳導(dǎo)調(diào)節(jié)蛋白(CFTR 蛋白)。這種蛋白質(zhì)的變異可導(dǎo)致囊性纖維化。
并且,谷歌DeepMind還與EMBL-EBI進行了合作。通過Ensembl突變效應(yīng)預(yù)測器,研究人員將更方便地應(yīng)用AlphaMissense的預(yù)測結(jié)果。
相信在不久的未來,AlphaMissense將幫助解決基因組學(xué)和整個生物科學(xué)的核心問題。